Tutorial sul machine learning per principianti: cos'è e nozioni di base sul machine learning
Cos'è l'apprendimento automatico?
machine Learning è un sistema di algoritmi informatici che possono imparare dall'esempio attraverso l'auto-miglioramento senza essere esplicitamente codificati da un programmatore. L'apprendimento automatico è una parte dell'intelligenza artificiale che combina i dati con strumenti statistici per prevedere un risultato che può essere utilizzato per ottenere informazioni fruibili.
La svolta arriva con l'idea che una macchina può imparare singolarmente dai dati (cioè da un esempio) per produrre risultati accurati. L’apprendimento automatico è strettamente correlato al data mining e alla modellazione predittiva bayesiana. La macchina riceve i dati come input e utilizza un algoritmo per formulare risposte.
Una tipica attività di machine learning consiste nel fornire una raccomandazione. Per coloro che hanno a Netflix account, tutti i consigli di film o serie si basano sui dati storici dell'utente. Le aziende tecnologiche stanno utilizzando apprendimento senza supervisione per migliorare l'esperienza dell'utente con la personalizzazione dei consigli.
L'apprendimento automatico viene utilizzato anche per una varietà di attività come il rilevamento di frodi, la manutenzione predittiva, l'ottimizzazione del portafoglio, l'automazione delle attività e così via.
Apprendimento automatico e programmazione tradizionale
La programmazione tradizionale differisce in modo significativo dall'apprendimento automatico. Nella programmazione tradizionale, un programmatore codifica tutte le regole consultandosi con un esperto del settore per cui il software viene sviluppato. Ogni regola si basa su una base logica; la macchina eseguirà un output seguendo l'istruzione logica. Quando il sistema diventa complesso, è necessario scrivere più regole. Può rapidamente diventare insostenibile da mantenere.
L’apprendimento automatico dovrebbe superare questo problema. La macchina apprende come sono correlati i dati di input e di output e scrive una regola. I programmatori non hanno bisogno di scrivere nuove regole ogni volta che ci sono nuovi dati. Gli algoritmi si adattano in risposta a nuovi dati ed esperienze per migliorare l’efficacia nel tempo.
Come funziona l'apprendimento automatico?
Ora in questo tutorial sulle nozioni di base sull'apprendimento automatico per principianti, impareremo come funziona l'apprendimento automatico (ML):
L’apprendimento automatico è il cervello in cui avviene tutto l’apprendimento. Il modo in cui la macchina apprende è simile a quello dell’essere umano. Gli esseri umani imparano dall’esperienza. Più sappiamo, più facilmente possiamo prevedere. Per analogia, quando ci troviamo di fronte ad una situazione sconosciuta, la probabilità di successo è inferiore rispetto alla situazione conosciuta. Le macchine vengono addestrate allo stesso modo. Per fare una previsione accurata, la macchina vede un esempio. Quando diamo alla macchina un esempio simile, può capire il risultato. Tuttavia, come un essere umano, se alimenta un esempio mai visto prima, la macchina ha difficoltà a prevederlo.
L'obiettivo principale dell'apprendimento automatico è apprendimento e inferenza. Innanzitutto la macchina impara attraverso la scoperta di schemi. Questa scoperta avviene grazie al dati. Una parte cruciale del data scientist è scegliere attentamente quali dati fornire alla macchina. L'elenco degli attributi utilizzati per risolvere un problema è chiamato a vettore di funzionalità. Puoi pensare a un vettore di caratteristiche come a un sottoinsieme di dati utilizzato per affrontare un problema.
La macchina utilizza alcuni algoritmi fantasiosi per semplificare la realtà e trasformare questa scoperta in un modello. Pertanto, la fase di apprendimento viene utilizzata per descrivere i dati e sintetizzarli in un modello.
Ad esempio, la macchina sta cercando di capire la relazione tra il salario di un individuo e la probabilità di andare in un ristorante di lusso. Si scopre che la macchina trova una relazione positiva tra il salario e l'andare in un ristorante di fascia alta: questo è il modello
Inferire
Una volta costruito il modello, è possibile testarne la potenza su dati mai visti prima. I nuovi dati vengono trasformati in un vettore di caratteristiche, attraversano il modello e forniscono una previsione. Questa è tutta la parte bella dell'apprendimento automatico. Non è necessario aggiornare le regole o addestrare nuovamente il modello. È possibile utilizzare il modello precedentemente addestrato per fare inferenza su nuovi dati.
La vita dei programmi di Machine Learning è semplice e può essere riassunta nei seguenti punti:
- Definire una domanda
- Raccogliere dati
- Visualizza i dati
- Algoritmo del treno
- Testare l'algoritmo
- Raccogli feedback
- Perfezionare l'algoritmo
- Ripetere il ciclo 4-7 finché i risultati non sono soddisfacenti
- Utilizza il modello per fare una previsione
Una volta che l'algoritmo riesce a trarre le giuste conclusioni, applica tale conoscenza a nuovi set di dati.
machine Learning Algorithms e dove vengono utilizzati?
Ora in questo tutorial sull'apprendimento automatico per principianti, impareremo dove vengono utilizzati gli algoritmi di Machine Learning (ML):
L’apprendimento automatico può essere raggruppato in due grandi attività di apprendimento: supervisionato e non supervisionato. Esistono molti altri algoritmi
Apprendimento supervisionato
Un algoritmo utilizza i dati di addestramento e il feedback degli esseri umani per apprendere la relazione tra determinati input e un determinato output. Ad esempio, un professionista può utilizzare le spese di marketing e le previsioni meteorologiche come dati di input per prevedere le vendite di lattine.
È possibile utilizzare l'apprendimento supervisionato quando i dati di output sono noti. L'algoritmo prevederà nuovi dati.
Ci sono due categorie di apprendimento supervisionato:
- Compito di classificazione
- Compito di regressione
Classificazione
Immagina di voler prevedere il sesso di un cliente per uno spot pubblicitario. Inizierai a raccogliere dati su altezza, peso, lavoro, stipendio, carrello degli acquisti, ecc. dal database dei tuoi clienti. Conosci il sesso di ciascuno dei tuoi clienti, può essere solo maschio o femmina. L'obiettivo del classificatore sarà quello di assegnare una probabilità di essere un maschio o una femmina (cioè l'etichetta) in base alle informazioni (cioè le caratteristiche che hai raccolto). Quando il modello ha imparato a riconoscere il maschio o la femmina, è possibile utilizzare nuovi dati per fare una previsione. Ad esempio, hai appena ricevuto nuove informazioni da un cliente sconosciuto e vuoi sapere se è un maschio o una femmina. Se il classificatore prevede uomini = 70%, significa che l'algoritmo è sicuro al 70% che questo cliente sia un maschio e al 30% che sia una donna.
L'etichetta può appartenere a due o più classi. L'esempio di machine learning riportato sopra ha solo due classi, ma se un classificatore deve prevedere un oggetto, ha dozzine di classi (ad esempio, vetro, tavolo, scarpe, ecc. Ogni oggetto rappresenta una classe)
Regressione
Quando l'output è un valore continuo, l'attività è una regressione. Ad esempio, un analista finanziario potrebbe dover prevedere il valore di un titolo in base a una serie di caratteristiche come il capitale azionario, le performance precedenti dei titoli e l'indice macroeconomico. Il sistema sarà addestrato a stimare il prezzo delle azioni con il minor errore possibile.
Algoritmo | Descrizione | Tipo |
---|---|---|
Regressione lineare | Trova un modo per correlare ciascuna funzionalità all'output per aiutare a prevedere i valori futuri. | Regressione |
Regressione logistica | Estensione della regressione lineare utilizzata per le attività di classificazione. La variabile di output 3 è binaria (ad esempio, solo nero o bianco) anziché continua (ad esempio, un elenco infinito di potenziali colori) | Classificazione |
Albero decisionale | Modello di classificazione o regressione altamente interpretabile che divide i valori delle caratteristiche dei dati in rami nei nodi decisionali (ad esempio, se una caratteristica è un colore, ogni colore possibile diventa un nuovo ramo) fino a quando non viene preso un output decisionale finale | Regressione Classificazione |
Ingenuo Bayes | Il metodo bayesiano è un metodo di classificazione che fa uso del teorema bayesiano. Il teorema aggiorna la conoscenza previa di un evento con la probabilità indipendente di ciascuna caratteristica che può influenzare l'evento. | Regressione Classificazione |
Supporta la macchina vettoriale |
Support Vector Machine, o SVM, viene generalmente utilizzato per l'attività di classificazione. L'algoritmo SVM trova un iperpiano che ha diviso in modo ottimale le classi. È meglio utilizzarlo con un solutore non lineare. |
Regressione (non molto comune) Classificazione |
Foresta casuale | L'algoritmo è costruito su un albero decisionale per migliorare drasticamente la precisione. La foresta casuale genera molte volte semplici alberi decisionali e utilizza il metodo del "voto a maggioranza" per decidere quale etichetta restituire. Ai fini della classifica il pronostico finale sarà quello più votato; mentre per l'attività di regressione, la previsione media di tutti gli alberi è la previsione finale. | Regressione Classificazione |
Ada Boost | Tecnica di classificazione o regressione che utilizza una moltitudine di modelli per arrivare a una decisione, ma li valuta in base alla loro accuratezza nel prevedere il risultato | Regressione Classificazione |
Alberi che aumentano i gradienti | Gli alberi di potenziamento del gradiente sono una tecnica di classificazione/regressione all'avanguardia. Si concentra sull'errore commesso dagli alberi precedenti e cerca di correggerlo. | Regressione Classificazione |
Apprendimento senza supervisione
Nell'apprendimento non supervisionato, un algoritmo esplora i dati di input senza ricevere una variabile di output esplicita (ad esempio, esplora i dati demografici dei clienti per identificare modelli)
Puoi usarlo quando non sai come classificare i dati e vuoi che l'algoritmo trovi modelli e classifichi i dati per te
Nome dell'algoritmo | Descrizione | Tipo |
---|---|---|
K significa clustering | Inserisce i dati in alcuni gruppi (k) che contengono ciascuno dati con caratteristiche simili (come determinato dal modello, non in anticipo dagli esseri umani) | ClusterING |
Modello di miscela gaussiana | Una generalizzazione del clustering k-means che fornisce maggiore flessibilità nella dimensione e nella forma dei gruppi (cluster) | ClusterING |
Clustering gerarchico | Suddivide i cluster lungo un albero gerarchico per formare un sistema di classificazione.
Può essere usato per Cluster cliente con carta fedeltà |
ClusterING |
Sistema di raccomandazione | Aiutare a definire i dati rilevanti per formulare una raccomandazione. | ClusterING |
PCA/T-SNE | Utilizzato principalmente per ridurre la dimensionalità dei dati. Gli algoritmi riducono il numero di caratteristiche a 3 o 4 vettori con le varianze più elevate. | Riduzione dimensionale |
Come scegliere l'algoritmo di machine learning
Ora in questo tutorial di base sull'apprendimento automatico, impareremo come scegliere l'algoritmo di Machine Learning (ML):
Esistono moltissimi algoritmi di apprendimento automatico. La scelta dell'algoritmo è basata sull'obiettivo.
Nell'esempio di Machine Learning riportato di seguito, il compito è prevedere il tipo di fiore tra le tre varietà. Le previsioni si basano sulla lunghezza e sulla larghezza del petalo. L'immagine mostra i risultati di dieci diversi algoritmi. L'immagine in alto a sinistra è il set di dati. I dati sono classificati in tre categorie: rosso, azzurro e blu scuro. Ci sono alcuni raggruppamenti. Ad esempio, dalla seconda immagine, tutto in alto a sinistra appartiene alla categoria rossa, nella parte centrale c'è un misto di incertezza e azzurro mentre in basso corrisponde alla categoria scura. Le altre immagini mostrano diversi algoritmi e come tentano di classificare i dati.
Sfide e limiti dell'apprendimento automatico
Ora in questo tutorial sull'apprendimento automatico impareremo a conoscere i limiti dell'apprendimento automatico:
La sfida principale dell’apprendimento automatico è la mancanza di dati o la diversità nel set di dati. Una macchina non può apprendere se non ci sono dati disponibili. Inoltre, un set di dati con una mancanza di diversità dà filo da torcere alla macchina. Una macchina deve avere eterogeneità per apprendere informazioni significative. È raro che un algoritmo possa estrarre informazioni quando le variazioni sono poche o assenti. Si consiglia di avere almeno 20 osservazioni per gruppo per aiutare la macchina ad apprendere. Questo vincolo porta a una scarsa valutazione e previsione.
Applicazione dell'apprendimento automatico
Ora in questo tutorial sull'apprendimento automatico, impariamo le applicazioni dell'apprendimento automatico:
aumentare:
- Apprendimento automatico, che assiste gli esseri umani nelle loro attività quotidiane, a livello personale o commerciale, senza avere il controllo completo dell'output. Tale apprendimento automatico viene utilizzato in diversi modi come assistente virtuale, analisi dei dati, soluzioni software. L'utente principale è ridurre gli errori dovuti ai pregiudizi umani.
Automazione:
- Machine learning, che funziona in modo del tutto autonomo in qualsiasi campo senza bisogno di alcun intervento umano. Ad esempio, i robot che eseguono le fasi di processo essenziali negli impianti di produzione.
Industria finanziaria
- Il machine learning sta diventando sempre più popolare nel settore finanziario. Le banche utilizzano principalmente il ML per trovare pattern all'interno dei dati, ma anche per prevenire le frodi.
Organizzazione governativa
- Il governo utilizza il machine learning per gestire la sicurezza pubblica e i servizi pubblici. Prendiamo l’esempio della Cina con il massiccio riconoscimento facciale. Il governo usa L'intelligenza artificiale per prevenire Jaywalker.
Settore sanitario
- Il settore sanitario è stato uno dei primi settori a utilizzare il machine learning con il rilevamento delle immagini.
Marketing
- L’ampio uso dell’intelligenza artificiale avviene nel marketing grazie all’abbondante accesso ai dati. Prima dell’era dei dati di massa, i ricercatori sviluppano strumenti matematici avanzati come l’analisi bayesiana per stimare il valore di un cliente. Con il boom dei dati, il reparto marketing si affida all'intelligenza artificiale per ottimizzare la relazione con i clienti e la campagna di marketing.
Esempio di applicazione del Machine Learning nella Supply Chain
L’apprendimento automatico offre risultati straordinari per il riconoscimento visivo dei modelli, aprendo molte potenziali applicazioni nell’ispezione fisica e nella manutenzione dell’intera rete della catena di fornitura.
L’apprendimento non supervisionato può cercare rapidamente modelli comparabili nei diversi set di dati. A sua volta, la macchina può eseguire ispezioni di qualità in tutto l'hub logistico, spedizioni con danni e usura.
Per esempio, IBMLa piattaforma Watson di può determinare i danni al container. Watson combina dati visivi e basati su sistemi per monitorare, creare report e fornire consigli in tempo reale.
Nell'ultimo anno il gestore delle scorte si è affidato ampiamente al metodo primario per valutare e prevedere l'inventario. Combinando big data e apprendimento automatico sono state implementate tecniche di previsione migliori (un miglioramento dal 20 al 30% rispetto agli strumenti di previsione tradizionali). In termini di vendite, ciò significa un aumento dal 2 al 3% grazie alla potenziale riduzione dei costi di inventario.
Esempio di Google Car con apprendimento automatico
Ad esempio, tutti conoscono la Google Car. L'auto è piena di laser sul tetto che le dicono dove si trova rispetto all'area circostante. Ha un radar nella parte anteriore, che informa l'auto della velocità e del movimento di tutte le auto intorno ad essa. Utilizza tutti questi dati per capire non solo come guidare l'auto, ma anche per capire e prevedere cosa faranno i potenziali guidatori attorno all'auto. La cosa impressionante è che l'auto elabora quasi un gigabyte di dati al secondo.
Perché il machine learning è importante?
L’apprendimento automatico è finora lo strumento migliore per analizzare, comprendere e identificare uno schema nei dati. Una delle idee principali alla base dell’apprendimento automatico è che il computer può essere addestrato ad automatizzare compiti che sarebbero esaustivi o impossibili per un essere umano. La chiara violazione dell’analisi tradizionale è che l’apprendimento automatico può prendere decisioni con un intervento umano minimo.
Prendiamo il seguente esempio per questo tutorial di ML: un agente al dettaglio può stimare il prezzo di una casa basandosi sulla propria esperienza e sulla sua conoscenza del mercato.
Una macchina può essere addestrata a tradurre la conoscenza di un esperto in funzionalità. Le features sono tutte le caratteristiche di una casa, di un quartiere, dell'ambiente economico, ecc. che fanno la differenza di prezzo. All'esperto ci sono voluti probabilmente alcuni anni per padroneggiare l'arte di stimare il prezzo di una casa. La sua esperienza migliora sempre di più dopo ogni vendita.
La macchina ha bisogno di milioni di dati (ad esempio) per padroneggiare quest'arte. All'inizio del suo apprendimento, la macchina commette un errore, in un certo senso come il giovane venditore. Una volta che la macchina ha visto tutto l'esempio, ha acquisito conoscenze sufficienti per effettuare la sua stima. Allo stesso tempo, con incredibile precisione. La macchina è anche in grado di correggere di conseguenza il proprio errore.
La maggior parte delle grandi aziende ha compreso il valore dell’apprendimento automatico e della conservazione dei dati. McKinsey ha stimato che il valore dell'analisi varia da $9.5 trilioni a $15.4 trilioni mentre $Da 5 a 7 trilioni possono essere attribuiti alle tecniche di intelligenza artificiale più avanzate.
Leggi anche Cos'è la logica fuzzy? ArchiTecnologia, applicazione ed esempio: Clicca qui