Apprendimento automatico non supervisionato: Algorithms, Tipi con esempio

Cos'è l'apprendimento non supervisionato?

Apprendimento senza supervisione è una tecnica di apprendimento automatico in cui gli utenti non hanno bisogno di supervisionare il modello. Invece, consente al modello di funzionare da solo per scoprire modelli e informazioni precedentemente non rilevati. Si occupa principalmente dei dati non etichettati.

Apprendimento senza supervisione Algorithms

Apprendimento senza supervisione Algorithms consentono agli utenti di eseguire attività di elaborazione più complesse rispetto all'apprendimento supervisionato. Tuttavia, l'apprendimento non supervisionato può essere più imprevedibile rispetto ad altri metodi di apprendimento naturale. Gli algoritmi di apprendimento non supervisionato includono clustering, rilevamento delle anomalie, reti neurali, ecc.

Esempio di machine learning non supervisionato

Prendiamo un esempio di apprendimento non supervisionato per un bambino e il suo cane di famiglia.

Esempio di machine learning non supervisionato

Lei conosce e identifica questo cane. Poche settimane dopo un amico di famiglia porta con sé un cane e cerca di giocare con il bambino.

Esempio di machine learning non supervisionato

Il bambino non ha mai visto questo cane prima. Ma riconosce molte caratteristiche (2 orecchie, occhi, cammina su 4 zampe) come se fosse il suo cane da compagnia. Identifica il nuovo animale come un cane. Questo è un apprendimento non supervisionato, in cui non ti viene insegnato ma impari dai dati (in questo caso i dati su un cane). Se questo fosse stato apprendimento supervisionato, l'amico di famiglia avrebbe detto al bambino che è un cane, come mostrato nell'esempio di apprendimento non supervisionato sopra.

Perché l’apprendimento non supervisionato?

Ecco i motivi principali per utilizzare l'apprendimento non supervisionato in machine Learning:

  • L’apprendimento automatico non supervisionato trova tutti i tipi di modelli sconosciuti nei dati.
  • I metodi non supervisionati ti aiutano a trovare funzionalità che possono essere utili per la categorizzazione.
  • Si svolge in tempo reale, quindi tutti i dati di input devono essere analizzati ed etichettati in presenza degli studenti.
  • È più semplice ottenere dati senza etichetta da un computer rispetto a dati etichettati, che richiedono un intervento manuale.

ClusterTipi di apprendimento non supervisionato Algorithms

Di seguito sono riportati i tipi di clustering degli algoritmi di Machine Learning non supervisionati:

Problemi di apprendimento non supervisionato ulteriormente raggruppati in problemi di clustering e associazione.

ClusterING

ClusterING
ClusterING

ClusterL'apprendimento è un concetto importante quando si parla di apprendimento non supervisionato. Si occupa principalmente di trovare una struttura o un modello in una raccolta di dati non categorizzati. Apprendimento non supervisionato ClusterGli algoritmi di ing elaboreranno i tuoi dati e troveranno cluster (gruppi) naturali se esistono nei dati. Puoi anche modificare quanti cluster i tuoi algoritmi dovrebbero identificare. Ti consente di regolare la granularità di questi gruppi.

Esistono diversi tipi di clustering che puoi utilizzare:

Esclusivo (partizionamento)

In questo metodo di clustering, i dati sono raggruppati in modo tale che un dato possa appartenere a un solo cluster.

Esempio: K-significa

agglomerante

In questa tecnica di clustering, ogni dato è un cluster. Le unioni iterative tra i due cluster più vicini riducono il numero di cluster.

Esempio: Clustering gerarchico

Sovrapposizione

In questa tecnica, i set fuzzy vengono utilizzati per raggruppare i dati. Ogni punto può appartenere a due o più cluster con gradi di appartenenza distinti.

Qui, i dati verranno associati a un valore di iscrizione appropriato. Esempio: medie C fuzzy

probabilistico

Questa tecnica utilizza la distribuzione di probabilità per creare i cluster

Esempio: parole chiave seguenti

  • “scarpa da uomo”.
  • “scarpa da donna”.
  • "guanto da donna."
  • "guanto da uomo."

possono essere raggruppati in due categorie “scarpe” e “guanti” o “uomo” e “donne”.

Clustertipi

Di seguito sono riportati i tipi di clustering del Machine Learning:

  • Clustering gerarchico
  • K significa clustering
  • K-NN (k vicini più prossimi)
  • Analisi del componente principale
  • Scomposizione di un valore singolo
  • Analisi dei componenti indipendenti

Hierarchical ClusterING

Il clustering gerarchico è un algoritmo che costruisce una gerarchia di cluster. Inizia con tutti i dati che sono assegnati a un cluster a sé stante. Qui, due cluster vicini saranno nello stesso cluster. Questo algoritmo termina quando rimane un solo cluster.

K-significa ClusterING

K significa che è un algoritmo di clustering iterativo che ti aiuta a trovare il valore più alto per ogni iterazione. Inizialmente, viene selezionato il numero desiderato di cluster. In questo metodo di clustering, è necessario raggruppare i punti dati in k gruppi. Un k più grande significa gruppi più piccoli con maggiore granularità allo stesso modo. Un k inferiore significa gruppi più grandi con meno granularità.

L'output dell'algoritmo è un gruppo di "etichette". Assegna il punto dati a uno dei gruppi k. Nel clustering k-means, ciascun gruppo viene definito creando un centroide per ciascun gruppo. I centroidi sono come il cuore dell'ammasso, che cattura i punti a loro più vicini e li aggiunge all'ammasso.

Il clustering K-mean definisce ulteriormente due sottogruppi:

  • Raggruppamento agglomerativo
  • Dendrogramma

Raggruppamento agglomerativo

Questo tipo di clustering K-means inizia con un numero fisso di cluster. Assegna tutti i dati nel numero esatto di cluster. Questo metodo di clustering non richiede il numero di cluster K come input. Il processo di agglomerazione inizia formando ciascun dato come un singolo cluster.

Questo metodo utilizza alcune misure di distanza e riduce il numero di cluster (uno in ciascuna iterazione) mediante il processo di unione. Infine, abbiamo un grande cluster che contiene tutti gli oggetti.

Dendrogramma

Nel metodo di clustering del Dendrogramma, ogni livello rappresenterà un possibile cluster. L'altezza del dendrogramma mostra il livello di somiglianza tra due cluster di join. Più si avvicinano alla fine del processo, più i cluster sono simili, il che risulta dal rilevamento del gruppo dal dendrogramma che non è naturale e per lo più soggettivo.

K- Vicini più prossimi

K- nearest neighbor è il più semplice di tutti i classificatori di apprendimento automatico. Si differenzia dalle altre tecniche di apprendimento automatico perché non produce un modello. È un semplice algoritmo che memorizza tutti i casi disponibili e classifica le nuove istanze in base a una misura di similarità.

Funziona molto bene quando c'è una distanza tra gli esempi. La velocità di apprendimento è lenta quando il set di addestramento è ampio e il calcolo della distanza non è banale.

Analisi delle componenti principali

Nel caso in cui si desideri uno spazio di dimensione superiore. È necessario selezionare una base per tale spazio e solo i 200 punteggi più importanti di tale base. Questa base è nota come componente principale. Il sottoinsieme che si seleziona costituisce un nuovo spazio di piccole dimensioni rispetto allo spazio originale. Mantiene il più possibile la complessità dei dati.

Associazione

Le regole di associazione consentono di stabilire associazioni tra oggetti dati all'interno di database di grandi dimensioni. Questa tecnica non supervisionata riguarda la scoperta di relazioni interessanti tra variabili in database di grandi dimensioni. Ad esempio, le persone che acquistano una nuova casa hanno maggiori probabilità di acquistare nuovi mobili.

Altri esempi:

  • Un sottogruppo di pazienti affetti da cancro raggruppati in base alle misurazioni dell'espressione genica
  • Gruppi di acquirenti in base alla cronologia di navigazione e di acquisto
  • Gruppo di film in base alla valutazione data dagli spettatori del film

Apprendimento automatico supervisionato e non supervisionato

Ecco la differenza principale tra Apprendimento supervisionato e non supervisionato:

parametri Tecnica di machine learning supervisionata Tecnica di machine learning non supervisionata
Dati in ingresso Algorithms vengono addestrati utilizzando dati etichettati. Algorithms vengono utilizzati rispetto a dati non etichettati
Complessità computazionale L’apprendimento supervisionato è un metodo più semplice. L'apprendimento non supervisionato è computazionalmente complesso
Precisione Metodo estremamente accurato e affidabile. Less metodo accurato e affidabile.

Applicazioni dell'apprendimento automatico non supervisionato

Alcune applicazioni delle tecniche di apprendimento non supervisionato sono:

  • Clusterdividere automaticamente il set di dati in gruppi in base alle loro somiglianze
  • Il rilevamento delle anomalie può scoprire punti dati insoliti nel set di dati. È utile per trovare transazioni fraudolente
  • L'estrazione associativa identifica insiemi di elementi che spesso si presentano insieme nel set di dati
  • I modelli a variabili latenti sono ampiamente utilizzati per la preelaborazione dei dati. Come ridurre il numero di funzionalità in un set di dati o scomporre il set di dati in più componenti

Svantaggi dell'apprendimento non supervisionato

  • Non è possibile ottenere informazioni precise sull'ordinamento dei dati e l'output in quanto i dati utilizzati nell'apprendimento non supervisionato sono etichettati e non conosciuti
  • Less l'accuratezza dei risultati è dovuta al fatto che i dati di input non sono noti e non sono etichettati in anticipo dalle persone. Ciò significa che la macchina deve farlo da sola.
  • Le classi spettrali non sempre corrispondono alle classi informative.
  • L'utente deve dedicare tempo all'interpretazione e all'etichettatura delle classi che seguono tale classificazione.
  • Le proprietà spettrali delle classi possono anche cambiare nel tempo, quindi non puoi avere le stesse informazioni sulla classe mentre ti sposti da un'immagine all'altra.

Sommario

  • L'apprendimento non supervisionato è una tecnica di machine learning, in cui non è necessario supervisionare il modello.
  • L'apprendimento automatico non supervisionato ti aiuta a trovare tutti i tipi di modelli sconosciuti nei dati.
  • Clustering e associazione sono due tipi di apprendimento non supervisionato.
  • Quattro tipi di metodi di clustering sono 1) Esclusivo 2) Agglomerativo 3) Sovrapposto 4) Probabilistico.
  • I tipi di clustering più importanti sono: 1) Clustering gerarchico, 2) Clustering K-means, 3) K-NN, 4) Analisi delle componenti principali, 5) Decomposizione dei valori singolari, 6) Analisi delle componenti indipendenti.
  • Le regole di associazione consentono di stabilire associazioni tra oggetti dati all'interno di database di grandi dimensioni.
  • Nell'apprendimento supervisionato, Algorithms vengono addestrati utilizzando dati etichettati durante l'apprendimento non supervisionato Algorithms vengono utilizzati rispetto a dati non etichettati.
  • Il rilevamento delle anomalie può scoprire punti dati importanti nel tuo set di dati, utili per trovare transazioni fraudolente.
  • Il più grande svantaggio dell’apprendimento non supervisionato è che non è possibile ottenere informazioni precise sull’ordinamento dei dati.