Învățare automată nesupravegheată: Algorithms, Tipuri cu Exemplu
Ce este învățarea nesupravegheată?
Învățare fără supraveghere este o tehnică de învățare automată în care utilizatorii nu trebuie să supravegheze modelul. În schimb, permite modelului să lucreze singur pentru a descoperi tipare și informații care au fost nedetectate anterior. Se ocupă în principal de datele neetichetate.
Învățare fără supraveghere Algorithms
Învățare fără supraveghere Algorithms permite utilizatorilor să efectueze sarcini de procesare mai complexe în comparație cu învățarea supravegheată. Deși, învățarea nesupravegheată poate fi mai imprevizibilă în comparație cu alte metode naturale de învățare. Algoritmii de învățare nesupravegheați includ gruparea, detectarea anomaliilor, rețelele neuronale etc.
Exemplu de învățare automată nesupravegheată
Să luăm un exemplu de învățare nesupravegheată pentru un bebeluș și câinele familiei sale.
Ea cunoaște și identifică acest câine. Câteva săptămâni mai târziu, un prieten de familie aduce un câine și încearcă să se joace cu copilul.
Bebeluşul nu a văzut acest câine mai devreme. Dar recunoaște că multe trăsături (2 urechi, ochi, mers pe 4 picioare) sunt ca și câinele ei de companie. Ea identifică noul animal ca fiind un câine. Aceasta este o învățare nesupravegheată, în care nu ești predat, dar înveți din date (în acest caz, date despre un câine). învățare supravegheată, prietenul de familie i-ar fi spus copilului că este un câine, așa cum se arată în exemplul de învățare nesupravegheată de mai sus.
De ce învățare nesupravegheată?
Iată principalele motive pentru a utiliza învățarea nesupravegheată în Invatare mecanica:
- Învățarea automată nesupravegheată găsește tot felul de modele necunoscute în date.
- Metodele nesupravegheate vă ajută să găsiți caracteristici care pot fi utile pentru clasificare.
- Are loc în timp real, astfel încât toate datele de intrare să fie analizate și etichetate în prezența cursanților.
- Este mai ușor să obțineți date neetichetate de la un computer decât date etichetate, care necesită intervenție manuală.
ClusterTipuri de învățare nesupravegheată Algorithms
Mai jos sunt tipurile de grupare ale algoritmilor de învățare automată nesupravegheată:
Probleme de învățare nesupravegheate grupate în continuare în probleme de grupare și asociere.
ClusterING
Clustering este un concept important atunci când vine vorba de învățare nesupravegheată. Se ocupă în principal cu găsirea unei structuri sau a unui model într-o colecție de date necategorizate. Învățare nesupravegheată Clusteralgoritmii de operare vă vor procesa datele și vor găsi clustere (grupuri) naturale dacă acestea există în date. De asemenea, puteți modifica câte clustere ar trebui să identifice algoritmii dvs. Vă permite să ajustați granularitatea acestor grupuri.
Există diferite tipuri de clustering pe care le puteți utiliza:
Exclusiv (partiționare)
În această metodă de grupare, datele sunt grupate în așa fel încât o singură dată să aparțină unui singur cluster.
Exemplu: K înseamnă
Aglomerativ
În această tehnică de grupare, fiecare dată este un cluster. Uniunile iterative dintre cele mai apropiate două clustere reduc numărul de clustere.
Exemplu: clustering ierarhic
Suprapunerea
În această tehnică, seturile fuzzy sunt utilizate pentru a grupa datele. Fiecare punct poate aparține la două sau mai multe grupuri cu grade separate de apartenență.
Aici, datele vor fi asociate cu o valoare de membru adecvată. Exemplu: Fuzzy C-Means
Probabilistică
Această tehnică folosește distribuția de probabilitate pentru a crea clusterele
Exemplu: următoarele cuvinte cheie
- „pantof de bărbat”.
- „pantof de damă”.
- „mănușă de femei”.
- „mănușă de bărbat”.
pot fi grupate în două categorii „pantof” și „mănuși” sau „bărbați” și „femei”.
Clustering Tipuri
Următoarele sunt tipurile de clustering ale Machine Learning:
- Gruparea ierarhică
- K-înseamnă grupare
- K-NN (k vecini cei mai apropiați)
- Analiza componentelor principale
- Descompunerea unei valori singulare
- Analiza independentă a componentelor
Ierarhic ClusterING
Gruparea ierarhică este un algoritm care construiește o ierarhie de clustere. Începe cu toate datele care sunt atribuite unui cluster propriu. Aici, două clustere apropiate vor fi în același cluster. Acest algoritm se termină când mai rămâne un singur cluster.
K-mijloace ClusterING
K înseamnă că este un algoritm de grupare iterativ care vă ajută să găsiți cea mai mare valoare pentru fiecare iterație. Inițial, este selectat numărul dorit de clustere. În această metodă de grupare, trebuie să grupați punctele de date în k grupuri. Un k mai mare înseamnă grupuri mai mici, cu mai multă granularitate în același mod. Un k mai mic înseamnă grupuri mai mari, cu o granularitate mai mică.
Ieșirea algoritmului este un grup de „etichete”. Acesta atribuie punct de date unuia dintre cele k grupuri. În gruparea k-means, fiecare grup este definit prin crearea unui centroid pentru fiecare grup. Centroizii sunt ca inima clusterului, care captează punctele cele mai apropiate de ele și le adaugă la cluster.
Gruparea K-mean definește în continuare două subgrupuri:
- Aglomerare aglomerativă
- Dendrograma
Aglomerare aglomerativă
Acest tip de grupare K-means începe cu un număr fix de clustere. Acesta alocă toate datele în numărul exact de clustere. Această metodă de grupare nu necesită numărul de clustere K ca intrare. Procesul de aglomerare începe prin formarea fiecărei date ca un singur cluster.
Această metodă utilizează o anumită măsură a distanței, reduce numărul de clustere (câte unul în fiecare iterație) prin procesul de îmbinare. În cele din urmă, avem un grup mare care conține toate obiectele.
Dendrograma
În metoda de grupare Dendrogram, fiecare nivel va reprezenta un posibil cluster. Înălțimea dendrogramei arată nivelul de similitudine dintre două grupuri de unire. Cu cât sunt mai aproape de partea de jos a procesului, acestea sunt mai asemănătoare grupului care este găsirea grupului din dendrogramă care nu este naturală și în mare parte subiectivă.
K- Cei mai apropiați vecini
K- cel mai apropiat vecin este cel mai simplu dintre toți clasificatorii de învățare automată. Diferă de alte tehnici de învățare automată prin faptul că nu produce un model. Este un algoritm simplu care stochează toate cazurile disponibile și clasifică instanțe noi pe baza unei măsuri de similitudine.
Funcționează foarte bine când există o distanță între exemple. Viteza de învățare este lentă când setul de antrenament este mare, iar calculul distanței nu este banal.
Analiza componentelor principale
În cazul în care doriți un spațiu de dimensiuni mai mari. Trebuie să selectați o bază pentru acel spațiu și doar cele 200 de scoruri cele mai importante ale acelei baze. Această bază este cunoscută ca o componentă principală. Subsetul pe care îl selectați îl constituie este un spațiu nou care este de dimensiuni mici în comparație cu spațiul original. Menține cât mai mult posibil din complexitatea datelor.
Asociație
Regulile de asociere vă permit să stabiliți asocieri între obiectele de date din bazele de date mari. Această tehnică nesupravegheată este despre descoperirea unor relații interesante între variabile din bazele de date mari. De exemplu, persoanele care cumpără o casă nouă cel mai probabil să cumpere mobilier nou.
Alte exemple:
- Un subgrup de pacienți cu cancer grupați după măsurătorile expresiei genice
- Grupuri de cumpărători pe baza istoricului lor de navigare și cumpărare
- Gruparea de filme în funcție de ratingul acordat de spectatorii de filme
Învățare automată supravegheată vs. nesupravegheată
Iată diferența principală între Învățare supravegheată vs. nesupravegheată:
parametrii | Tehnica de învățare automată supravegheată | Tehnica de învățare automată nesupravegheată |
---|---|---|
Date de intrare | Algorithms sunt instruiți folosind date etichetate. | Algorithms sunt utilizate împotriva datelor care nu sunt etichetate |
Complexitatea computațională | Învățarea supravegheată este o metodă mai simplă. | Învățarea nesupravegheată este complexă din punct de vedere computațional |
Acuratete | Metodă extrem de precisă și de încredere. | Less metoda corecta si de incredere. |
Aplicații ale învățării automate nesupravegheate
Unele aplicații ale tehnicilor de învățare nesupravegheată sunt:
- Clusterîmpărțirea automată a setului de date în grupuri, pe baza asemănărilor lor
- Detectarea anomaliilor poate descoperi puncte de date neobișnuite în setul dvs. de date. Este util pentru a găsi tranzacții frauduloase
- Exploatarea asociației identifică seturi de elemente care apar adesea împreună în setul dvs. de date
- Modelele variabile latente sunt utilizate pe scară largă pentru preprocesarea datelor. De exemplu, reducerea numărului de caracteristici dintr-un set de date sau descompunerea setului de date în mai multe componente
Dezavantajele învățării nesupravegheate
- Nu puteți obține informații precise cu privire la sortarea datelor, iar rezultatul ca date utilizate în învățarea nesupravegheată este etichetat și nu este cunoscut
- Less acuratețea rezultatelor se datorează faptului că datele de intrare nu sunt cunoscute și nu sunt etichetate de oameni în prealabil. Aceasta înseamnă că mașina trebuie să facă acest lucru singură.
- Clasele spectrale nu corespund întotdeauna claselor informaţionale.
- Utilizatorul trebuie să petreacă timp interpretând și etichetând clasele care urmează acea clasificare.
- Proprietățile spectrale ale claselor se pot schimba, de asemenea, în timp, astfel încât să nu aveți aceleași informații despre clasă în timp ce treceți de la o imagine la alta.
Rezumat
- Învățarea nesupravegheată este o tehnică de învățare automată, în care nu trebuie să supravegheați modelul.
- Învățarea automată nesupravegheată vă ajută să găsiți tot felul de modele necunoscute în date.
- Clustering și asociere sunt două tipuri de învățare nesupravegheată.
- Patru tipuri de metode de grupare sunt 1) Exclusive 2) Aglomerative 3) Suprapune 4) Probabilistice.
- Tipuri importante de clustering sunt: 1) Clustering ierarhic 2) K-means clustering 3) K-NN 4) Analiza componentelor principale 5) Descompunerea valorii singulare 6) Analiza componentelor independente.
- Regulile de asociere vă permit să stabiliți asocieri între obiectele de date din bazele de date mari.
- În învățarea supravegheată, Algorithms sunt instruiți folosind date etichetate în timpul învățării nesupravegheate Algorithms sunt utilizate împotriva datelor care nu sunt etichetate.
- Detectarea anomaliilor poate descoperi puncte importante de date din setul dvs. de date, ceea ce este util pentru găsirea tranzacțiilor frauduloase.
- Cel mai mare dezavantaj al învățării nesupravegheate este că nu puteți obține informații precise cu privire la sortarea datelor.