Uovervåget maskinlæring: Algorithms, Typer med Eksempel
Hvad er uovervåget læring?
Uovervåget læring er en maskinlæringsteknik, hvor brugerne ikke behøver at overvåge modellen. I stedet giver det modellen mulighed for at arbejde på egen hånd for at opdage mønstre og information, der tidligere var uopdaget. Det omhandler hovedsageligt de umærkede data.
Uovervåget læring Algorithms
Uovervåget læring Algorithms give brugerne mulighed for at udføre mere komplekse behandlingsopgaver sammenlignet med overvåget læring. Selvom uovervåget læring kan være mere uforudsigelig sammenlignet med andre naturlige læringsmetoder. Uovervågede læringsalgoritmer inkluderer klyngedannelse, anomalidetektion, neurale netværk osv.
Eksempel på uovervåget maskinlæring
Lad os tage et eksempel på uovervåget læring for en baby og hendes familiehund.
Hun kender og identificerer denne hund. Få uger senere tager en ven af familien en hund med og prøver at lege med babyen.
Baby har ikke set denne hund tidligere. Men den genkender mange træk (2 ører, øjne, at gå på 4 ben) er som hendes hund. Hun identificerer det nye dyr som en hund. Dette er uovervåget læring, hvor du ikke bliver undervist, men du lærer af data (i dette tilfælde data om en hund.) Havde dette været overvåget læring, ville familievennen have fortalt babyen, at det er en hund som vist i ovenstående eksempel på uovervåget læring.
Hvorfor uovervåget læring?
Her er de vigtigste grunde til at bruge uovervåget læring i Maskinelæring:
- Uovervåget maskinlæring finder alle slags ukendte mønstre i data.
- Uovervågede metoder hjælper dig med at finde funktioner, der kan være nyttige til kategorisering.
- Det foregår i realtid, så alle inputdata skal analyseres og mærkes i nærværelse af elever.
- Det er lettere at få umærkede data fra en computer end mærkede data, som kræver manuel indgriben.
Clustering Typer af uovervåget læring Algorithms
Nedenfor er klyngetyperne af uovervågede maskinlæringsalgoritmer:
Uovervågede læringsproblemer blev yderligere grupperet i klynge- og associationsproblemer.
ClusterING
Clustering er et vigtigt begreb, når det kommer til uovervåget læring. Det handler hovedsageligt om at finde en struktur eller et mønster i en samling af ukategoriserede data. Uovervåget læring Clustering-algoritmer vil behandle dine data og finde naturlige klynger(grupper), hvis de findes i dataene. Du kan også ændre, hvor mange klynger dine algoritmer skal identificere. Det giver dig mulighed for at justere granulariteten af disse grupper.
Der er forskellige typer clustering, du kan bruge:
Eksklusiv (opdeling)
I denne klyngemetode er data grupperet på en sådan måde, at én data kun kan tilhøre én klynge.
Eksempel: K-betyder
Agglomerativ
I denne klyngeteknik er alle data en klynge. De iterative foreninger mellem de to nærmeste klynger reducerer antallet af klynger.
Eksempel: Hierarkisk klyngedannelse
Overlappende
I denne teknik bruges fuzzy sæt til at klynge data. Hvert punkt kan tilhøre to eller flere klynger med separate grader af medlemskab.
Her vil data blive knyttet til en passende medlemsværdi. Eksempel: Fuzzy C-Means
probabilistisk
Denne teknik bruger sandsynlighedsfordeling til at skabe klyngerne
Eksempel: Følgende søgeord
- "mands sko."
- "damesko."
- "kvindehandske."
- "mandshandske."
kan grupperes i to kategorier "sko" og "handske" eller "mand" og "kvinder".
Clustering typer
Følgende er klyngetyperne for Machine Learning:
- Hierarkisk klynge
- K-betyder gruppering
- K-NN (k nærmeste naboer)
- Hovedkomponentanalyse
- Enkeltværdinedbrydning
- Uafhængig komponentanalyse
Hierarkisk ClusterING
Hierarkisk clustering er en algoritme, der opbygger et hierarki af klynger. Det begynder med alle de data, som er tildelt en egen klynge. Her vil to tætte klynge være i samme klynge. Denne algoritme slutter, når der kun er én klynge tilbage.
K-betyder ClusterING
K betyder, at det er en iterativ klyngealgoritme, som hjælper dig med at finde den højeste værdi for hver iteration. Indledningsvis vælges det ønskede antal klynger. I denne klyngemetode skal du klynge datapunkterne i k grupper. Et større k betyder mindre grupper med mere granularitet på samme måde. Et lavere k betyder større grupper med mindre granularitet.
Outputtet af algoritmen er en gruppe af "etiketter". Den tildeler datapunkt til en af de k grupper. I k-betyder clustering defineres hver gruppe ved at skabe et tyngdepunkt for hver gruppe. Centroiderne er som hjertet af klyngen, der fanger de punkter, der er tættest på dem og føjer dem til klyngen.
K-middel klynge definerer yderligere to undergrupper:
- Agglomerativ klyngedannelse
- Dendrogram
Agglomerativ klyngedannelse
Denne type K-betyder clustering starter med et fast antal klynger. Det allokerer alle data i det nøjagtige antal klynger. Denne klyngemetode kræver ikke antallet af klynger K som input. Agglomereringsprocessen starter med at danne hver data som en enkelt klynge.
Denne metode bruger et eller andet afstandsmål, reducerer antallet af klynger (en i hver iteration) ved at flette proces. Til sidst har vi en stor klynge, der indeholder alle objekterne.
Dendrogram
I Dendrogram-klyngemetoden vil hvert niveau repræsentere en mulig klynge. Højden af dendrogram viser niveauet af lighed mellem to sammenføjningsklynger. Jo tættere på bunden af processen, de er mere ens klynge, som er at finde af gruppen fra dendrogram, som ikke er naturlig og for det meste subjektiv.
K- Nærmeste naboer
K-nærmeste nabo er den enkleste af alle maskinlæringsklassifikatorer. Den adskiller sig fra andre maskinlæringsteknikker ved, at den ikke producerer en model. Det er en simpel algoritme, som gemmer alle tilgængelige sager og klassificerer nye instanser ud fra et lighedsmål.
Det fungerer meget godt, når der er afstand mellem eksemplerne. Indlæringshastigheden er langsom, når træningssættet er stort, og afstandsberegningen er ikke-triviel.
Hovedkomponentanalyse
I tilfælde af at du ønsker et højere dimensionelt rum. Du skal vælge et grundlag for dette rum og kun de 200 vigtigste scores på dette grundlag. Denne base er kendt som en hovedkomponent. Den delmængde, du vælger, udgør et nyt rum, som er lille i størrelse sammenlignet med det oprindelige rum. Det fastholder så meget af dataens kompleksitet som muligt.
Association
Tilknytningsregler giver dig mulighed for at etablere associationer mellem dataobjekter i store databaser. Denne uovervågede teknik handler om at opdage interessante relationer mellem variabler i store databaser. For eksempel vil folk, der køber et nyt hjem, højst sandsynligt købe nye møbler.
Andre eksempler:
- En undergruppe af cancerpatienter grupperet efter deres genekspressionsmålinger
- Grupper af shoppere baseret på deres browser- og købshistorik
- Filmgruppe efter bedømmelsen givet af filmseere
Supervised vs Unsupervised Machine Learning
Her er den største forskel mellem Superviseret vs. Ikke-overvåget læring:
parametre | Overvåget maskinlæringsteknik | Uovervåget maskinlæringsteknik |
---|---|---|
Inputdata | Algorithms trænes ved hjælp af mærkede data. | Algorithms bruges mod data, der ikke er mærket |
Beregningsmæssig kompleksitet | Superviseret læring er en enklere metode. | Uovervåget læring er beregningsmæssigt komplekst |
Nøjagtighed | Meget nøjagtig og pålidelig metode. | Less præcis og troværdig metode. |
Anvendelser af uovervåget maskinlæring
Nogle anvendelser af uovervågede læringsteknikker er:
- Clusterautomatisk opdeling af datasættet i grupper baseret på deres ligheder
- Anomalidetektion kan opdage usædvanlige datapunkter i dit datasæt. Det er nyttigt til at finde svigagtige transaktioner
- Association mining identificerer sæt af elementer, som ofte forekommer sammen i dit datasæt
- Latente variable modeller bruges i vid udstrækning til dataforbehandling. Som at reducere antallet af funktioner i et datasæt eller dekomponere datasættet i flere komponenter
Ulemper ved uovervåget læring
- Du kan ikke få præcis information om datasortering, og output som data brugt i uovervåget læring er mærket og ikke kendt
- Less resultaternes nøjagtighed skyldes, at inputdata ikke er kendt og ikke mærket af folk på forhånd. Det betyder, at maskinen skal gøre dette selv.
- Spektralklasserne svarer ikke altid til informationsklasser.
- Brugeren skal bruge tid på at tolke og mærke de klasser, der følger den klassifikation.
- Spektralegenskaber for klasser kan også ændre sig over tid, så du ikke kan have den samme klasseinformation, mens du flytter fra et billede til et andet.
Resumé
- Unsupervised learning er en maskinlæringsteknik, hvor du ikke behøver at overvåge modellen.
- Uovervåget maskinlæring hjælper dig med at finde alle slags ukendte mønstre i data.
- Clustering og association er to typer uovervåget læring.
- Fire typer af klyngemetoder er 1) Eksklusive 2) Agglomerative 3) Overlappende 4) Probabilistiske.
- Vigtige klyngetyper er: 1)Hierarkisk klyngedannelse 2) K-betyder klyngedannelse 3) K-NN 4) Hovedkomponentanalyse 5) Enkeltværdiopdeling 6) Uafhængig komponentanalyse.
- Tilknytningsregler giver dig mulighed for at etablere associationer mellem dataobjekter i store databaser.
- I superviseret læring, Algorithms trænes ved hjælp af mærkede data, mens de er i uovervåget læring Algorithms bruges mod data, der ikke er mærket.
- Anomalidetektion kan opdage vigtige datapunkter i dit datasæt, hvilket er nyttigt til at finde svigagtige transaktioner.
- Den største ulempe ved uovervåget læring er, at du ikke kan få præcis information om datasortering.