Oövervakad maskininlärning: Algorithms, Typer med exempel
Vad är oövervakat lärande?
Oövervakat lärande är en maskininlärningsteknik där användarna inte behöver övervaka modellen. Istället tillåter det modellen att arbeta på egen hand för att upptäcka mönster och information som tidigare var oupptäckt. Det handlar främst om omärkta data.
Oövervakat lärande Algorithms
Oövervakat lärande Algorithms tillåta användare att utföra mer komplexa bearbetningsuppgifter jämfört med övervakat lärande. Även om oövervakat lärande kan vara mer oförutsägbart jämfört med andra naturliga inlärningsmetoder. Oövervakade inlärningsalgoritmer inkluderar klustring, anomalidetektering, neurala nätverk, etc.
Exempel på oövervakad maskininlärning
Låt oss ta ett exempel på oövervakad inlärning för en baby och hennes familjehund.
Hon känner och identifierar denna hund. Några veckor senare tar en familjevän med sig en hund och försöker leka med barnet.
Baby har inte sett den här hunden tidigare. Men den känner igen många funktioner (2 öron, ögon, gå på 4 ben) är som hennes husdjurshund. Hon identifierar det nya djuret som en hund. Detta är oövervakad inlärning, där man inte lärs ut utan man lär sig av data (i detta fall data om en hund.) Hade detta varit övervakad inlärning, skulle familjevännen ha sagt till barnet att det är en hund som visas i ovanstående exempel på oövervakad inlärning.
Varför oövervakat lärande?
Här är de främsta anledningarna till att använda Unsupervised Learning i Maskininlärning:
- Oövervakad maskininlärning hittar alla typer av okända mönster i data.
- Oövervakade metoder hjälper dig att hitta funktioner som kan vara användbara för kategorisering.
- Det sker i realtid, så all indata ska analyseras och märkas i närvaro av elever.
- Det är lättare att få omärkta data från en dator än märkta data, som kräver manuella ingrepp.
Clustertyper av oövervakat lärande Algorithms
Nedan är klustringstyperna av oövervakade maskininlärningsalgoritmer:
Oövervakade inlärningsproblem grupperades ytterligare i kluster- och associationsproblem.
Clusteranvändning

Clustering är ett viktigt begrepp när det gäller oövervakat lärande. Det handlar främst om att hitta en struktur eller ett mönster i en samling okategoriserade data. Oövervakat lärande Clusteringalgoritmer kommer att bearbeta dina data och hitta naturliga kluster(grupper) om de finns i datan. Du kan också ändra hur många kluster dina algoritmer ska identifiera. Det låter dig justera granulariteten för dessa grupper.
Det finns olika typer av klustring du kan använda:
Exklusivt (partitionering)
I denna klustringsmetod grupperas data på ett sådant sätt att en data endast kan tillhöra ett kluster.
Exempel: K-medel
Agglomerativ
I denna klustringsteknik är varje data ett kluster. De iterativa föreningarna mellan de två närmaste klustren minskar antalet kluster.
Exempel: Hierarkisk klustring
Överlappning
I denna teknik används fuzzy sets för att klustra data. Varje punkt kan tillhöra två eller flera kluster med separata grader av medlemskap.
Här kommer data att associeras med ett lämpligt medlemsvärde. Exempel: Fuzzy C-Means
sannolikhets
Denna teknik använder sannolikhetsfördelning för att skapa klustren
Exempel: Följande sökord
- "manssko."
- "damsko."
- "kvinnohandske."
- "manshandske."
kan grupperas i två kategorier "sko" och "handske" eller "man" och "kvinnor".
Clustering Typer
Följande är klustringstyperna för maskininlärning:
- Hierarkisk gruppering
- K-betyder kluster
- K-NN (k närmaste grannar)
- Huvudkomponentanalys
- Singulärvärdesfaktorisering
- Oberoende komponentanalys
Hierarkisk Clusteranvändning
Hierarkisk klustring är en algoritm som bygger en hierarki av kluster. Det börjar med all data som tilldelas ett eget kluster. Här kommer två nära kluster att vara i samma kluster. Denna algoritm slutar när det bara finns ett kluster kvar.
K-medel Clusteranvändning
K betyder att det är en iterativ klustringsalgoritm som hjälper dig att hitta det högsta värdet för varje iteration. Inledningsvis väljs det önskade antalet kluster. I den här klustringsmetoden måste du gruppera datapunkterna i k grupper. Ett större k betyder mindre grupper med mer granularitet på samma sätt. Ett lägre k betyder större grupper med mindre granularitet.
Algoritmens utdata är en grupp "etiketter". Den tilldelar datapunkt till en av de k grupperna. I k-betyder klustring definieras varje grupp genom att skapa en tyngdpunkt för varje grupp. Centroiderna är som hjärtat i klustret, som fångar de punkter som ligger närmast dem och lägger till dem i klustret.
K-mean-klustring definierar ytterligare två undergrupper:
- Agglomerativ gruppering
- Dendrogram
Agglomerativ gruppering
Denna typ av K-betyder klustring börjar med ett fast antal kluster. Den allokerar all data till det exakta antalet kluster. Denna klustringsmetod kräver inte antalet kluster K som indata. Agglomereringsprocessen börjar med att varje data bildas som ett enda kluster.
Denna metod använder ett visst avståndsmått, minskar antalet kluster (ett i varje iteration) genom sammanslagningsprocess. Slutligen har vi ett stort kluster som innehåller alla objekt.
Dendrogram
I Dendrogram-klustringsmetoden kommer varje nivå att representera ett möjligt kluster. Höjden på dendrogrammet visar nivån av likhet mellan två sammanfogade kluster. Ju närmare botten av processen de är mer lika kluster som är att hitta av gruppen från dendrogram som inte är naturligt och mestadels subjektivt.
K- Närmaste grannar
K- närmaste granne är den enklaste av alla maskininlärningsklassificerare. Den skiljer sig från andra maskininlärningstekniker genom att den inte producerar en modell. Det är en enkel algoritm som lagrar alla tillgängliga fall och klassificerar nya instanser baserat på ett likhetsmått.
Det fungerar väldigt bra när det är avstånd mellan exemplen. Inlärningshastigheten är långsam när träningsuppsättningen är stor, och avståndsberäkningen är icke-trivial.
Huvudanalys av komponenter
Om du vill ha ett högre dimensionellt utrymme. Du måste välja en grund för det utrymmet och bara de 200 viktigaste poängen för den basen. Denna bas är känd som en huvudkomponent. Den delmängd du väljer utgör ett nytt utrymme som är litet i storlek jämfört med det ursprungliga utrymmet. Det upprätthåller så mycket av datakomplexiteten som möjligt.
Förening
Associationsregler tillåter dig att upprätta associationer mellan dataobjekt i stora databaser. Denna oövervakade teknik handlar om att upptäcka intressanta samband mellan variabler i stora databaser. Till exempel kommer människor som köper ett nytt hem mest sannolikt att köpa nya möbler.
Andra exempel:
- En undergrupp av cancerpatienter grupperade efter deras genuttrycksmätningar
- Grupper av shoppare baserat på deras surf- och köphistorik
- Filmgrupp efter betyget som ges av filmtittare
Övervakad vs. oövervakad maskininlärning
Här är den största skillnaden mellan Övervakat vs. Oövervakat lärande:
Driftparametrar | Övervakad maskininlärningsteknik | Oövervakad maskininlärningsteknik |
---|---|---|
Indata | Algorithms tränas med hjälp av märkta data. | Algorithms används mot data som inte är märkta |
Beräkningskomplexitet | Handledd inlärning är en enklare metod. | Oövervakat lärande är beräkningsmässigt komplext |
Noggrannhet | Mycket exakt och pålitlig metod. | Less korrekt och pålitlig metod. |
Tillämpningar av oövervakad maskininlärning
Några tillämpningar av oövervakade inlärningstekniker är:
- Clusterautomatiskt dela upp datasetet i grupper baserat på deras likheter
- Avvikelsedetektering kan upptäcka ovanliga datapunkter i din datauppsättning. Det är användbart för att hitta bedrägliga transaktioner
- Association mining identifierar uppsättningar av objekt som ofta förekommer tillsammans i din datauppsättning
- Latenta variabla modeller används i stor utsträckning för dataförbehandling. Som att minska antalet funktioner i en datamängd eller sönderdela datamängden i flera komponenter
Nackdelar med oövervakat lärande
- Du kan inte få exakt information om datasortering, och utdata som används vid oövervakad inlärning är märkt och okänd
- Less noggrannheten i resultaten beror på att indata inte är känd och inte märkt av människor i förväg. Det betyder att maskinen måste göra detta själv.
- Spektralklasserna motsvarar inte alltid informationsklasser.
- Användaren behöver lägga tid på att tolka och märka de klasser som följer den klassificeringen.
- Spektralegenskaper hos klasser kan också ändras över tiden så att du inte kan ha samma klassinformation när du flyttar från en bild till en annan.
Sammanfattning
- Oövervakad inlärning är en maskininlärningsteknik, där du inte behöver övervaka modellen.
- Oövervakad maskininlärning hjälper dig att hitta alla typer av okända mönster i data.
- Clustering och association är två typer av oövervakat lärande.
- Fyra typer av klustringsmetoder är 1) Exklusiva 2) Agglomerativa 3) Överlappande 4) Probabilistiska.
- Viktiga klustringstyper är: 1) Hierarkisk klustring 2) K-betyder klustring 3) K-NN 4) Huvudkomponentanalys 5) Singular Value Decomposition 6) Oberoende komponentanalys.
- Associationsregler tillåter dig att upprätta associationer mellan dataobjekt i stora databaser.
- I övervakat lärande, Algorithms utbildas med hjälp av märkt data under oövervakad inlärning Algorithms används mot data som inte är märkta.
- Avvikelsedetektering kan upptäcka viktiga datapunkter i din datauppsättning, vilket är användbart för att hitta bedrägliga transaktioner.
- Den största nackdelen med Unsupervised learning är att du inte kan få exakt information om datasortering.