Machine learning zonder toezicht: Algorithms, Typen met voorbeeld

Wat is onbegeleid leren?

Niet-gecontroleerd leren is een machine learning-techniek waarbij de gebruikers geen toezicht op het model hoeven te houden. In plaats daarvan kan het model op zichzelf werken om patronen en informatie te ontdekken die voorheen niet werden gedetecteerd. Het gaat vooral om de niet-gelabelde gegevens.

Niet-gecontroleerd leren Algorithms

Niet-gecontroleerd leren Algorithms gebruikers complexere verwerkingstaken laten uitvoeren in vergelijking met supervised learning. Hoewel unsupervised learning onvoorspelbaarder kan zijn in vergelijking met andere natuurlijke leermethoden. Unsupervised learning-algoritmen omvatten clustering, anomaliedetectie, neurale netwerken, etc.

Voorbeeld van machinaal leren zonder toezicht

Laten we een voorbeeld nemen van Unsupervised Learning voor een baby en haar gezinshond.

Voorbeeld van machinaal leren zonder toezicht

Ze kent en identificeert deze hond. Een paar weken later neemt een vriend van de familie een hond mee en probeert met de baby te spelen.

Voorbeeld van machinaal leren zonder toezicht

Baby heeft deze hond nog niet eerder gezien. Maar hij herkent veel kenmerken (2 oren, ogen, lopen op 4 poten) die op haar hond lijken. Ze identificeert het nieuwe dier als een hond. Dit is leren zonder toezicht, waarbij u geen les krijgt, maar leert van de gegevens (in dit geval gegevens over een hond). Als dit was gebeurd leren onder toezicht, zou de vriend van de familie de baby hebben verteld dat het een hond is, zoals blijkt uit het bovenstaande voorbeeld van Unsupervised Learning.

Waarom onbegeleid leren?

Hier volgen de belangrijkste redenen om Unsupervised Learning te gebruiken Machine leren:

  • Unsupervised machine learning ontdekt allerlei onbekende patronen in data.
  • Met methoden zonder toezicht kunt u functies vinden die nuttig kunnen zijn voor categorisering.
  • Het vindt plaats in realtime, zodat alle invoergegevens worden geanalyseerd en gelabeld in aanwezigheid van de leerlingen.
  • Het is gemakkelijker om ongelabelde gegevens van een computer te halen dan gelabelde gegevens, waarvoor handmatige tussenkomst nodig is.

ClusterSoorten onbegeleid leren Algorithms

Hieronder staan ​​de clusteringtypen van ongeleide machine learning-algoritmen:

Problemen met ongeleid leren worden verder gegroepeerd in clustering- en associatieproblemen.

ClusterING

ClusterING
ClusterING

Clustering is een belangrijk concept als het gaat om onbegeleid leren. Het gaat vooral over het vinden van een structuur of patroon in een verzameling ongecategoriseerde gegevens. Ongecontroleerd leren Clustering-algoritmen verwerken uw gegevens en vinden natuurlijke clusters (groepen) als deze in de gegevens voorkomen. U kunt ook wijzigen hoeveel clusters uw algoritmen moeten identificeren. Hiermee kunt u de granulariteit van deze groepen aanpassen.

Er zijn verschillende soorten clustering die u kunt gebruiken:

Exclusief (partitionering)

Bij deze clustermethode worden gegevens zodanig gegroepeerd dat één gegeven slechts tot één cluster kan behoren.

Voorbeeld: K-betekent

Agglomeratief

Bij deze clusteringtechniek is elke data een cluster. De iteratieve unies tussen de twee dichtstbijzijnde clusters verminderen het aantal clusters.

Voorbeeld: Hiërarchische clustering

Overlappende

Bij deze techniek worden fuzzy sets gebruikt om data te clusteren. Elk punt kan tot twee of meer clusters behoren met afzonderlijke graden van lidmaatschap.

Hier worden gegevens gekoppeld aan een passende lidmaatschapswaarde. Voorbeeld: Fuzzy C-middelen

Probabilistisch

Deze techniek gebruikt waarschijnlijkheidsverdeling om de clusters te creëren

Voorbeeld: volgende trefwoorden

  • “mannenschoen.”
  • “damesschoen.”
  • “dameshandschoen.”
  • “mannenhandschoen.”

kunnen worden onderverdeeld in twee categorieën: ‘schoen’ en ‘handschoen’ of ‘man’ en ‘vrouwen’.

Clustertypen

Hieronder staan ​​de clusteringtypen van Machine Learning:

  • Hiërarchische clustering
  • K-betekent clustering
  • K-NN (k dichtstbijzijnde buren)
  • Hoofdcomponentenanalyse
  • Singuliere waarden ontbinding
  • Onafhankelijke componentenanalyse

hiërarchische ClusterING

Hiërarchische clustering is een algoritme dat een hiërarchie van clusters bouwt. Het begint met alle data die is toegewezen aan een eigen cluster. Hier zullen twee dicht bij elkaar gelegen clusters in hetzelfde cluster zitten. Dit algoritme eindigt wanneer er nog maar één cluster over is.

K-betekent ClusterING

K betekent dat het een iteratief clusteringalgoritme is dat u helpt de hoogste waarde voor elke iteratie te vinden. Aanvankelijk wordt het gewenste aantal clusters geselecteerd. Bij deze clusteringmethode moet u de datapunten clusteren in k groepen. Een grotere k betekent kleinere groepen met meer granulariteit op dezelfde manier. Een lagere k betekent grotere groepen met minder granulariteit.

De output van het algoritme is een groep "labels". Het wijst datapunten toe aan een van de k groepen. Bij k-means clustering wordt elke groep gedefinieerd door een centroïde voor elke groep te maken. De centroïden zijn als het hart van de cluster, die de punten die het dichtst bij hen liggen, vastlegt en ze aan de cluster toevoegt.

K-mean clustering definieert verder twee subgroepen:

  • Agglomeratieve clustering
  • dendrogram

Agglomeratieve clustering

Dit type K-means clustering begint met een vast aantal clusters. Het alloceert alle data in het exacte aantal clusters. Deze clusteringmethode vereist niet het aantal clusters K als invoer. Het agglomeratieproces begint door elke data te vormen als een enkel cluster.

Deze methode gebruikt een afstandsmaat, vermindert het aantal clusters (één in elke iteratie) door het samenvoegingsproces. Ten slotte hebben we één groot cluster dat alle objecten bevat.

dendrogram

In de Dendrogram clustering methode zal elk niveau een mogelijke cluster representeren. De hoogte van het dendrogram toont het niveau van gelijkenis tussen twee join clusters. Hoe dichter bij de bodem van het proces ze zijn hoe meer gelijkenis clusters er zijn, wat het vinden van de groep van het dendrogram is, wat niet natuurlijk en meestal subjectief is.

K- Dichtstbijzijnde buren

K- nearest neighbor is de eenvoudigste van alle machine learning classifiers. Het verschilt van andere machine learning technieken, doordat het geen model produceert. Het is een eenvoudig algoritme dat alle beschikbare cases opslaat en nieuwe instances classificeert op basis van een similarity measure.

Het werkt heel goed als er een afstand is tussen de voorbeelden. De leersnelheid is laag als de trainingsset groot is en de afstandsberekening niet triviaal is.

Analyse van hoofdcomponenten

Als u een hogere-dimensionale ruimte wilt. U moet een basis voor die ruimte selecteren en alleen de 200 belangrijkste scores van die basis. Deze basis staat bekend als een hoofdcomponent. De subset die u selecteert, is een nieuwe ruimte die klein is in omvang vergeleken met de oorspronkelijke ruimte. Het behoudt zoveel mogelijk van de complexiteit van de gegevens.

Vereniging

Met associatieregels kunt u associaties tot stand brengen tussen gegevensobjecten in grote databases. Deze techniek zonder toezicht gaat over het ontdekken van interessante relaties tussen variabelen in grote databases. Mensen die bijvoorbeeld een nieuw huis kopen, zullen waarschijnlijk ook nieuw meubilair kopen.

Andere voorbeelden:

  • Een subgroep van kankerpatiënten gegroepeerd op basis van hun genexpressiemetingen
  • Groepen shoppers op basis van hun browse- en aankoopgeschiedenis
  • Filmgroepering op basis van de beoordeling gegeven door filmkijkers

Onder toezicht versus onbewaakt machinaal leren

Hier is het belangrijkste verschil tussen Begeleid versus onbewaakt leren:

parameters Machine learning-techniek onder toezicht Machine learning-techniek zonder toezicht
Invoergegevens Algorithms worden getraind met behulp van gelabelde gegevens. Algorithms worden gebruikt tegen gegevens die niet zijn gelabeld
Computationele complexiteit Begeleid leren is een eenvoudiger methode. Ongeleid leren is rekenkundig complex
Nauwkeurigheid Zeer nauwkeurige en betrouwbare methode. Less nauwkeurige en betrouwbare methode.

Toepassingen van machinaal leren zonder toezicht

Enkele toepassingen van technieken voor onbewaakt leren zijn:

  • ClusterDoor de dataset automatisch in groepen te splitsen op basis van hun overeenkomsten
  • Anomaliedetectie kan ongebruikelijke datapunten in uw dataset ontdekken. Het is handig voor het opsporen van frauduleuze transacties
  • Association mining identificeert sets van items die vaak samen voorkomen in uw dataset
  • Latente variabele modellen worden veel gebruikt voor de voorverwerking van gegevens. Zoals het verminderen van het aantal features in een dataset of het opsplitsen van de dataset in meerdere componenten

Nadelen van leren zonder toezicht

  • U kunt geen nauwkeurige informatie krijgen over het sorteren van gegevens, en de uitvoer van gegevens die worden gebruikt bij leren zonder toezicht is gelabeld en niet bekend
  • Less De nauwkeurigheid van de resultaten komt doordat de invoergegevens niet vooraf bekend zijn en niet door mensen zijn gelabeld. Dit betekent dat de machine dit zelf moet doen.
  • De spectrale klassen komen niet altijd overeen met informatieklassen.
  • De gebruiker moet tijd besteden aan het interpreteren en labelen van de klassen die deze classificatie volgen.
  • Spectrale eigenschappen van klassen kunnen ook in de loop van de tijd veranderen, zodat u niet over dezelfde klasse-informatie kunt beschikken terwijl u van de ene afbeelding naar de andere gaat.

Samenvatting

  • Unsupervised learning is een machine learning-techniek, waarbij u geen toezicht hoeft te houden op het model.
  • Unsupervised machine learning helpt je om allerlei onbekende patronen in data te ontdekken.
  • Clustering en Association zijn twee soorten onbewaakt leren.
  • Er zijn vier typen clustermethoden: 1) Exclusief, 2) Agglomeratief, 3) Overlappend en 4) Probabilistisch.
  • Belangrijke clusteringtypen zijn: 1) Hiërarchische clustering 2) K-means clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
  • Met associatieregels kunt u associaties tot stand brengen tussen gegevensobjecten in grote databases.
  • Bij begeleid leren is Algorithms worden getraind met behulp van gelabelde gegevens tijdens het onbewaakte leren Algorithms worden gebruikt tegen gegevens die niet zijn gelabeld.
  • Anomaliedetectie kan belangrijke datapunten in uw dataset ontdekken, wat handig is bij het opsporen van frauduleuze transacties.
  • Het grootste nadeel van Unsupervised learning is dat je geen nauwkeurige informatie kunt krijgen over het sorteren van gegevens.