Unüberwachtes maschinelles Lernen: Algorithms, Typen mit Beispiel

Was ist unüberwachtes Lernen?

Unbeaufsichtigtes Lernen ist eine Technik des maschinellen Lernens, bei der die Benutzer das Modell nicht überwachen müssen. Stattdessen kann das Modell eigenständig arbeiten, um Muster und Informationen zu entdecken, die zuvor unentdeckt waren. Es befasst sich hauptsächlich mit den unbeschrifteten Daten.

Unbeaufsichtigtes Lernen Algorithms

Unbeaufsichtigtes Lernen Algorithms ermöglichen Benutzern die Durchführung komplexerer Verarbeitungsaufgaben im Vergleich zum überwachten Lernen. Allerdings kann unüberwachtes Lernen im Vergleich zu anderen natürlichen Lernmethoden unvorhersehbarer sein. Zu den Algorithmen des unüberwachten Lernens gehören Clustering, Anomalieerkennung, neuronale Netzwerke usw.

Beispiel für unbeaufsichtigtes maschinelles Lernen

Nehmen wir ein Beispiel für unbeaufsichtigtes Lernen für ein Baby und seinen Familienhund.

Beispiel für unbeaufsichtigtes maschinelles Lernen

Sie kennt und identifiziert diesen Hund. Einige Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.

Beispiel für unbeaufsichtigtes maschinelles Lernen

Baby hat diesen Hund noch nie zuvor gesehen. Aber viele Merkmale (2 Ohren, Augen, Gehen auf 4 Beinen) ähneln denen ihres Hundes. Sie identifiziert das neue Tier als Hund. Dabei handelt es sich um unbeaufsichtigtes Lernen, bei dem einem nichts beigebracht wird, sondern man aus den Daten (in diesem Fall Daten über einen Hund) lernt überwachtes Lernen, hätte der Freund der Familie dem Baby gesagt, dass es ein Hund sei, wie im obigen Beispiel für unbeaufsichtigtes Lernen gezeigt.

Warum unüberwachtes Lernen?

Hier sind die Hauptgründe für den Einsatz von unüberwachtem Lernen Maschinelles lernen:

  • Unüberwachtes maschinelles Lernen findet alle möglichen unbekannten Muster in Daten.
  • Unüberwachte Methoden helfen Ihnen, Funktionen zu finden, die für die Kategorisierung nützlich sein können.
  • Es erfolgt in Echtzeit, d. h. alle Eingabedaten werden im Beisein der Lernenden analysiert und beschriftet.
  • Es ist einfacher, unbeschriftete Daten von einem Computer abzurufen als beschriftete Daten, die einen manuellen Eingriff erfordern.

Clustering Arten des unüberwachten Lernens Algorithms

Nachfolgend sind die Clustertypen der Algorithmen für unüberwachtes maschinelles Lernen aufgeführt:

Probleme des unüberwachten Lernens werden weiter in Clustering- und Assoziationsprobleme unterteilt.

ClusterIng.

ClusterIng.
ClusterIng.

Clustering ist ein wichtiges Konzept, wenn es um unbeaufsichtigtes Lernen geht. Dabei geht es hauptsächlich darum, eine Struktur oder ein Muster in einer Sammlung nicht kategorisierter Daten zu finden. Unbeaufsichtigtes Lernen Clustering-Algorithmen verarbeiten Ihre Daten und finden natürliche Cluster (Gruppen), wenn diese in den Daten vorhanden sind. Sie können auch ändern, wie viele Cluster Ihre Algorithmen identifizieren sollen. Sie können damit die Granularität dieser Gruppen anpassen.

Sie können verschiedene Clustertypen nutzen:

Exklusiv (Partitionierung)

Bei dieser Clustermethode werden Daten so gruppiert, dass ein Datensatz nur zu einem Cluster gehören kann.

Beispiel: K-bedeutet

Agglomerativ

Bei dieser Clustertechnik stellen alle Daten einen Cluster dar. Die iterative Vereinigung der beiden nächsten Cluster reduziert die Anzahl der Cluster.

Beispiel: Hierarchisches Clustering

Überlappende

Bei dieser Technik werden Fuzzy-Mengen zum Clustern von Daten verwendet. Jeder Punkt kann zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören.

Dabei werden die Daten mit einem entsprechenden Mitgliedswert verknüpft. Beispiel: Fuzzy C-Means

Probabilistisch

Diese Technik verwendet Wahrscheinlichkeitsverteilungen zur Erstellung der Cluster

Beispiel: Folgende Schlüsselwörter

  • „Männerschuh.“
  • „Damenschuh.“
  • „Damenhandschuh.“
  • „Männerhandschuh.“

können in die zwei Kategorien „Schuh“ und „Handschuh“ bzw. „Mann“ und „Frau“ gruppiert werden.

Clustering-Typen

Im Folgenden sind die Clustertypen des maschinellen Lernens aufgeführt:

  • Hierarchisches Clustering
  • K-bedeutet Clustering
  • K-NN (k nächste Nachbarn)
  • Hauptkomponentenanalyse
  • Einzelwertzerlegung
  • Unabhängige Komponentenanalyse

Hierarchisch ClusterIng.

Hierarchisches Clustering ist ein Algorithmus, der eine Hierarchie von Clustern aufbaut. Er beginnt mit allen Daten, die einem eigenen Cluster zugeordnet sind. Dabei werden zwei eng beieinander liegende Cluster im selben Cluster zusammengefasst. Dieser Algorithmus endet, wenn nur noch ein Cluster übrig ist.

K-Mittel ClusterIng.

K bedeutet, dass es sich um einen iterativen Clusteralgorithmus handelt, der Ihnen hilft, bei jeder Iteration den höchsten Wert zu finden. Zunächst wird die gewünschte Anzahl von Clustern ausgewählt. Bei dieser Clustermethode müssen Sie die Datenpunkte in k Gruppen clustern. Ein größerer k-Wert bedeutet kleinere Gruppen mit größerer Granularität auf die gleiche Weise. Ein niedrigerer k-Wert bedeutet größere Gruppen mit geringerer Granularität.

Die Ausgabe des Algorithmus ist eine Gruppe von „Labels“. Er weist Datenpunkte einer der k-Gruppen zu. Beim K-Means-Clustering wird jede Gruppe definiert, indem für jede Gruppe ein Schwerpunkt erstellt wird. Die Schwerpunkte sind wie das Herz des Clusters, das die Punkte erfasst, die ihnen am nächsten liegen, und sie dem Cluster hinzufügt.

Das K-Mean-Clustering definiert darüber hinaus zwei Untergruppen:

  • Agglomerative Clusterbildung
  • Dendrogramm

Agglomerative Clusterbildung

Diese Art des K-Means-Clusterings beginnt mit einer festen Anzahl von Clustern. Dabei werden alle Daten genau dieser Anzahl von Clustern zugeordnet. Diese Clustermethode erfordert nicht die Anzahl der Cluster K als Eingabe. Der Agglomerationsprozess beginnt mit der Bildung aller Daten als einzelner Cluster.

Diese Methode verwendet ein Distanzmaß und reduziert die Anzahl der Cluster (einen in jeder Iteration) durch Zusammenführung. Schließlich haben wir einen großen Cluster, der alle Objekte enthält.

Dendrogramm

Bei der Dendrogramm-Clustermethode stellt jede Ebene einen möglichen Cluster dar. Die Höhe des Dendrogramms zeigt den Grad der Ähnlichkeit zwischen zwei verbundenen Clustern. Je näher sie am unteren Ende des Prozesses liegen, desto ähnlicher sind die Cluster, d. h. die Gruppenfindung aus dem Dendrogramm ist nicht natürlich und größtenteils subjektiv.

K- Nächste Nachbarn

K-Nearest-Neighbor ist der einfachste aller Klassifikatoren für maschinelles Lernen. Er unterscheidet sich von anderen Techniken des maschinellen Lernens dadurch, dass er kein Modell erstellt. Es handelt sich um einen einfachen Algorithmus, der alle verfügbaren Fälle speichert und neue Instanzen anhand eines Ähnlichkeitsmaßes klassifiziert.

Es funktioniert sehr gut, wenn zwischen den Beispielen ein Abstand besteht. Die Lerngeschwindigkeit ist langsam, wenn der Trainingssatz groß ist, und die Distanzberechnung ist nicht trivial.

Hauptkomponentenanalyse

Falls Sie einen höherdimensionalen Raum wünschen. Sie müssen eine Basis für diesen Raum und nur die 200 wichtigsten Werte dieser Basis auswählen. Diese Basis wird als Hauptkomponente bezeichnet. Die von Ihnen ausgewählte Teilmenge bildet einen neuen Raum, der im Vergleich zum ursprünglichen Raum klein ist. Er behält so viel Datenkomplexität wie möglich bei.

Verein

Mithilfe von Assoziationsregeln können Sie Assoziationen zwischen Datenobjekten innerhalb großer Datenbanken herstellen. Bei dieser unbeaufsichtigten Technik geht es darum, interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Zum Beispiel kaufen Menschen, die ein neues Zuhause kaufen, am wahrscheinlichsten neue Möbel.

Andere Beispiele:

  • Eine Untergruppe von Krebspatienten, gruppiert nach ihren Genexpressionsmessungen
  • Gruppen von Käufern basierend auf ihrer Browsing- und Kaufhistorie
  • Filmgruppe nach der Bewertung der Filmzuschauer

Überwachtes vs. unüberwachtes maschinelles Lernen

Hier ist der Hauptunterschied zwischen Überwachtes vs. unüberwachtes Lernen:

Parameter Überwachte maschinelle Lerntechnik Unbeaufsichtigte maschinelle Lerntechnik
Eingabedaten Algorithms werden anhand gekennzeichneter Daten trainiert. Algorithms werden für Daten verwendet, die nicht gekennzeichnet sind
Rechenkomplexität Überwachtes Lernen ist eine einfachere Methode. Unüberwachtes Lernen ist rechnerisch komplex
Genauigkeit Sehr genaue und vertrauenswürdige Methode. Less genaue und vertrauenswürdige Methode.

Anwendungen des unbeaufsichtigten maschinellen Lernens

Einige Anwendungen unbeaufsichtigter Lerntechniken sind:

  • ClusterDabei wird der Datensatz anhand seiner Ähnlichkeiten automatisch in Gruppen aufgeteilt
  • Die Anomalieerkennung kann ungewöhnliche Datenpunkte in Ihrem Datensatz entdecken. Es ist nützlich, um betrügerische Transaktionen zu finden
  • Association Mining identifiziert Gruppen von Elementen, die in Ihrem Datensatz häufig zusammen vorkommen
  • Latente Variablenmodelle werden häufig zur Datenvorverarbeitung verwendet. Zum Beispiel die Anzahl der Features in einem Datensatz reduzieren oder den Datensatz in mehrere Komponenten zerlegen

Nachteile des unüberwachten Lernens

  • Sie können keine genauen Informationen zur Datensortierung erhalten, und die Ausgabe als Daten, die beim unbeaufsichtigten Lernen verwendet werden, ist gekennzeichnet und nicht bekannt
  • Less Die Genauigkeit der Ergebnisse liegt darin begründet, dass die Eingabedaten nicht bekannt sind und nicht im Voraus von Menschen gekennzeichnet wurden. Dies bedeutet, dass die Maschine dies selbst tun muss.
  • Die Spektralklassen entsprechen nicht immer Informationsklassen.
  • Der Benutzer muss Zeit damit verbringen, die Klassen, die dieser Klassifizierung folgen, zu interpretieren und zu kennzeichnen.
  • Auch die Spektraleigenschaften von Klassen können sich im Laufe der Zeit ändern, sodass Sie beim Wechseln von einem Bild zum anderen nicht über dieselben Klasseninformationen verfügen können.

Zusammenfassung

  • Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der Sie das Modell nicht überwachen müssen.
  • Unüberwachtes maschinelles Lernen hilft Ihnen, alle Arten unbekannter Muster in Daten zu finden.
  • ClusterLernen und Assoziieren sind zwei Arten des unbeaufsichtigten Lernens.
  • Es gibt vier Arten von Clustering-Methoden: 1) Exklusiv 2) Agglomerativ 3) Überlappend 4) Probabilistisch.
  • Wichtige Clustertypen sind: 1) Hierarchisches Clustering 2) K-Means-Clustering 3) K-NN 4) Hauptkomponentenanalyse 5) Singulärwertzerlegung 6) Unabhängige Komponentenanalyse.
  • Mithilfe von Assoziationsregeln können Sie Assoziationen zwischen Datenobjekten innerhalb großer Datenbanken herstellen.
  • Beim überwachten Lernen Algorithms werden beim unüberwachten Lernen mithilfe gekennzeichneter Daten trainiert Algorithms werden für Daten verwendet, die nicht gekennzeichnet sind.
  • Durch die Anomalieerkennung können wichtige Datenpunkte in Ihrem Datensatz ermittelt werden, was bei der Aufdeckung betrügerischer Transaktionen nützlich ist.
  • Der größte Nachteil des unüberwachten Lernens besteht darin, dass Sie keine genauen Informationen zur Datensortierung erhalten können.