Überwachtes und unbeaufsichtigtes Lernen: Unterschiede zwischen ihnen
Hauptunterschied zwischen überwachtem und unbeaufsichtigtem Lernen
- Beim überwachten Lernen trainieren Sie die Maschine anhand von Daten, die gut „beschriftet“ sind.
- Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der Sie das Modell nicht überwachen müssen.
- Überwachtes Lernen ermöglicht es Ihnen, Daten zu sammeln oder eine Datenausgabe aus der vorherigen Erfahrung zu erstellen.
- Unüberwachtes maschinelles Lernen hilft Ihnen, alle Arten unbekannter Muster in Daten zu finden.
- Regression und Klassifizierung sind zwei Arten überwachter maschineller Lerntechniken.
- ClusterLernen und Assoziieren sind zwei Arten des unbeaufsichtigten Lernens.
- In einem überwachten Lernmodell werden Eingabe- und Ausgabevariablen angegeben, während in einem unüberwachten Lernmodell nur Eingabedaten angegeben werden
Was ist überwachtes maschinelles Lernen?
Beim überwachten Lernen trainieren Sie die Maschine anhand von Daten, die gut sind „beschriftet.“ Das bedeutet, dass einige Daten bereits mit der richtigen Antwort markiert sind. Es kann mit Lernen verglichen werden, das in Anwesenheit eines Vorgesetzten oder eines Lehrers stattfindet.
Ein überwachter Lernalgorithmus lernt aus gekennzeichneten Trainingsdaten und hilft Ihnen, Ergebnisse für unvorhergesehene Daten vorherzusagen. Der erfolgreiche Aufbau, die Skalierung und der Einsatz eines präzisen Data-Science-Modells für überwachtes maschinelles Lernen erfordert Zeit und technisches Fachwissen von einem Team hochqualifizierter Datenwissenschaftler. Darüber hinaus muss der Datenwissenschaftler Modelle neu erstellen, um sicherzustellen, dass die gewonnenen Erkenntnisse wahr bleiben, bis sich die Daten ändern.
Was ist unüberwachtes Lernen?
Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der Sie das Modell nicht überwachen müssen. Stattdessen müssen Sie dem Modell ermöglichen, selbstständig Informationen zu ermitteln. Es befasst sich hauptsächlich mit den unbeschrifteten Daten.
Mit Algorithmen für unüberwachtes Lernen können Sie im Vergleich zum überwachten Lernen komplexere Verarbeitungsaufgaben ausführen. Allerdings kann unüberwachtes Lernen im Vergleich zu anderen Methoden des natürlichen Lernens, wie Deep Learning und Reinforcement Learning, unvorhersehbarer sein.
Warum überwachtes Lernen?
- Überwachtes Lernen ermöglicht es Ihnen, Daten zu sammeln oder eine Datenausgabe aus der vorherigen Erfahrung zu erstellen.
- Hilft Ihnen, Leistungskriterien mithilfe von Erfahrung zu optimieren
- Überwachtes maschinelles Lernen hilft Ihnen, verschiedene Arten realer Rechenprobleme zu lösen.
Warum unüberwachtes Lernen?
Hier sind die Hauptgründe für den Einsatz von unüberwachtem Lernen:
- Unüberwachtes maschinelles Lernen findet alle möglichen unbekannten Muster in Daten.
- Unüberwachte Methoden helfen Ihnen, Funktionen zu finden, die für die Kategorisierung nützlich sein können.
- Es erfolgt in Echtzeit, d. h. alle Eingabedaten werden im Beisein der Lernenden analysiert und beschriftet.
- Es ist einfacher, unbeschriftete Daten von einem Computer abzurufen als beschriftete Daten, die einen manuellen Eingriff erfordern.
Wie funktioniert überwachtes Lernen?
Beispielsweise möchten Sie einer Maschine beibringen, vorherzusagen, wie lange Sie für die Fahrt von Ihrem Arbeitsplatz nach Hause brauchen werden. Hier beginnen Sie mit der Erstellung eines Satzes beschrifteter Daten. Diese Daten umfassen
- Wetterverhältnisse
- Tageszeit
- Feiertage
Alle diese Details sind Ihre Eingaben. Die Ausgabe ist die Zeit, die Sie an diesem bestimmten Tag für die Heimfahrt benötigt haben.
Sie wissen instinktiv, dass Sie länger brauchen, um nach Hause zu fahren, wenn es draußen regnet. Aber die Maschine braucht Daten und Statistiken.
Sehen wir uns nun an, wie Sie für dieses Beispiel ein überwachtes Lernmodell entwickeln können, das dem Benutzer hilft, die Pendelzeit zu bestimmen. Als Erstes müssen Sie einen Trainingsdatensatz erstellen. Dieser Trainingssatz enthält die gesamte Pendelzeit und entsprechende Faktoren wie Wetter, Zeit usw. Basierend auf diesem Trainingssatz erkennt Ihre Maschine möglicherweise, dass ein direkter Zusammenhang zwischen der Regenmenge und der Zeit besteht, die Sie benötigen, um nach Hause zu kommen.
Es stellt also fest, dass die Rückfahrt zu Ihrem Zuhause umso länger dauert, je mehr es regnet. Möglicherweise wird auch der Zusammenhang zwischen der Zeit, zu der Sie die Arbeit verlassen, und der Zeit, zu der Sie unterwegs sind, erkannt.
Je näher es 6 Uhr ist, desto länger dauert es, bis Sie nach Hause kommen. Ihr Computer erkennt möglicherweise einige Beziehungen zu Ihren gekennzeichneten Daten.
Dies ist der Beginn Ihres Datenmodells. Es beginnt sich darauf auszuwirken, wie sich Regen auf die Art und Weise auswirkt, wie Menschen fahren. Es zeigt sich auch, dass mehr Menschen zu einer bestimmten Tageszeit reisen.
Wie funktioniert unüberwachtes Lernen?
Nehmen wir den Fall eines Babys und seines Familienhundes.
Sie kennt und identifiziert diesen Hund. Ein paar Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.
Baby hat diesen Hund noch nie zuvor gesehen. Aber viele Merkmale (2 Ohren, Augen, Gehen auf 4 Beinen) ähneln denen ihres Hundes. Sie identifiziert ein neues Tier wie einen Hund. Dabei handelt es sich um unbeaufsichtigtes Lernen, bei dem Sie nicht unterrichtet werden, sondern aus den Daten (in diesem Fall Daten über einen Hund) lernen. Wäre dies überwachtes Lernen gewesen, hätte der Freund der Familie dem Baby gesagt, dass es ein Hund ist.
Arten von überwachten maschinellen Lerntechniken
Regression
Die Regressionstechnik sagt einen einzelnen Ausgabewert anhand von Trainingsdaten voraus.
Beispiel: Mithilfe der Regression können Sie den Hauspreis anhand von Trainingsdaten vorhersagen. Die Eingabevariablen sind Ort, Größe eines Hauses usw.
Klassifikation
Klassifizierung bedeutet, die Ausgabe innerhalb einer Klasse zu gruppieren. Wenn der Algorithmus versucht, Eingaben in zwei verschiedene Klassen einzuteilen, spricht man von binärer Klassifizierung. Die Auswahl zwischen mehr als zwei Klassen wird als Multiklassenklassifizierung bezeichnet.
Beispiel: Feststellung, ob jemand mit dem Kredit in Verzug gerät oder nicht.
Stärken: Ausgaben haben immer eine probabilistische Interpretation, und der Algorithmus kann reguliert werden, um eine Überanpassung zu vermeiden.
Schwächen: Die logistische Regression kann bei mehreren oder nichtlinearen Entscheidungsgrenzen zu schlechteren Ergebnissen führen. Diese Methode ist nicht flexibel und erfasst daher keine komplexeren Beziehungen.
Arten unbeaufsichtigter maschineller Lerntechniken
Probleme des unüberwachten Lernens werden weiter in Clustering- und Assoziationsprobleme unterteilt.
ClusterIng.
Clustering ist ein wichtiges Konzept, wenn es um unbeaufsichtigtes Lernen geht. Es geht hauptsächlich darum, eine Struktur oder ein Muster in einer Sammlung nicht kategorisierter Daten zu finden. Clustering-Algorithmen verarbeiten Ihre Daten und finden natürliche Cluster (Gruppen), wenn diese in den Daten vorhanden sind. Sie können auch ändern, wie viele Cluster Ihre Algorithmen identifizieren sollen. Sie können damit die Granularität dieser Gruppen anpassen.
Verein
Mithilfe von Assoziationsregeln können Sie Assoziationen zwischen Datenobjekten innerhalb großer Datenbanken herstellen. Bei dieser unbeaufsichtigten Technik geht es darum, spannende Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Zum Beispiel kaufen Menschen, die ein neues Zuhause kaufen, am wahrscheinlichsten neue Möbel.
Andere Beispiele:
- Eine Untergruppe von Krebspatienten, gruppiert nach ihren Genexpressionsmessungen
- Gruppen von Käufern basierend auf ihrer Browsing- und Kaufhistorie
- Filmgruppe nach der Bewertung der Filmzuschauer
Unterschied zwischen überwachtem und unüberwachtem Lernen
Parameter | Überwachte maschinelle Lerntechnik | Unbeaufsichtigte maschinelle Lerntechnik |
---|---|---|
Prozess | In einem überwachten Lernmodell werden Eingabe- und Ausgabevariablen angegeben. | Im unbeaufsichtigten Lernmodell werden nur Eingabedaten bereitgestellt |
Eingabedaten | Algorithms werden anhand gekennzeichneter Daten trainiert. | Algorithms werden für Daten verwendet, die nicht gekennzeichnet sind |
Algorithms Gebrauchte | Unterstützungsvektormaschine, neuronales Netzwerk, lineare und logistische Regression, Zufallswald und Klassifizierungsbäume. | Unüberwachte Algorithmen können in verschiedene Kategorien unterteilt werden: Cluster Algorithmen, K-Means, hierarchisches Clustering usw. |
Rechenkomplexität | Überwachtes Lernen ist eine einfachere Methode. | Unüberwachtes Lernen ist rechnerisch komplex |
Verwendung von Daten | Das überwachte Lernmodell verwendet Trainingsdaten, um eine Verbindung zwischen den Eingaben und den Ausgaben zu erlernen. | Beim unüberwachten Lernen werden keine Ausgabedaten verwendet. |
Genauigkeit der Ergebnisse | Sehr genaue und vertrauenswürdige Methode. | Less genaue und vertrauenswürdige Methode. |
Lernen in Echtzeit | Die Lernmethode findet offline statt. | Die Lernmethode erfolgt in Echtzeit. |
Anzahl der Klassen | Anzahl der Klassen ist bekannt. | Die Anzahl der Klassen ist nicht bekannt. |
Hauptnachteil | Die Klassifizierung großer Datenmengen kann beim Supervised Learning eine echte Herausforderung sein. | Sie können keine genauen Informationen zur Datensortierung erhalten, und die Ausgabe als Daten, die beim unbeaufsichtigten Lernen verwendet werden, ist gekennzeichnet und nicht bekannt. |