Überwachtes maschinelles Lernen: Was ist, Algorithmen mit Beispielen

Was ist überwachtes maschinelles Lernen?

Überwachtes maschinelles Lernen ist ein Algorithmus, der aus gekennzeichneten Trainingsdaten lernt, um Ihnen dabei zu helfen, Ergebnisse für unvorhergesehene Daten vorherzusagen. Beim überwachten Lernen trainieren Sie die Maschine mithilfe gut „beschrifteter“ Daten. Das bedeutet, dass einige Daten bereits mit richtigen Antworten markiert sind. Es kann mit dem Lernen in Anwesenheit eines Vorgesetzten oder eines Lehrers verglichen werden.

Erfolgreich erstellen, skalieren und bereitstellen genau Überwachte Modelle für maschinelles Lernen erfordern Zeit und technisches Fachwissen von einem Team hochqualifizierter Datenwissenschaftler. Darüber hinaus, Datum Wissenschaftler müssen neu aufbauen für um sicherzustellen, dass die gegebenen Erkenntnisse wahr bleiben, bis sich die Daten ändern.

Wie überwachtes Lernen funktioniert

Beim überwachten maschinellen Lernen werden Trainingsdatensätze verwendet, um die gewünschten Ergebnisse zu erzielen. Diese Datensätze enthalten Eingaben und die richtige Ausgabe, die dem Modell hilft, schneller zu lernen. Beispielsweise möchten Sie einer Maschine beibringen, vorherzusagen, wie lange Sie für die Fahrt von Ihrem Arbeitsplatz nach Hause brauchen werden.

Hier beginnen Sie mit der Erstellung eines Satzes beschrifteter Daten. Zu diesen Daten gehören:

  • Wetterverhältnisse
  • Tageszeit
  • Feiertage

All diese details sind Ihre Eingaben in diesem Beispiel für überwachtes Lernen. Die Ausgabe ist die Zeit, die für die Heimfahrt an diesem bestimmten Tag benötigt wurde.

Wie überwachtes maschinelles Lernen funktioniert

Sie wissen instinktiv, dass Sie länger brauchen, um nach Hause zu fahren, wenn es draußen regnet. Aber die Maschine braucht Daten und Statistiken.

Sehen wir uns einige Beispiele für überwachtes Lernen an, wie Sie ein überwachtes Lernmodell für dieses Beispiel entwickeln können, das dem Benutzer hilft, die Pendelzeit zu bestimmen. Als erstes müssen Sie einen Trainingssatz erstellen. Dieser Trainingssatz enthält die gesamte Pendelzeit und entsprechende Faktoren wie Wetter, Zeit usw. Basierend auf diesem Trainingssatz erkennt Ihre Maschine möglicherweise, dass ein direkter Zusammenhang zwischen der Regenmenge und der Zeit besteht, die Sie benötigen, um nach Hause zu kommen.

Es stellt also fest, dass die Rückfahrt zu Ihrem Zuhause umso länger dauert, je mehr es regnet. Möglicherweise wird auch der Zusammenhang zwischen der Zeit, zu der Sie die Arbeit verlassen, und der Zeit, zu der Sie unterwegs sind, erkannt.

Je näher es 6 Uhr ist, desto länger dauert es, bis Sie nach Hause kommen. Ihr Computer erkennt möglicherweise einige Beziehungen zu Ihren gekennzeichneten Daten.

Funktionsweise des überwachten maschinellen Lernens
Funktionsweise des überwachten maschinellen Lernens

Dies ist der Beginn Ihres Datenmodells. Es beginnt sich darauf auszuwirken, wie sich Regen auf die Art und Weise auswirkt, wie Menschen fahren. Es zeigt sich auch, dass mehr Menschen zu einer bestimmten Tageszeit reisen.

Arten von überwachten Algorithmen für maschinelles Lernen

Following sind die Arten von überwachten maschinellen Lernalgorithmen:

Regression

Die Regressionstechnik sagt einen einzelnen Ausgabewert anhand von Trainingsdaten voraus.

Beispiel: Mithilfe der Regression können Sie den Hauspreis anhand von Trainingsdaten vorhersagen. Die Eingabevariablen sind Ort, Größe eines Hauses usw.

Stärken: Ausgaben haben immer eine probabilistische Interpretation, und der Algorithmus kann reguliert werden, um eine Überanpassung zu vermeiden.

Schwächen: Die logistische Regression ist möglicherweise leistungsschwach, wenn mehrere oder nichtlineare Entscheidungsgrenzen vorhanden sind. Diese Methode ist nicht flexibel und erfasst daher keine weiteren Datenplex Beziehungen.

Logistische Regression:

Logistische Regressionsmethode zur Schätzung diskreter Werte auf der Grundlage einer Reihe unabhängiger Variablen. Es hilft Ihnen, die Eintrittswahrscheinlichkeit eines Ereignisses vorherzusagen, indem es Daten an eine Logit-Funktion anpasst. Daher wird sie auch als logistische Regression bezeichnet. Da es die Wahrscheinlichkeit vorhersagt, liegt sein Ausgabewert zwischen 0 und 1.

Hier sind einige Arten von Regressionsalgorithmen

Klassifikation

Klassifizierung bedeutet, die Ausgabe innerhalb einer Klasse zu gruppieren. Wenn der Algorithmus versucht, Eingaben in zwei verschiedene Klassen einzuteilen, spricht man von binärer Klassifizierung. Die Auswahl zwischen mehr als zwei Klassen wird als Multiklassenklassifizierung bezeichnet.

Beispiel: Feststellung, ob jemand mit dem Kredit in Verzug gerät oder nicht.

Stärken: Der Klassifizierungsbaum funktioniert in der Praxis sehr gut

Schwächen: Unbeschränkt, einzelne Bäume neigen zur Überanpassung.

Hier sind einige Arten von Klassifizierungsalgorithmen

Naive Bayes-Klassifikatoren

Das Naive Bayes'sche Modell (NBN) ist einfach zu erstellen und für große Datensätze sehr nützlich. Diese Methode besteht aus direkten azyklischen Graphen mit einem Elternteil und mehreren Kindern. Es setzt Unabhängigkeit zwischen untergeordneten Knoten voraus, die von ihren übergeordneten Knoten getrennt sind.

Entscheidungsbäume

Entscheidungsbäume klassifizieren Instanzen, indem sie sie basierend auf dem Merkmalswert sortieren. Bei dieser Methode ist jeder Modus das Merkmal einer Instanz. Es sollte klassifiziert werden und jeder Zweig stellt einen Wert dar, den der Knoten annehmen kann. Es handelt sich um eine weit verbreitete Klassifizierungstechnik. Bei dieser Methode handelt es sich bei der Klassifizierung um einen Baum, der als Entscheidungsbaum bezeichnet wird.

Es hilft Ihnen, reale Werte abzuschätzen (Kosten für den Autokauf, Anzahl der Anrufe, monatlicher Gesamtumsatz usw.).

Unterstützung Vektor Maschine

Support Vector Machine (SVM) ist eine Art Lernalgorithmus, der 1990 entwickelt wurde. Diese Methode basiert auf Ergebnissen der von Vap Nik eingeführten statistischen Lerntheorie.

SVM-Maschinen sind außerdem eng mit Kernelfunktionen verbunden, was ein zentrales Konzept für die meisten Lernaufgaben darstellt. Das Kernel-Framework und die SVM werden in verschiedenen Bereichen eingesetzt. Es umfasst Multimedia-Informationsabruf, Bioinformatik und Mustererkennung.

Überwachte vs. unbeaufsichtigte Techniken des maschinellen Lernens

Beyogen auf Überwachte maschinelle Lerntechnik Unbeaufsichtigte maschinelle Lerntechnik
Eingabedaten Algorithmen werden anhand gekennzeichneter Daten trainiert. Algorithmen werden für Daten verwendet, die nicht gekennzeichnet sind
Computational Complexity Überwachtes Lernen ist eine einfachere Methode. Unüberwachtes Lernen ist rechnerisch kompliziertplex
Genauigkeit Sehr genaue und vertrauenswürdige Methode. Weniger genaue und vertrauenswürdige Methode.

Herausforderungen beim überwachten maschinellen Lernen

Hier sind die Herausforderungen beim überwachten maschinellen Lernen:

  • Irrelevante Eingabefunktionen vorhandener Trainingsdaten könnten zu ungenauen Ergebnissen führen
  • Die Datenaufbereitung und -vorverarbeitung ist immer eine Herausforderung.
  • Die Genauigkeit leidet, wenn unmögliche, unwahrscheinliche und unvollständige Werte als Trainingsdaten eingegeben wurden
  • Wenn der betreffende Experte nicht verfügbar ist, ist die andere Vorgehensweise „Brute Force“. Das bedeutet, dass Sie über die richtigen Funktionen (Eingabevariablen) nachdenken müssen, mit denen Sie die Maschine trainieren können. Es könnte ungenau sein.

Vorteile des überwachten Lernens

Hier sind die Vorteile des überwachten maschinellen Lernens:

  • Betreutes Lernen in Maschinelles lernen ermöglicht es Ihnen, Daten zu sammeln oder eine Datenausgabe aus der vorherigen Erfahrung zu erstellen
  • Hilft Ihnen, Leistungskriterien mithilfe von Erfahrung zu optimieren
  • Überwachtes maschinelles Lernen hilft Ihnen, verschiedene Arten realer Rechenprobleme zu lösen.

Nachteile des überwachten Lernens

Nachfolgend sind die Nachteile des überwachten maschinellen Lernens aufgeführt:

  • Die Entscheidungsgrenze ist möglicherweise übertrainiert, wenn Ihr Trainingssatz keine Beispiele enthält, die Sie in einer Klasse haben möchten
  • Sie müssen viele gute Beispiele aus jeder Klasse auswählen, während Sie den Klassifikator trainieren.
  • Klassifizierung große Datenmengen kann eine echte Herausforderung sein.
  • Das Training für überwachtes Lernen erfordert viel Rechenzeit.

Best Practices für überwachtes Lernen

  • Bevor Sie etwas anderes tun, müssen Sie entscheiden, welche Art von Daten als Trainingssatz verwendet werden soll
  • Sie müssen die Struktur der erlernten Funktion und des Lernalgorithmus festlegen.
  • Sammeln Sie entsprechende Ergebnisse entweder von menschlichen Experten oder aus Messungen

Zusammenfassung

  • Bei überwachten Lernalgorithmen trainieren Sie die Maschine mithilfe von Daten, die gut „beschriftet“ sind.
  • Sie möchten eine Maschine trainieren, die Ihnen dabei hilft, vorherzusagen, wie lange Sie brauchen werden, um von Ihrem Arbeitsplatz nach Hause zu fahren. Dies ist ein Beispiel für überwachtes Lernen.
  • Regression und Klassifizierung sind zwei Dimensionen eines überwachten maschinellen Lernalgorithmus.
  • Überwachtes Lernen ist eine einfachere Methode, während unbeaufsichtigtes Lernen eine einfachere Methode istplex Methode.
  • Die größte Herausforderung beim überwachten Lernen besteht darin, dass irrelevante Eingabefunktionen der vorhandenen Trainingsdaten zu ungenauen Ergebnissen führen können.
  • Der Hauptvorteil des überwachten Lernens besteht darin, dass Sie Daten sammeln oder eine Datenausgabe aus der vorherigen Erfahrung erstellen können.
  • Der Nachteil dieses Modells besteht darin, dass die Entscheidungsgrenze möglicherweise überbeansprucht wird, wenn Ihr Trainingssatz keine Beispiele enthält, die Sie in einer Klasse haben möchten.
  • Als bewährte Methode zum Überwachen des Lernens müssen Sie zunächst entscheiden, welche Art von Daten als Trainingssatz verwendet werden soll.