Tutorial zum maschinellen Lernen für Anfänger: Was ist, Grundlagen von ML
Was ist maschinelles Lernen?
Maschinelles lernen ist ein System von Computeralgorithmen, das durch Selbstverbesserung aus Beispielen lernen kann, ohne explizit von einem Programmierer programmiert zu werden. Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz, der Daten mit statistischen Werkzeugen kombiniert, um ein Ergebnis vorherzusagen, das zur Gewinnung umsetzbarer Erkenntnisse verwendet werden kann.
Der Durchbruch geht auf die Idee zurück, dass eine Maschine einzeln aus den Daten (z. B. Beispielen) lernen kann, um genaue Ergebnisse zu erzielen. Maschinelles Lernen ist eng mit Data Mining und Bayes'scher Vorhersagemodellierung verbunden. Die Maschine empfängt Daten als Eingabe und verwendet einen Algorithmus, um Antworten zu formulieren.
Eine typische Aufgabe des maschinellen Lernens besteht darin, eine Empfehlung abzugeben. Für diejenigen, die eine haben Netflix Alle Empfehlungen von Filmen oder Serien basieren auf den historischen Daten des Benutzers. Tech-Unternehmen nutzen unbeaufsichtigtes Lernen um das Benutzererlebnis durch personalisierte Empfehlungen zu verbessern.
Maschinelles Lernen wird auch für eine Vielzahl von Aufgaben wie Betrugserkennung, vorausschauende Wartung, Portfoliooptimierung, Automatisierung von Aufgaben usw. eingesetzt.
Maschinelles Lernen vs. traditionelle Programmierung
Traditionelle Programmierung unterscheidet sich erheblich vom maschinellen Lernen. Bei der traditionellen Programmierung codiert ein Programmierer alle Regeln in Absprache mit einem Experten der Branche, für die die Software entwickelt wird. Jede Regel basiert auf einer logischen Grundlage; die Maschine führt eine Ausgabe aus, die der logischen Anweisung folgt. Wenn das System komplexer wird, müssen weitere Regeln geschrieben werden. Die Wartung kann schnell unhaltbar werden.
Maschinelles Lernen soll dieses Problem lösen. Die Maschine lernt, wie die Eingabe- und Ausgabedaten korreliert sind, und schreibt eine Regel. Die Programmierer müssen nicht jedes Mal neue Regeln schreiben, wenn neue Daten vorliegen. Die Algorithmen passen sich als Reaktion auf neue Daten und Erfahrungen an, um ihre Wirksamkeit mit der Zeit zu verbessern.
Wie funktioniert maschinelles Lernen?
In diesem Tutorial zu den Grundlagen des maschinellen Lernens für Anfänger erfahren wir nun, wie maschinelles Lernen (ML) funktioniert:
Maschinelles Lernen ist das Gehirn, in dem alles Lernen stattfindet. Die Art und Weise, wie die Maschine lernt, ähnelt der des Menschen. Der Mensch lernt aus Erfahrung. Je mehr wir wissen, desto einfacher können wir Vorhersagen treffen. Analog dazu ist die Erfolgsaussicht bei einer unbekannten Situation geringer als bei einer bekannten Situation. Maschinen werden gleich trainiert. Um eine genaue Vorhersage zu treffen, sieht die Maschine ein Beispiel. Wenn wir der Maschine ein ähnliches Beispiel geben, kann sie das Ergebnis herausfinden. Allerdings kann die Maschine wie ein Mensch nur schwer vorhersagen, ob sie ein bisher unbekanntes Beispiel füttert.
Das Kernziel des maschinellen Lernens ist die lernen und Inferenz. Zunächst einmal lernt die Maschine durch die Entdeckung von Mustern. Diese Entdeckung ist dem zu verdanken die Datenerfassung. Eine entscheidende Aufgabe des Datenwissenschaftlers besteht darin, sorgfältig auszuwählen, welche Daten der Maschine bereitgestellt werden sollen. Die Liste der Attribute, die zur Lösung eines Problems verwendet werden, wird als a bezeichnet Merkmalsvektor. Sie können sich einen Merkmalsvektor als eine Teilmenge von Daten vorstellen, die zur Lösung eines Problems verwendet wird.
Die Maschine verwendet einige ausgefeilte Algorithmen, um die Realität zu vereinfachen und diese Entdeckung in ein Modell. Daher wird die Lernphase verwendet, um die Daten zu beschreiben und in einem Modell zusammenzufassen.
Die Maschine versucht zum Beispiel, den Zusammenhang zwischen dem Lohn einer Person und der Wahrscheinlichkeit, in ein schickes Restaurant zu gehen, zu verstehen. Es stellt sich heraus, dass die Maschine einen positiven Zusammenhang zwischen dem Lohn und dem Besuch eines Spitzenrestaurants findet: Das ist das Modell
Ableiten
Wenn das Modell erstellt ist, ist es möglich, anhand noch nie dagewesener Daten zu testen, wie leistungsfähig es ist. Die neuen Daten werden in einen Merkmalsvektor umgewandelt, durchlaufen das Modell und geben eine Vorhersage. Das ist der schöne Teil des maschinellen Lernens. Es besteht keine Notwendigkeit, die Regeln zu aktualisieren oder das Modell erneut zu trainieren. Sie können das zuvor trainierte Modell verwenden, um Rückschlüsse auf neue Daten zu ziehen.
Der Lebenszyklus von Machine-Learning-Programmen ist unkompliziert und kann in den folgenden Punkten zusammengefasst werden:
- Definiere eine Frage
- Daten sammeln
- Daten visualisieren
- Trainieren Sie den Algorithmus
- Testen Sie den Algorithmus
- Sammeln Sie Feedback
- Verfeinern Sie den Algorithmus
- Machen Sie eine Schleife von 4 bis 7, bis die Ergebnisse zufriedenstellend sind
- Verwenden Sie das Modell, um eine Vorhersage zu treffen
Sobald der Algorithmus die richtigen Schlussfolgerungen ziehen kann, wendet er dieses Wissen auf neue Datensätze an.
Maschinelles lernen Algorithms und wo werden sie verwendet?
Jetzt erfahren wir in diesem Machine-Learning-Tutorial für Anfänger, wo Machine-Learning-Algorithmen (ML) verwendet werden:
Maschinelles Lernen kann in zwei große Lernaufgaben unterteilt werden: Überwachtes und Unüberwachtes. Es gibt viele andere Algorithmen
Überwachtes Lernen
Ein Algorithmus nutzt Trainingsdaten und Feedback von Menschen, um die Beziehung zwischen gegebenen Eingaben und einer gegebenen Ausgabe zu lernen. Ein Praktiker kann beispielsweise Marketingausgaben und Wettervorhersagen als Eingabedaten verwenden, um den Verkauf von Dosen vorherzusagen.
Sie können überwachtes Lernen verwenden, wenn die Ausgabedaten bekannt sind. Der Algorithmus wird neue Daten vorhersagen.
Es gibt zwei Kategorien von überwachtes Lernen:
- Klassifizierungsaufgabe
- Regressionsaufgabe
Klassifikation
Stellen Sie sich vor, Sie möchten das Geschlecht eines Kunden für einen Werbespot vorhersagen. Sie beginnen mit der Erfassung von Daten zu Größe, Gewicht, Beruf, Gehalt, Einkaufskorb usw. aus Ihrer Kundendatenbank. Sie kennen das Geschlecht jedes Ihrer Kunden, es kann nur männlich oder weiblich sein. Das Ziel des Klassifikators besteht darin, basierend auf den Informationen (dh den von Ihnen gesammelten Merkmalen) eine Wahrscheinlichkeit zuzuordnen, ob es sich um einen Mann oder eine Frau handelt (d. h. die Bezeichnung). Wenn das Modell gelernt hat, Männer und Frauen zu erkennen, können Sie anhand der neuen Daten eine Vorhersage treffen. Sie haben beispielsweise gerade neue Informationen von einem unbekannten Kunden erhalten und möchten wissen, ob es sich um einen Mann oder eine Frau handelt. Wenn der Klassifikator männlich = 70 % vorhersagt, bedeutet dies, dass der Algorithmus zu 70 % sicher ist, dass es sich bei diesem Kunden um einen Mann und zu 30 % um eine Frau handelt.
Das Etikett kann aus zwei oder mehr Klassen bestehen. Das obige Beispiel für maschinelles Lernen hat nur zwei Klassen, aber wenn ein Klassifikator ein Objekt vorhersagen muss, hat er Dutzende von Klassen (z. B. Glas, Tisch, Schuhe usw., jedes Objekt stellt eine Klasse dar).
Regression
Wenn die Ausgabe ein kontinuierlicher Wert ist, ist die Aufgabe eine Regression. Beispielsweise muss ein Finanzanalyst möglicherweise den Wert einer Aktie auf der Grundlage einer Reihe von Merkmalen wie Eigenkapital, frühere Aktienperformances und makroökonomischer Index vorhersagen. Das System wird darauf trainiert, den Preis der Aktien mit dem geringstmöglichen Fehler zu schätzen.
Algorithmus | Beschreibung | Typ |
---|---|---|
Lineare Regression | Findet eine Möglichkeit, jedes Feature mit der Ausgabe zu korrelieren, um zukünftige Werte vorherzusagen. | Regression |
Logistische Regression | Erweiterung der linearen Regression, die für Klassifizierungsaufgaben verwendet wird. Die Ausgabevariable 3 ist binär (z. B. nur Schwarz oder Weiß) und nicht kontinuierlich (z. B. eine unendliche Liste möglicher Farben). | Klassifikation |
Entscheidungsbaum | Hochinterpretierbares Klassifizierungs- oder Regressionsmodell, das Datenmerkmalswerte an Entscheidungsknoten in Zweige aufteilt (z. B. wenn es sich bei einem Merkmal um eine Farbe handelt, wird jede mögliche Farbe zu einem neuen Zweig), bis eine endgültige Entscheidungsausgabe erfolgt | Regression Klassifikation |
Naiver Bayes | Die Bayes'sche Methode ist eine Klassifizierungsmethode, die den Bayes'schen Satz nutzt. Der Satz aktualisiert das Vorwissen über ein Ereignis mit der unabhängigen Wahrscheinlichkeit jedes Merkmals, das das Ereignis beeinflussen kann. | Regression Klassifikation |
Unterstützung vektor maschine |
Für die Klassifizierungsaufgabe wird typischerweise Support Vector Machine (SVM) verwendet. Der SVM-Algorithmus findet eine Hyperebene, die die Klassen optimal aufteilt. Es wird am besten mit einem nichtlinearen Löser verwendet. |
Rückbildung (nicht sehr häufig) Klassifikation |
Zufälliger Wald | Der Algorithmus basiert auf einem Entscheidungsbaum, um die Genauigkeit drastisch zu verbessern. Random Forest generiert viele einfache Entscheidungsbäume und verwendet die Methode der „Mehrheitsabstimmung“, um zu entscheiden, welche Bezeichnung zurückgegeben werden soll. Für die Klassifizierungsaufgabe ist die endgültige Vorhersage diejenige mit den meisten Stimmen. Für die Regressionsaufgabe hingegen ist die durchschnittliche Vorhersage aller Bäume die endgültige Vorhersage. | Regression Klassifikation |
AdaBoost | Klassifizierungs- oder Regressionstechnik, die eine Vielzahl von Modellen verwendet, um eine Entscheidung zu treffen, diese jedoch anhand ihrer Genauigkeit bei der Vorhersage des Ergebnisses gewichtet | Regression Klassifikation |
Steigungssteigernde Bäume | Gradient-Boosting Trees ist eine hochmoderne Klassifizierungs-/Regressionstechnik. Es konzentriert sich auf den von den vorherigen Bäumen begangenen Fehler und versucht, ihn zu korrigieren. | Regression Klassifikation |
Unbeaufsichtigtes Lernen
Beim unüberwachten Lernen untersucht ein Algorithmus Eingabedaten, ohne dass ihm eine explizite Ausgabevariable gegeben wird (z. B. untersucht er demografische Kundendaten, um Muster zu identifizieren).
Sie können es verwenden, wenn Sie nicht wissen, wie Sie die Daten klassifizieren sollen, und möchten, dass der Algorithmus Muster findet und die Daten für Sie klassifiziert
Name des Algorithmus | Beschreibung | Typ |
---|---|---|
K-bedeutet Clustering | Ordnet Daten einigen Gruppen (k) zu, die jeweils Daten mit ähnlichen Eigenschaften enthalten (wie durch das Modell bestimmt, nicht im Voraus durch Menschen) | ClusterIng. |
Gaußsches Mischungsmodell | Eine Verallgemeinerung des K-Means-Clusterings, die mehr Flexibilität bei der Größe und Form von Gruppen (Clustern) bietet | ClusterIng. |
Hierarchisches Clustering | Teilt Cluster entlang eines hierarchischen Baums auf, um ein Klassifizierungssystem zu bilden.
Einsetzbar für Cluster Kunde mit Treuekarte |
ClusterIng. |
Empfehlungssystem | Helfen Sie dabei, die relevanten Daten für die Abgabe einer Empfehlung zu definieren. | ClusterIng. |
PCA/T-SNE | Wird hauptsächlich verwendet, um die Dimensionalität der Daten zu verringern. Die Algorithmen reduzieren die Anzahl der Merkmale auf 3 oder 4 Vektoren mit den höchsten Varianzen. | Dimensionsreduzierung |
So wählen Sie einen Algorithmus für maschinelles Lernen aus
In diesem Tutorial zu den Grundlagen des maschinellen Lernens lernen wir nun, wie man den Algorithmus für maschinelles Lernen (ML) auswählt:
Es gibt eine Vielzahl von Algorithmen für maschinelles Lernen. Die Wahl des Algorithmus richtet sich nach der Zielsetzung.
Im folgenden Beispiel für maschinelles Lernen besteht die Aufgabe darin, die Blumenart unter den drei Sorten vorherzusagen. Die Vorhersagen basieren auf der Länge und Breite des Blütenblatts. Das Bild zeigt die Ergebnisse von zehn verschiedenen Algorithmen. Das Bild oben links ist der Datensatz. Die Daten sind in drei Kategorien eingeteilt: Rot, Hellblau und Dunkelblau. Es gibt einige Gruppierungen. Beispielsweise gehört im zweiten Bild oben links alles zur Kategorie Rot, im mittleren Teil gibt es eine Mischung aus Unsicherheit und Hellblau, während der untere Teil der Kategorie Dunkel entspricht. Die anderen Bilder zeigen verschiedene Algorithmen und wie sie versuchen, die Daten zu klassifizieren.
Herausforderungen und Grenzen des maschinellen Lernens
In diesem Tutorial zum maschinellen Lernen erfahren wir nun mehr über die Einschränkungen des maschinellen Lernens:
Die größte Herausforderung beim maschinellen Lernen ist der Mangel an Daten oder die Vielfalt im Datensatz. Eine Maschine kann nicht lernen, wenn keine Daten verfügbar sind. Außerdem macht ein Datensatz mit mangelnder Diversität der Maschine zu schaffen. Eine Maschine muss über Heterogenität verfügen, um aussagekräftige Erkenntnisse zu gewinnen. Es kommt selten vor, dass ein Algorithmus Informationen extrahieren kann, wenn es keine oder nur wenige Variationen gibt. Es wird empfohlen, mindestens 20 Beobachtungen pro Gruppe durchzuführen, um das maschinelle Lernen zu unterstützen. Diese Einschränkung führt zu einer schlechten Bewertung und Vorhersage.
Anwendung von maschinellem Lernen
In diesem Tutorial zum maschinellen Lernen lernen wir nun die Anwendungen des maschinellen Lernens kennen:
Augmentation:
- Maschinelles Lernen, das Menschen bei ihren alltäglichen Aufgaben unterstützt, sei es privat oder kommerziell, ohne die vollständige Kontrolle über die Ergebnisse zu haben. Dieses maschinelle Lernen wird auf unterschiedliche Weise eingesetzt, beispielsweise als virtueller Assistent, Datenanalyse und Softwarelösungen. Der Hauptnutzer besteht darin, Fehler aufgrund menschlicher Voreingenommenheit zu reduzieren.
Automation:
- Maschinelles Lernen, das in jedem Bereich völlig autonom funktioniert, ohne dass ein menschliches Eingreifen erforderlich ist. Zum Beispiel Roboter, die in Produktionsanlagen die wesentlichen Prozessschritte durchführen.
Finanzindustrie
- Maschinelles Lernen erfreut sich in der Finanzbranche wachsender Beliebtheit. Banken nutzen ML vor allem, um Muster in den Daten zu finden, aber auch, um Betrug zu verhindern.
Regierungsorganisation
- Die Regierung nutzt ML, um die öffentliche Sicherheit und Versorgungseinrichtungen zu verwalten. Nehmen Sie das Beispiel China mit der massiven Gesichtserkennung. Die Regierung nutzt Künstliche Intelligenz um Jaywalker zu verhindern.
Gesundheitsindustrie
- Das Gesundheitswesen war eine der ersten Branchen, die maschinelles Lernen mit Bilderkennung einsetzte.
Marketing
- Dank des umfassenden Zugriffs auf Daten wird KI im Marketing umfassend eingesetzt. Vor dem Zeitalter der Massendaten entwickelten Forscher fortschrittliche mathematische Werkzeuge wie die Bayes'sche Analyse, um den Wert eines Kunden abzuschätzen. Angesichts des Datenbooms verlässt sich die Marketingabteilung auf KI, um die Kundenbeziehung und Marketingkampagnen zu optimieren.
Beispiel für die Anwendung von maschinellem Lernen in der Lieferkette
Maschinelles Lernen liefert hervorragende Ergebnisse bei der visuellen Mustererkennung und eröffnet viele potenzielle Anwendungen bei der physischen Inspektion und Wartung im gesamten Lieferkettennetzwerk.
Unüberwachtes Lernen kann schnell nach vergleichbaren Mustern im vielfältigen Datensatz suchen. Im Gegenzug kann die Maschine eine Qualitätsprüfung im gesamten Logistikzentrum sowie den Versand auf Beschädigungen und Verschleiß durchführen.
Zum Beispiel IBMMit der Watson-Plattform kann der Schaden von Schiffscontainern ermittelt werden. Watson kombiniert visuelle und systembasierte Daten, um in Echtzeit zu verfolgen, Berichte zu erstellen und Empfehlungen abzugeben.
Im vergangenen Jahr verließ sich der Lagerverwalter weitgehend auf die primäre Methode zur Bewertung und Prognose des Lagerbestands. Durch die Kombination von Big Data und maschinellem Lernen wurden bessere Prognosetechniken implementiert (eine Verbesserung von 20 bis 30 % gegenüber herkömmlichen Prognosetools). Bezogen auf den Umsatz bedeutet dies eine Steigerung von 2 bis 3 % aufgrund der möglichen Reduzierung der Lagerkosten.
Beispiel für maschinelles Lernen bei Google Car
Jeder kennt zum Beispiel das Google-Auto. Das Auto ist voller Laser auf dem Dach, die ihm anzeigen, wo es sich in Bezug auf die Umgebung befindet. Es verfügt über ein Radar an der Vorderseite, das das Auto über die Geschwindigkeit und Bewegung aller Autos in seiner Umgebung informiert. Es nutzt all diese Daten, um nicht nur herauszufinden, wie man das Auto fährt, sondern auch, um herauszufinden und vorherzusagen, was potenzielle Fahrer in der Nähe des Autos tun werden. Beeindruckend ist, dass das Auto fast ein Gigabyte pro Sekunde an Daten verarbeitet.
Warum ist maschinelles Lernen wichtig?
Maschinelles Lernen ist bisher das beste Werkzeug, um ein Muster in den Daten zu analysieren, zu verstehen und zu identifizieren. Eine der Hauptideen des maschinellen Lernens besteht darin, dass der Computer trainiert werden kann, Aufgaben zu automatisieren, die für einen Menschen erschöpfend oder unmöglich wären. Der klare Verstoß gegen die traditionelle Analyse besteht darin, dass maschinelles Lernen Entscheidungen mit minimalem menschlichen Eingriff treffen kann.
Nehmen Sie für dieses ML-Tutorial das folgende Beispiel: Ein Einzelhandelsmakler kann den Preis eines Hauses auf der Grundlage seiner eigenen Erfahrung und seiner Marktkenntnisse schätzen.
Eine Maschine kann darauf trainiert werden, das Wissen eines Experten in Funktionen umzusetzen. Bei den Merkmalen handelt es sich um alle Merkmale eines Hauses, einer Nachbarschaft, eines wirtschaftlichen Umfelds usw., die den Preisunterschied ausmachen. Für den Experten hat es wahrscheinlich einige Jahre gedauert, bis er die Kunst beherrschte, den Preis eines Hauses zu schätzen. Sein Fachwissen wird mit jedem Verkauf besser und besser.
Damit die Maschine diese Kunst beherrscht, sind Millionen von Daten (z. B. Daten) erforderlich. Gleich zu Beginn des Lernens macht die Maschine einen Fehler, ähnlich wie der junge Verkäufer. Sobald die Maschine alle Beispiele sieht, verfügt sie über genügend Wissen, um ihre Schätzung vorzunehmen. Gleichzeitig mit unglaublicher Genauigkeit. Die Maschine ist auch in der Lage, ihren Fehler entsprechend anzupassen.
Die meisten großen Unternehmen haben den Wert des maschinellen Lernens und der Speicherung von Daten erkannt. McKinsey hat geschätzt, dass der Wert von Analysen zwischen $9.5 Billionen bis $15.4 Billionen während $5 bis 7 Billionen können auf die fortschrittlichsten KI-Techniken zurückgeführt werden.
Lesen Sie auch: Was ist Fuzzy Logic? ArchiStruktur, Anwendung und Beispiel: Mehr Info