Verwirrungsmatrix im maschinellen Lernen mit BEISPIEL

Was ist eine Verwirrungsmatrix?

Eine Verwirrungsmatrix ist eine Leistungsmesstechnik für die Klassifizierung maschinellen Lernens. Dabei handelt es sich um eine Art Tabelle, die Ihnen hilft, die Leistung des Klassifizierungsmodells anhand einer Reihe von Testdaten zu ermitteln, damit die wahren Werte bekannt sind. Der Begriff Verwirrungsmatrix selbst ist sehr einfach, die zugehörige Terminologie kann jedoch etwas verwirrend sein. Hier wird eine einfache Erklärung für diese Technik gegeben.

Vier Ergebnisse der Verwirrungsmatrix

Die Konfusionsmatrix visualisiert die Genauigkeit eines Klassifikators durch Vergleich der tatsächlichen und der vorhergesagten Klassen. Die binäre Konfusionsmatrix besteht aus Quadraten:

Verwirrungstabelle
Verwirrungstabelle
  • TP: Richtig positiv: Vorhergesagte Werte werden korrekt als tatsächlich positiv vorhergesagt
  • FP: Die vorhergesagten Werte haben fälschlicherweise ein tatsächlich positives Ergebnis vorhergesagt. Das heißt, negative Werte werden als positiv vorhergesagt
  • FN: Falsch negativ: Positive Werte werden als negativ vorhergesagt
  • TN: True Negative: Vorhergesagte Werte werden korrekt als tatsächliches Negativ vorhergesagt

Sie können das berechnen Genauigkeitstest aus der Verwirrungsmatrix:

Vier Ergebnisse der Verwirrungsmatrix

Beispiel einer Verwirrungsmatrix

Confusion Matrix ist eine nützliche Methode des maschinellen Lernens, mit der Sie Rückruf, Präzision, Genauigkeit und AUC-ROC-Kurve messen können. Nachfolgend finden Sie ein Beispiel zur Kenntnis der Begriffe „True Positive“, „True Negative“, „False Negative“ und „True Negative“.

Richtig positiv:

Sie haben etwas Positives projiziert und es hat sich als wahr herausgestellt. Sie hatten zum Beispiel vorausgesagt, dass Frankreich die Weltmeisterschaft gewinnen würde, und es hat gewonnen.

True Negative:

Wenn Sie negativ vorhergesagt haben, und es ist wahr. Sie hatten vorausgesagt, dass England nicht gewinnen würde, und es verlor.

Falsch positiv:

Ihre Vorhersage ist positiv und falsch.

Sie hatten vorhergesagt, dass England gewinnen würde, aber es hat verloren.

Falsch negativ:

Ihre Vorhersage ist negativ und das Ergebnis ist auch falsch.

Sie hatten vorhergesagt, dass Frankreich nicht gewinnen würde, aber es hat gewonnen.

Sie sollten bedenken, dass wir vorhergesagte Werte entweder als wahr oder falsch oder als positiv und negativ beschreiben.

So berechnen Sie eine Verwirrungsmatrix

Hier finden Sie einen schrittweisen Prozess zur Berechnung einer Verwirrungsmatrix Data Mining

  • Schritt 1) ​​Zuerst müssen Sie den Datensatz mit seinen erwarteten Ergebniswerten testen.
  • Schritt 2) Sagen Sie alle Zeilen im Testdatensatz voraus.
  • Schritt 3) Berechnen Sie die erwarteten Vorhersagen und Ergebnisse:
  1. Die Summe der richtigen Vorhersagen jeder Klasse.
  2. Die Summe der falschen Vorhersagen jeder Klasse.

Danach werden diese Zahlen nach den unten angegebenen Methoden organisiert:

  • Jede Zeile der Matrix ist mit einer vorhergesagten Klasse verknüpft.
  • Jede Spalte der Matrix entspricht einer tatsächlichen Klasse.
  • Die Gesamtzahl der richtigen und falschen Klassifizierungen wird in die Tabelle eingetragen.
  • Die Summe der korrekten Vorhersagen für eine Klasse wird in die Spalte „Vorhergesagt“ und die Zeile „Erwartet“ für diesen Klassenwert eingefügt.
  • Die Summe der falschen Vorhersagen für eine Klasse geht in die erwartete Zeile für diesen Klassenwert und in die vorhergesagte Spalte für diesen bestimmten Klassenwert ein.

Andere wichtige Begriffe unter Verwendung einer Verwirrungsmatrix

  • Positiver Vorhersagewert (PVV): Das kommt der Präzision sehr nahe. Ein wesentlicher Unterschied zwischen den beiden Begriffen besteht darin, dass PVV die Prävalenz berücksichtigt. Wenn die Klassen perfekt ausbalanciert sind, ist der positive Vorhersagewert dasselbe wie die Präzision.
  • Nullfehlerrate: Dieser Begriff wird verwendet, um zu definieren, wie oft Ihre Vorhersage falsch wäre, wenn Sie die Mehrheitsklasse vorhersagen könnten. Sie können es als Basismetrik für den Vergleich Ihres Klassifikators betrachten.
  • F-Score: Der F1-Score ist ein gewichteter Durchschnittswert des wahren Positivs (Erinnerung) und der Präzision.
  • Roc-Kurve: Die Roc-Kurve zeigt die Richtig-Positiv-Rate im Vergleich zur Falsch-Positiv-Rate an verschiedenen Schnittpunkten. Es zeigt auch einen Kompromiss zwischen Sensitivität (Erinnerung und Spezifität oder der wahren Negativrate).
  • Präzision: Die Präzisionsmetrik zeigt die Genauigkeit der positiven Klasse. Es misst, wie wahrscheinlich die Vorhersage der positiven Klasse richtig ist.

Weitere wichtige Begriffe mithilfe einer Verwirrungsmatrix

Die maximale Punktzahl beträgt 1, wenn der Klassifikator alle positiven Werte perfekt klassifiziert. Präzision allein ist nicht sehr hilfreich, da sie die negative Klasse ignoriert. Die Metrik wird normalerweise mit der Recall-Metrik gepaart. Der Rückruf wird auch Sensitivität oder echte positive Rate genannt.

  • Sensitivität: Die Empfindlichkeit berechnet das Verhältnis der korrekt erkannten positiven Klassen. Diese Metrik gibt an, wie gut das Modell eine positive Klasse erkennen kann.

Weitere wichtige Begriffe mithilfe einer Verwirrungsmatrix

Warum brauchen Sie eine Verwirrungsmatrix?

Hier sind die Vor- und Vorteile der Verwendung einer Verwirrungsmatrix.

  • Es zeigt, wie verwirrt jedes Klassifizierungsmodell ist, wenn es Vorhersagen trifft.
  • Die Verwirrungsmatrix gibt Ihnen nicht nur Einblick in die Fehler, die Ihr Klassifikator macht, sondern auch in die Art der Fehler, die gemacht werden.
  • Diese Aufschlüsselung hilft Ihnen dabei, die Einschränkungen zu überwinden, die durch die alleinige Verwendung der Klassifizierungsgenauigkeit entstehen.
  • Jede Spalte der Verwirrungsmatrix repräsentiert die Instanzen dieser vorhergesagten Klasse.
  • Jede Zeile der Verwirrungsmatrix repräsentiert die Instanzen der tatsächlichen Klasse.
  • Es bietet nicht nur Einblick in die Fehler, die ein Klassifikator macht, sondern auch in die Fehler, die gemacht werden.

Fassen Sie diesen Beitrag mit folgenden Worten zusammen: