Verwarringsmatrix in machinaal leren met VOORBEELD

Wat is verwarringsmatrix?

Een verwarringsmatrix is ​​een prestatiemeettechniek voor machine learning-classificatie. Het is een soort tabel die u helpt de prestaties van het classificatiemodel op een reeks testgegevens te kennen, zodat de werkelijke waarden bekend zijn. De term verwarringsmatrix zelf is heel eenvoudig, maar de bijbehorende terminologie kan enigszins verwarrend zijn. Hier wordt een eenvoudige uitleg gegeven voor deze techniek.

Vier uitkomsten van de verwarringsmatrix

De confusion matrix visualiseert de nauwkeurigheid van een classifier door de werkelijke en voorspelde klassen te vergelijken. De binaire confusion matrix bestaat uit vierkanten:

Verwarringstabel
Verwarringstabel
  • TP: True Positive: voorspelde waarden correct voorspeld als feitelijk positief
  • FP: Voorspelde waarden voorspelden ten onrechte een feitelijk positief resultaat. dat wil zeggen, negatieve waarden voorspeld als positief
  • FN: Vals negatief: Positieve waarden voorspeld als negatief
  • TN: True Negative: voorspelde waarden correct voorspeld als feitelijk negatief

Je kunt de nauwkeurigheidstest uit de verwarringsmatrix:

Vier uitkomsten van de verwarringsmatrix

Voorbeeld van verwarringsmatrix

Confusion Matrix is ​​een handige machine learning-methode waarmee u de Recall-, Precision-, Accuracy- en AUC-ROC-curve kunt meten. Hieronder ziet u een voorbeeld om de termen True Positive, True Negative, False Negative en True Negative te leren kennen.

Echt positief:

Je projecteerde positief en het blijkt waar te zijn. U had bijvoorbeeld voorspeld dat Frankrijk het WK zou winnen, en dat land won.

Echt negatief:

Toen je negatief voorspelde, en het is waar. Je had voorspeld dat Engeland niet zou winnen en het verloor.

Vals positief:

Uw voorspelling is positief en onjuist.

Je had voorspeld dat Engeland zou winnen, maar het verloor.

Fout negatief:

Uw voorspelling is negatief en het resultaat is ook onjuist.

U had voorspeld dat Frankrijk niet zou winnen, maar het won.

Houd er rekening mee dat we voorspelde waarden beschrijven als Waar of Onwaar, of Positief en Negatief.

Hoe een verwarringsmatrix te berekenen

Hier vindt u het stapsgewijze proces voor het berekenen van een verwarringsmatrix in datamining

  • Stap 1) Eerst moet u de dataset testen met de verwachte uitkomstwaarden.
  • Stap 2) Voorspel alle rijen in de testgegevensset.
  • Stap 3) Bereken de verwachte voorspellingen en uitkomsten:
  1. Het totaal aan correcte voorspellingen van elke klasse.
  2. Het totaal aan onjuiste voorspellingen van elke klasse.

Daarna worden deze getallen op de onderstaande manieren georganiseerd:

  • Elke rij van de matrix is ​​gekoppeld aan een voorspelde klasse.
  • Elke kolom van de matrix komt overeen met een daadwerkelijke klasse.
  • Het totaal aantal juiste en onjuiste classificaties wordt in de tabel ingevoerd.
  • De som van de juiste voorspellingen voor een klasse gaat naar de voorspelde kolom en de verwachte rij voor die klassewaarde.
  • De som van onjuiste voorspellingen voor een klasse gaat naar de verwachte rij voor die klassewaarde en de voorspelde kolom voor die specifieke klassewaarde.

Andere belangrijke termen die een verwarringsmatrix gebruiken

  • Positieve voorspellende waarde (PVV): Dit komt zeer dicht in de buurt van precisie. Een significant verschil tussen de twee termen is dat de PVV rekening houdt met de prevalentie. In de situatie waarin de klassen perfect in evenwicht zijn, is de positief voorspellende waarde hetzelfde als precisie.
  • Nul-foutpercentage: Deze term wordt gebruikt om te definiëren hoe vaak uw voorspelling fout zou zijn als u de meerderheidsklasse kunt voorspellen. U kunt het beschouwen als een basisstatistiek om uw classificatie te vergelijken.
  • F-score: De F1-score is een gewogen gemiddelde score van het werkelijk positieve (herinnering) en precisie.
  • Roc-curve: De Roc-curve toont de werkelijk positieve cijfers tegenover de vals-positieve cijfers op verschillende verlagingspunten. Het toont ook een wisselwerking aan tussen gevoeligheid (herinnering en specificiteit of het werkelijk negatieve percentage).
  • precisie: De precisiemetriek toont de nauwkeurigheid van de positieve klasse. Het meet hoe waarschijnlijk het is dat de voorspelling van de positieve klasse correct is.

Andere belangrijke termen die een verwarringsmatrix gebruiken

De maximale score is 1 wanneer de classificator alle positieve waarden perfect classificeert. Precisie alleen is niet erg nuttig omdat het de negatieve klasse negeert. De statistiek wordt meestal gecombineerd met de Recall-statistiek. Recall wordt ook wel gevoeligheid of echt positief percentage genoemd.

  • Gevoeligheid: Gevoeligheid berekent de verhouding van de positieve klassen die correct zijn gedetecteerd. Deze maatstaf geeft aan hoe goed het model is om een ​​positieve klasse te herkennen.

Andere belangrijke termen die een verwarringsmatrix gebruiken

Waarom heb je een Verwarringsmatrix nodig?

Hier zijn de voor- en voordelen van het gebruik van een verwarringsmatrix.

  • Het laat zien hoe elk classificatiemodel in de war raakt als het voorspellingen doet.
  • Verwarringsmatrix geeft u niet alleen inzicht in de fouten die door uw classificator worden gemaakt, maar ook in de soorten fouten die worden gemaakt.
  • Deze uitsplitsing helpt u de beperking van het alleen gebruiken van classificatienauwkeurigheid te overwinnen.
  • Elke kolom van de verwarringsmatrix vertegenwoordigt de instanties van die voorspelde klasse.
  • Elke rij van de verwarringsmatrix vertegenwoordigt de instanties van de daadwerkelijke klasse.
  • Het geeft niet alleen inzicht in de fouten die door een classificator worden gemaakt, maar ook in de fouten die worden gemaakt.