Forvirringsmatrix i maskinlæring med EKSEMPEL

Hvad er Confusion Matrix?

En forvirringsmatrix er en præstationsmålingsteknik til maskinlæringsklassificering. Det er en slags tabel, som hjælper dig med at kende klassifikationsmodellens ydeevne på et sæt testdata, for at de sande værdier er kendt. Selve termen forvirringsmatrix er meget enkel, men dens relaterede terminologi kan være lidt forvirrende. Her gives en simpel forklaring på denne teknik.

Fire udfald af forvirringsmatricen

Forvirringsmatricen visualiserer nøjagtigheden af ​​en klassifikator ved at sammenligne de faktiske og forudsagte klasser. Den binære forvekslingsmatrix er sammensat af kvadrater:

Forvirringstabel
Forvirringstabel
  • TP: Sand positiv: Forudsagte værdier korrekt forudsagt som faktisk positive
  • FP: Forudsagte værdier forudsagde forkert en faktisk positiv. dvs. negative værdier forudsagt som positive
  • FN: Falsk Negativ: Positive værdier forudsagt som negative
  • TN: Sand negativ: Forudsagte værdier korrekt forudsagt som en faktisk negativ

Du kan beregne nøjagtighedstest fra forvirringsmatricen:

Fire udfald af forvirringsmatricen

Eksempel på forvirringsmatrix

Confusion Matrix er en nyttig maskinlæringsmetode, som giver dig mulighed for at måle Recall, Precision, Accuracy og AUC-ROC kurve. Nedenfor er givet et eksempel for at kende begreberne Sand Positiv, Sand Negativ, Falsk Negativ og Sand Negativ.

Sandt positivt:

Du projekterede positivt, og det viste sig at være sandt. For eksempel havde du forudsagt, at Frankrig ville vinde verdensmesterskabet, og det vandt.

Sandt negativt:

Når du forudsagde negativt, og det er sandt. Du havde forudsagt, at England ikke ville vinde, og det tabte.

Falsk positiv:

Din forudsigelse er positiv, og den er falsk.

Du havde forudsagt, at England ville vinde, men det tabte.

Falsk negativ:

Din forudsigelse er negativ, og resultatet er også falsk.

Du havde forudsagt, at Frankrig ikke ville vinde, men det vandt.

Du skal huske, at vi beskriver forudsagte værdier som enten Sand eller Falsk eller Positiv og Negativ.

Sådan beregnes en forvirringsmatrix

Her er en trinvis proces til at beregne en forvirringsmatrix i data mining

  • Trin 1) Først skal du teste datasættet med dets forventede udfaldsværdier.
  • Trin 2) Forudsig alle rækkerne i testdatasættet.
  • Trin 3) Beregn de forventede forudsigelser og resultater:
  1. Summen af ​​korrekte forudsigelser for hver klasse.
  2. Summen af ​​forkerte forudsigelser for hver klasse.

Derefter er disse tal organiseret i nedenstående givne metoder:

  • Hver række i matrixen linker til en forudsagt klasse.
  • Hver kolonne i matrixen svarer til en faktisk klasse.
  • Det samlede antal korrekte og forkerte klassificeringer er indtastet i tabellen.
  • Summen af ​​korrekte forudsigelser for en klasse går ind i den forudsagte kolonne og den forventede række for den pågældende klasseværdi.
  • Summen af ​​forkerte forudsigelser for en klasse går ind i den forventede række for den klasseværdi og den forudsagte kolonne for den specifikke klasseværdi.

Andre vigtige vilkår ved hjælp af en forvirringsmatrix

  • Positiv forudsigelig værdi (PVV): Dette er meget tæt på præcision. En væsentlig forskel mellem de to termer er, at PVV overvejer prævalens. I den situation, hvor klasserne er perfekt afbalancerede, er den positive prædiktive værdi det samme som præcision.
  • Nul fejlrate: Dette udtryk bruges til at definere, hvor mange gange din forudsigelse ville være forkert, hvis du kan forudsige majoritetsklassen. Du kan betragte det som en baseline-metrik for at sammenligne din klassificering.
  • F-score: F1-score er en vægtet gennemsnitsscore af den sande positive (genkaldelse) og præcision.
  • Roc-kurve: Roc-kurven viser de sande positive rater mod den falske positive rate ved forskellige skæringspunkter. Det viser også en afvejning mellem sensitivitet (genkaldelse og specificitet eller den sande negative rate).
  • Præcision: Præcisionsmetrikken viser nøjagtigheden af ​​den positive klasse. Det måler, hvor sandsynligt forudsigelsen af ​​den positive klasse er korrekt.

Andre vigtige vilkår ved hjælp af en forvirringsmatrix

Den maksimale score er 1, når klassificereren perfekt klassificerer alle de positive værdier. Præcision alene er ikke særlig nyttig, fordi den ignorerer den negative klasse. Metrikken er normalt parret med Recall-metrikken. Genkaldelse kaldes også følsomhed eller sand positiv rate.

  • Følsomhed: Følsomhed beregner forholdet mellem positive klasser, der detekteres korrekt. Denne metrik viser, hvor god modellen er til at genkende en positiv klasse.

Andre vigtige vilkår ved hjælp af en forvirringsmatrix

Hvorfor har du brug for forvirringsmatrix?

Her er fordele/fordele ved at bruge en forvirringsmatrix.

  • Det viser, hvordan enhver klassifikationsmodel bliver forvirret, når den laver forudsigelser.
  • Forvirringsmatrix giver dig ikke kun indsigt i de fejl, der begås af din klassifikator, men også typer af fejl, der bliver lavet.
  • Denne opdeling hjælper dig med at overvinde begrænsningen ved at bruge klassificeringsnøjagtighed alene.
  • Hver kolonne i forvirringsmatricen repræsenterer forekomsterne af den forudsagte klasse.
  • Hver række i forvirringsmatricen repræsenterer forekomsterne af den faktiske klasse.
  • Det giver indsigt, ikke kun de fejl, der er lavet af en klassifikator, men også fejl, der bliver lavet.