Förvirringsmatris i maskininlärning med EXEMPEL

Vad är Confusion Matrix?

En förvirringsmatris är en prestationsmätningsteknik för klassificering av maskininlärning. Det är en sorts tabell som hjälper dig att känna till klassificeringsmodellens prestanda på en uppsättning testdata för att de sanna värdena är kända. Termen förvirringsmatris i sig är väldigt enkel, men dess relaterade terminologi kan vara lite förvirrande. Här ges en enkel förklaring till denna teknik.

Fyra utfall av förvirringsmatrisen

Förvirringsmatrisen visualiserar noggrannheten hos en klassificerare genom att jämföra de faktiska och förutsagda klasserna. Den binära förväxlingsmatrisen är sammansatt av kvadrater:

Förvirringstabell
Förvirringstabell
  • TP: Sant positiv: Förutspådda värden korrekt förutsagda som faktiska positiva
  • FP: Förutspådda värden förutspådde felaktigt ett verkligt positivt. dvs negativa värden förutspådde som positiva
  • FN: Falskt negativt: Positiva värden förutspådda som negativa
  • TN: True Negative: Förutspådda värden korrekt predikterade som ett verkligt negativt

Du kan beräkna noggrannhetstest från förvirringsmatrisen:

Fyra resultat av förvirringsmatrisen

Exempel på förvirringsmatris

Confusion Matrix är en användbar maskininlärningsmetod som låter dig mäta Recall, Precision, Precision och AUC-ROC-kurvor. Nedan ges ett exempel för att känna till termerna Sant Positivt, Sant negativt, Falskt negativt och Sant negativt.

Sann Positiv:

Du projicerade positivt och det visade sig vara sant. Du hade till exempel förutspått att Frankrike skulle vinna världscupen, och det vann.

Verkligt negativt:

När du förutspådde negativt, och det är sant. Du hade förutspått att England inte skulle vinna och det förlorade.

Falskt positivt:

Din förutsägelse är positiv och den är falsk.

Du hade förutspått att England skulle vinna, men det förlorade.

Falskt negativ:

Din förutsägelse är negativ och resultatet är också falsk.

Du hade förutspått att Frankrike inte skulle vinna, men det vann.

Du bör komma ihåg att vi beskriver förutsagda värden som antingen Sant eller Falskt eller Positivt och Negativt.

Hur man beräknar en förvirringsmatris

Här är en steg-för-steg-process för att beräkna en förvirringsmatris i data mining

  • Steg 1) Först måste du testa dataset med dess förväntade utfallsvärden.
  • Steg 2) Förutsäg alla rader i testdatauppsättningen.
  • Steg 3) Beräkna förväntade förutsägelser och utfall:
  1. Summan av korrekta förutsägelser för varje klass.
  2. Summan av felaktiga förutsägelser för varje klass.

Efter det är dessa siffror organiserade i nedanstående metoder:

  • Varje rad i matrisen länkar till en förutsagd klass.
  • Varje kolumn i matrisen motsvarar en faktisk klass.
  • Det totala antalet korrekta och felaktiga klassificeringar förs in i tabellen.
  • Summan av korrekta förutsägelser för en klass går in i den förväntade kolumnen och förväntade raden för det klassvärdet.
  • Summan av felaktiga förutsägelser för en klass går in i den förväntade raden för det klassvärdet och den förutsagda kolumnen för det specifika klassvärdet.

Andra viktiga termer som använder en förvirringsmatris

  • Positivt prediktivt värde (PVV): Detta är mycket nära precision. En betydande skillnad mellan de två termerna är att PVV tar hänsyn till prevalens. I den situation där klasserna är perfekt balanserade är det positiva prediktiva värdet detsamma som precision.
  • Nollfelfrekvens: Denna term används för att definiera hur många gånger din förutsägelse skulle vara fel om du kan förutsäga majoritetsklassen. Du kan betrakta det som ett baslinjemått för att jämföra din klassificerare.
  • F-poäng: F1-poäng är ett viktat medelvärde för den sanna positiva (återkallelse) och precision.
  • Roc Curve: Roc-kurvan visar de sanna positiva kurserna mot den falska positiva kursen vid olika skärpunkter. Det visar också en avvägning mellan känslighet (återkallelse och specificitet eller den sanna negativa frekvensen).
  • Precision: Precisionsmåttet visar noggrannheten för den positiva klassen. Det mäter hur sannolikt förutsägelsen av den positiva klassen är korrekt.

Andra viktiga termer som använder en förvirringsmatris

Maxpoängen är 1 när klassificeraren klassificerar alla positiva värden perfekt. Precision ensam är inte till stor hjälp eftersom den ignorerar den negativa klassen. Mätvärdet är vanligtvis ihopkopplat med Recall-måttet. Återkallelse kallas också känslighet eller sann positiv frekvens.

  • Känslighet: Känslighet beräknar förhållandet mellan positiva klasser som detekterats korrekt. Detta mått visar hur bra modellen är för att känna igen en positiv klass.

Andra viktiga termer som använder en förvirringsmatris

Varför behöver du förvirringsmatris?

Här är fördelar/fördelar med att använda en förvirringsmatris.

  • Den visar hur vilken klassificeringsmodell som helst blir förvirrad när den gör förutsägelser.
  • Förvirringsmatris ger dig inte bara insikt i de fel som görs av din klassificerare utan också typer av fel som görs.
  • Denna uppdelning hjälper dig att övervinna begränsningen med att använda enbart klassificeringsnoggrannhet.
  • Varje kolumn i förvirringsmatrisen representerar instanserna av den förutsagda klassen.
  • Varje rad i förvirringsmatrisen representerar instanserna av den faktiska klassen.
  • Det ger insikt inte bara de fel som görs av en klassificerare utan också fel som görs.