Matricea de confuzie în Machine Learning cu EXEMPLU

Ce este Confusion Matrix?

O matrice de confuzie este o tehnică de măsurare a performanței pentru clasificarea învățării automate. Este un fel de tabel care vă ajută să cunoașteți performanța modelului de clasificare pe un set de date de testare pentru care sunt cunoscute valorile adevărate. Termenul matrice de confuzie în sine este foarte simplu, dar terminologia aferentă poate fi puțin confuză. Aici, sunt oferite câteva explicații simple pentru această tehnică.

Patru rezultate ale matricei de confuzie

Matricea de confuzie vizualizează acuratețea unui clasificator comparând clasele reale și cele prezise. Matricea de confuzie binară este compusă din pătrate:

Tabel de confuzie
Tabel de confuzie
  • TP: Adevărat pozitiv: Valorile estimate prezise corect ca fiind pozitive efective
  • FP: Valorile estimate au prezis incorect un pozitiv real. adică, valorile negative prezise ca pozitive
  • FN: Fals Negativ: Valori pozitive prezise ca negative
  • TN: True Negative: Valorile estimate prezise corect ca negativ real

Puteți calcula test de precizie din matricea de confuzie:

Patru rezultate ale matricei de confuzie

Exemplu de matrice de confuzie

Confusion Matrix este o metodă utilă de învățare automată care vă permite să măsurați retragerea, precizia, acuratețea și curba AUC-ROC. Mai jos este dat un exemplu pentru a cunoaște termenii Adevărat Pozitiv, Adevărat Negativ, Fals Negativ și Adevărat Negativ.

Adevărat pozitiv:

Ai proiectat pozitiv și sa dovedit a fi adevărat. De exemplu, ați prezis că Franța va câștiga Cupa Mondială și a câștigat.

Adevărat negativ:

Când ai prezis negativ și este adevărat. Ai prezis că Anglia nu va câștiga și a pierdut.

Fals pozitiv:

Previziunea ta este pozitivă și este falsă.

Ai prezis că Anglia va câștiga, dar a pierdut.

fals negativ:

Previziunea ta este negativă, iar rezultatul este, de asemenea, fals.

Ai prezis că Franța nu va câștiga, dar a câștigat.

Trebuie să vă amintiți că descriem valorile prezise ca fiind adevărate sau false sau pozitive și negative.

Cum se calculează o matrice de confuzie

Iată un proces pas cu pas pentru calcularea unei matrice de confuzie în data mining

  • Pasul 1) În primul rând, trebuie să testați setul de date cu valorile sale de rezultat așteptat.
  • Pasul 2) Preziceți toate rândurile din setul de date de testare.
  • Pasul 3) Calculați previziunile și rezultatele așteptate:
  1. Totalul predicțiilor corecte ale fiecărei clase.
  2. Totalul predicțiilor incorecte ale fiecărei clase.

După aceea, aceste numere sunt organizate în metodele de mai jos:

  • Fiecare rând al matricei se leagă la o clasă prezisă.
  • Fiecare coloană a matricei corespunde unei clase reale.
  • Numărul total de clasificare corectă și incorectă sunt introduse în tabel.
  • Suma predicțiilor corecte pentru o clasă intră în coloana prezisă și în rândul așteptat pentru acea valoare a clasei.
  • Suma predicțiilor incorecte pentru o clasă intră în rândul așteptat pentru acea valoare de clasă și în coloana estimată pentru acea anumită valoare a clasei.

Alți termeni importanți folosind o matrice de confuzie

  • Valoare predictivă pozitivă (PVV): Acest lucru este foarte aproape de precizie. O diferență semnificativă între cei doi termeni este că PVV ia în considerare prevalența. În situația în care clasele sunt perfect echilibrate, valoarea predictivă pozitivă este aceeași cu precizia.
  • Rata de eroare nulă: Acest termen este folosit pentru a defini de câte ori ar fi greșit predicția dvs. dacă puteți prezice clasa majoritară. Puteți să o considerați ca o valoare de bază pentru a vă compara clasificatorul.
  • Scor F: Scorul F1 este un scor mediu ponderat al adevăratului pozitiv (reamintire) și al preciziei.
  • Curba Roc: Curba Roc arată ratele adevărate pozitive față de rata fals pozitive la diferite puncte de tăiere. De asemenea, demonstrează un compromis între sensibilitate (reamintire și specificitate sau rata negativă adevărată).
  • Precizie: Metrica de precizie arată acuratețea clasei pozitive. Măsoară cât de probabilă este corectă predicția clasei pozitive.

Alți termeni importanți folosind o matrice de confuzie

Scorul maxim este 1 atunci când clasificatorul clasifică perfect toate valorile pozitive. Numai precizia nu este de mare ajutor deoarece ignoră clasa negativă. Valoarea este de obicei asociată cu valoarea Recall. Reamintirea se mai numește și sensibilitate sau adevărată rată pozitivă.

  • Sensibilitate: Sensibilitatea calculează raportul dintre clasele pozitive detectate corect. Această măsurătoare arată cât de bun este modelul pentru a recunoaște o clasă pozitivă.

Alți termeni importanți folosind o matrice de confuzie

De ce ai nevoie de matrice de confuzie?

Iată avantajele/beneficiile utilizării unei matrice de confuzie.

  • Arată cum orice model de clasificare este confuz atunci când face predicții.
  • Matricea de confuzie nu numai că vă oferă o perspectivă asupra erorilor făcute de clasificatorul dvs., ci și asupra tipurilor de erori care sunt făcute.
  • Această defalcare vă ajută să depășiți limitarea utilizării numai a preciziei de clasificare.
  • Fiecare coloană a matricei de confuzie reprezintă instanțele acelei clase prezise.
  • Fiecare rând al matricei de confuzie reprezintă instanțele clasei actuale.
  • Oferă o perspectivă nu numai erorile care sunt făcute de un clasificator, ci și erorile care sunt făcute.