Matrice di confusione nell'apprendimento automatico con ESEMPIO
Cos'è la matrice di confusione?
Una matrice di confusione è una tecnica di misurazione delle prestazioni per la classificazione del machine learning. È una sorta di tabella che ti aiuta a conoscere le prestazioni del modello di classificazione su una serie di dati di test di cui sono noti i valori reali. Il termine matrice di confusione in sé è molto semplice, ma la terminologia ad esso correlata può creare un po' di confusione. Qui vengono fornite alcune semplici spiegazioni per questa tecnica.
Quattro risultati della matrice di confusione
La matrice di confusione visualizza l'accuratezza di un classificatore confrontando le classi effettive e previste. La matrice di confusione binaria è composta da quadrati:

- TP: Vero positivo: valori previsti correttamente previsti come positivi effettivi
- FP: I valori previsti prevedevano erroneamente un positivo effettivo. cioè, valori negativi previsti come positivi
- FN: Falso negativo: valori positivi previsti come negativi
- TN: vero negativo: valori previsti correttamente previsti come negativi effettivi
Puoi calcolare il prova di precisione dalla matrice di confusione:
Esempio di matrice di confusione
Matrice di confusione è un utile metodo di apprendimento automatico che consente di misurare la curva di richiamo, precisione, accuratezza e AUC-ROC. Di seguito è riportato un esempio per conoscere i termini vero positivo, vero negativo, falso negativo e vero negativo.
Vero positivo:
Hai proiettato qualcosa di positivo e si è rivelato vero. Ad esempio, avevi previsto che la Francia avrebbe vinto la Coppa del mondo, e ha vinto.
Vero negativo:
Quando avevi previsto negativo, ed è vero. Avevi previsto che l'Inghilterra non avrebbe vinto e ha perso.
Falso positivo:
La tua previsione è positiva ed è falsa.
Avevi previsto che l'Inghilterra avrebbe vinto, ma ha perso.
Falso negativo:
La tua previsione è negativa e anche il risultato è falso.
Avevi previsto che la Francia non avrebbe vinto, ma ha vinto.
Dovresti ricordare che descriviamo i valori previsti come Vero o Falso o Positivo e Negativo.
Come calcolare una matrice di confusione
Ecco il processo passo passo per calcolare una matrice di confusione data mining
- Passaggio 1) Innanzitutto, è necessario testare il set di dati con i valori di risultato previsti.
- Passaggio 2) Prevedere tutte le righe nel set di dati di test.
- Passaggio 3) Calcolare le previsioni e i risultati attesi:
- Il totale delle previsioni corrette di ciascuna classe.
- Il totale delle previsioni errate di ciascuna classe.
Successivamente, questi numeri sono organizzati nei metodi indicati di seguito:
- Ogni riga della matrice è collegata a una classe prevista.
- Ogni colonna della matrice corrisponde ad una classe effettiva.
- I conteggi totali della classificazione corretta ed errata vengono inseriti nella tabella.
- La somma delle previsioni corrette per una classe va nella colonna prevista e nella riga prevista per quel valore di classe.
- La somma delle previsioni errate per una classe va nella riga prevista per quel valore di classe e nella colonna prevista per quello specifico valore di classe.
Altri termini importanti che utilizzano una matrice di confusione
- Valore predittivo positivo (PVV): Questo è molto vicino alla precisione. Una differenza significativa tra i due termini è che il PVV considera la prevalenza. Nella situazione in cui le classi sono perfettamente bilanciate, il valore predittivo positivo equivale alla precisione.
- Tasso di errore nullo: Questo termine viene utilizzato per definire quante volte la tua previsione sarebbe sbagliata se potessi prevedere la classe maggioritaria. Puoi considerarlo come una metrica di base per confrontare il tuo classificatore.
- Punteggio F: Il punteggio F1 è un punteggio medio ponderato del vero positivo (richiamo) e della precisione.
- Curva Roc: La curva Roc mostra i tassi di veri positivi rispetto al tasso di falsi positivi in vari punti di taglio. Dimostra anche un compromesso tra sensibilità (richiamo e specificità o tasso di vero negativo).
- Precisione: La metrica di precisione mostra l'accuratezza della classe positiva. Misura la probabilità che la previsione della classe positiva sia corretta.
Il punteggio massimo è 1 quando il classificatore classifica perfettamente tutti i valori positivi. La precisione da sola non è molto utile perché ignora la classe negativa. La metrica è solitamente abbinata alla metrica di richiamo. Il richiamo è anche chiamato sensibilità o tasso di vero positivo.
- Sensibilità: La sensibilità calcola il rapporto delle classi positive rilevate correttamente. Questa metrica indica quanto è buono il modello nel riconoscere una classe positiva.
Perché hai bisogno della matrice di confusione?
Ecco i vantaggi/vantaggi dell'utilizzo di una matrice di confusione.
- Mostra come qualsiasi modello di classificazione sia confuso quando fa previsioni.
- La matrice di confusione non solo ti fornisce informazioni sugli errori commessi dal tuo classificatore, ma anche sui tipi di errori che vengono commessi.
- Questa suddivisione aiuta a superare il limite derivante dall'uso esclusivo della precisione della classificazione.
- Ogni colonna della matrice di confusione rappresenta le istanze di quella classe prevista.
- Ogni riga della matrice di confusione rappresenta le istanze della classe effettiva.
- Fornisce informazioni non solo sugli errori commessi da un classificatore, ma anche sugli errori che vengono commessi.