Matrice de confusion dans l'apprentissage automatique avec EXEMPLE
Qu'est-ce que la matrice de confusion ?
Une matrice de confusion est une technique de mesure des performances pour la classification du Machine Learning. C'est une sorte de tableau qui vous aide à connaître les performances du modèle de classification sur un ensemble de données de test pour que les vraies valeurs soient connues. Le terme matrice de confusion lui-même est très simple, mais la terminologie associée peut prêter à confusion. Ici, une explication simple est donnée pour cette technique.
Quatre résultats de la matrice de confusion
La matrice de confusion visualise la précision d'un classificateur en comparant les classes réelles et prédites. La matrice de confusion binaire est composée de carrés :
- TP : Vrai positif : valeurs prédites correctement prédites comme étant réellement positives
- FP : Les valeurs prédites prédisaient à tort un résultat positif réel. c'est-à-dire que les valeurs négatives sont prédites comme positives
- FN : Faux Négatif : Valeurs positives prédites comme négatives
- TN : Vrai négatif : valeurs prédites correctement prédites comme négatives réelles
Vous pouvez calculer le test de précision de la matrice de confusion :
Exemple de matrice de confusion
Confusion Matrix est une méthode d'apprentissage automatique utile qui vous permet de mesurer le rappel, la précision, l'exactitude et la courbe AUC-ROC. Vous trouverez ci-dessous un exemple pour connaître les termes vrai positif, vrai négatif, faux négatif et vrai négatif.
Vrai positif:
Vous avez projeté du positif et cela s’est avéré vrai. Par exemple, vous aviez prédit que la France gagnerait la coupe du monde, et elle a gagné.
Vrai négatif:
Quand tu prédisais du négatif, et c'est vrai. Vous aviez prédit que l’Angleterre ne gagnerait pas et elle a perdu.
Faux positif:
Votre prédiction est positive et elle est fausse.
Vous aviez prédit que l’Angleterre gagnerait, mais elle a perdu.
Faux négatif:
Votre prédiction est négative et le résultat est également faux.
Vous aviez prédit que la France ne gagnerait pas, mais elle a gagné.
N'oubliez pas que nous décrivons les valeurs prédites comme étant vraies, fausses ou positives et négatives.
Comment calculer une matrice de confusion
Voici le processus étape par étape pour calculer une matrice de confusion dans data mining
- Étape 1) Tout d’abord, vous devez tester l’ensemble de données avec ses valeurs de résultats attendues.
- Étape 2) Prédisez toutes les lignes de l'ensemble de données de test.
- Étape 3) Calculez les prédictions et les résultats attendus :
- Le total des prédictions correctes de chaque classe.
- Le total des prédictions incorrectes de chaque classe.
Après cela, ces numéros sont organisés selon les méthodes ci-dessous :
- Chaque ligne de la matrice est liée à une classe prédite.
- Chaque colonne de la matrice correspond à une classe réelle.
- Le nombre total de classifications correctes et incorrectes est inscrit dans le tableau.
- La somme des prédictions correctes pour une classe est placée dans la colonne prédite et la ligne attendue pour cette valeur de classe.
- La somme des prédictions incorrectes pour une classe est placée dans la ligne attendue pour cette valeur de classe et dans la colonne prédite pour cette valeur de classe spécifique.
Autres termes importants utilisant une matrice de confusion
- Valeur prédictive positive (PVV) : C'est très proche de la précision. Une différence significative entre les deux termes est que le PVV prend en compte la prévalence. Dans la situation où les classes sont parfaitement équilibrées, la valeur prédictive positive est la même que la précision.
- Taux d'erreur nul : Ce terme est utilisé pour définir combien de fois votre prédiction serait fausse si vous pouviez prédire la classe majoritaire. Vous pouvez le considérer comme une métrique de base pour comparer votre classificateur.
- Note F : Le score F1 est un score moyen pondéré du vrai positif (rappel) et de la précision.
- Courbe Roc : La courbe Roc montre les taux de vrais positifs par rapport au taux de faux positifs à différents points de coupure. Il démontre également un compromis entre sensibilité (rappel et spécificité ou taux véritablement négatif).
- Précision: La métrique de précision montre l’exactitude de la classe positive. Il mesure la probabilité que la prédiction de la classe positive soit correcte.
Le score maximum est de 1 lorsque le classificateur classe parfaitement toutes les valeurs positives. La précision seule n’est pas très utile car elle ignore la classe négative. La métrique est généralement associée à la métrique Recall. Le rappel est également appelé sensibilité ou taux de vrais positifs.
- Sensibilité: La sensibilité calcule le ratio des classes positives correctement détectées. Cette métrique indique dans quelle mesure le modèle est capable de reconnaître une classe positive.
Pourquoi avez-vous besoin d'une matrice de confusion ?
Voici les avantages/avantages de l’utilisation d’une matrice de confusion.
- Cela montre à quel point tout modèle de classification est confus lorsqu’il fait des prédictions.
- La matrice de confusion vous donne non seulement un aperçu des erreurs commises par votre classificateur, mais également des types d'erreurs commises.
- Cette ventilation vous aide à surmonter les limites liées à l’utilisation seule de la précision de la classification.
- Chaque colonne de la matrice de confusion représente les instances de cette classe prédite.
- Chaque ligne de la matrice de confusion représente les instances de la classe réelle.
- Il donne un aperçu non seulement des erreurs commises par un classificateur, mais également des erreurs commises.