Μήτρα σύγχυσης στη μηχανική μάθηση με το EXAMPLE
Τι είναι το Confusion Matrix;
Ο πίνακας σύγχυσης είναι μια τεχνική μέτρησης απόδοσης για την ταξινόμηση μηχανικής μάθησης. Είναι ένα είδος πίνακα που σας βοηθά να γνωρίζετε την απόδοση του μοντέλου ταξινόμησης σε ένα σύνολο δεδομένων δοκιμής για το ότι είναι γνωστές οι πραγματικές τιμές. Ο ίδιος ο όρος confusion matrix είναι πολύ απλός, αλλά η σχετική ορολογία του μπορεί να είναι λίγο μπερδεμένη. Εδώ, δίνεται μια απλή εξήγηση για αυτήν την τεχνική.
Τέσσερα αποτελέσματα του πίνακα σύγχυσης
Ο πίνακας σύγχυσης απεικονίζει την ακρίβεια ενός ταξινομητή συγκρίνοντας τις πραγματικές και τις προβλεπόμενες κλάσεις. Ο δυαδικός πίνακας σύγχυσης αποτελείται από τετράγωνα:

- TP: True Positive: Οι προβλεπόμενες τιμές έχουν προβλεφθεί σωστά ως πραγματικά θετικές
- FP: Οι προβλεπόμενες τιμές προέβλεψαν εσφαλμένα ένα πραγματικό θετικό. Δηλαδή, οι αρνητικές τιμές που προβλέπονται ως θετικές
- FN: False Negative: Οι θετικές τιμές προβλέπονται ως αρνητικές
- TN: True Negative: Οι προβλεπόμενες τιμές έχουν προβλεφθεί σωστά ως πραγματικό αρνητικό
Μπορείτε να υπολογίσετε το τεστ ακρίβειας από τον πίνακα σύγχυσης:
Παράδειγμα μήτρας σύγχυσης
Το Confusion Matrix είναι μια χρήσιμη μέθοδος μηχανικής εκμάθησης που σας επιτρέπει να μετράτε την καμπύλη Ανάκλησης, Ακρίβειας, Ακρίβειας και AUC-ROC. Παρακάτω δίνεται ένα παράδειγμα για να γνωρίζετε τους όρους True Positive, True Negative, False Negative και True Negative.
Αληθινό θετικό:
Προβάλατε θετικό και αποδεικνύεται αληθινό. Για παράδειγμα, είχατε προβλέψει ότι η Γαλλία θα κερδίσει το παγκόσμιο κύπελλο και κέρδισε.
Αληθινό αρνητικό:
Όταν προέβλεψες αρνητικό, και είναι αλήθεια. Είχατε προβλέψει ότι η Αγγλία δεν θα κερδίσει και έχασε.
Λάθος θετικό:
Η πρόβλεψή σας είναι θετική και είναι ψευδής.
Είχατε προβλέψει ότι η Αγγλία θα κερδίσει, αλλά έχασε.
Ψευδές αρνητικό:
Η πρόβλεψή σας είναι αρνητική και το αποτέλεσμα είναι επίσης ψευδής.
Είχατε προβλέψει ότι η Γαλλία δεν θα κέρδιζε, αλλά κέρδισε.
Θα πρέπει να θυμάστε ότι περιγράφουμε τις προβλεπόμενες τιμές είτε ως Σωστό ή Λάθος είτε ως Θετικές και Αρνητικές.
Πώς να υπολογίσετε έναν πίνακα σύγχυσης
Εδώ, είναι βήμα προς βήμα η διαδικασία για τον υπολογισμό ενός πίνακα σύγχυσης εξόρυξη δεδομένων
- Βήμα 1) Πρώτα, πρέπει να ελέγξετε το σύνολο δεδομένων με τις αναμενόμενες τιμές έκβασής του.
- Βήμα 2) Προβλέψτε όλες τις σειρές στο σύνολο δεδομένων δοκιμής.
- Βήμα 3) Υπολογίστε τις αναμενόμενες προβλέψεις και αποτελέσματα:
- Το σύνολο των σωστών προβλέψεων κάθε τάξης.
- Το σύνολο των λανθασμένων προβλέψεων κάθε τάξης.
Μετά από αυτό, αυτοί οι αριθμοί οργανώνονται με τις παρακάτω μεθόδους:
- Κάθε σειρά του πίνακα συνδέεται με μια προβλεπόμενη κλάση.
- Κάθε στήλη του πίνακα αντιστοιχεί σε μια πραγματική κλάση.
- Οι συνολικές μετρήσεις της σωστής και της λανθασμένης ταξινόμησης καταχωρούνται στον πίνακα.
- Το άθροισμα των σωστών προβλέψεων για μια κλάση πηγαίνει στην προβλεπόμενη στήλη και στην αναμενόμενη σειρά για αυτήν την τιμή κλάσης.
- Το άθροισμα των εσφαλμένων προβλέψεων για μια κλάση πηγαίνει στην αναμενόμενη σειρά για αυτήν την τιμή κλάσης και στην προβλεπόμενη στήλη για τη συγκεκριμένη τιμή κλάσης.
Άλλοι σημαντικοί όροι με χρήση πίνακα σύγχυσης
- Θετική προγνωστική τιμή (PVV): Αυτό είναι πολύ κοντά στην ακρίβεια. Μια σημαντική διαφορά μεταξύ των δύο όρων είναι ότι η PVV λαμβάνει υπόψη τον επιπολασμό. Στην περίπτωση που οι τάξεις είναι τέλεια ισορροπημένες, η θετική προγνωστική αξία είναι ίδια με την ακρίβεια.
- Ποσοστό μηδενικού σφάλματος: Αυτός ο όρος χρησιμοποιείται για να ορίσει πόσες φορές η πρόβλεψή σας θα ήταν λανθασμένη αν μπορείτε να προβλέψετε την πλειοψηφική τάξη. Μπορείτε να το θεωρήσετε ως βασική μέτρηση για να συγκρίνετε τον ταξινομητή σας.
- Βαθμολογία F: Η βαθμολογία F1 είναι μια σταθμισμένη μέση βαθμολογία του αληθινού θετικού (ανάκληση) και της ακρίβειας.
- Roc Curve: Η καμπύλη Roc δείχνει τα πραγματικά θετικά ποσοστά έναντι του ψευδώς θετικού ποσοστού σε διάφορα σημεία αποκοπής. Επιδεικνύει επίσης μια αντιστάθμιση μεταξύ της ευαισθησίας (ανάκληση και ειδικότητα ή το πραγματικό αρνητικό ποσοστό).
- Ακρίβεια: Η μέτρηση ακριβείας δείχνει την ακρίβεια της θετικής κλάσης. Μετρά πόσο πιθανή είναι σωστή η πρόβλεψη της θετικής τάξης.
Η μέγιστη βαθμολογία είναι 1 όταν ο ταξινομητής ταξινομεί τέλεια όλες τις θετικές τιμές. Η ακρίβεια από μόνη της δεν είναι πολύ χρήσιμη γιατί αγνοεί την αρνητική κατηγορία. Η μέτρηση συνήθως συνδυάζεται με τη μέτρηση ανάκλησης. Η ανάκληση ονομάζεται επίσης ευαισθησία ή αληθινός θετικός ρυθμός.
- Ευαισθησία: Η ευαισθησία υπολογίζει την αναλογία των θετικών κλάσεων που ανιχνεύθηκαν σωστά. Αυτή η μέτρηση δείχνει πόσο καλό είναι το μοντέλο να αναγνωρίσει μια θετική τάξη.
Γιατί χρειάζεστε τη μήτρα σύγχυσης;
Ακολουθούν τα πλεονεκτήματα/πλεονεκτήματα της χρήσης μιας μήτρας σύγχυσης.
- Δείχνει πώς οποιοδήποτε μοντέλο ταξινόμησης μπερδεύεται όταν κάνει προβλέψεις.
- Ο πίνακας σύγχυσης δεν σας δίνει μόνο πληροφορίες για τα σφάλματα που γίνονται από τον ταξινομητή σας, αλλά και για τους τύπους σφαλμάτων που γίνονται.
- Αυτή η ανάλυση σάς βοηθά να ξεπεράσετε τον περιορισμό της χρήσης μόνο της ακρίβειας ταξινόμησης.
- Κάθε στήλη του πίνακα σύγχυσης αντιπροσωπεύει τις περιπτώσεις αυτής της προβλεπόμενης κλάσης.
- Κάθε γραμμή του πίνακα σύγχυσης αντιπροσωπεύει τις περιπτώσεις της πραγματικής κλάσης.
- Παρέχει πληροφορίες όχι μόνο για τα σφάλματα που γίνονται από έναν ταξινομητή αλλά και για τα σφάλματα που γίνονται.