Matryca zamieszania w uczeniu maszynowym z PRZYKŁADEM
Co to jest matryca zamieszania?
Macierz zamieszania to technika pomiaru wydajności na potrzeby klasyfikacji uczenia maszynowego. Jest to rodzaj tabeli, która pomaga poznać działanie modelu klasyfikacyjnego na zestawie danych testowych, pod kątem tego, że znane są prawdziwe wartości. Sam termin macierz zamieszania jest bardzo prosty, ale związana z nim terminologia może być nieco myląca. Poniżej podano proste wyjaśnienie tej techniki.
Cztery wyniki macierzy zamieszania
Macierz pomyłek wizualizuje dokładność klasyfikatora poprzez porównanie rzeczywistych i przewidywanych klas. Macierz pomyłek binarnych składa się z kwadratów:

- TP: True Positive: Przewidywane wartości prawidłowo przewidywane jako rzeczywiste dodatnie
- FP: Przewidywane wartości błędnie przewidywały rzeczywistą wartość dodatnią. tj. wartości ujemne przewidywane jako dodatnie
- FN: Fałszywie Negatywne: Wartości dodatnie przewidywane jako ujemne
- TN: True Negative: Przewidywane wartości prawidłowo przewidywane jako rzeczywiste ujemne
Można obliczyć próba dokładności z macierzy zamieszania:
Przykład macierzy zamieszania
Confusion Matrix to przydatna metoda uczenia maszynowego, która umożliwia pomiar przypomnienia, precyzji, dokładności i krzywej AUC-ROC. Poniżej podano przykład poznania terminów prawdziwie dodatni, prawdziwie ujemny, fałszywie ujemny i prawdziwie ujemny.
Prawdziwe pozytywne:
Prognozowałeś pozytywnie i okazało się, że to prawda. Na przykład przewidziałeś, że Francja wygra Puchar Świata i tak się stało.
Prawdziwie negatywne:
Kiedy przewidywałeś negatywnie i to prawda. Przewidywałeś, że Anglia nie wygra i przegrała.
Fałszywe pozytywne:
Twoje przewidywania są pozytywne i fałszywe.
Przewidywałeś, że Anglia wygra, ale przegrała.
Fałszywy negatyw:
Twoja prognoza jest negatywna, a wynik również jest fałszywy.
Przewidywałeś, że Francja nie wygra, ale zwyciężyła.
Należy pamiętać, że przewidywane wartości opisujemy jako Prawda lub Fałsz lub Dodatnie i Ujemne.
Jak obliczyć macierz zamieszania
Oto krok po kroku proces obliczania matrycy zamieszania data mining
- Krok 1) Najpierw musisz przetestować zbiór danych pod kątem oczekiwanych wartości wyników.
- Krok 2) Przewiduj wszystkie wiersze w testowym zbiorze danych.
- Krok 3) Oblicz oczekiwane przewidywania i wyniki:
- Suma poprawnych przewidywań dla każdej klasy.
- Suma błędnych przewidywań dla każdej klasy.
Następnie liczby te są organizowane według poniższych metod:
- Każdy wiersz macierzy łączy się z przewidywaną klasą.
- Każda kolumna macierzy odpowiada rzeczywistej klasie.
- Sumaryczną liczbę poprawnych i błędnych klasyfikacji wpisuje się do tabeli.
- Suma poprawnych przewidywań dla klasy trafia do przewidywanej kolumny i oczekiwanego wiersza dla tej wartości klasy.
- Suma błędnych przewidywań dla klasy trafia do oczekiwanego wiersza dla tej wartości klasy i przewidywanej kolumny dla tej konkretnej wartości klasy.
Inne ważne terminy przy użyciu macierzy zamieszania
- Dodatnia wartość przewidywana (PVV): To jest bardzo bliskie precyzji. Istotną różnicą między tymi dwoma terminami jest to, że PVV uwzględnia częstość występowania. W sytuacji, gdy klasy są doskonale zrównoważone, dodatnia wartość predykcyjna jest równa precyzji.
- Poziom błędu zerowego: Termin ten używany jest do określenia, ile razy Twoje przewidywania okażą się błędne, jeśli potrafisz przewidzieć klasę większości. Możesz uznać to za metrykę bazową do porównania klasyfikatora.
- Wynik F: Wynik F1 to średni ważony wynik prawdziwie pozytywny (przypomnij sobie) i precyzja.
- Krzywa Roca: Krzywa Roca pokazuje prawdziwie dodatnie współczynniki w porównaniu z fałszywie dodatnimi współczynnikami w różnych punktach odcięcia. Pokazuje także kompromis pomiędzy czułością (przypominaniem i swoistością lub rzeczywiście ujemną stopą).
- Precyzja: Metryka precyzji pokazuje dokładność klasy dodatniej. Mierzy prawdopodobieństwo, że przewidywanie klasy dodatniej jest prawidłowe.
Maksymalny wynik wynosi 1, gdy klasyfikator doskonale klasyfikuje wszystkie wartości dodatnie. Sama precyzja nie jest zbyt pomocna, ponieważ ignoruje klasę ujemną. Metryka jest zwykle łączona z metryką Recall. Przypomnienie jest również nazywane wrażliwością lub prawdziwie dodatnim współczynnikiem.
- Wrażliwość: Czułość oblicza stosunek poprawnie wykrytych klas dodatnich. Metryka ta określa, jak dobrze model rozpoznaje klasę dodatnią.
Dlaczego potrzebujesz matrycy zamieszania?
Oto zalety/korzyści stosowania macierzy zamieszania.
- Pokazuje, jak bardzo mylący jest każdy model klasyfikacji podczas formułowania prognoz.
- Macierz zamieszania daje nie tylko wgląd w błędy popełniane przez klasyfikator, ale także rodzaje popełnianych błędów.
- Podział ten pomaga pokonać ograniczenia związane z samą dokładnością klasyfikacji.
- Każda kolumna macierzy zamieszania reprezentuje instancje tej przewidywanej klasy.
- Każdy wiersz macierzy zamieszania reprezentuje instancje rzeczywistej klasy.
- Zapewnia wgląd nie tylko w błędy popełniane przez klasyfikator, ale także w błędy, które popełnia.