Matice zmatení ve strojovém učení s PŘÍKLADEM

Co je Confusion Matrix?

Matice zmatků je technika měření výkonu pro klasifikaci strojového učení. Je to druh tabulky, která vám pomůže poznat výkon klasifikačního modelu na sadě testovacích dat, pro které jsou známy skutečné hodnoty. Samotný termín matoucí matice je velmi jednoduchý, ale jeho související terminologie může být trochu matoucí. Zde je uvedeno jednoduché vysvětlení této techniky.

Čtyři výsledky matice zmatení

Matice zmatků vizualizuje přesnost klasifikátoru porovnáním skutečných a předpokládaných tříd. Binární konfuzní matice se skládá ze čtverců:

Zmatená tabulka
Zmatená tabulka
  • TP: True Positive: Předpokládané hodnoty správně předpovězené jako skutečně pozitivní
  • FP: Předpokládané hodnoty nesprávně předpověděly skutečný kladný výsledek. tj. záporné hodnoty predikované jako kladné
  • FN: Falešně negativní: Pozitivní hodnoty předpovězené jako negativní
  • TN: True Negative: Předpokládané hodnoty správně předpovězené jako skutečně negativní

Můžete vypočítat test přesnosti z matoucí matice:

Čtyři výsledky Matice zmatků

Příklad Confusion Matrix

Confusion Matrix je užitečná metoda strojového učení, která vám umožňuje měřit křivku Recall, Precision, Accuracy a AUC-ROC. Níže je uveden příklad, jak znát termíny True Positive, True Negative, False Negative a True Negative.

Skutečně pozitivní:

Projektovali jste pozitivně a ukázalo se, že je to pravda. Například jste předpovídali, že Francie vyhraje světový pohár, a vyhrála.

Skutečně negativní:

Když jsi předpověděl negativně, a je to pravda. Předpovídali jste, že Anglie nevyhraje a prohrála.

Falešně pozitivní:

Vaše předpověď je pozitivní a je nepravdivá.

Předpovídali jste, že Anglie vyhraje, ale prohrála.

Falešně negativní:

Vaše předpověď je negativní a výsledek je také nepravdivý.

Předpovídali jste, že Francie nevyhraje, ale vyhrála.

Měli byste si pamatovat, že předpokládané hodnoty popisujeme buď jako pravdivé nebo nepravdivé nebo pozitivní a negativní.

Jak vypočítat matici zmatku

Zde je krok za krokem postup pro výpočet matoucí matice v data mining

  • Krok 1) Nejprve musíte otestovat datovou sadu s jejími očekávanými výslednými hodnotami.
  • Krok 2) Předpovězte všechny řádky v testovací datové sadě.
  • Krok 3) Vypočítejte očekávané předpovědi a výsledky:
  1. Součet správných předpovědí každé třídy.
  2. Celkový počet nesprávných předpovědí každé třídy.

Poté jsou tato čísla organizována níže uvedenými metodami:

  • Každý řádek matice odkazuje na predikovanou třídu.
  • Každý sloupec matice odpovídá skutečné třídě.
  • Do tabulky se zapisují celkové počty správné a nesprávné klasifikace.
  • Součet správných předpovědí pro třídu jde do předpokládaného sloupce a očekávaného řádku pro danou hodnotu třídy.
  • Součet nesprávných předpovědí pro třídu přejde do očekávaného řádku pro tuto hodnotu třídy a do předpokládaného sloupce pro tuto konkrétní hodnotu třídy.

Další důležité termíny používající matici zmatení

  • Pozitivní prediktivní hodnota (PVV): To se velmi blíží přesnosti. Jeden významný rozdíl mezi těmito dvěma termíny je ten, že PVV zvažuje prevalenci. V situaci, kdy jsou třídy dokonale vyvážené, je kladná prediktivní hodnota stejná jako přesnost.
  • Nulová chybovost: Tento termín se používá k definování toho, kolikrát by vaše předpověď byla špatná, pokud můžete předpovědět třídu většiny. Můžete to považovat za základní metriku pro porovnání vašeho klasifikátoru.
  • F skóre: Skóre F1 je vážený průměr skóre skutečného pozitivního (vyvolání) a přesnosti.
  • Roc Curve: Roc křivka ukazuje skutečné pozitivní hodnoty oproti falešně pozitivním v různých bodech řezu. Ukazuje také kompromis mezi citlivostí (vybavení a specificita nebo skutečná negativní míra).
  • Přesnost: Metrika přesnosti ukazuje přesnost kladné třídy. Měří, s jakou pravděpodobností je předpověď pozitivní třídy správná.

Další důležité termíny pomocí Matice zmatení

Maximální skóre je 1, když klasifikátor dokonale klasifikuje všechny kladné hodnoty. Samotná přesnost není příliš užitečná, protože ignoruje negativní třídu. Metrika je obvykle spárována s metrikou Vyvolání. Vyvolání se také nazývá citlivost nebo skutečně pozitivní míra.

  • Citlivost: Citlivost vypočítá poměr správně detekovaných pozitivních tříd. Tato metrika udává, jak dobře model rozpozná pozitivní třídu.

Další důležité termíny pomocí Matice zmatení

Proč potřebujete Confusion matrix?

Zde jsou výhody/výhody použití matoucí matice.

  • Ukazuje, jak je jakýkoli klasifikační model zmatený, když dělá předpovědi.
  • Matice zmatků vám nejen poskytuje přehled o chybách, kterých se váš klasifikátor dopouští, ale také o typech chyb, kterých se dopouští.
  • Toto rozdělení vám pomůže překonat omezení použití samotné přesnosti klasifikace.
  • Každý sloupec matoucí matice představuje instance této predikované třídy.
  • Každý řádek matoucí matice představuje instance skutečné třídy.
  • Poskytuje pohled nejen na chyby, kterých se klasifikátor dopouští, ale také na chyby, kterých se dopouští.