Matrica zabune u strojnom učenju s PRIMJEROM

Što je Matrica zabune?

Matrica zabune je tehnika mjerenja performansi za klasifikaciju strojnog učenja. To je vrsta tablice koja vam pomaže da saznate učinkovitost modela klasifikacije na skupu testnih podataka za koje su poznate prave vrijednosti. Sam pojam matrica zabune vrlo je jednostavan, ali povezana terminologija može biti pomalo zbunjujuća. Ovdje je dano neko jednostavno objašnjenje za ovu tehniku.

Četiri ishoda matrice zabune

Matrica zabune vizualizira točnost klasifikatora usporedbom stvarnih i predviđenih klasa. Binarna matrica zabune sastoji se od kvadrata:

Tablica zabune
Tablica zabune
  • TP: True Positive: Predviđene vrijednosti točno predviđene kao stvarne pozitivne
  • FP: Predviđene vrijednosti netočno su predvidjele stvarni pozitivan. tj. Negativne vrijednosti predviđene kao pozitivne
  • FN: Lažno negativno: Pozitivne vrijednosti predviđene kao negativne
  • TN: Istinski negativan: Predviđene vrijednosti točno predviđene kao stvarni negativni

Možete izračunati test točnosti iz matrice zabune:

Četiri ishoda matrice zabune

Primjer matrice zabune

Matrica zabune korisna je metoda strojnog učenja koja vam omogućuje mjerenje krivulje prisjećanja, preciznosti, točnosti i AUC-ROC. U nastavku je dat primjer za poznavanje pojmova Istinski pozitivan, Istinski negativan, Lažno negativan i Istinski negativan.

Pravo pozitivno:

Projicirali ste pozitivno i to se pokazalo istinitim. Na primjer, predvidjeli ste da će Francuska osvojiti Svjetsko prvenstvo i pobijedila je.

Istinski negativan:

Kad ste prognozirali negativno, i to je istina. Predviđali ste da Engleska neće pobijediti i izgubila je.

Lažno pozitivno:

Vaše predviđanje je pozitivno, ali je lažno.

Predviđali ste da će Engleska pobijediti, ali je izgubila.

Lažno negativno:

Vaše predviđanje je negativno, a rezultat je također lažan.

Predviđali ste da Francuska neće pobijediti, ali pobijedila je.

Trebali biste zapamtiti da predviđane vrijednosti opisujemo kao Istinite ili Netočne ili Pozitivne i Negativne.

Kako izračunati matricu zabune

Ovdje je korak po korak postupak za izračunavanje matrice zabune data mining

  • Korak 1) Prvo morate testirati skup podataka s očekivanim vrijednostima ishoda.
  • Korak 2) Predvidite sve retke u testnom skupu podataka.
  • Korak 3) Izračunajte očekivana predviđanja i ishode:
  1. Zbroj točnih predviđanja svake klase.
  2. Ukupan broj netočnih predviđanja svake klase.

Nakon toga, ovi su brojevi organizirani u dolje navedene metode:

  • Svaki redak matrice povezuje se s predviđenom klasom.
  • Svaki stupac matrice odgovara stvarnoj klasi.
  • U tablicu se upisuje ukupan broj točnih i netočnih klasifikacija.
  • Zbroj točnih predviđanja za klasu ulazi u predviđeni stupac i očekivani redak za tu vrijednost klase.
  • Zbroj netočnih predviđanja za klasu ide u očekivani redak za tu vrijednost klase i predviđeni stupac za tu određenu vrijednost klase.

Drugi važni pojmovi koji koriste matricu zabune

  • Pozitivna prediktivna vrijednost (PVV): Ovo je vrlo blizu preciznosti. Jedna značajna razlika između dva termina je da PVV uzima u obzir prevalenciju. U situaciji kada su klase savršeno uravnotežene, pozitivna prediktivna vrijednost jednaka je preciznosti.
  • Nulta stopa pogreške: Ovaj izraz se koristi za definiranje koliko bi puta vaše predviđanje bilo pogrešno ako možete predvidjeti većinsku klasu. Možete ga smatrati osnovnom metrikom za usporedbu svog klasifikatora.
  • F rezultat: F1 rezultat je ponderirani prosječni rezultat istinskog pozitivnog (prisjećanja) i preciznosti.
  • Roc krivulja: Roc krivulja pokazuje prave pozitivne stope u odnosu na lažno pozitivne stope na različitim točkama rezanja. Također pokazuje kompromis između osjetljivosti (prisjećanja i specifičnosti ili prave negativne stope).
  • Preciznost: Metrika preciznosti pokazuje točnost pozitivne klase. Mjeri koliko je vjerojatno da je predviđanje pozitivne klase točno.

Drugi važni pojmovi koji koriste matricu zabune

Maksimalna ocjena je 1 kada klasifikator savršeno klasificira sve pozitivne vrijednosti. Sama preciznost nije od velike pomoći jer zanemaruje negativnu klasu. Metrika je obično uparena s metrikom opoziva. Prisjećanje se također naziva osjetljivost ili prava pozitivna stopa.

  • Osjetljivost: Osjetljivost izračunava omjer ispravno detektiranih pozitivnih klasa. Ova metrika pokazuje koliko je model dobar za prepoznavanje pozitivne klase.

Drugi važni pojmovi koji koriste matricu zabune

Zašto vam treba Confusion matrix?

Evo prednosti/prednosti korištenja matrice zabune.

  • Pokazuje koliko je bilo koji klasifikacijski model zbunjen kada daje predviđanja.
  • Matrica zabune ne samo da vam daje uvid u pogreške koje čini vaš klasifikator, već i u vrste pogrešaka koje se prave.
  • Ova raščlamba vam pomaže da prevladate ograničenja korištenja samo točnosti klasifikacije.
  • Svaki stupac matrice zabune predstavlja instance te predviđene klase.
  • Svaki redak matrice zabune predstavlja instance stvarne klase.
  • Omogućuje uvid ne samo u pogreške koje čini klasifikator, već iu pogreške koje se prave.