ÖRNEK ile Makine Öğreniminde Karışıklık Matrisi
Karışıklık Matrisi Nedir?
Karışıklık matrisi, Makine öğrenimi sınıflandırmasına yönelik bir performans ölçüm tekniğidir. Gerçek değerlerin bilinmesi için sınıflandırma modelinin bir dizi test verisi üzerindeki performansını bilmenize yardımcı olan bir tablo türüdür. Karışıklık matrisi teriminin kendisi çok basittir ancak ilgili terminolojisi biraz kafa karıştırıcı olabilir. Burada bu tekniğe ilişkin bazı basit açıklamalar verilmiştir.
Karışıklık matrisinin dört sonucu
Karmaşıklık matrisi, gerçek ve tahmin edilen sınıfları karşılaştırarak bir sınıflandırıcının doğruluğunu görselleştirir. İkili karışıklık matrisi karelerden oluşur:
- TP: Gerçek Pozitif: Gerçek pozitif olarak doğru tahmin edilen tahmin edilen değerler
- FP: Tahmin edilen değerler gerçek pozitifi yanlış tahmin etti. yani, pozitif olarak tahmin edilen negatif değerler
- FN: Yanlış Negatif: Negatif olarak tahmin edilen pozitif değerler
- TN: Gerçek Negatif: Tahmin edilen değerler gerçek bir negatif olarak doğru bir şekilde tahmin edildi
Hesaplayabilirsiniz doğruluk testi karışıklık matrisinden:
Karışıklık Matrisi Örneği
Karışıklık Matrisi, Geri Çağırma, Hassasiyet, Doğruluk ve AUC-ROC eğrisini ölçmenize olanak tanıyan kullanışlı bir makine öğrenme yöntemidir. Aşağıda Gerçek Pozitif, Doğru Negatif, Yanlış Negatif ve Doğru Negatif terimlerini bilmek için bir örnek verilmiştir.
Gerçek Olumlu:
Olumlu tahminlerde bulundunuz ve bu doğru çıktı. Mesela Fransa'nın dünya kupasını kazanacağını tahmin etmiştiniz ve kazandı.
Gerçek Olumsuz:
Negatif tahmin ettiğinizde ve bu doğrudur. İngiltere'nin kazanamayacağını tahmin etmiştiniz ama kaybetti.
Yanlış pozitif:
Tahmininiz olumlu ve yanlıştır.
İngiltere'nin kazanacağını tahmin etmiştiniz ama kaybetti.
Yanlış Negatif:
Tahmininiz olumsuz, sonuç da yanlış.
Fransa'nın kazanamayacağını tahmin etmiştiniz ama kazandı.
Tahmin edilen değerleri Doğru, Yanlış veya Pozitif ve Negatif olarak tanımladığımızı unutmamalısınız.
Karışıklık Matrisi Nasıl Hesaplanır?
Burada, bir karışıklık matrisini hesaplamak için adım adım süreç gösterilmektedir. veri madenciliği
- Adım 1) Öncelikle veri setini beklenen sonuç değerleriyle test etmeniz gerekir.
- Adım 2) Test veri kümesindeki tüm satırları tahmin edin.
- Adım 3) Beklenen tahminleri ve sonuçları hesaplayın:
- Her sınıfın doğru tahminlerinin toplamı.
- Her sınıfın yanlış tahminlerinin toplamı.
Daha sonra bu sayılar aşağıdaki yöntemlere göre düzenlenir:
- Matrisin her satırı tahmin edilen bir sınıfa bağlanır.
- Matrisin her sütunu gerçek bir sınıfa karşılık gelir.
- Doğru ve yanlış sınıflandırmaların toplam sayıları tabloya girilir.
- Bir sınıfa ilişkin doğru tahminlerin toplamı, o sınıf değeri için tahmin edilen sütuna ve beklenen satıra gider.
- Bir sınıfa ilişkin yanlış tahminlerin toplamı, söz konusu sınıf değeri için beklenen satırına ve söz konusu sınıf değeri için tahmin edilen sütununa gider.
Karışıklık Matrisini Kullanan Diğer Önemli Terimler
- Pozitif Tahmin Değeri (PVV): Bu kesinliğe çok yakındır. İki dönem arasındaki önemli bir fark, PVV'nin yaygınlığı dikkate almasıdır. Sınıfların mükemmel şekilde dengelendiği durumda pozitif tahmin değeri kesinlik ile aynıdır.
- Boş Hata Oranı: Bu terim, çoğunluk sınıfını tahmin edebilmeniz durumunda tahmininizin kaç kez yanlış olacağını tanımlamak için kullanılır. Sınıflandırıcınızı karşılaştırmak için bunu temel bir ölçüm olarak düşünebilirsiniz.
- F Puanı: F1 puanı, gerçek pozitif (geri çağırma) ve kesinliğin ağırlıklı ortalama puanıdır.
- Roc Eğrisi: Roc eğrisi, çeşitli kesim noktalarında yanlış pozitif oranına karşı gerçek pozitif oranları gösterir. Aynı zamanda duyarlılık (hatırlama ve özgüllük veya gerçek negatif oran) arasında bir denge olduğunu da gösterir.
- Hassas: Hassasiyet metriği pozitif sınıfın doğruluğunu gösterir. Pozitif sınıfın tahmininin ne kadar doğru olduğunu ölçer.
Sınıflandırıcı tüm pozitif değerleri mükemmel şekilde sınıflandırdığında maksimum puan 1'dir. Kesinlik tek başına pek yararlı değildir çünkü negatif sınıfı göz ardı eder. Metrik genellikle Geri Çağırma metriği ile eşleştirilir. Geri çağırmaya duyarlılık veya gerçek pozitif oran da denir.
- Duyarlılık: Hassasiyet, doğru olarak tespit edilen pozitif sınıfların oranını hesaplar. Bu ölçüm, modelin pozitif bir sınıfı tanımada ne kadar iyi olduğunu verir.
Neden Karışıklık matrisine ihtiyacınız var?
Karışıklık matrisi kullanmanın artıları/yararları aşağıda verilmiştir.
- Herhangi bir sınıflandırma modelinin tahminlerde bulunurken nasıl karıştığını gösterir.
- Karışıklık matrisi size yalnızca sınıflandırıcınız tarafından yapılan hatalar hakkında bilgi vermekle kalmaz, aynı zamanda yapılan hata türleri hakkında da fikir verir.
- Bu döküm, sınıflandırma doğruluğunu tek başına kullanmanın sınırlamasını aşmanıza yardımcı olur.
- Karışıklık matrisinin her sütunu, tahmin edilen sınıfın örneklerini temsil eder.
- Karışıklık matrisinin her satırı gerçek sınıfın örneklerini temsil eder.
- Yalnızca sınıflandırıcının yaptığı hataların yanı sıra yapılan hataların da anlaşılmasını sağlar.