Ma trận nhầm lẫn trong học máy với VÍ DỤ
Ma trận nhầm lẫn là gì?
Ma trận nhầm lẫn là một kỹ thuật đo lường hiệu suất để phân loại Machine learning. Đây là một loại bảng giúp bạn biết hiệu suất của mô hình phân loại trên một tập hợp dữ liệu thử nghiệm để biết giá trị thực. Bản thân thuật ngữ ma trận nhầm lẫn rất đơn giản, nhưng thuật ngữ liên quan của nó có thể hơi khó hiểu. Ở đây, một số lời giải thích đơn giản được đưa ra cho kỹ thuật này.
Bốn kết quả của ma trận nhầm lẫn
Ma trận nhầm lẫn trực quan hóa độ chính xác của bộ phân loại bằng cách so sánh các lớp thực tế và lớp dự đoán. Ma trận nhầm lẫn nhị phân bao gồm các hình vuông:

- TP: Giá trị thực dương: Giá trị được dự đoán được dự đoán chính xác là giá trị dương thực tế
- FP: Các giá trị được dự đoán đã dự đoán không chính xác một giá trị dương thực tế. tức là, giá trị âm được dự đoán là dương
- FN: Sai Âm: Giá trị dương được dự đoán là âm
- TN: True Negative: Các giá trị được dự đoán được dự đoán chính xác là giá trị âm thực tế
Bạn có thể tính toán kiểm tra độ chính xác từ ma trận nhầm lẫn:
Ví dụ về Ma trận nhầm lẫn
Ma trận nhầm lẫn là một phương pháp học máy hữu ích cho phép bạn đo đường cong Thu hồi, Độ chính xác, Độ chính xác và AUC-ROC. Dưới đây là một ví dụ để biết các thuật ngữ True Positive, True Negative, False Negative và True Negative.
Tích cực thực sự:
Bạn dự đoán tích cực và hóa ra nó là sự thật. Ví dụ, bạn đã dự đoán rằng Pháp sẽ vô địch World Cup và họ đã thắng.
Tiêu cực thực sự:
Khi bạn dự đoán tiêu cực, và đó là sự thật. Bạn đã dự đoán rằng nước Anh sẽ không thắng và họ đã thua.
Dương tính giả:
Dự đoán của bạn là tích cực và nó sai.
Bạn đã dự đoán rằng nước Anh sẽ thắng, nhưng nó đã thua.
Âm tính giả:
Dự đoán của bạn là tiêu cực và kết quả là nó cũng sai.
Bạn đã dự đoán rằng Pháp sẽ không thắng, nhưng họ đã thắng.
Bạn nên nhớ rằng chúng tôi mô tả các giá trị được dự đoán là Đúng hoặc Sai hoặc Tích cực và Tiêu cực.
Cách tính ma trận nhầm lẫn
Đây là quy trình từng bước để tính toán Ma trận nhầm lẫn trong khai thác dữ liệu
- Bước 1) Trước tiên, bạn cần kiểm tra tập dữ liệu với các giá trị kết quả mong đợi.
- Bước 2) Dự đoán tất cả các hàng trong tập dữ liệu thử nghiệm.
- Bước 3) Tính toán dự đoán và kết quả dự kiến:
- Tổng số dự đoán đúng của mỗi lớp.
- Tổng số dự đoán sai của mỗi lớp.
Sau đó, những con số này được sắp xếp theo các phương pháp dưới đây:
- Mỗi hàng của ma trận liên kết đến một lớp được dự đoán.
- Mỗi cột của ma trận tương ứng với một lớp thực tế.
- Tổng số lần phân loại đúng và sai được nhập vào bảng.
- Tổng số dự đoán đúng cho một lớp sẽ được đưa vào cột dự đoán và hàng dự kiến cho giá trị lớp đó.
- Tổng số dự đoán không chính xác cho một lớp sẽ được đưa vào hàng dự kiến cho giá trị lớp đó và cột được dự đoán cho giá trị lớp cụ thể đó.
Các thuật ngữ quan trọng khác sử dụng ma trận nhầm lẫn
- Giá trị tiên đoán dương (PVV): Điều này rất gần với độ chính xác. Một sự khác biệt đáng kể giữa hai thuật ngữ là PVV xem xét mức độ phổ biến. Trong trường hợp các lớp được cân bằng hoàn hảo, giá trị dự đoán dương giống như độ chính xác.
- Tỷ lệ lỗi không: Thuật ngữ này được sử dụng để xác định dự đoán của bạn sẽ sai bao nhiêu lần nếu bạn có thể dự đoán được nhóm đa số. Bạn có thể coi đó là số liệu cơ bản để so sánh bộ phân loại của mình.
- Điểm F: Điểm F1 là điểm trung bình có trọng số của mức độ tích cực (thu hồi) và độ chính xác thực sự.
- Đường cong Roc: Đường cong Roc cho thấy tỷ lệ dương thực sự so với tỷ lệ dương tính giả ở các điểm cắt khác nhau. Nó cũng thể hiện sự cân bằng giữa độ nhạy (độ thu hồi và độ đặc hiệu hoặc tỷ lệ âm tính thực sự).
- Độ chính xác: Số liệu chính xác cho thấy độ chính xác của lớp tích cực. Nó đo lường khả năng dự đoán của lớp tích cực là chính xác.
Điểm tối đa là 1 khi bộ phân loại phân loại hoàn hảo tất cả các giá trị dương. Chỉ riêng độ chính xác thì không hữu ích lắm vì nó bỏ qua lớp phủ định. Số liệu này thường được ghép nối với số liệu Thu hồi. Việc thu hồi còn được gọi là độ nhạy hoặc tỷ lệ dương tính thực sự.
- Độ nhạy: Độ nhạy tính toán tỷ lệ các lớp dương tính được phát hiện chính xác. Số liệu này cho biết mô hình tốt như thế nào để nhận ra một lớp tích cực.
Tại sao bạn cần ma trận nhầm lẫn?
Dưới đây là những ưu/lợi ích của việc sử dụng ma trận nhầm lẫn.
- Nó cho thấy bất kỳ mô hình phân loại nào cũng bị nhầm lẫn khi đưa ra dự đoán.
- Ma trận nhầm lẫn không chỉ cung cấp cho bạn cái nhìn sâu sắc về các lỗi do trình phân loại của bạn gây ra mà còn cả các loại lỗi đang mắc phải.
- Bảng phân tích này giúp bạn khắc phục hạn chế khi chỉ sử dụng độ chính xác của phân loại.
- Mỗi cột của ma trận nhầm lẫn biểu thị các thể hiện của lớp được dự đoán đó.
- Mỗi hàng của ma trận nhầm lẫn đại diện cho các thể hiện của lớp thực tế.
- Nó cung cấp cái nhìn sâu sắc không chỉ về các lỗi do bộ phân loại tạo ra mà còn cả các lỗi đang được tạo ra.