EXAMPLE을 사용한 머신러닝의 혼동 행렬
혼동 매트릭스란 무엇입니까?
혼동 행렬은 기계 학습 분류를 위한 성능 측정 기술입니다. 실제 값이 알려진 일련의 테스트 데이터에 대한 분류 모델의 성능을 알 수 있도록 도와주는 일종의 테이블입니다. 혼동행렬이라는 용어 자체는 매우 간단하지만 관련 용어는 다소 혼란스러울 수 있습니다. 여기서는 이 기술에 대한 몇 가지 간단한 설명을 제공합니다.
혼동 행렬의 네 가지 결과
혼동 행렬은 실제 클래스와 예측 클래스를 비교하여 분류기의 정확도를 시각화합니다. 이진 혼동 행렬은 정사각형으로 구성됩니다.

- TP: 참양성(True Positive): 예측값이 실제 양성으로 정확하게 예측됨
- FP: 예측된 값이 실제 양성을 잘못 예측했습니다. 즉, 음수 값이 양수로 예측됨
- FN: 거짓음성(False Negative): 양수값이 음수로 예측됨
- TN: 참음성(True Negative): 실제 음성으로 정확하게 예측된 예측값
당신은 계산할 수 있습니다 정확도 테스트 혼동 행렬에서:
혼동 행렬의 예
Confusion Matrix는 Recall, Precision, Accuracy 및 AUC-ROC 곡선을 측정할 수 있는 유용한 기계 학습 방법입니다. 다음은 True Positive, True Negative, False Negative 및 True Negative라는 용어를 아는 예입니다.
참양성:
당신은 긍정적인 생각을 했고 그것이 사실로 드러났습니다. 예를 들어, 당신은 프랑스가 월드컵에서 우승할 것이라고 예측했고, 그것은 승리했습니다.
참 부정:
당신이 부정적으로 예측했을 때 그것은 사실입니다. 당신은 잉글랜드가 이기지 못할 것이라고 예상했지만 영국은 패했습니다.
거짓 긍정:
당신의 예측은 긍정적이고 거짓입니다.
잉글랜드가 승리할 것이라고 예상했지만 패배했습니다.
거짓음성:
귀하의 예측은 부정적이며 결과도 거짓입니다.
프랑스가 이기지 못할 것이라고 예상했는데, 프랑스가 이겼습니다.
우리는 예측 값을 참 또는 거짓, 양수 및 음수로 설명한다는 점을 기억해야 합니다.
혼동 행렬을 계산하는 방법
다음은 혼동 행렬을 계산하는 단계별 프로세스입니다. 데이터 마이닝
- 1단계) 먼저 예상 결과 값으로 데이터세트를 테스트해야 합니다.
- 2단계) 테스트 데이터 세트의 모든 행을 예측합니다.
- 3단계) 예상되는 예측과 결과를 계산합니다.
- 각 클래스의 올바른 예측의 총계입니다.
- 각 클래스의 잘못된 예측의 총계입니다.
그 후, 이러한 숫자는 아래에 주어진 방법에 따라 정리됩니다.
- 행렬의 모든 행은 예측 클래스에 연결됩니다.
- 행렬의 모든 열은 실제 클래스와 일치합니다.
- 올바른 분류와 잘못된 분류의 총 개수가 표에 입력됩니다.
- 클래스에 대한 올바른 예측의 합계는 해당 클래스 값에 대한 예측 열과 예상 행에 들어갑니다.
- 클래스에 대한 잘못된 예측의 합계는 해당 클래스 값에 대한 예상 행과 해당 특정 클래스 값에 대한 예측 열에 들어갑니다.
혼동 행렬을 사용하는 기타 중요한 용어
- 긍정적인 예측 가치(PVV): 이는 정밀도에 매우 가깝습니다. 두 용어 사이의 한 가지 중요한 차이점은 PVV가 유병률을 고려한다는 것입니다. 클래스가 완벽하게 균형을 이루는 상황에서는 양성 예측 값이 정밀도와 동일합니다.
- Null 오류율: 이 용어는 다수 클래스를 예측할 수 있는 경우 예측이 몇 번이나 틀릴지 정의하는 데 사용됩니다. 분류기를 비교하기 위한 기준 측정항목으로 간주할 수 있습니다.
- F 점수: F1 점수는 진양성(재현율)과 정밀도의 가중 평균 점수입니다.
- 로크 곡선: Roc 곡선은 다양한 절단 지점에서 거짓 긍정 비율에 대한 참 긍정 비율을 보여줍니다. 또한 민감도(재현율과 특이성 또는 진음성 비율) 사이의 균형을 보여줍니다.
- 정도: 정밀도 측정항목은 양성 클래스의 정확도를 보여줍니다. 이는 양성 클래스의 예측이 얼마나 정확할 가능성을 측정합니다.
분류기가 모든 양의 값을 완벽하게 분류한 경우 최대 점수는 1입니다. 정밀도만으로는 네거티브 클래스를 무시하므로 별로 도움이 되지 않습니다. 측정항목은 일반적으로 Recall 측정항목과 쌍을 이룹니다. 재현율은 민감도 또는 진양성률이라고도 합니다.
- 감도: 민감도는 올바르게 감지된 양성 클래스의 비율을 계산합니다. 이 지표는 모델이 포지티브 클래스를 인식하는 데 얼마나 좋은지 보여줍니다.
왜 혼동 행렬이 필요한가요?
혼동 행렬 사용의 장점/이점은 다음과 같습니다.
- 이는 분류 모델이 예측할 때 어떻게 혼동되는지 보여줍니다.
- 혼동 행렬은 분류기에 의해 발생하는 오류뿐만 아니라 발생하는 오류 유형에 대한 통찰력을 제공합니다.
- 이 분류는 분류 정확도만 사용하는 한계를 극복하는 데 도움이 됩니다.
- 혼동 행렬의 모든 열은 해당 예측 클래스의 인스턴스를 나타냅니다.
- 혼동 행렬의 각 행은 실제 클래스의 인스턴스를 나타냅니다.
- 이는 분류기에 의해 발생한 오류뿐만 아니라 현재 발생하는 오류에 대한 통찰력을 제공합니다.