机器学习中的混淆矩阵示例

什么是混淆矩阵?

混淆矩阵是机器学习分类的一种性能测量技术。它是一种表格,可以帮助您了解分类模型在已知真实值的一组测试数据上的性能。混淆矩阵这个术语本身非常简单,但其相关术语可能有点令人困惑。这里,对这种技术进行了一些简单的解释。

混淆矩阵的四个结果

混淆矩阵通过比较实际类别和预测类别来直观显示分类器的准确率。二元混淆矩阵由以下方块组成:

混淆表
混淆表
  • TP:真阳性:预测值正确预测为实际阳性
  • FP:预测值错误地预测了实际的正值。即,将负值预测为正值
  • FN:假阴性:将正值预测为负值
  • TN:真阴性:预测值正确预测为实际阴性

您可以计算 准确度测试 来自混淆矩阵:

混淆矩阵的四个结果

混淆矩阵示例

混淆矩阵是一种有用的机器学习方法,它允许您测量召回率、精确度、准确度和 AUC-ROC 曲线。下面给出了一个示例来了解真阳性、真阴性、假阴性和真阴性这些术语。

真实的正面:

你做出了积极的预测,结果也属实。例如,你曾预测法国会赢得世界杯,结果法国赢了。

真正的否定:

当你预测为负数时,结果却是真的。你预测英格兰不会赢,结果英格兰输了。

假阳性:

你的预测是正的,而且是假的。

你曾预测英格兰会赢,但他们却输了。

假阴性:

你的预测是否定的,结果也是错误的。

你曾预测法国不会赢,但它赢了。

您应该记住,我们将预测值描述为真或假或正面和负面。

如何计算混淆矩阵

以下是计算混淆矩阵的分步过程 数据挖掘

  • 步骤1)首先,您需要使用预期结果值测试数据集。
  • 步骤2)预测测试数据集中的所有行。
  • 步骤3)计算预期预测和结果:
  1. 每个类别正确预测的总数。
  2. 每个类别的错误预测总数。

之后,这些数字按以下方法组织:

  • 矩阵的每一行都链接到一个预测类。
  • 矩阵的每一列都对应一个实际的类。
  • 正确和错误分类的总数都输入到表中。
  • 某个类别的正确预测总和进入该类别值的预测列和预期行。
  • 某个类别的错误预测总和将进入该类别值的预期行和该特定类别值的预测列。

使用混淆矩阵的其他重要术语

  • 阳性预测值(PVV): 这非常接近准确率。这两个术语之间的一个显著区别是 PVV 考虑了患病率。在类别完全平衡的情况下,阳性预测值与准确率相同。
  • 零错误率: 这个术语用于定义如果你能预测多数类别,你的预测会错多少次。你可以将其视为比较分类器的基线指标。
  • F 分数: F1 分数是真实阳性(召回率)和准确率的加权平均分数。
  • Roc 曲线: Roc 曲线显示了各个截点的真阳性率与假阳性率。它还展示了敏感度(召回率和特异性或真阴性率)之间的权衡。
  • 精确: 精度指标显示了正类的准确度。它衡量正类预测的正确性。

使用混淆矩阵的其他重要术语

当分类器完美地分类所有正值时,最高分数为 1。单凭精度并没有多大帮助,因为它忽略了负类。该指标通常与召回率指标配对。召回率也称为敏感度或真阳性率。

  • 灵敏度:敏感度计算正确检测到的正类的比例。该指标表明模型识别正类的能力。

使用混淆矩阵的其他重要术语

为什么需要混淆矩阵?

以下是使用混淆矩阵的优点/好处。

  • 它展示了任何分类模型在进行预测时是如何感到困惑的。
  • 混淆矩阵不仅可以让您了解分类器所犯的错误,还可以了解所犯错误的类型。
  • 这种分解可以帮助你克服单独使用分类准确度的局限性。
  • 混淆矩阵的每一列代表该预测类的实例。
  • 混淆矩阵的每一行代表实际类的实例。
  • 它不仅能洞察分类器所犯的错误,还能洞察正在犯的错误。

总结一下这篇文章: