機械学習における混同行列と例
混同マトリックスとは何ですか?
混同行列は、機械学習分類のパフォーマンス測定手法です。 これは、真の値がわかっている一連のテスト データに対する分類モデルのパフォーマンスを知るのに役立つ一種のテーブルです。 混同行列という用語自体は非常に単純ですが、関連する用語は少しわかりにくい場合があります。 ここで、この手法について簡単に説明します。
混同マトリックスの XNUMX つの結果
混同行列は、実際のクラスと予測クラスを比較して分類器の精度を視覚化します。バイナリ混同行列は、次の四角形で構成されます。

- TP: True Positive: 実際の陽性として正しく予測された予測値
- FP: 予測値は実際の陽性を誤って予測しました。 つまり、負の値は正として予測されます
- FN: 偽陰性: 陰性として予測された陽性値
- TN: 真陰性: 実際の陰性として正しく予測された予測値
計算できます 精度テスト 混同行列から:
混同行列の例
混同行列は、再現率、精度、精度、および AUC-ROC 曲線を測定できる便利な機械学習手法です。 以下に、真陽性、真陰性、偽陰性、真陰性という用語を知るための例を示します。
真のポジティブ:
あなたはポジティブに投影し、それが真実であることが判明しました。 たとえば、ワールドカップではフランスが優勝すると予想していましたが、フランスが優勝しました。
真の負:
ネガティブな予測をしたとき、そしてそれが当たったとき。 あなたはイングランドが勝てないと予想していましたが、イングランドは負けました。
誤検知:
あなたの予測は肯定的ですが、それは誤りです。
あなたはイングランドが勝つと予想していましたが、負けてしまいました。
偽陰性:
あなたの予測は否定的であり、結果もまた誤りです。
フランスは勝てないと予想していましたが、フランスは勝ちました。
予測値は、True または False、または Positive または Negative として説明されることに注意してください。
混同行列の計算方法
ここでは、混同行列を計算するための段階的なプロセスを示します。 データマイニング
- ステップ 1) まず、期待される結果値を使用してデータセットをテストする必要があります。
- ステップ 2) テスト データセット内のすべての行を予測します。
- ステップ 3) 予想される予測と結果を計算します。
- 各クラスの正解予測の合計。
- 各クラスの誤った予測の合計。
その後、これらの数字は以下の方法で整理されます。
- マトリックスの各行は、予測されたクラスにリンクします。
- 行列の各列は実際のクラスに対応します。
- 正しい分類と誤った分類の合計数がテーブルに入力されます。
- クラスの正しい予測の合計は、そのクラス値の予測された列と期待される行に入力されます。
- クラスの誤った予測の合計は、そのクラス値の予期される行と、その特定のクラス値の予測される列に入力されます。
混同行列を使用したその他の重要な用語
- 陽性的中率(PVV): これは精度に非常に近い値です。 XNUMX つの用語の大きな違いの XNUMX つは、PVV が普及率を考慮していることです。 クラスのバランスが完全に取れている状況では、正の的中率は精度と同じになります。
- ヌルエラー率: この用語は、多数派クラスを予測できた場合に、予測が何回外れるかを定義するために使用されます。 これは、分類子を比較するためのベースライン メトリックとして考慮できます。
- F スコア: F1 スコアは、真陽性 (リコール) と精度の加重平均スコアです。
- ロックカーブ: Roc 曲線は、さまざまなカット ポイントでの真陽性率と偽陽性率を示します。 また、感度(再現率と特異度、または真陰性率)の間のトレードオフも示しています。
- 精度: 精度メトリックは、ポジティブ クラスの精度を示します。 陽性クラスの予測が正しい可能性を測定します。
分類器がすべての正の値を完全に分類した場合、最大スコアは 1 になります。 精度だけでは負のクラスが無視されるため、あまり役に立ちません。 通常、メトリクスはリコールメトリクスとペアになります。 再現率は感度または真陽性率とも呼ばれます。
- 感度: 感度は、正しく検出された陽性クラスの比率を計算します。 このメトリクスは、モデルがポジティブ クラスを認識するのにどれだけ優れているかを示します。
なぜ混同マトリックスが必要なのでしょうか?
混同行列を使用する利点と利点を次に示します。
- これは、分類モデルが予測を行うときにどのように混乱するかを示しています。
- 混同マトリックスは、分類子によって発生しているエラーだけでなく、発生しているエラーの種類についても洞察します。
- この内訳は、分類精度のみを使用する場合の制限を克服するのに役立ちます。
- 混同行列の各列は、予測されたクラスのインスタンスを表します。
- 混同行列の各行は、実際のクラスのインスタンスを表します。
- これにより、分類器によって発生したエラーだけでなく、発生中のエラーについても洞察が得られます。