Матрица путаницы в машинном обучении с ПРИМЕРОМ

Что такое матрица путаницы?

Матрица путаницы — это метод измерения производительности для классификации машинного обучения. Это своего рода таблица, которая помогает вам узнать производительность модели классификации на наборе тестовых данных, поскольку известны истинные значения. Термин «матрица путаницы» сам по себе очень прост, но связанная с ним терминология может немного сбивать с толку. Здесь дается простое объяснение этой техники.

Четыре результата матрицы путаницы

Матрица путаницы визуализирует точность классификатора путем сравнения фактических и прогнозируемых классов. Матрица двоичной путаницы состоит из sqares:

Таблица путаницы
Таблица путаницы
  • TP: True Positive: прогнозируемые значения правильно прогнозируются как фактические положительные значения.
  • ФП: Прогнозируемые значения неверно предсказывали фактический положительный результат. т. е. отрицательные значения прогнозируются как положительные
  • FN: ложноотрицательный результат: положительные значения прогнозируются как отрицательные.
  • TN: True Negative: прогнозируемые значения правильно прогнозируются как фактические отрицательные значения.

Вы можете вычислить проверка точности из матрицы путаницы:

Четыре результата матрицы путаницы

Пример матрицы путаницы

Матрица путаницы — это полезный метод машинного обучения, который позволяет измерять кривую отзыва, точности, точности и AUC-ROC. Ниже приведен пример, позволяющий узнать термины «истинно положительный», «истинно отрицательный», «ложно отрицательный» и «истинно отрицательный».

Настоящий позитив:

Вы спрогнозировали позитив, и это оказалось правдой. Например, вы предсказали, что Франция выиграет чемпионат мира, и она выиграла.

Истинно отрицательный:

Когда тебе предсказали негатив, и это правда. Вы предсказывали, что Англия не выиграет, и она проиграла.

Ложный положительный результат:

Ваш прогноз положительный, но он ложный.

Вы предсказывали, что Англия выиграет, но она проиграла.

Ложноотрицательный результат:

Ваш прогноз отрицательный, и результат тоже ложный.

Вы предсказывали, что Франция не победит, но она победила.

Вы должны помнить, что мы описываем прогнозируемые значения как «Истина», «Ложь» или «Положительное» и «Отрицательное».

Как рассчитать матрицу неточностей

Вот пошаговый процесс расчета Матрицы путаницы в добыча данных

  • Шаг 1) Во-первых, вам нужно протестировать набор данных с ожидаемыми значениями результата.
  • Шаг 2) Спрогнозируйте все строки в тестовом наборе данных.
  • Шаг 3) Рассчитайте ожидаемые прогнозы и результаты:
  1. Сумма правильных предсказаний каждого класса.
  2. Сумма неправильных предсказаний каждого класса.

После этого эти numbers организованы следующими методами:

  • Каждая строка матрицы связана с предсказанным классом.
  • Каждый столбец матрицы соответствует реальному классу.
  • Общее количество правильных и неправильных классификаций занесено в таблицу.
  • Сумма правильных прогнозов для класса попадает в прогнозируемый столбец и ожидаемую строку для этого значения класса.
  • Сумма неправильных прогнозов для класса попадает в ожидаемую строку для этого значения класса и в столбец прогнозов для этого конкретного значения класса.

Другие важные термины с использованием матрицы путаницы

  • Положительная прогностическая ценность (PVV): Это очень близко к точности. Одно существенное различие между этими двумя терминами заключается в том, что PVV учитывает распространенность. В ситуации, когда классы идеально сбалансированы, положительная прогностическая ценность равна точности.
  • Нулевая частота ошибок: Этот термин используется для определения того, сколько раз ваш прогноз будет неправильным, если вы сможете предсказать класс большинства. Вы можете рассматривать его как базовую метрику для сравнения вашего классификатора.
  • Оценка F: Оценка F1 представляет собой средневзвешенную оценку истинно положительного результата (напоминаемости) и точности.
  • Кривая Рока: Кривая Roc показывает истинно положительные показатели по сравнению с ложноположительными показателями в различных точках среза. Он также демонстрирует компромисс между чувствительностью (напоминаемостью и специфичностью или истинно отрицательным показателем).
  • Точность: Метрика точности показывает точность положительного класса. Он измеряет, насколько вероятен прогноз положительного класса.

Другие важные термины с использованием матрицы путаницы

Максимальный балл равен 1, если классификатор идеально классифицирует все положительные значения. Сама по себе точность не очень полезна, поскольку она игнорирует отрицательный класс. Метрика обычно сочетается с метрикой отзыва. Воспоминание также называют чувствительностью или истинно положительным уровнем.

  • чувствительность: Чувствительность вычисляет соотношение правильно обнаруженных положительных классов. Эта метрика показывает, насколько хорошо модель распознает положительный класс.

Другие важные термины с использованием матрицы путаницы

Зачем вам нужна матрица путаницы?

Вот плюсы и преимущества использования матрицы путаницы.

  • Это показывает, как любая классификационная модель запутывается, когда делает прогнозы.
  • Матрица путаницы не только дает вам представление об ошибках, допущенных вашим классификатором, но и о типах допущенных ошибок.
  • Эта разбивка поможет вам преодолеть ограничение использования только точности классификации.
  • Каждый столбец матрицы путаницы представляет экземпляры этого предсказанного класса.
  • Каждая строка матрицы путаницы представляет экземпляры фактического класса.
  • Он позволяет понять не только ошибки, допущенные классификатором, но и сами ошибки.