Matriz de confusão em aprendizado de máquina com EXEMPLO

O que é Matriz de Confusão?

Uma matriz de confusão é uma técnica de medição de desempenho para classificação de aprendizado de máquina. É uma espécie de tabela que ajuda a conhecer o desempenho do modelo de classificação sobre um conjunto de dados de teste para que os valores verdadeiros sejam conhecidos. O termo matriz de confusão em si é muito simples, mas a terminologia relacionada pode ser um pouco confusa. Aqui, algumas explicações simples são fornecidas para esta técnica.

Quatro resultados da matriz de confusão

A matriz de confusão visualiza a precisão de um classificador comparando as classes reais e previstas. A matriz de confusão binária é composta por quadrados:

Tabela de confusão
Tabela de confusão
  • TP: Verdadeiro Positivo: Valores previstos corretamente como positivos reais
  • FP: Os valores previstos previram incorretamente um positivo real. ou seja, valores negativos previstos como positivos
  • FN: Falso Negativo: Valores positivos previstos como negativos
  • TN: Verdadeiro Negativo: Valores previstos corretamente como negativos reais

Você pode calcular o teste de precisão da matriz de confusão:

Quatro resultados da matriz de confusão

Exemplo de matriz de confusão

Confusion Matrix é um método útil de aprendizado de máquina que permite medir recall, precisão, exatidão e curva AUC-ROC. Abaixo está um exemplo para conhecer os termos Verdadeiro Positivo, Verdadeiro Negativo, Falso Negativo e Verdadeiro Negativo.

Verdadeiro positivo:

Você projetou positivo e acabou sendo verdade. Por exemplo, você previu que a França venceria a copa do mundo e ela venceu.

Verdadeiro Negativo:

Quando você previu negativo, e é verdade. Você previu que a Inglaterra não venceria e perdeu.

Falso positivo:

Sua previsão é positiva e falsa.

Você previu que a Inglaterra venceria, mas perdeu.

Falso negativo:

Sua previsão é negativa e o resultado também é falso.

Você previu que a França não venceria, mas venceu.

Você deve se lembrar que descrevemos os valores previstos como Verdadeiro ou Falso ou Positivo e Negativo.

Como calcular uma matriz de confusão

Aqui está o processo passo a passo para calcular uma matriz de confusão em mineração de dados

  • Etapa 1) Primeiro, você precisa testar o conjunto de dados com seus valores de resultados esperados.
  • Etapa 2) Preveja todas as linhas no conjunto de dados de teste.
  • Etapa 3) Calcule as previsões e resultados esperados:
  1. O total de previsões corretas de cada classe.
  2. O total de previsões incorretas de cada classe.

Depois disso, esses números são organizados nos métodos abaixo:

  • Cada linha da matriz está vinculada a uma classe prevista.
  • Cada coluna da matriz corresponde a uma classe real.
  • As contagens totais de classificação correta e incorreta são inseridas na tabela.
  • A soma das previsões corretas para uma classe vai para a coluna prevista e a linha esperada para esse valor de classe.
  • A soma das previsões incorretas para uma classe vai para a linha esperada para esse valor de classe e para a coluna prevista para esse valor de classe específico.

Outros termos importantes usando uma matriz de confusão

  • Valor Preditivo Positivo (PVV): Isso está muito próximo da precisão. Uma diferença significativa entre os dois termos é que o PVV considera a prevalência. Na situação em que as classes estão perfeitamente equilibradas, o valor preditivo positivo é igual à precisão.
  • Taxa de erro nulo: Este termo é usado para definir quantas vezes sua previsão estaria errada se você pudesse prever a classe majoritária. Você pode considerá-lo como uma métrica básica para comparar seu classificador.
  • Pontuação F: A pontuação F1 é uma pontuação média ponderada do verdadeiro positivo (recall) e da precisão.
  • Curva Roc: A curva Roc mostra as taxas de verdadeiros positivos em relação à taxa de falsos positivos em vários pontos de corte. Também demonstra uma compensação entre sensibilidade (recordação e especificidade ou a verdadeira taxa negativa).
  • Precisão: A métrica de precisão mostra a precisão da classe positiva. Ele mede a probabilidade de a previsão da classe positiva estar correta.

Outros termos importantes usando uma matriz de confusão

A pontuação máxima é 1 quando o classificador classifica perfeitamente todos os valores positivos. A precisão por si só não é muito útil porque ignora a classe negativa. A métrica geralmente é combinada com a métrica Recall. A recuperação também é chamada de sensibilidade ou taxa de verdadeiro positivo.

  • Sensibilidade: A sensibilidade calcula a proporção de classes positivas detectadas corretamente. Essa métrica mostra o quão bom o modelo é para reconhecer uma classe positiva.

Outros termos importantes usando uma matriz de confusão

Por que você precisa da matriz de confusão?

Aqui estão os prós/benefícios de usar uma matriz de confusão.

  • Mostra como qualquer modelo de classificação fica confuso ao fazer previsões.
  • A matriz de confusão não apenas fornece informações sobre os erros cometidos pelo seu classificador, mas também sobre os tipos de erros cometidos.
  • Esse detalhamento ajuda você a superar a limitação de usar apenas a precisão da classificação.
  • Cada coluna da matriz de confusão representa as instâncias dessa classe prevista.
  • Cada linha da matriz de confusão representa as instâncias da classe real.
  • Ele fornece informações não apenas sobre os erros cometidos por um classificador, mas também sobre os erros que estão sendo cometidos.