Matriz de confusão em aprendizado de máquina com EXEMPLO
O que é Matriz de Confusão?
Uma matriz de confusão é uma técnica de medição de desempenho para classificação de aprendizado de máquina. É uma espécie de tabela que ajuda a conhecer o desempenho do modelo de classificação sobre um conjunto de dados de teste para que os valores verdadeiros sejam conhecidos. O termo matriz de confusão em si é muito simples, mas a terminologia relacionada pode ser um pouco confusa. Aqui, algumas explicações simples são fornecidas para esta técnica.
Quatro resultados da matriz de confusão
A matriz de confusão visualiza a precisão de um classificador comparando as classes reais e previstas. A matriz de confusão binária é composta por quadrados:
- TP: Verdadeiro Positivo: Valores previstos corretamente como positivos reais
- FP: Os valores previstos previram incorretamente um positivo real. ou seja, valores negativos previstos como positivos
- FN: Falso Negativo: Valores positivos previstos como negativos
- TN: Verdadeiro Negativo: Valores previstos corretamente como negativos reais
Você pode calcular o teste de precisão da matriz de confusão:
Exemplo de matriz de confusão
Confusion Matrix é um método útil de aprendizado de máquina que permite medir recall, precisão, exatidão e curva AUC-ROC. Abaixo está um exemplo para conhecer os termos Verdadeiro Positivo, Verdadeiro Negativo, Falso Negativo e Verdadeiro Negativo.
Verdadeiro positivo:
Você projetou positivo e acabou sendo verdade. Por exemplo, você previu que a França venceria a copa do mundo e ela venceu.
Verdadeiro Negativo:
Quando você previu negativo, e é verdade. Você previu que a Inglaterra não venceria e perdeu.
Falso positivo:
Sua previsão é positiva e falsa.
Você previu que a Inglaterra venceria, mas perdeu.
Falso negativo:
Sua previsão é negativa e o resultado também é falso.
Você previu que a França não venceria, mas venceu.
Você deve se lembrar que descrevemos os valores previstos como Verdadeiro ou Falso ou Positivo e Negativo.
Como calcular uma matriz de confusão
Aqui está o processo passo a passo para calcular uma matriz de confusão em mineração de dados
- Etapa 1) Primeiro, você precisa testar o conjunto de dados com seus valores de resultados esperados.
- Etapa 2) Preveja todas as linhas no conjunto de dados de teste.
- Etapa 3) Calcule as previsões e resultados esperados:
- O total de previsões corretas de cada classe.
- O total de previsões incorretas de cada classe.
Depois disso, esses números são organizados nos métodos abaixo:
- Cada linha da matriz está vinculada a uma classe prevista.
- Cada coluna da matriz corresponde a uma classe real.
- As contagens totais de classificação correta e incorreta são inseridas na tabela.
- A soma das previsões corretas para uma classe vai para a coluna prevista e a linha esperada para esse valor de classe.
- A soma das previsões incorretas para uma classe vai para a linha esperada para esse valor de classe e para a coluna prevista para esse valor de classe específico.
Outros termos importantes usando uma matriz de confusão
- Valor Preditivo Positivo (PVV): Isso está muito próximo da precisão. Uma diferença significativa entre os dois termos é que o PVV considera a prevalência. Na situação em que as classes estão perfeitamente equilibradas, o valor preditivo positivo é igual à precisão.
- Taxa de erro nulo: Este termo é usado para definir quantas vezes sua previsão estaria errada se você pudesse prever a classe majoritária. Você pode considerá-lo como uma métrica básica para comparar seu classificador.
- Pontuação F: A pontuação F1 é uma pontuação média ponderada do verdadeiro positivo (recall) e da precisão.
- Curva Roc: A curva Roc mostra as taxas de verdadeiros positivos em relação à taxa de falsos positivos em vários pontos de corte. Também demonstra uma compensação entre sensibilidade (recordação e especificidade ou a verdadeira taxa negativa).
- Precisão: A métrica de precisão mostra a precisão da classe positiva. Ele mede a probabilidade de a previsão da classe positiva estar correta.
A pontuação máxima é 1 quando o classificador classifica perfeitamente todos os valores positivos. A precisão por si só não é muito útil porque ignora a classe negativa. A métrica geralmente é combinada com a métrica Recall. A recuperação também é chamada de sensibilidade ou taxa de verdadeiro positivo.
- Sensibilidade: A sensibilidade calcula a proporção de classes positivas detectadas corretamente. Essa métrica mostra o quão bom o modelo é para reconhecer uma classe positiva.
Por que você precisa da matriz de confusão?
Aqui estão os prós/benefícios de usar uma matriz de confusão.
- Mostra como qualquer modelo de classificação fica confuso ao fazer previsões.
- A matriz de confusão não apenas fornece informações sobre os erros cometidos pelo seu classificador, mas também sobre os tipos de erros cometidos.
- Esse detalhamento ajuda você a superar a limitação de usar apenas a precisão da classificação.
- Cada coluna da matriz de confusão representa as instâncias dessa classe prevista.
- Cada linha da matriz de confusão representa as instâncias da classe real.
- Ele fornece informações não apenas sobre os erros cometidos por um classificador, mas também sobre os erros que estão sendo cometidos.