Calculadora de matriz de confusão - Métricas de classificação

Analise o desempenho de classificação com accuracy, precision, recall, F1 e MCC

Insira os valores da sua matriz de confusão para calcular accuracy, precision, recall, specificity, F1-score e outras métricas de desempenho para análise de classificação binária.

Calculadora de matriz de confusão - Métricas de classificação
Analise o desempenho de classificação com accuracy, precision, recall, F1 e MCC

Sobre a calculadora de matriz de confusão

Uma matriz de confusão é uma tabela 2×2 que resume o desempenho de um modelo de classificação binária ao tabular as contagens de quatro resultados: Verdadeiros Positivos (TP), Falsos Positivos (FP), Verdadeiros Negativos (TN) e Falsos Negativos (FN). A partir desses quatro números, é possível derivar um conjunto rico de métricas de desempenho, cada uma medindo um aspecto diferente do comportamento do classificador. Verdadeiros Positivos (TP) são casos em que o modelo previu corretamente a classe positiva. Falsos Positivos (FP) são casos em que o modelo previu positivo, mas o rótulo real era negativo — também chamados de erros do Tipo I. Verdadeiros Negativos (TN) são previsões negativas corretas. Falsos Negativos (FN) são casos em que o modelo deixou passar um positivo — também chamados de erros do Tipo II. As principais métricas derivadas da matriz de confusão incluem: • Accuracy = (TP + TN) / Total — a fração de todas as previsões que estão corretas. É simples de interpretar, mas pode ser enganosa em conjuntos desbalanceados. • Precision (Valor preditivo positivo) = TP / (TP + FP) — de todas as previsões positivas, quantas são realmente positivas. Precision alta significa poucos falsos alarmes. • Recall (Sensitivity, Taxa de verdadeiros positivos) = TP / (TP + FN) — de todos os positivos reais, quantos foram detectados. Recall alto significa poucos positivos perdidos. • Specificity (Taxa de verdadeiros negativos) = TN / (TN + FP) — de todos os negativos reais, quantos foram identificados corretamente. Importante em triagem médica. • F1-score = 2 × (Precision × Recall) / (Precision + Recall) — a média harmônica de precision e recall, equilibrando ambas as métricas. Útil quando as classes são desbalanceadas. • Coeficiente de Correlação de Matthews (MCC) = (TP×TN − FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) — uma métrica equilibrada que leva em conta as quatro células da matriz de confusão. Varia de −1 (discordância perfeita) a +1 (concordância perfeita), com 0 indicando desempenho aleatório. A escolha da métrica certa depende do seu problema. Para detecção de fraude, o recall é crítico (nunca deixar uma fraude passar). Para filtros de spam, a precision é mais importante (não bloquear e-mails legítimos). Para triagem de doenças raras, tanto recall quanto specificity importam. MCC e F1-score geralmente são mais informativos do que accuracy sozinha quando as classes são desbalanceadas.

Exemplos

A tabela mostra entradas da matriz de confusão e suas métricas de desempenho resultantes.

TP, FP, TN, FNMétricas principaisTipo de modelo
TP=92, FP=8, TN=88, FN=12Accuracy=90%, F1=0.9020, MCC=0.801Modelo bem equilibrado e de alto desempenho
TP=45, FP=5, TN=95, FN=25Accuracy=82.35%, Precision=90%, Recall=64.29%Alta precision, previsões conservadoras
TP=85, FP=30, TN=70, FN=10Accuracy=79.5%, Recall=89.5%, Specificity=70%Recall alto, modelo sensível
TP=48, FP=12, TN=188, FN=2Accuracy=94%, Sensitivity=96%, Specificity=94%Teste diagnóstico médico — alta sensibilidade

Como usar a calculadora de matriz de confusão

  1. Informe o número de Verdadeiros Positivos (TP): casos em que o modelo previu corretamente a classe positiva.
  2. Informe os Falsos Positivos (FP): o modelo previu positivo, mas o rótulo real era negativo (erro do Tipo I).
  3. Informe os Verdadeiros Negativos (TN) e os Falsos Negativos (FN): positivos perdidos (erro do Tipo II).
  4. Clique em 'Calcular métricas' para calcular instantaneamente accuracy, precision, recall, specificity, F1-score, MCC, NPV, FPR e FNR.
  5. Use os botões de exemplo rápido para explorar cenários pré-configurados como modelos equilibrados, de alta precision e testes médicos.

Perguntas frequentes

Qual é a diferença entre precision e recall?
Precision responde 'de todas as previsões positivas, quantas estavam corretas?' enquanto recall responde 'de todos os positivos reais, quantos o modelo encontrou?'. Precision alta significa poucos falsos positivos (o modelo é cuidadoso ao rotular algo como positivo). Recall alto significa poucos falsos negativos (o modelo raramente deixa passar um verdadeiro positivo). Normalmente há um trade-off entre eles, controlado pelo limiar de decisão.
Por que accuracy nem sempre é a melhor métrica?
Accuracy pode ser enganosa em conjuntos desbalanceados. Por exemplo, se apenas 1% das transações forem fraudulentas, um modelo que sempre prevê 'não fraude' alcança 99% de accuracy, mas não detecta nenhum caso de fraude. Nesses cenários, precision, recall, F1-score ou MCC fornecem uma visão muito mais informativa do desempenho do modelo.
O que é o Coeficiente de Correlação de Matthews (MCC)?
MCC é uma métrica única e equilibrada que considera as quatro células da matriz de confusão (TP, FP, TN, FN). Ela varia de −1 a +1, onde +1 é previsão perfeita, 0 é tão bom quanto aleatório e −1 é discordância total. O MCC é considerado uma das métricas mais informativas para classificação binária, especialmente em conjuntos desbalanceados, porque não é inflado por grandes desequilíbrios de classe.
O que a specificity mede e quando ela é importante?
Specificity (Taxa de verdadeiros negativos) = TN / (TN + FP) mede o quão bem o modelo evita falsos positivos entre os negativos reais. Ela é especialmente importante em triagem médica: um teste com alta specificity minimiza o número de pessoas saudáveis marcadas incorretamente como doentes, reduzindo exames de acompanhamento desnecessários e a ansiedade do paciente. Sensibilidade (recall) e specificity juntas definem a curva ROC.
Como o F1-score se relaciona com precision e recall?
O F1-score é a média harmônica de precision e recall: F1 = 2 × (P × R) / (P + R). Usar a média harmônica garante que o F1 seja baixo se precision ou recall for baixo — você não pode obter um F1 alto sacrificando um pelo outro. O F1 varia de 0 (pior) a 1 (melhor) e é a métrica única mais comum quando você precisa equilibrar falsos positivos e falsos negativos.
Qual é a diferença entre sensibilidade e specificity em testes médicos?
Sensibilidade (recall) é a probabilidade de o teste identificar corretamente um paciente doente: TP / (TP + FN). Um teste muito sensível perde muito poucos pacientes doentes, sendo bom para descartar doença. Specificity é a probabilidade de o teste identificar corretamente uma pessoa saudável: TN / (TN + FP). Um teste muito específico produz poucos falsos positivos, sendo bom para confirmar doença. A maioria dos testes diagnósticos envolve um trade-off entre os dois, representado pela curva ROC.