Calculadora de matriz de confusión - Métricas de clasificación

Analiza el rendimiento de clasificación con accuracy, precision, recall, F1 y MCC

Introduce los valores de tu matriz de confusión para calcular accuracy, precision, recall, specificity, F1-score y otras métricas de rendimiento para el análisis de clasificación binaria.

Calculadora de matriz de confusión - Métricas de clasificación
Analiza el rendimiento de clasificación con accuracy, precision, recall, F1 y MCC

Acerca de la calculadora de matriz de confusión

Una matriz de confusión es una tabla 2×2 que resume el rendimiento de un modelo de clasificación binaria mediante el recuento de cuatro resultados: Verdaderos Positivos (TP), Falsos Positivos (FP), Verdaderos Negativos (TN) y Falsos Negativos (FN). A partir de estos cuatro números se puede derivar un conjunto amplio de métricas de rendimiento, cada una midiendo un aspecto distinto del comportamiento del clasificador. Los Verdaderos Positivos (TP) son los casos en los que el modelo predijo correctamente la clase positiva. Los Falsos Positivos (FP) son los casos en los que el modelo predijo positivo pero la etiqueta real era negativa; también se conocen como errores de tipo I. Los Verdaderos Negativos (TN) son predicciones negativas correctas. Los Falsos Negativos (FN) son los casos en los que el modelo no detectó un positivo; también se conocen como errores de tipo II. Las métricas clave derivadas de la matriz de confusión incluyen: • Accuracy = (TP + TN) / Total — la fracción de todas las predicciones que son correctas. Es fácil de interpretar, pero puede ser engañosa en conjuntos de datos desbalanceados. • Precision (Valor predictivo positivo) = TP / (TP + FP) — de todas las predicciones positivas, cuántas son realmente positivas. Una precision alta significa pocas falsas alarmas. • Recall (Sensitivity, Tasa de verdaderos positivos) = TP / (TP + FN) — de todos los positivos reales, cuántos fueron detectados. Un recall alto significa pocos positivos perdidos. • Specificity (Tasa de verdaderos negativos) = TN / (TN + FP) — de todos los negativos reales, cuántos fueron identificados correctamente. Es importante en el cribado médico. • F1-score = 2 × (Precision × Recall) / (Precision + Recall) — la media armónica de precision y recall, equilibrando ambas métricas. Es útil cuando las clases están desbalanceadas. • Coeficiente de correlación de Matthews (MCC) = (TP×TN − FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) — una métrica equilibrada que tiene en cuenta las cuatro celdas de la matriz de confusión. Va de −1 (desacuerdo perfecto) a +1 (acuerdo perfecto), con 0 indicando rendimiento aleatorio. Elegir la métrica adecuada depende de tu problema. Para la detección de fraude, el recall es crítico (nunca hay que pasar por alto un fraude). Para los filtros de spam, la precision es más importante (no bloquear correos legítimos). Para el cribado de enfermedades raras, tanto el recall como la specificity importan. El MCC y el F1-score suelen ser más informativos que la accuracy sola cuando las clases están desbalanceadas.

Ejemplos

La tabla muestra entradas de la matriz de confusión y sus métricas de rendimiento resultantes.

TP, FP, TN, FNMétricas claveTipo de modelo
TP=92, FP=8, TN=88, FN=12Accuracy=90%, F1=0.9020, MCC=0.801Modelo equilibrado y de alto rendimiento
TP=45, FP=5, TN=95, FN=25Accuracy=82.35%, Precision=90%, Recall=64.29%Alta precision, predicciones conservadoras
TP=85, FP=30, TN=70, FN=10Accuracy=79.5%, Recall=89.5%, Specificity=70%Alto recall, modelo sensible
TP=48, FP=12, TN=188, FN=2Accuracy=94%, Sensitivity=96%, Specificity=94%Prueba diagnóstica médica — alta sensibilidad

Cómo usar la calculadora de matriz de confusión

  1. Introduce el número de Verdaderos Positivos (TP): casos en los que el modelo predijo correctamente la clase positiva.
  2. Introduce los Falsos Positivos (FP): el modelo predijo positivo pero la etiqueta real era negativa (error de tipo I).
  3. Introduce los Verdaderos Negativos (TN): predicciones negativas correctas, y los Falsos Negativos (FN): positivos no detectados (error de tipo II).
  4. Haz clic en 'Calcular métricas' para calcular al instante accuracy, precision, recall, specificity, F1-score, MCC, NPV, FPR y FNR.
  5. Usa los botones de carga rápida de ejemplos para explorar escenarios preconfigurados como modelos equilibrados, de alta precision y pruebas médicas.

Preguntas frecuentes

¿Cuál es la diferencia entre precision y recall?
La precision responde 'de todas las predicciones positivas, ¿cuántas fueron correctas?' mientras que el recall responde 'de todos los positivos reales, ¿cuántos encontró el modelo?'. Una precision alta significa pocos falsos positivos (el modelo es cuidadoso al etiquetar algo como positivo). Un recall alto significa pocos falsos negativos (el modelo rara vez pasa por alto un verdadero positivo). Normalmente hay un intercambio entre ambas, controlado por el umbral de decisión.
¿Por qué la accuracy no siempre es la mejor métrica?
La accuracy puede ser engañosa en conjuntos de datos desbalanceados. Por ejemplo, si solo el 1% de las transacciones es fraudulento, un modelo que siempre predice 'no fraude' alcanza un 99% de accuracy, pero no detecta ningún caso de fraude. En esos escenarios, precision, recall, F1-score o MCC ofrecen una visión mucho más informativa del rendimiento del modelo.
¿Qué es el coeficiente de correlación de Matthews (MCC)?
El MCC es una métrica única y equilibrada que considera las cuatro celdas de la matriz de confusión (TP, FP, TN, FN). Va de −1 a +1, donde +1 es una predicción perfecta, 0 es equivalente al azar y −1 es desacuerdo total. El MCC se considera una de las métricas más informativas para la clasificación binaria, especialmente en conjuntos desbalanceados, porque no se infla con grandes desequilibrios de clase.
¿Qué mide la specificity y cuándo es importante?
La specificity (tasa de verdaderos negativos) = TN / (TN + FP) mide qué tan bien el modelo evita falsos positivos entre los negativos reales. Es especialmente importante en el cribado médico: una prueba con alta specificity minimiza el número de personas sanas marcadas incorrectamente como enfermas, reduciendo pruebas de seguimiento innecesarias y la ansiedad del paciente. La sensibilidad (recall) y la specificity juntas definen la curva ROC.
¿Cómo se relaciona el F1-score con precision y recall?
El F1-score es la media armónica de precision y recall: F1 = 2 × (P × R) / (P + R). Usar la media armónica asegura que el F1 sea bajo si precision o recall es bajo; no puedes conseguir un F1 alto sacrificando uno por el otro. El F1 va de 0 (peor) a 1 (mejor) y es la métrica única más común cuando necesitas equilibrar tanto falsos positivos como falsos negativos.
¿Cuál es la diferencia entre sensibilidad y specificity en pruebas médicas?
La sensibilidad (recall) es la probabilidad de que la prueba identifique correctamente a un paciente enfermo: TP / (TP + FN). Una prueba muy sensible pasa por alto muy pocos pacientes enfermos, por lo que es buena para descartar enfermedad. La specificity es la probabilidad de que la prueba identifique correctamente a una persona sana: TN / (TN + FP). Una prueba muy específica produce pocos falsos positivos, por lo que es buena para confirmar enfermedad. La mayoría de las pruebas diagnósticas implican un intercambio entre ambas, representado por la curva ROC.