Question 1

¿Cuál es la diferencia entre precision y recall?

Accepted Answer

La precision responde 'de todas las predicciones positivas, ¿cuántas fueron correctas?' mientras que el recall responde 'de todos los positivos reales, ¿cuántos encontró el modelo?'. Una precision alta significa pocos falsos positivos (el modelo es cuidadoso al etiquetar algo como positivo). Un recall alto significa pocos falsos negativos (el modelo rara vez pasa por alto un verdadero positivo). Normalmente hay un intercambio entre ambas, controlado por el umbral de decisión.

Question 2

¿Por qué la accuracy no siempre es la mejor métrica?

Accepted Answer

La accuracy puede ser engañosa en conjuntos de datos desbalanceados. Por ejemplo, si solo el 1% de las transacciones es fraudulento, un modelo que siempre predice 'no fraude' alcanza un 99% de accuracy, pero no detecta ningún caso de fraude. En esos escenarios, precision, recall, F1-score o MCC ofrecen una visión mucho más informativa del rendimiento del modelo.

Question 3

¿Qué es el coeficiente de correlación de Matthews (MCC)?

Accepted Answer

El MCC es una métrica única y equilibrada que considera las cuatro celdas de la matriz de confusión (TP, FP, TN, FN). Va de −1 a +1, donde +1 es una predicción perfecta, 0 es equivalente al azar y −1 es desacuerdo total. El MCC se considera una de las métricas más informativas para la clasificación binaria, especialmente en conjuntos desbalanceados, porque no se infla con grandes desequilibrios de clase.

Question 4

¿Qué mide la specificity y cuándo es importante?

Accepted Answer

La specificity (tasa de verdaderos negativos) = TN / (TN + FP) mide qué tan bien el modelo evita falsos positivos entre los negativos reales. Es especialmente importante en el cribado médico: una prueba con alta specificity minimiza el número de personas sanas marcadas incorrectamente como enfermas, reduciendo pruebas de seguimiento innecesarias y la ansiedad del paciente. La sensibilidad (recall) y la specificity juntas definen la curva ROC.

Question 5

¿Cómo se relaciona el F1-score con precision y recall?

Accepted Answer

El F1-score es la media armónica de precision y recall: F1 = 2 × (P × R) / (P + R). Usar la media armónica asegura que el F1 sea bajo si precision o recall es bajo; no puedes conseguir un F1 alto sacrificando uno por el otro. El F1 va de 0 (peor) a 1 (mejor) y es la métrica única más común cuando necesitas equilibrar tanto falsos positivos como falsos negativos.

Question 6

¿Cuál es la diferencia entre sensibilidad y specificity en pruebas médicas?

Accepted Answer

La sensibilidad (recall) es la probabilidad de que la prueba identifique correctamente a un paciente enfermo: TP / (TP + FN). Una prueba muy sensible pasa por alto muy pocos pacientes enfermos, por lo que es buena para descartar enfermedad. La specificity es la probabilidad de que la prueba identifique correctamente a una persona sana: TN / (TN + FP). Una prueba muy específica produce pocos falsos positivos, por lo que es buena para confirmar enfermedad. La mayoría de las pruebas diagnósticas implican un intercambio entre ambas, representado por la curva ROC.

TP, FP, TN, FN	Métricas clave	Tipo de modelo
TP=92, FP=8, TN=88, FN=12	Accuracy=90%, F1=0.9020, MCC=0.801	Modelo equilibrado y de alto rendimiento
TP=45, FP=5, TN=95, FN=25	Accuracy=82.35%, Precision=90%, Recall=64.29%	Alta precision, predicciones conservadoras
TP=85, FP=30, TN=70, FN=10	Accuracy=79.5%, Recall=89.5%, Specificity=70%	Alto recall, modelo sensible
TP=48, FP=12, TN=188, FN=2	Accuracy=94%, Sensitivity=96%, Specificity=94%	Prueba diagnóstica médica — alta sensibilidad

Calculadora de matriz de confusión - Métricas de clasificación

Acerca de la calculadora de matriz de confusión

Ejemplos

Cómo usar la calculadora de matriz de confusión

Preguntas frecuentes