Question 1

精确率和召回率有什么区别？

Accepted Answer

精确率回答的是“在所有被预测为正的样本中，有多少是正确的？”，而召回率回答的是“在所有真实正样本中，模型找到了多少？”。精确率高表示假正例少（模型在判定为正时更谨慎）；召回率高表示假负例少（模型很少漏掉真正例）。两者通常存在权衡关系，由决策阈值控制。

Question 2

为什么准确率并不总是最佳指标？

Accepted Answer

在类别不平衡的数据集中，准确率可能具有误导性。例如，如果只有 1% 的交易是欺诈交易，那么一个始终预测“非欺诈”的模型可以达到 99% 的准确率，但却检测不到任何欺诈案例。在这种情况下，精确率、召回率、F1 分数或 MCC 能更真实地反映模型表现。

Question 3

什么是马修斯相关系数 (MCC)？

Accepted Answer

MCC 是一个单一且平衡的指标，考虑了混淆矩阵的四个单元格（TP、FP、TN、FN）。它的取值范围为 −1 到 +1，其中 +1 表示完美预测，0 表示不优于随机，−1 表示完全相反。MCC 被认为是二分类中最有信息量的指标之一，尤其适用于类别不平衡的数据集，因为它不会被严重的类别偏斜夸大。

Question 4

特异度衡量什么，什么时候重要？

Accepted Answer

特异度（真负率）= TN / (TN + FP)，衡量模型在真实负样本中避免假正例的能力。在医学筛查中它尤其重要：高特异度测试可以尽量减少把健康人误判为患病的人数，从而减少不必要的进一步检查和患者焦虑。灵敏度（召回率）和特异度共同定义 ROC 曲线。

Question 5

F1 分数与精确率和召回率是什么关系？

Accepted Answer

F1 分数是精确率和召回率的调和平均：F1 = 2 × (P × R) / (P + R)。调和平均保证了只要精确率或召回率其中之一很低，F1 也会很低——你不能通过牺牲其中一个来获得高 F1。F1 的范围是 0（最差）到 1（最好），当你需要同时平衡假正例和假负例时，它是最常用的单一指标。

Question 6

医学测试中的灵敏度和特异度有什么区别？

Accepted Answer

灵敏度（召回率）是测试正确识别患病患者的概率：TP / (TP + FN)。高灵敏度测试会漏掉很少的病人，因此适合用于排除疾病。特异度是测试正确识别健康人的概率：TN / (TN + FP)。高特异度测试会产生很少的假正例，因此适合用于确认疾病。大多数诊断测试都存在二者之间的权衡，这种关系由 ROC 曲线表示。

TP、FP、TN、FN	关键指标	模型类型
TP=92, FP=8, TN=88, FN=12	准确率=90%, F1=0.9020, MCC=0.801	平衡性良好、性能高的模型
TP=45, FP=5, TN=95, FN=25	准确率=82.35%, 精确率=90%, 召回率=64.29%	高精确率、保守型预测
TP=85, FP=30, TN=70, FN=10	准确率=79.5%, 召回率=89.5%, 特异度=70%	高召回率、敏感型模型
TP=48, FP=12, TN=188, FN=2	准确率=94%, 敏感度=96%, 特异度=94%	医学诊断测试——高敏感度

混淆矩阵计算器 - 分类指标

关于混淆矩阵计算器

示例

如何使用混淆矩阵计算器

常见问题