ROC曲线与AUC计算器 - 二分类模型评估

高级统计检验

在下方输入模型的预测分数和真实标签,即可生成ROC曲线并计算曲线下面积(AUC)。

ROC曲线与AUC计算器 - 二分类模型评估
高级统计检验

每行输入一条观测,格式为“score,label”。标签必须是0或1。例如:0.9,1

关于ROC曲线与AUC计算器

受试者工作特征(ROC)曲线是一种图形化工具,用于评估二分类模型在所有可能决策阈值下的区分能力。它会随着决策阈值从高到低变化,将纵轴上的真阳性率(TPR,即灵敏度)与横轴上的假阳性率(FPR,即1 − 特异度)进行绘制。 灵敏度(TPR)表示被正确识别出的真实阳性所占比例:TPR = TP / (TP + FN)。特异度表示被正确识别出的真实阴性所占比例:Specificity = TN / (TN + FP)。FPR = 1 − Specificity = FP / (TN + FP)。理想分类器会经过左上角(FPR = 0,TPR = 1),而随机分类器的ROC曲线则位于从(0,0)到(1,1)的对角线上。 ROC曲线下面积(AUC)用一个标量概括整体分类性能。AUC为1.0表示完美区分;0.5表示没有区分能力(相当于随机猜测)。通常,AUC ≥ 0.9 为极佳,0.8–0.9 为良好,0.7–0.8 为一般,低于0.7 为较差。 此计算器使用梯形法则计算AUC,即对阶梯状ROC曲线下的面积进行积分。它还使用 Youden’s J 统计量(J = sensitivity + specificity − 1)寻找最佳决策阈值,以最大化灵敏度与特异度之和,并提供一个更平衡的工作点。 ROC曲线和AUC是医学诊断(二分类器区分患病与健康患者)、机器学习(二分类模型评估)以及信用评分中的标准评估指标。与准确率不同,AUC对类别不平衡不敏感,因此在正类样本稀少时尤其有价值。 此工具接受任意分数-标签对列表。分数可以是概率、logit值或任何连续排序分数。标签必须是0(负类)或1(正类)。结果表会显示所有ROC操作点,并高亮最佳阈值所在行,便于快速查看。

ROC曲线示例

这些示例展示了不同AUC值如何对应分类器的不同性能水平。

分数,标签对AUC解释
0.9,1 / 0.8,1 / 0.3,0 / 0.2,0AUC = 1.0完美分类器
0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0AUC ≈ 0.9375区分能力极佳
0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1AUC ≈ 0.33排序相反——比随机还差

如何使用此计算器

  1. 按“score,label”的格式逐行输入每条观测,其中score为数值预测,label为0或1。
  2. 确保数据中同时包含阳性(label=1)和阴性(label=0)样本。
  3. 点击“计算”以计算AUC并生成ROC曲线点。
  4. 查看AUC值及其定性解释(极佳、良好、一般或较差)。
  5. 找到表格中高亮的最佳阈值行,以获得最佳的灵敏度/特异度平衡。

常见问题

什么是AUC,为什么它很重要?
AUC(ROC曲线下面积)衡量分类器在所有阈值下将正样本排在负样本之前的能力。它与阈值无关,并且对类别不平衡具有鲁棒性,因此是医学、机器学习和金融领域二分类模型的标准基准。
AUC为0.5意味着什么?
AUC为0.5表示分类器与随机猜测没有区别——它只是随机地对正负样本进行排序。任何低于0.5的AUC都说明分类器系统性地出错,把预测取反后就可能获得高于随机的表现。
最佳阈值是如何选择的?
此计算器使用 Youden’s J 统计量(J = sensitivity + specificity − 1)来选择最佳阈值。它会最大化灵敏度与特异度之和,提供一个更平衡的工作点。根据具体应用,最小化成本或最大化F1分数等其他准则可能会得到不同的最佳阈值。
AUC可以用于多分类吗?
标准AUC是为二分类定义的。对于多分类问题,可以分别为每个类别计算 one-vs-rest AUC,或者报告宏平均AUC或加权平均AUC。此计算器仅支持二分类(标签0和1)。
灵敏度和特异度有什么区别?
灵敏度(召回率或TPR)衡量分类器识别真实阳性的能力:TP / (TP + FN)。特异度衡量其避免误报的能力:TN / (TN + FP)。当漏掉阳性样本代价很高时(例如疾病筛查),高灵敏度至关重要;当误报代价很高时(例如确认性检测),高特异度更重要。
AUC总是模型评估的最佳指标吗?
AUC非常适合跨阈值比较模型,也适合不平衡数据集,但它并不总是最佳选择。对于极度不平衡的数据,PR-AUC(精确率-召回率曲线下面积)通常更有信息量。对于特定决策阈值,F1分数、准确率或马修斯相关系数可能更相关。