ROC曲線與AUC計算器 - 二元分類模型評估

進階統計檢定

在下方輸入模型的預測分數與真實標籤,即可產生ROC曲線並計算曲線下面積(AUC)。

ROC曲線與AUC計算器 - 二元分類模型評估
進階統計檢定

每行輸入一筆觀測,格式為“score,label”。標籤必須是0或1。例如:0.9,1

關於ROC曲線與AUC計算器

受試者工作特徵(ROC)曲線是一種圖形化工具,用於評估二元分類模型在所有可能決策閾值下的區分能力。它會隨著決策閾值由高到低變化,將縱軸上的真陽性率(TPR,即靈敏度)與橫軸上的假陽性率(FPR,即1 − 特異度)繪製出來。 靈敏度(TPR)表示被正確辨識出的真陽性所占比例:TPR = TP / (TP + FN)。特異度表示被正確辨識出的真陰性所占比例:Specificity = TN / (TN + FP)。FPR = 1 − Specificity = FP / (TN + FP)。完美分類器會通過左上角(FPR = 0,TPR = 1),而隨機分類器的ROC曲線則落在從(0,0)到(1,1)的對角線上。 ROC曲線下面積(AUC)以單一標量概括整體分類表現。AUC為1.0代表完美區分;0.5代表沒有區分能力(等同於隨機猜測)。一般而言,AUC ≥ 0.9 為極佳,0.8–0.9 為良好,0.7–0.8 為普通,低於0.7 為較差。 此計算器使用梯形法則計算AUC,也就是對階梯狀ROC曲線下的面積進行積分。它還會使用 Youden’s J 統計量(J = sensitivity + specificity − 1)找出最佳決策閾值,以最大化靈敏度與特異度之和,並提供一個較為平衡的操作點。 ROC曲線與AUC是醫學診斷(二元分類器區分患病與健康患者)、機器學習(二元分類模型評估)以及信用評分的標準評估指標。與準確率不同,AUC對類別不平衡不敏感,因此在正類樣本稀少時特別有價值。 此工具接受任何分數-標籤配對清單。分數可以是機率、logit值或任何連續排序分數。標籤必須是0(負類)或1(正類)。結果表會顯示所有ROC操作點,並高亮最佳閾值所在列,方便快速參考。

ROC曲線範例

這些範例顯示不同AUC值如何對應分類器的不同表現程度。

分數,標籤配對AUC解讀
0.9,1 / 0.8,1 / 0.3,0 / 0.2,0AUC = 1.0完美分類器
0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0AUC ≈ 0.9375區分能力極佳
0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1AUC ≈ 0.33排序相反——比隨機還差

如何使用此計算器

  1. 依照“score,label”的格式逐行輸入每筆觀測,其中score為數值預測,label為0或1。
  2. 請確認資料中同時包含陽性(label=1)與陰性(label=0)樣本。
  3. 點擊“計算”以計算AUC並產生ROC曲線點。
  4. 查看AUC值及其定性解讀(極佳、良好、普通或較差)。
  5. 找到表格中高亮的最佳閾值列,以取得最佳的靈敏度/特異度平衡。

常見問題

什麼是AUC,為什麼它很重要?
AUC(ROC曲線下面積)衡量分類器在所有閾值下將正樣本排在負樣本之前的能力。它與閾值無關,且對類別不平衡具有韌性,因此是醫學、機器學習與金融領域二元分類模型的標準基準。
AUC為0.5代表什麼?
AUC為0.5表示分類器表現不比隨機猜測更好——它只是隨機地對正負樣本排序。任何低於0.5的AUC都表示分類器系統性地錯誤,將預測反向後可能會得到高於隨機的表現。
最佳閾值是如何選出的?
此計算器使用 Youden’s J 統計量(J = sensitivity + specificity − 1)來選擇最佳閾值。它會最大化靈敏度與特異度之和,提供較平衡的操作點。依據不同應用,最小化成本或最大化F1分數等其他準則可能會得到不同的最佳閾值。
AUC可以用於多分類嗎?
標準AUC是為二元分類所定義。對於多分類問題,可以針對每個類別分別計算 one-vs-rest AUC,或報告宏平均AUC、加權平均AUC。此計算器僅支援二元分類(標籤0與1)。
靈敏度與特異度有什麼差別?
靈敏度(召回率或TPR)衡量分類器辨識真陽性的能力:TP / (TP + FN)。特異度衡量其避免誤報的能力:TN / (TN + FP)。當漏掉陽性樣本的代價很高時(例如疾病篩檢),高靈敏度至關重要;當誤報代價很高時(例如確認性檢測),高特異度更重要。
AUC總是模型評估的最佳指標嗎?
AUC非常適合跨閾值比較模型,也適合不平衡資料集,但它並不總是最佳選擇。對於極度不平衡的資料,PR-AUC(精確率-召回率曲線下面積)通常更有資訊量。對於特定決策閾值,F1分數、準確率或馬修斯相關係數可能更相關。