ROC曲線とAUC計算機 - 二値分類モデル評価
高度な統計検定
下にモデルの予測スコアと正解ラベルを入力すると、ROC曲線を作成し、曲線下面積(AUC)を計算できます。
ROC曲線とAUC計算機 - 二値分類モデル評価
高度な統計検定
1行につき1件、'score,label' の形式で入力してください。ラベルは0または1である必要があります。例:0.9,1
ROC曲線とAUC計算機について
受信者動作特性(ROC)曲線は、二値分類モデルの判別能力を、取り得るすべての意思決定閾値にわたって評価するためのグラフです。意思決定閾値が高い値から低い値へ変化するにつれて、縦軸の真陽性率(TPR、または感度)と横軸の偽陽性率(FPR、または1 − 特異度)をプロットします。
感度(TPR)は、実際の陽性を正しく識別できた割合です:TPR = TP / (TP + FN)。特異度は、実際の陰性を正しく識別できた割合です:Specificity = TN / (TN + FP)。FPR = 1 − Specificity = FP / (TN + FP) です。完全な分類器は左上隅(FPR = 0、TPR = 1)を通り、ランダム分類器のROC曲線は(0,0)から(1,1)への対角線上に位置します。
ROC曲線下面積(AUC)は、分類性能全体を1つのスカラーで要約します。AUCが1.0なら完全な判別、0.5なら判別能力なし(ランダム推測と同等)です。一般的には、AUC ≥ 0.9 は非常に高い、0.8–0.9 は高い、0.7–0.8 は中程度、0.7未満は低いとされます。
この計算機は、階段状のROC曲線下の面積を積分する台形則でAUCを計算します。また、Youden の J 統計量(J = sensitivity + specificity − 1)を使って最適な意思決定閾値を特定し、感度と特異度の合計を最大化するバランスのよい動作点を示します。
ROC曲線とAUCは、医療診断(患者を病気群と健常群に分ける分類器)、機械学習(二値分類モデルの評価)、与信スコアリングで標準的な評価指標です。accuracy とは異なり、AUC はクラス不均衡の影響を受けにくいため、陽性例が少ない場合に特に有用です。
このツールは、スコアとラベルの任意の組を受け付けます。スコアは確率、logit値、または任意の連続的な順位付け値で構いません。ラベルは0(負例)または1(正例)である必要があります。結果テーブルにはすべてのROC動作点が表示され、最適閾値の行が見やすくハイライトされます。
ROC曲線の例
これらの例は、AUCの値が分類器の性能レベルの違いにどう対応するかを示しています。
| スコア、ラベルの組 | AUC | 解釈 |
|---|---|---|
| 0.9,1 / 0.8,1 / 0.3,0 / 0.2,0 | AUC = 1.0 | 完全な分類器 |
| 0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0 | AUC ≈ 0.9375 | 判別能力が非常に高い |
| 0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1 | AUC ≈ 0.33 | 順位が逆転している — ランダムより悪い |
この計算機の使い方
- 各行に 'score,label' 形式で1件ずつ入力します。score は数値予測、label は 0 または 1 です。
- データに陽性(label=1)と陰性(label=0)の両方が含まれていることを確認します。
- 「計算」をクリックしてAUCを求め、ROC曲線の点を生成します。
- AUCの値と、その定性的な解釈(非常に高い、高い、中程度、低い)を確認します。
- 表の中でハイライトされた最適閾値の行を見て、感度/特異度の最適なバランスを確認します。
よくある質問
AUCとは何ですか?なぜ重要なのですか?
AUC(ROC曲線下面積)は、分類器がすべての閾値において正例を負例より高く順位付けできる能力を測ります。閾値に依存せず、クラス不均衡にも強いため、医療、機械学習、金融における二値分類モデルの標準指標です。
AUCが0.5というのはどういう意味ですか?
AUCが0.5というのは、分類器がランダム推測と同程度であることを意味します。正例と負例をランダムに順位付けしているだけです。0.5未満のAUCは、分類器が体系的に誤っていることを示し、予測を反転すると偶然以上の性能が得られる可能性があります。
最適閾値はどのように選ばれますか?
この計算機では Youden の J 統計量(J = sensitivity + specificity − 1)を使って最適閾値を選びます。感度と特異度の合計を最大化し、バランスのよい動作点を提供します。コスト最小化やF1スコア最大化などの別基準では、用途によって異なる最適閾値になることがあります。
AUCは多クラス分類にも使えますか?
標準のAUCは二値分類向けです。多クラス問題では、各クラスごとに one-vs-rest AUC を計算するか、マクロ平均AUCや重み付き平均AUCを報告します。この計算機は二値分類(ラベル0と1)のみをサポートします。
感度と特異度の違いは何ですか?
感度(再現率またはTPR)は、真陽性をどれだけうまく検出できるかを示します:TP / (TP + FN)。特異度は、誤報をどれだけ避けられるかを示します:TN / (TN + FP)。陽性を見逃す代償が大きい場合(例:疾病スクリーニング)は高い感度が重要で、偽陽性の代償が大きい場合(例:確認検査)は高い特異度が重要です。
AUCは常にモデル評価の最適な指標ですか?
AUCは閾値をまたいでモデルを比較するのに優れており、不均衡データにも強いですが、常に最良とは限りません。極端に不均衡なデータでは、PR-AUC(適合率-再現率曲線下面積)のほうが有益なことが多いです。特定の意思決定閾値では、F1スコア、accuracy、Matthews 相関係数のほうが適切な場合があります。