混同行列計算ツール - 分類指標
正確率、適合率、再現率、F1、MCCで分類性能を分析
混同行列の値を入力すると、二値分類の分析に必要な正確率、適合率、再現率、特異度、F1スコアなどの性能指標を計算できます。
混同行列計算ツール - 分類指標
正確率、適合率、再現率、F1、MCCで分類性能を分析
混同行列計算ツールについて
混同行列は 2×2 の表で、真陽性 (TP)、偽陽性 (FP)、真陰性 (TN)、偽陰性 (FN) の4つの結果の件数を集計して、二値分類モデルの性能を要約します。この4つの数値から、多面的な性能指標を導出でき、分類器の挙動をそれぞれ異なる観点で評価できます。
真陽性 (TP) は、モデルが正のクラスを正しく予測したケースです。偽陽性 (FP) は、モデルが正と予測したが実際は負だったケースで、第1種エラーとも呼ばれます。真陰性 (TN) は、正しい負の予測です。偽陰性 (FN) は、モデルが正を見逃したケースで、第2種エラーとも呼ばれます。
混同行列から導かれる主な指標は次のとおりです。
• 正確率 = (TP + TN) / 合計 —— すべての予測のうち正しい割合です。分かりやすい一方で、クラス不均衡なデータでは誤解を招くことがあります。
• 適合率(陽性的中率)= TP / (TP + FP) —— 正と予測したもののうち、実際に正である割合です。適合率が高いほど誤検知が少なくなります。
• 再現率(感度、真陽性率)= TP / (TP + FN) —— 実際の正例のうち、どれだけ検出できたかを示します。再現率が高いほど見逃しが少なくなります。
• 特異度(真陰性率)= TN / (TN + FP) —— 実際の負例のうち、どれだけ正しく識別できたかを示します。医療検査で特に重要です。
• F1スコア = 2 × (適合率 × 再現率) / (適合率 + 再現率) —— 適合率と再現率の調和平均で、両者のバランスを取ります。クラス不均衡時に有用です。
• マシューズ相関係数 (MCC) = (TP×TN − FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) —— 混同行列の4つのセルすべてを考慮するバランスの取れた指標です。値は −1(完全不一致)から +1(完全一致)までで、0 はランダムと同程度の性能を意味します。
どの指標を選ぶかは課題によります。詐欺検知では再現率が重要です(詐欺を見逃さないこと)。スパムフィルタでは適合率がより重要です(正当なメールを止めないこと)。希少疾患のスクリーニングでは、再現率と特異度の両方が重要です。クラス不均衡な場合は、MCC や F1スコアのほうが、正確率だけを見るよりも有益です。
例
下の表では、混同行列の入力と、それに対応する性能指標を示します。
| TP, FP, TN, FN | 主要指標 | モデル種別 |
|---|---|---|
| TP=92, FP=8, TN=88, FN=12 | 正確率=90%, F1=0.9020, MCC=0.801 | バランスが良く高性能なモデル |
| TP=45, FP=5, TN=95, FN=25 | 正確率=82.35%, 適合率=90%, 再現率=64.29% | 高適合率の保守的な予測 |
| TP=85, FP=30, TN=70, FN=10 | 正確率=79.5%, 再現率=89.5%, 特異度=70% | 高再現率の高感度モデル |
| TP=48, FP=12, TN=188, FN=2 | 正確率=94%, 感度=96%, 特異度=94% | 医療診断テスト — 高感度 |
混同行列計算ツールの使い方
- 真陽性 (TP) の数を入力します。モデルが正のクラスを正しく予測した件数です。
- 偽陽性 (FP) を入力します。モデルは正と予測したが、実際のラベルは負だったケース(第1種エラー)です。
- 真陰性 (TN) と偽陰性 (FN) を入力します。偽陰性は見逃した正例(第2種エラー)です。
- 「指標を計算」をクリックすると、正確率、適合率、再現率、特異度、F1スコア、MCC、NPV、FPR、FNR を即座に計算します。
- クイックロードの例ボタンを使うと、バランスモデル、高適合率モデル、医療検査などの事前設定シナリオを試せます。
よくある質問
適合率と再現率の違いは何ですか?
適合率は「正と予測したもののうち、どれだけ正しかったか?」に答え、再現率は「実際の正例のうち、どれだけ見つけられたか?」に答えます。適合率が高いと偽陽性が少なく(正と判断する際に慎重)、再現率が高いと偽陰性が少なくなります(本当の正例を見逃しにくい)。通常、この2つはトレードオフの関係にあり、判定閾値で調整されます。
なぜ正確率だけでは最適な指標にならないのですか?
クラス不均衡なデータでは、正確率は誤解を招くことがあります。たとえば、取引の1%しか詐欺でない場合、常に「詐欺ではない」と予測するモデルでも正確率99%を達成できますが、詐欺は1件も検出できません。そのような場合は、適合率、再現率、F1スコア、MCC のほうがモデル性能をはるかに適切に示します。
マシューズ相関係数 (MCC) とは何ですか?
MCC は、混同行列の4つのセル(TP、FP、TN、FN)すべてを考慮する、単一でバランスの取れた指標です。値は −1 から +1 の範囲で、+1 は完全予測、0 はランダム以下でも以上でもないこと、−1 は完全な不一致を意味します。MCC は二値分類、とくにクラス不均衡データで最も情報量の多い指標の1つと考えられています。大きなクラス偏りによって水増しされないためです。
特異度は何を測り、いつ重要ですか?
特異度(真陰性率)= TN / (TN + FP) は、実際の負例の中で偽陽性をどれだけ避けられるかを示します。医療スクリーニングでは特に重要で、高特異度の検査は健康な人を病気と誤判定する件数を減らし、不要な再検査や患者の不安を抑えます。感度(再現率)と特異度を合わせて ROC 曲線が定義されます。
F1スコアは適合率と再現率にどう関係しますか?
F1スコアは適合率と再現率の調和平均です。F1 = 2 × (P × R) / (P + R)。調和平均を使うため、適合率か再現率のどちらかが低いと F1 も低くなります。片方を犠牲にして高い F1 を得ることはできません。F1 の範囲は 0(最悪)から 1(最良)で、偽陽性と偽陰性の両方をバランスさせたいときによく使われる単一指標です。
医療検査での感度と特異度の違いは何ですか?
感度(再現率)は、検査が病気の患者を正しく識別する確率です:TP / (TP + FN)。感度が高い検査は病気の見逃しが少ないため、除外診断に向いています。特異度は、検査が健康な人を正しく識別する確率です:TN / (TN + FP)。特異度が高い検査は偽陽性が少ないため、確定診断に向いています。多くの診断検査ではこの2つにトレードオフがあり、その関係は ROC 曲線で表されます。