혼동 행렬 계산기 - 분류 지표

정확도, 정밀도, 재현율, F1, MCC로 분류 성능 분석

혼동 행렬 값을 입력하면 이진 분류 분석에 필요한 정확도, 정밀도, 재현율, 특이도, F1 점수 등의 성능 지표를 계산할 수 있습니다.

혼동 행렬 계산기 - 분류 지표
정확도, 정밀도, 재현율, F1, MCC로 분류 성능 분석

혼동 행렬 계산기 소개

혼동 행렬은 2×2 표로, 참양성 (TP), 거짓양성 (FP), 참음성 (TN), 거짓음성 (FN) 네 가지 결과의 개수를 표로 정리해 이진 분류 모델의 성능을 요약합니다. 이 네 숫자로부터 다양한 성능 지표를 도출할 수 있으며, 각 지표는 분류기의 행동을 서로 다른 관점에서 측정합니다. 참양성 (TP)은 모델이 양성 클래스를 올바르게 예측한 사례입니다. 거짓양성 (FP)은 모델이 양성이라고 예측했지만 실제 레이블은 음성인 경우로, 제1종 오류라고도 합니다. 참음성 (TN)은 올바른 음성 예측입니다. 거짓음성 (FN)은 모델이 양성을 놓친 경우로, 제2종 오류라고도 합니다. 혼동 행렬에서 유도되는 주요 지표는 다음과 같습니다. • 정확도 = (TP + TN) / 총합 — 전체 예측 중 맞은 비율입니다. 직관적이지만 불균형 데이터셋에서는 오해를 부를 수 있습니다. • 정밀도(양성 예측값) = TP / (TP + FP) — 양성으로 예측한 것 중 실제로 양성인 비율입니다. 정밀도가 높으면 오탐이 적다는 뜻입니다. • 재현율(민감도, 참양성률) = TP / (TP + FN) — 실제 양성 중 얼마나 찾아냈는지를 나타냅니다. 재현율이 높으면 놓친 양성이 적습니다. • 특이도(참음성률) = TN / (TN + FP) — 실제 음성 중 얼마나 올바르게 식별했는지를 나타냅니다. 의료 선별검사에서 특히 중요합니다. • F1 점수 = 2 × (정밀도 × 재현율) / (정밀도 + 재현율) — 정밀도와 재현율의 조화평균으로, 두 지표의 균형을 맞춥니다. 클래스가 불균형할 때 유용합니다. • 매튜스 상관계수 (MCC) = (TP×TN − FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) — 혼동 행렬의 네 칸을 모두 고려하는 균형 잡힌 지표입니다. 값의 범위는 −1(완전 불일치)에서 +1(완전 일치)까지이며, 0은 무작위 수준의 성능을 뜻합니다. 어떤 지표를 선택할지는 문제에 따라 다릅니다. 사기 탐지에서는 재현율이 매우 중요합니다(사기를 놓치면 안 됨). 스팸 필터에서는 정밀도가 더 중요합니다(정상 메일을 차단하지 않아야 함). 희귀 질환 선별에서는 재현율과 특이도 모두 중요합니다. 클래스가 불균형할 때는 정확도만 보는 것보다 MCC와 F1 점수가 더 유용한 경우가 많습니다.

예시

아래 표는 혼동 행렬 입력과 그에 따른 성능 지표를 보여줍니다.

TP, FP, TN, FN핵심 지표모델 유형
TP=92, FP=8, TN=88, FN=12정확도=90%, F1=0.9020, MCC=0.801균형이 좋고 성능이 높은 모델
TP=45, FP=5, TN=95, FN=25정확도=82.35%, 정밀도=90%, 재현율=64.29%정밀도가 높은 보수적 예측
TP=85, FP=30, TN=70, FN=10정확도=79.5%, 재현율=89.5%, 특이도=70%재현율이 높은 민감한 모델
TP=48, FP=12, TN=188, FN=2정확도=94%, 민감도=96%, 특이도=94%의료 진단 검사 — 높은 민감도

혼동 행렬 계산기 사용법

  1. 참양성 (TP) 개수를 입력하세요. 모델이 양성 클래스를 올바르게 예측한 수입니다.
  2. 거짓양성 (FP)을 입력하세요. 모델은 양성이라고 예측했지만 실제 레이블은 음성이었던 경우(제1종 오류)입니다.
  3. 참음성 (TN)과 거짓음성 (FN)을 입력하세요. 거짓음성은 놓친 양성(제2종 오류)입니다.
  4. “지표 계산”을 클릭하면 정확도, 정밀도, 재현율, 특이도, F1 점수, MCC, NPV, FPR, FNR를 즉시 계산합니다.
  5. 빠른 예시 버튼을 사용해 균형 모델, 고정밀 모델, 의료 검사 같은 미리 설정된 시나리오를 살펴보세요.

자주 묻는 질문

정밀도와 재현율의 차이는 무엇인가요?
정밀도는 “양성으로 예측한 것 중 얼마나 맞았는가?”에 답하고, 재현율은 “실제 양성 중 얼마나 찾아냈는가?”에 답합니다. 정밀도가 높으면 거짓양성이 적고(모델이 양성이라고 말할 때 더 신중함), 재현율이 높으면 거짓음성이 적습니다(진짜 양성을 잘 놓치지 않음). 보통 두 지표는 결정 임계값에 의해 조절되는 상충 관계가 있습니다.
왜 정확도가 항상 최선의 지표는 아닌가요?
정확도는 클래스가 불균형한 데이터셋에서 오해를 부를 수 있습니다. 예를 들어 거래의 1%만 사기라면, 항상 “사기 아님”이라고 예측하는 모델도 99% 정확도를 얻지만 사기 사례는 하나도 잡지 못합니다. 이런 경우에는 정밀도, 재현율, F1 점수, MCC가 모델 성능을 훨씬 더 잘 보여줍니다.
매튜스 상관계수 (MCC)란 무엇인가요?
MCC는 혼동 행렬의 네 칸(TP, FP, TN, FN)을 모두 고려하는 단일하고 균형 잡힌 지표입니다. 범위는 −1에서 +1이며, +1은 완벽한 예측, 0은 무작위와 다르지 않음, −1은 완전히 반대되는 결과를 뜻합니다. MCC는 특히 클래스가 불균형한 데이터셋에서 이진 분류에 가장 정보가 많은 지표 중 하나로 여겨집니다. 큰 클래스 불균형에 의해 부풀려지지 않기 때문입니다.
특이도는 무엇을 측정하며 언제 중요하나요?
특이도(참음성률) = TN / (TN + FP)는 실제 음성 중 거짓양성을 얼마나 잘 피하는지를 측정합니다. 의료 선별검사에서 특히 중요하며, 특이도가 높은 검사는 건강한 사람을 병으로 잘못 표시하는 경우를 줄여 불필요한 추가 검사와 환자 불안을 낮춥니다. 민감도(재현율)와 특이도는 함께 ROC 곡선을 정의합니다.
F1 점수는 정밀도와 재현율과 어떤 관계인가요?
F1 점수는 정밀도와 재현율의 조화평균입니다. F1 = 2 × (P × R) / (P + R). 조화평균을 사용하므로 정밀도나 재현율 중 하나라도 낮으면 F1도 낮아집니다. 하나를 희생해서 높은 F1을 얻을 수는 없습니다. F1의 범위는 0(최악)에서 1(최고)이며, 거짓양성과 거짓음성을 함께 균형 있게 보고 싶을 때 가장 흔히 쓰는 단일 지표입니다.
의료 검사에서 민감도와 특이도의 차이는 무엇인가요?
민감도(재현율)는 검사가 병든 환자를 올바르게 식별할 확률입니다: TP / (TP + FN). 민감도가 높은 검사는 아픈 사람을 거의 놓치지 않으므로 질병 배제에 좋습니다. 특이도는 검사가 건강한 사람을 올바르게 식별할 확률입니다: TN / (TN + FP). 특이도가 높은 검사는 거짓양성이 적으므로 질병 확인에 좋습니다. 대부분의 진단 검사는 이 둘 사이의 균형이 필요하며, 그 관계는 ROC 곡선으로 나타납니다.