Question 1

정밀도와 재현율의 차이는 무엇인가요?

Accepted Answer

정밀도는 “양성으로 예측한 것 중 얼마나 맞았는가?”에 답하고, 재현율은 “실제 양성 중 얼마나 찾아냈는가?”에 답합니다. 정밀도가 높으면 거짓양성이 적고(모델이 양성이라고 말할 때 더 신중함), 재현율이 높으면 거짓음성이 적습니다(진짜 양성을 잘 놓치지 않음). 보통 두 지표는 결정 임계값에 의해 조절되는 상충 관계가 있습니다.

Question 2

왜 정확도가 항상 최선의 지표는 아닌가요?

Accepted Answer

정확도는 클래스가 불균형한 데이터셋에서 오해를 부를 수 있습니다. 예를 들어 거래의 1%만 사기라면, 항상 “사기 아님”이라고 예측하는 모델도 99% 정확도를 얻지만 사기 사례는 하나도 잡지 못합니다. 이런 경우에는 정밀도, 재현율, F1 점수, MCC가 모델 성능을 훨씬 더 잘 보여줍니다.

Question 3

매튜스 상관계수 (MCC)란 무엇인가요?

Accepted Answer

MCC는 혼동 행렬의 네 칸(TP, FP, TN, FN)을 모두 고려하는 단일하고 균형 잡힌 지표입니다. 범위는 −1에서 +1이며, +1은 완벽한 예측, 0은 무작위와 다르지 않음, −1은 완전히 반대되는 결과를 뜻합니다. MCC는 특히 클래스가 불균형한 데이터셋에서 이진 분류에 가장 정보가 많은 지표 중 하나로 여겨집니다. 큰 클래스 불균형에 의해 부풀려지지 않기 때문입니다.

Question 4

특이도는 무엇을 측정하며 언제 중요하나요?

Accepted Answer

특이도(참음성률) = TN / (TN + FP)는 실제 음성 중 거짓양성을 얼마나 잘 피하는지를 측정합니다. 의료 선별검사에서 특히 중요하며, 특이도가 높은 검사는 건강한 사람을 병으로 잘못 표시하는 경우를 줄여 불필요한 추가 검사와 환자 불안을 낮춥니다. 민감도(재현율)와 특이도는 함께 ROC 곡선을 정의합니다.

Question 5

F1 점수는 정밀도와 재현율과 어떤 관계인가요?

Accepted Answer

F1 점수는 정밀도와 재현율의 조화평균입니다. F1 = 2 × (P × R) / (P + R). 조화평균을 사용하므로 정밀도나 재현율 중 하나라도 낮으면 F1도 낮아집니다. 하나를 희생해서 높은 F1을 얻을 수는 없습니다. F1의 범위는 0(최악)에서 1(최고)이며, 거짓양성과 거짓음성을 함께 균형 있게 보고 싶을 때 가장 흔히 쓰는 단일 지표입니다.

Question 6

의료 검사에서 민감도와 특이도의 차이는 무엇인가요?

Accepted Answer

민감도(재현율)는 검사가 병든 환자를 올바르게 식별할 확률입니다: TP / (TP + FN). 민감도가 높은 검사는 아픈 사람을 거의 놓치지 않으므로 질병 배제에 좋습니다. 특이도는 검사가 건강한 사람을 올바르게 식별할 확률입니다: TN / (TN + FP). 특이도가 높은 검사는 거짓양성이 적으므로 질병 확인에 좋습니다. 대부분의 진단 검사는 이 둘 사이의 균형이 필요하며, 그 관계는 ROC 곡선으로 나타납니다.

TP, FP, TN, FN	핵심 지표	모델 유형
TP=92, FP=8, TN=88, FN=12	정확도=90%, F1=0.9020, MCC=0.801	균형이 좋고 성능이 높은 모델
TP=45, FP=5, TN=95, FN=25	정확도=82.35%, 정밀도=90%, 재현율=64.29%	정밀도가 높은 보수적 예측
TP=85, FP=30, TN=70, FN=10	정확도=79.5%, 재현율=89.5%, 특이도=70%	재현율이 높은 민감한 모델
TP=48, FP=12, TN=188, FN=2	정확도=94%, 민감도=96%, 특이도=94%	의료 진단 검사 — 높은 민감도

혼동 행렬 계산기 - 분류 지표

혼동 행렬 계산기 소개

예시

혼동 행렬 계산기 사용법

자주 묻는 질문