Yates 연속성 보정 카이제곱 계산기
기대도수가 작을 때 제1종 오류를 줄이기 위해 2×2 분할표의 Yates 보정 카이제곱 통계량을 계산합니다.
2×2 분할표의 네 셀 값(a, b, c, d)을 입력하면 Yates 보정된 χ² 값과 p값을 계산할 수 있습니다.
Yates 연속성 보정 카이제곱 계산기
기대도수가 작을 때 제1종 오류를 줄이기 위해 2×2 분할표의 Yates 보정 카이제곱 통계량을 계산합니다.
2×2 분할표의 값을 입력하세요. A집단이 행, 결과 1/2가 열입니다.
Yates 연속성 보정이란?
Yates 연속성 보정은 2×2 분할표에서 카이제곱(χ²) 검정을 사용할 때 적용하는 조정입니다. 카이제곱 분포는 연속형이지만, 분할표의 관측 빈도는 이산적인 개수입니다. 이 차이 때문에 카이제곱 근사는 검정통계량을 과대추정하기 쉬워 p값이 너무 작아지고, 특히 표본 크기나 기대도수가 작을 때 제1종 오류의 위험이 커집니다.
Frank Yates는 1934년에 이 보정을 제안했습니다. 방법은 단순합니다. 관측 빈도와 기대 빈도의 절댓값 차이에서 0.5를 뺀 뒤 제곱합니다. 보정된 공식은 χ² = Σ (|O − E| − 0.5)² / E 이며, 네 개의 셀 전체에 대해 합산합니다. 이 작은 조정은 전체 카이제곱 값을 낮춰 더 보수적인(더 큰) p값을 만들고, 관측된 결과 또는 그보다 더 극단적인 결과가 실제로 나올 확률을 더 잘 반영합니다.
기대도수가 10 미만인 셀이 있을 때, 특히 5 미만일 때 이 보정은 매우 중요합니다. 그런 조건에서는 표준 카이제곱 검정이 신뢰하기 어렵다고 알려져 있으며, Yates 보정이 그 한계를 보완해 줍니다. 모든 기대도수가 10을 넘는 큰 표본에서는 보정의 영향이 거의 없고, 표준 카이제곱 검정으로 충분합니다.
이 계산기를 사용하려면 데이터를 2×2 분할표로 정리해야 합니다. 두 행은 두 집단(예: 치료군과 대조군), 두 열은 두 가지 결과(예: 성공과 실패)를 나타냅니다. a는 A집단에서 결과 1인 수, b는 A집단에서 결과 2인 수, c는 B집단에서 결과 1인 수, d는 B집단에서 결과 2인 수입니다.
2×2 표의 자유도는 항상 1입니다. p값은 자유도 1의 카이제곱 분포에서 계산됩니다. 일반적으로 p값이 0.05보다 작으면 집단과 결과 사이에 통계적으로 유의한 연관성이 있다고 해석합니다.
Yates 보정을 언제 사용해야 하는지에 대해서는 통계학계에서 여전히 논쟁이 있습니다. 일부 통계학자는 이 보정이 지나치게 보수적이며 통계적 검정력을 떨어뜨린다고 봅니다. 기대도수가 매우 작을 때 많은 현대 통계학자들이 선호하는 대안은 Fisher의 정확 검정으로, 카이제곱 근사에 의존하지 않고 정확한 확률을 계산합니다. 그럼에도 Yates 보정은 여전히 널리 가르쳐지고 여러 분야에서 받아들여지며, 2×2 표에서 빠르고 보수적인 결과를 원할 때 적절한 선택입니다.
실용 예시
여러 상황을 살펴보며 계산기가 어떻게 동작하는지 확인해 보세요.
| 입력 (a, b, c, d) | χ² / p값 | 메모 |
|---|---|---|
| a=3, b=22, c=11, d=14 | χ²≈4.86, p≈0.027 | 백신 시험 — 유의함. 백신이 감염률을 낮춘다. |
| a=15, b=5, c=8, d=12 | χ²≈3.68, p≈0.055 | 교수법 — 경계선 수준이며, α=0.05에서는 유의하지 않다. |
| a=25, b=975, c=15, d=985 | χ²≈2.07, p≈0.151 | A/B 광고 테스트 — 클릭률에 유의한 차이가 없다. |
| a=1, b=49, c=6, d=44 | χ²≈2.48, p≈0.115 | 희귀 부작용 연구 — 셀 수가 적기 때문에 여기서는 Yates 보정이 필수입니다. |
사용 방법
- 데이터를 2×2 표로 정리하세요. A집단을 첫 번째 행, B집단을 두 번째 행에 두고, 결과 1을 첫 번째 열, 결과 2를 두 번째 열에 둡니다.
- 첫 번째 입력칸에 셀 a(A집단, 결과 1)의 값을, 두 번째 입력칸에 셀 b(A집단, 결과 2)의 값을 입력하세요.
- 남은 입력칸에 셀 c(B집단, 결과 1)와 d(B집단, 결과 2)의 값을 입력하세요. 모든 값은 음이 아닌 정수여야 합니다.
- 계산을 클릭하면 Yates 보정된 χ² 값, 자유도(항상 1), p값, 그리고 유의성 판단이 표시됩니다.
- 예시 버튼을 사용하면 미리 준비된 데이터를 불러와 결과를 확인하거나 일반적인 사용 사례를 살펴볼 수 있습니다.
자주 묻는 질문
Yates 연속성 보정이란 무엇인가요?
Yates 연속성 보정은 2×2 표의 표준 카이제곱 공식에 적용하는 조정입니다. 관측 빈도와 기대 빈도의 절댓값 차이에서 0.5를 뺀 뒤 제곱합니다. 이렇게 하면 검정이 더 보수적으로 바뀌어, 표본 크기나 기대도수가 작을 때 거짓 양성(제1종 오류)의 위험을 줄일 수 있습니다.
언제 Yates 보정을 사용하고, 언제 표준 카이제곱 검정을 쓰나요?
기대도수가 10 미만인 셀이 있으면 Yates 보정을 사용하세요. 모든 기대도수가 10 이상이면 표준 카이제곱 검정으로 충분합니다. 기대도수가 5 미만인 아주 작은 표본에서는 그 상황에서 더 신뢰할 수 있는 Fisher의 정확 검정을 고려하세요.
셀 a, b, c, d는 각각 무엇을 의미하나요?
a는 A집단에서 결과 1을 경험한 수, b는 A집단에서 결과 2인 수, c는 B집단에서 결과 1인 수, d는 B집단에서 결과 2인 수입니다. 백신 연구라면 A집단은 접종군, B집단은 미접종군, 결과 1은 감염, 결과 2는 비감염을 뜻할 수 있습니다.
2×2 표의 자유도가 항상 1인 이유는 무엇인가요?
카이제곱 독립성 검정의 자유도는 (행 수 − 1) × (열 수 − 1)입니다. 2×2 표에서는 (2−1) × (2−1) = 1입니다. 즉, 주변 합계와 하나의 셀 값만 알면 다른 셀 값은 모두 완전히 결정되므로 자유 매개변수는 하나뿐입니다.
Yates 보정은 통계적 검정력을 낮추나요?
네. 더 보수적으로 만들수록 귀무가설을 기각하려면 더 강한 증거가 필요합니다. 비판자들은 Yates 보정이 과도 보정이 되어 제2종 오류(실제 효과를 놓치는 것)의 위험을 높일 수 있다고 봅니다. 기대도수가 높은 큰 표본에서는 이 보정의 영향이 거의 없습니다. 많은 현대 통계학자들은 작은 표본의 2×2 분석에서 Fisher의 정확 검정을 선호합니다.
이 계산기를 2×2보다 큰 표에도 사용할 수 있나요?
아니요. Yates 보정은 2×2 분할표 전용입니다. 3×2나 3×3 같은 더 큰 표에는 연속성 보정이 없는 표준 Pearson 카이제곱 검정을 사용하세요. 더 큰 표는 공식과 자유도가 다릅니다.