IQR 이상치 상·하한 계산기
사분위 범위(IQR) 경계 방법으로 데이터 집합의 통계적 이상치를 찾아보세요. 쉼표로 구분한 숫자를 입력하면 Q1, Q3, IQR, 두 경계를 바로 확인할 수 있습니다.
쉼표로 구분한 데이터 값을 입력하고 계산을 클릭하면, 데이터 집합의 상한, 하한, 이상치를 확인할 수 있습니다.
IQR 이상치 상·하한 계산기
사분위 범위(IQR) 경계 방법으로 데이터 집합의 통계적 이상치를 찾아보세요. 쉼표로 구분한 숫자를 입력하면 Q1, Q3, IQR, 두 경계를 바로 확인할 수 있습니다.
상·하한 계산기 소개
상·하한 방법은 사분위 범위(IQR)를 사용해 데이터 집합의 이상치를 찾는 표준 기법입니다. 1977년 John Tukey가 탐색적 데이터 분석 프레임워크의 일부로 제안했으며, 특정 분포를 가정하지 않고도 특이한 관측값을 찾아내는 견고한 비모수 방법을 제공합니다. 이 방법은 입문 통계 수업에서 널리 가르쳐지며, 박스플롯의 기본 이상치 판별 방식이기도 합니다.
계산은 먼저 데이터 집합을 정렬하고 1사분위수와 3사분위수를 찾는 것부터 시작합니다. Q1(25번째 백분위수)은 데이터의 25%가 그 아래에 있는 값이고, Q3(75번째 백분위수)은 75%가 그 아래에 있는 값입니다. IQR은 단순히 Q3에서 Q1을 뺀 값으로, 데이터 중간 50%의 퍼짐을 나타냅니다. IQR은 양끝의 극단값을 무시하므로, 바로 그 이상치를 찾는 데도 영향을 덜 받아 범위 기반 방법보다 신뢰도가 높습니다.
IQR이 계산되면 경계는 Q1 아래 1.5 × IQR(하한)과 Q3 위 1.5 × IQR(상한)으로 설정됩니다. 하한보다 낮거나 상한보다 높은 데이터 포인트는 이상치로 분류됩니다. 1.5 배수는 Tukey가 경험적으로 선택한 값으로, 대체로 정규적인 데이터에서 잘 작동합니다. 정규분포에서는 이 규칙이 관측값의 약 0.7%를 이상치로 표시하며, 평균에서 약 2.7 표준편차 이상 떨어진 값에 해당합니다.
더 극단적인 이상치에는 1.5 대신 3을 곱하는 경우도 있으며, 이런 점을 멀리 떨어진 이상치나 극단 이상치라고 부릅니다. 1.5 × IQR 경계 밖이지만 3 × IQR 경계 안에 있는 점은 때때로 경미한 이상치라고 합니다. 이 계산기는 대부분의 탐색적 분석에 적합한 표준 1.5 × IQR 규칙을 사용합니다.
이상치 탐지는 데이터 정제, 품질 관리, 통계 모델링에서 매우 중요한 단계입니다. 제조에서는 경계를 벗어난 공정 측정값이 불량품이나 측정 오류를 뜻할 수 있습니다. 금융에서는 극단적 수익률이 데이터 오류, 시장 이상, 또는 조사해야 할 실제 사건을 암시할 수 있습니다. 임상 연구에서는 생리적으로 불가능한 값이 식별되어 검토됩니다. 머신러닝에서는 이상치를 처리하지 않으면 모델 학습이 왜곡될 수 있습니다.
통계적 이상치가 반드시 잘못된 값인 것은 아니라는 점도 중요합니다. 이상치는 단지 IQR 규칙에 따라 데이터의 대부분에서 유난히 멀리 떨어진 관측값일 뿐입니다. 실제 극단 사건인지, 측정 오류인지, 입력 실수인지는 맥락을 보고 조사해야 합니다.
상·하한 예시
일반적인 데이터 집합에서 경계 방법이 이상치를 어떻게 찾는지 단계별 예시로 보여줍니다.
| 데이터 집합 | 경계 및 이상치 | 해석 |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | 하한: 4 | 상한: 28 | 이상치: 100 | Q1=13, Q3=19, IQR=6. 하한 = 13 − 9 = 4. 상한 = 19 + 9 = 28. 값 100은 상한을 넘으므로 이상치로 표시됩니다. |
| 5, 7, 8, 9, 10, 11, 12, 14 | 하한: 2.5 | 상한: 16.5 | 이상치 없음 | Q1=7.75, Q3=11.25, IQR=3.5. 경계는 2.5와 16.5입니다. 모든 값(5~14)이 경계 안에 있으므로 이상치가 없습니다. |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | 하한: −2.375 | 상한: 18.625 | 이상치: 50 | Q1=5.5, Q3=10.75, IQR=5.25. 상한 = 10.75 + 7.875 = 18.625. 값 50은 상한보다 훨씬 커서 분명한 이상치입니다. |
계산기 사용 방법
- 입력란에 데이터를 쉼표나 공백으로 구분해 입력하세요. 의미 있는 사분위수를 계산하려면 최소 4개의 값이 필요합니다.
- 계산을 클릭해 Q1, Q3, IQR, 하한(Q1 − 1.5 × IQR), 상한(Q3 + 1.5 × IQR)을 구하세요.
- 강조된 경계 값을 확인하세요. 하한보다 낮거나 상한보다 높은 데이터 포인트는 이상치입니다.
- 이상치 섹션에서 표시된 구체적인 값을 확인하세요.
- 초기화를 클릭하면 입력이 지워지고 새 데이터 집합으로 다시 시작할 수 있습니다.
상·하한 FAQ
상한과 하한은 무엇인가요?
상한은 Q3 + 1.5 × IQR, 하한은 Q1 − 1.5 × IQR입니다. 이 경계 밖의 데이터 포인트는 이상치로 간주됩니다. 경계는 대체로 종 모양 분포의 예상 범위를 감싸는 구간을 만듭니다.
왜 IQR의 1.5배를 쓰나요?
1.5라는 배수는 정규 데이터에서 이상치를 감지하기에 대체로 최적이면서, 오탐은 낮게 유지하기 위해 John Tukey가 선택했습니다. 정규분포에서는 관측값의 약 0.7%가 표시됩니다. 배수를 3으로 늘리면 극단적인 이상치만 잡습니다.
IQR은 무엇이고 어떻게 계산하나요?
IQR(사분위 범위)은 Q3에서 Q1을 뺀 값으로, 데이터 중간 50%의 퍼짐을 나타냅니다. 데이터를 정렬한 뒤 25번째 백분위수(Q1)와 75번째 백분위수(Q3)를 찾고 빼서 계산합니다. 상하위 25% 값을 무시하므로 이상치에 강합니다.
이상치가 있으면 데이터가 틀린 건가요?
꼭 그렇지는 않습니다. 이상치는 단지 데이터의 대부분에 비해 유난히 극단적인 관측값일 뿐입니다. 실제 극단 사건, 측정 오류, 입력 실수일 수 있습니다. 삭제하거나 수정하기 전에 각 값을 맥락 속에서 확인해야 합니다.
경계는 박스플롯과 어떻게 연결되나요?
상·하한은 표준 Tukey 박스플롯의 수염 범위를 정의합니다. 상자는 IQR(Q1~Q3)을 나타내고, 상자 안의 선은 중앙값이며, 수염은 경계 안에 있는 가장 극단적인 데이터 포인트까지 뻗습니다. 수염 밖의 점은 이상치 점으로 따로 표시됩니다.
경계 방법은 작은 데이터에도 적합한가요?
이 방법은 최소 10~20개 관측값이 있을 때 가장 잘 작동합니다. 값이 적으면 사분위수 추정이 부정확해지고 경계도 신뢰하기 어려울 수 있습니다. 아주 작은 데이터 집합은 자동 규칙에만 의존하기보다 모든 값을 시각적으로 살펴보는 것이 좋습니다.