이상치 계산기 - IQR 방법으로 이상치 감지

사분위범위법으로 어떤 데이터 집합에서든 통계적 이상치를 빠르게 찾으세요. 경미한(1.5×IQR) 또는 극단(3×IQR) 감지를 즉시 선택할 수 있습니다.

쉼표로 구분된 숫자 목록을 입력하고 이상치 감지 방법을 선택하면 Q1, Q3, IQR, 경계값, 이상치 목록을 얻을 수 있습니다.

이상치 계산기 - IQR 방법으로 이상치 감지
사분위범위법으로 어떤 데이터 집합에서든 통계적 이상치를 빠르게 찾으세요. 경미한(1.5×IQR) 또는 극단(3×IQR) 감지를 즉시 선택할 수 있습니다.

이상치 계산기 소개

이상치는 데이터 집합의 다른 값들과 비정상적으로 멀리 떨어진 데이터 포인트입니다. 통계 분석에서 이상치는 평균과 표준편차 같은 요약 통계를 왜곡하고, 분산 추정을 부풀리며, 모수 검정의 가정을 위반할 수 있습니다. 이를 조기에 찾아내는 것은 탐색적 데이터 분석, 품질 관리, 머신러닝 전처리에서 중요한 단계입니다. 가장 널리 쓰이는 이상치 검출 방법은 사분위범위(IQR)를 기반으로 합니다. IQR은 제3사분위수(Q3)와 제1사분위수(Q1)의 차이입니다. 이 방법은 평균과 표준편차와 달리 극단값 자체의 영향을 거의 받지 않아 견고합니다. 두 경계의 공식은 하한 경계 = Q1 − k × IQR, 상한 경계 = Q3 + k × IQR입니다. 이 경계를 벗어난 데이터 포인트는 이상치로 분류됩니다. 배수 k는 이상치를 얼마나 엄격하게 표시할지 결정합니다. 가장 흔한 값은 k = 1.5로, 박스플롯 분석의 기본값이며 때때로 '경미한' 이상치라고 불리는 값들을 찾습니다. 즉, 데이터의 대부분에서 눈에 띄게 벗어나지만 여전히 타당한 설명이 있을 수 있는 값입니다. k = 3.0이면 기준이 더 엄격해져 '극단' 이상치만 표시됩니다. 이는 주 분포에서 매우 멀리 떨어져 있어 오류, 이상 현상, 또는 실제로 매우 희귀한 사건일 가능성이 큰 값입니다. 사분위수를 계산하기 위해 계산기는 먼저 데이터를 오름차순으로 정렬합니다. Q1은 정렬된 데이터의 25퍼센타일, Q3는 75퍼센타일입니다. 사분위 위치가 두 데이터 포인트 사이에 있으면 계산기는 선형 보간을 사용해 Excel 기본값과 많은 통계 패키지의 관례에 맞는 부드러운 결과를 만듭니다. 이상치 감지는 자동 삭제를 의미하지 않습니다. 탐지된 이상치를 제거하거나 변환하기 전에 원인을 조사해야 합니다. 이상치는 입력 오류(숫자 오타), 측정 오류(기기 판독 문제), 표본 추출 오류(다른 모집단에서 나온 값), 또는 과학적으로 중요해 유지해야 하는 실제 극단 관측치일 수 있습니다. 예를 들어 사기 탐지에서는 가장 중요한 데이터 포인트가 이상치일 수 있습니다. 임상 연구에서는 가장 극단적인 반응을 보인 환자가 가장 유용할 수도 있습니다. 결정을 반드시 문서화하고, 확신이 없으면 이상치 포함/제외 결과를 함께 보고해 민감도를 보여주세요. IQR 방법은 비모수적이므로 기본 분포의 형태를 가정하지 않습니다. 따라서 왜도 분포, 작은 표본, 여러 클러스터가 있는 데이터에 특히 적합합니다. 대략 정규분포이고 표본이 큰 데이터에서는 Z-점수 방법(평균에서 2~3 표준편차 이상 떨어진 값을 표시)이 대안이 될 수 있지만, Z-점수 자체도 검출하려는 이상치의 영향을 받아 커지므로 IQR 방식이 일반적으로 더 신뢰할 수 있습니다.

실제 예시

단일 이상치, 여러 이상치, 이상치가 없는 깔끔한 데이터 집합을 보여 주는 세 가지 예시입니다.

데이터 집합이상치 (1.5×IQR)핵심 값
10, 12, 14, 15, 16, 18, 20, 5050Q1=13.5, Q3=18.5, IQR=5, 상한 경계=26. 값 50은 26을 넘으므로 이상치로 표시됩니다.
1, 25, 28, 30, 32, 35, 38, 1001, 100Q1=27.25, Q3=35.75, IQR=8.5, 경계는 14.5에서 48.5입니다. 1과 100은 모두 이 범위를 벗어납니다.
10, 20, 30, 40, 50, 60, 70, 80None간격이 일정하므로 어느 값도 경계에서 1.5×IQR보다 멀지 않습니다. 모든 값이 정상입니다.

이상치 계산기 사용 방법

  1. 입력란에 쉼표로 구분된 숫자 목록을 입력하거나 붙여넣습니다. 정수, 소수, 음수를 모두 지원합니다.
  2. 박스플롯에서 쓰는 표준 분석에는 “경미한 이상치 (1.5 × IQR)”를, 가장 심한 이상만 표시하려면 “극단 이상치 (3.0 × IQR)”를 선택하세요.
  3. 계산을 클릭합니다. Q1, Q3, IQR, 상하한 경계, 이상치 개수가 표시됩니다.
  4. “감지된 이상치” 목록을 확인하고, 삭제하거나 유지하기 전에 각 값을 검토하세요.
  5. 아래에는 이상치를 제거한 뒤 정렬된 데이터 집합이 표시되어 분석에 바로 복사할 수 있습니다.

자주 묻는 질문

IQR 이상치 감지법은 무엇인가요?
IQR(사분위범위) 방법은 Q1 − 1.5×IQR과 Q3 + 1.5×IQR 두 경계를 계산합니다. 이 경계 밖의 데이터 포인트는 이상치로 표시됩니다. Q1, Q3, IQR은 이상치 자체의 영향을 받지 않으므로 평균과 표준편차보다 견고합니다.
이상치는 항상 제거해야 하나요?
아니요. 제거하기 전에 먼저 조사하세요. 이상치는 사기 거래, 새로운 과학적 발견, 연구할 가치가 있는 제조 결함처럼 중요하고 실제적인 데이터를 나타낼 수 있습니다. 확인된 입력 오류처럼 타당한 이유가 있을 때만 제거하세요. 분석을 보고할 때는 제거 사실도 항상 함께 적어야 합니다.
경미한 이상치와 극단 이상치의 차이는 무엇인가요?
경미한 이상치는 사분위수 기준 1.5×IQR에서 3×IQR 사이에 있습니다. 극단 이상치는 3×IQR을 넘습니다. 박스플롯에서는 보통 경미한 이상치를 빈 원으로, 극단 이상치를 별표나 채운 원으로 표시합니다. 대부분의 탐색적 분석에서는 1.5×IQR이 표준입니다.
이 계산기는 음수를 지원하나요?
네. IQR 방법은 척도에 독립적이며 양수, 0, 음수의 어떤 조합에도 올바르게 작동합니다. 예를 들어 −20, 5, 8, 9, 10, 12, 15처럼 쉼표로 구분된 목록에 음수를 포함하면 됩니다.
필요한 최소 데이터 포인트 수는 얼마인가요?
의미 있는 사분위수와 IQR을 계산하려면 최소 4개의 데이터 포인트가 필요합니다. 매우 작은 표본(10~15개 미만)은 경계가 크게 흔들릴 수 있으므로, 감지된 이상치는 신중하게 해석해야 합니다.
이 방법은 Z-점수 방식과 어떻게 다른가요?
Z-점수 방법은 평균에서 2~3표준편차 이상 떨어진 값을 표시합니다. 이는 대략 정규분포를 가정하고, 극단값이 평균과 표준편차를 끌어올리기 때문에 감지 대상인 이상치의 영향을 받습니다. IQR 방법은 정규성을 가정하지 않으므로 왜도 데이터, 두꺼운 꼬리 분포, 소규모 또는 중간 규모 표본에 더 적합합니다.