Калькулятор выбросов - обнаружение по методу IQR

Находите статистические выбросы в любом наборе данных с помощью метода межквартильного размаха — сразу выбирайте слабые (1,5×IQR) или экстремальные (3×IQR) выбросы.

Введите список чисел через запятую, выберите метод обнаружения выбросов и получите Q1, Q3, IQR, значения границ и список выбросов.

Калькулятор выбросов - обнаружение по методу IQR
Находите статистические выбросы в любом наборе данных с помощью метода межквартильного размаха — сразу выбирайте слабые (1,5×IQR) или экстремальные (3×IQR) выбросы.

О калькуляторе выбросов

Выброс — это точка данных, которая находится на ненормально большом расстоянии от остальных значений в наборе данных. В статистическом анализе выбросы могут искажать сводные показатели, такие как среднее и стандартное отклонение, завышать оценки дисперсии и нарушать предпосылки параметрических тестов. Раннее выявление выбросов — важный шаг в разведочном анализе данных, контроле качества и предварительной обработке для машинного обучения. Самый распространённый метод обнаружения выбросов основан на межквартильном размахе (IQR), то есть на разности между третьим квартилем (Q3) и первым квартилем (Q1). Этот метод устойчив, потому что IQR, в отличие от среднего и стандартного отклонения, сам не искажается экстремальными значениями. Формула двух границ такова: нижняя граница = Q1 − k × IQR и верхняя граница = Q3 + k × IQR. Любая точка данных, попавшая за эти границы, классифицируется как выброс. Множитель k определяет, насколько строго отмечаются выбросы. Самый распространённый выбор — k = 1,5, это стандарт для boxplot и признак так называемых «слабых» выбросов — значений, заметно отклоняющихся от основной массы данных, но всё ещё имеющих правдоподобное объяснение. При k = 3,0 критерий строже; отмечаются только «экстремальные» выбросы — значения, настолько далёкие от основного распределения, что почти наверняка являются ошибками, аномалиями или действительно редкими событиями. Чтобы вычислить квартили, калькулятор сначала сортирует данные по возрастанию. Q1 — это 25-й процентиль, а Q3 — 75-й процентиль отсортированных данных. Когда позиция квартиля оказывается между двумя точками, калькулятор выполняет линейную интерполяцию, чтобы получить плавный результат, согласующийся с поведением Excel по умолчанию и многими статистическими пакетами. Обнаружение выброса не означает автоматическое удаление. Прежде чем удалять или преобразовывать найденный выброс, нужно выяснить причину. Это может быть ошибка ввода (опечатка), ошибка измерения (неисправный прибор), ошибка выборки (значение из другой совокупности) или реальное экстремальное наблюдение, важное для науки и подлежащее сохранению. Например, в задачах обнаружения мошенничества самым важным точечным значением часто оказывается именно выброс. В клинических исследованиях пациент с самым экстремальным ответом может быть наиболее информативным. Всегда документируйте своё решение и, если есть сомнения, показывайте результаты и с выбросом, и без него, чтобы продемонстрировать чувствительность. Метод IQR является непараметрическим, то есть не делает предположений о форме исходного распределения. Поэтому он особенно подходит для асимметричных распределений, малых выборок и данных с несколькими кластерами. Для приблизительно нормальных данных с большими выборками альтернативой может быть метод Z-оценки (отметка значений, удалённых от среднего более чем на 2 или 3 стандартных отклонения), но сама Z-оценка искажается выбросами, которые она пытается обнаружить, поэтому подход IQR обычно надёжнее.

Примеры с расчётами

Три набора данных показывают одиночный выброс, несколько выбросов и чистый набор без выбросов.

Набор данныхВыбросы (1,5×IQR)Ключевые значения
10, 12, 14, 15, 16, 18, 20, 5050Q1=13,5, Q3=18,5, IQR=5, верхняя граница=26. Значение 50 превышает 26 и помечается как выброс.
1, 25, 28, 30, 32, 35, 38, 1001, 100Q1=27,25, Q3=35,75, IQR=8,5, границы: от 14,5 до 48,5. И 1, и 100 выходят за эти пределы.
10, 20, 30, 40, 50, 60, 70, 80NoneРавномерный шаг означает, что ни одна точка не дальше чем на 1,5×IQR от границы. Все значения чистые.

Как пользоваться калькулятором выбросов

  1. Введите или вставьте данные в поле в виде списка чисел через запятую. Поддерживаются целые числа, дроби и отрицательные значения.
  2. Выберите «Слабые выбросы (1,5 × IQR)» для стандартного анализа в boxplot или «Экстремальные выбросы (3,0 × IQR)», чтобы отмечать только самые серьёзные аномалии.
  3. Нажмите «Рассчитать». Инструмент покажет Q1, Q3, IQR, нижнюю и верхнюю границы, а также количество выбросов.
  4. Проверьте список «Обнаруженные выбросы». Изучите каждое отмеченное значение, прежде чем решать, удалять его или оставлять.
  5. Ниже отображается очищенный набор данных (отсортированный и без выбросов), который можно быстро скопировать в анализ.

Часто задаваемые вопросы

Что такое метод IQR для обнаружения выбросов?
Метод IQR (межквартильный размах) вычисляет две границы: Q1 − 1,5×IQR и Q3 + 1,5×IQR. Любая точка данных вне этих границ помечается как выброс. Метод устойчив, потому что Q1, Q3 и IQR не зависят от самих выбросов, в отличие от среднего и стандартного отклонения.
Нужно ли всегда удалять выбросы?
Нет. Сначала нужно разобраться. Выбросы могут быть реальными и важными данными — мошенническая транзакция, новое научное наблюдение или производственный дефект, который стоит изучить. Удаляйте их только при наличии веской причины, например подтверждённой ошибки ввода. Всегда отмечайте удаление в отчёте.
В чём разница между слабыми и экстремальными выбросами?
Слабые выбросы находятся в диапазоне от 1,5×IQR до 3×IQR за пределами квартиля. Экстремальные выбросы выходят за 3×IQR. Boxplot обычно показывает слабые выбросы пустыми кружками, а экстремальные — звёздочками или заполненными кружками. Для большинства разведочных анализов порог 1,5×IQR является стандартным.
Работает ли этот калькулятор с отрицательными числами?
Да. Метод IQR не зависит от масштаба и корректно работает с любыми сочетаниями положительных, нулевых и отрицательных значений. Просто включите отрицательные числа в список через запятую, например: −20, 5, 8, 9, 10, 12, 15.
Какое минимальное число точек данных требуется?
Для осмысленного расчёта квартилей и IQR калькулятору нужно минимум 4 точки данных. Для очень малых выборок (менее 10–15 значений) границы могут сильно колебаться, поэтому обнаруженный выброс следует интерпретировать осторожно.
Чем этот метод отличается от подхода Z-score?
Метод Z-score отмечает значения, удалённые от среднего более чем на 2 или 3 стандартных отклонения. Он предполагает приблизительно нормальные данные и чувствителен к самим выбросам, которые пытается обнаружить, потому что экстремальные значения увеличивают среднее и стандартное отклонение. Метод IQR не предполагает нормальность и поэтому предпочтителен для асимметричных данных, распределений с тяжёлыми хвостами и малых или средних выборок.