Калькулятор верхней и нижней границ IQR
Определяйте статистические выбросы в наборе данных с помощью метода границ по межквартильному размаху (IQR). Введите числа через запятую, чтобы сразу найти Q1, Q3, IQR и обе границы.
Введите значения данных через запятую, нажмите «Рассчитать» и увидьте верхнюю границу, нижнюю границу и любые выбросы в наборе данных.
Калькулятор верхней и нижней границ IQR
Определяйте статистические выбросы в наборе данных с помощью метода границ по межквартильному размаху (IQR). Введите числа через запятую, чтобы сразу найти Q1, Q3, IQR и обе границы.
О калькуляторе верхней и нижней границ
Метод верхней и нижней границ — стандартный способ выявления выбросов в наборе данных с использованием межквартильного размаха (IQR). Он был разработан как часть подхода Джона Тьюки к разведочному анализу данных в 1977 году и предлагает надёжный непараметрический способ отмечать необычные наблюдения без предположения о конкретном распределении данных. Метод широко изучается в вводных курсах статистики и является базовым способом обнаружения выбросов в box-and-whisker plots.
Расчёт начинается с упорядочивания набора данных и определения первого и третьего квартилей. Q1 (25-й перцентиль) — это значение, ниже которого находится 25% данных, а Q3 (75-й перцентиль) — значение, ниже которого находится 75% данных. IQR — это просто Q3 минус Q1, то есть разброс средней половины данных. Поскольку IQR игнорирует крайние значения по обоим концам распределения, он устойчив к тем самым выбросам, которые и пытается обнаружить, — это делает метод границ более надёжным, чем методы, основанные на размахе.
После вычисления IQR границы устанавливаются на уровне 1.5 × IQR ниже Q1 (нижняя граница) и 1.5 × IQR выше Q3 (верхняя граница). Любая точка данных ниже нижней границы или выше верхней границы считается выбросом. Множитель 1.5 Тьюки выбрал эмпирически, потому что он хорошо работает для данных, близких к нормальным: при нормальном распределении это правило отмечает примерно 0.7% наблюдений как выбросы, что соответствует значениям более чем примерно на 2.7 стандартного отклонения от среднего.
Для более экстремальных выбросов некоторые приложения используют множитель 3 вместо 1.5, называя такие точки дальними или экстремальными выбросами. Точки, находящиеся вне границы 1.5 × IQR, но внутри 3 × IQR, иногда называют умеренными выбросами. Этот калькулятор использует стандартное правило 1.5 × IQR, подходящее для большинства разведочных анализов.
Обнаружение выбросов — важный этап очистки данных, контроля качества и статистического моделирования. В производстве измерение процесса за пределами границы может указывать на брак или ошибку измерения. В финансах экстремальные доходности могут сигнализировать об ошибках данных, аномалиях рынка или реальных событиях, требующих проверки. В клинических исследованиях выявляются и проверяются физиологически невозможные значения. В машинном обучении выбросы могут искажать обучение модели, если их не обработать.
Важно помнить, что статистические выбросы не обязательно являются ошибочными значениями. Выброс — это просто наблюдение, которое по правилу IQR необычно далеко от основной массы данных. Нужно выяснить, является ли значение реальным экстремальным событием, ошибкой измерения или ошибкой ввода.
Примеры верхней и нижней границ
Пошаговые примеры показывают, как метод границ выявляет выбросы в типичных наборах данных.
| Набор данных | Границы и выбросы | Интерпретация |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | Нижняя: 4 | Верхняя: 28 | Выброс: 100 | Q1=13, Q3=19, IQR=6. Нижняя граница = 13 − 9 = 4. Верхняя граница = 19 + 9 = 28. Значение 100 превышает верхнюю границу и помечается как выброс. |
| 5, 7, 8, 9, 10, 11, 12, 14 | Нижняя: 2.5 | Верхняя: 16.5 | Выбросов нет | Q1=7.75, Q3=11.25, IQR=3.5. Границы равны 2.5 и 16.5. Все значения (от 5 до 14) находятся внутри границ, поэтому выбросов нет. |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | Нижняя: −2.375 | Верхняя: 18.625 | Выброс: 50 | Q1=5.5, Q3=10.75, IQR=5.25. Верхняя граница = 10.75 + 7.875 = 18.625. Значение 50 намного выше верхней границы и является явным выбросом. |
Как пользоваться калькулятором границ
- Введите значения данных в поле ввода, разделяя их запятыми или пробелами. Для расчёта осмысленных квартилей нужно как минимум 4 значения.
- Нажмите «Рассчитать», чтобы вычислить Q1, Q3, IQR, нижнюю границу (Q1 − 1.5 × IQR) и верхнюю границу (Q3 + 1.5 × IQR).
- Проверьте выделенные значения границ — любая точка ниже нижней границы или выше верхней является выбросом.
- Посмотрите раздел «Выбросы», чтобы увидеть конкретные отмеченные значения.
- Нажмите «Сбросить», чтобы очистить ввод и начать заново с новым набором данных.
FAQ по верхней и нижней границам
Что такое верхняя и нижняя границы?
Верхняя граница — это Q3 + 1.5 × IQR, а нижняя — Q1 − 1.5 × IQR. Любая точка данных вне этих границ считается выбросом. Границы задают диапазон, охватывающий ожидаемый разброс примерно колоколообразного распределения.
Почему используется множитель 1.5 для IQR?
Множитель 1.5 был выбран Джоном Тьюки, потому что он примерно оптимален для обнаружения выбросов в нормальных данных и при этом сохраняет низкий уровень ложных срабатываний. При нормальном распределении он отмечает около 0.7% наблюдений. Увеличение множителя до 3 позволяет находить только экстремальные выбросы.
Что такое IQR и как его вычисляют?
IQR (межквартильный размах) — это Q3 минус Q1, то есть разброс центральных 50% данных. Его вычисляют, отсортировав данные, найдя 25-й перцентиль (Q1) и 75-й перцентиль (Q3), а затем вычтя одно из другого. IQR устойчив к выбросам, потому что игнорирует верхние и нижние 25% значений.
Означает ли выброс, что данные неверны?
Не обязательно. Выброс — это просто необычно экстремальное наблюдение по сравнению с основной массой данных. Это может быть реальное экстремальное событие, ошибка измерения или ошибка ввода. Каждый отмеченный факт нужно проверить в контексте, прежде чем удалять или исправлять его.
Как границы связаны с box plot?
Верхняя и нижняя границы определяют «усы» в стандартном box plot Тьюки. Коробка охватывает IQR (от Q1 до Q3), линия внутри коробки — медиана, а усы тянутся до самых экстремальных точек, которые ещё находятся внутри границ. Точки за усами отображаются отдельно как выбросы.
Подходит ли метод границ для маленьких наборов данных?
Метод лучше всего работает при наличии как минимум 10–20 наблюдений. При меньшем числе значений оценки квартилей неточны, и границы могут быть ненадёжными. Для очень маленьких наборов данных лучше визуально изучить все значения, а не полагаться только на автоматическое правило границ.