Калькулятор p-значения - Z, t, F и хи-квадрат

Найдите p-значение для любой тестовой статистики — Z, t, F или хи-квадрат — с вариантами двустороннего, правостороннего или левостороннего теста для мгновенного решения о значимости.

Выберите тип статистического теста и хвост, введите тестовую статистику и степени свободы, и получите точное p-значение и вывод о значимости.

Калькулятор p-значения - Z, t, F и хи-квадрат
Найдите p-значение для любой тестовой статистики — Z, t, F или хи-квадрат — с вариантами двустороннего, правостороннего или левостороннего теста для мгновенного решения о значимости.

О калькуляторе p-значения

p-значение — это вероятность получить статистику теста не менее экстремальную, чем наблюдаемая, при условии, что нулевая гипотеза верна. Это центральный результат почти всех классических статистических тестов и основной критерий для решения, следует ли отклонять нулевую гипотезу. Малое p-значение означает, что наблюдаемые данные маловероятны при H₀, что является доказательством в пользу альтернативной гипотезы. Процедура начинается с нулевой гипотезы H₀ (обычно утверждения об отсутствии эффекта, различия или связи) и альтернативной гипотезы H₁. Затем собирают данные, вычисляют тестовую статистику (Z, t, F или χ²) и используют распределение этой статистики при H₀, чтобы найти p-значение. Если p-значение меньше или равно заранее заданному уровню значимости α (чаще всего 0.05), H₀ отклоняют и объявляют результат статистически значимым. Разные тестовые статистики подчиняются разным вероятностным распределениям. Z-статистика следует стандартному нормальному распределению и используется, когда известно стандартное отклонение генеральной совокупности или выборка очень большая. t-статистика следует распределению Стьюдента с определённым числом степеней свободы (df = n − 1 для одноcамборного теста) и применяется для малых и средних выборок, когда стандартное отклонение неизвестно. F-статистика следует F-распределению со степенями свободы числителя и знаменателя и лежит в основе ANOVA и F-теста на равенство дисперсий. Статистика хи-квадрат следует распределению хи-квадрат с df степенями свободы и используется для тестов независимости в таблицах сопряжённости и тестов согласия. Тип хвоста определяет, какая область распределения используется для вычисления p-значения. Двусторонний тест уместен, когда альтернативная гипотеза ненаправленная (H₁: μ ≠ μ₀), и p-значение суммирует вероятность в обоих хвостах. Правосторонний тест применяют, когда H₁ задаёт положительное направление (H₁: μ > μ₀), а левосторонний — когда H₁ задаёт отрицательное направление (H₁: μ < μ₀). Для F-теста и хи-квадрат теста, которые на практике по сути односторонние (статистика не может быть отрицательной), стандартно сообщают правостороннее p-значение. Критическое и распространённое заблуждение состоит в том, что p-значение — это вероятность того, что H₀ верна. Это не так. p-значение — это условная вероятность: P(такие экстремальные данные | H₀ верна). Оно ничего не говорит о вероятности истинности H₀ или H₁; для этого нужен байесовский вывод с априорными вероятностями. Ещё одно заблуждение — что p < 0.05 означает большой или практически важный эффект. Статистическая значимость зависит от размера выборки: при достаточно большой выборке даже крошечный и несущественный эффект даст p < 0.05. Всегда сообщайте размер эффекта вместе с p-значением. Уровень значимости α следует задавать до просмотра данных и он должен отражать допустимый риск ложноположительного результата (ошибка I рода). В разных областях используют разные пороги: α = 0.05 — стандарт в большинстве биомедицинских и социальных исследований, α = 0.01 часто применяют, когда ложноположительные результаты дороги, а α = 5 × 10⁻⁸ используют в полногеномных ассоциативных исследованиях, чтобы учесть большое число одновременных тестов. Этот калькулятор поддерживает значения α 0.01, 0.05 и 0.10.

Примеры

Четыре примера охватывают каждый поддерживаемый тип теста и показывают входные данные, p-значение и вывод о значимости.

Конфигурация тестаP-значениеВывод при α = 0.05
Z-тест, двусторонний, Z = 2.5, α = 0.05p = 0.0124p < 0.05 → значимо. Вероятность |Z| ≥ 2.5 при H₀ составляет около 1.24%.
t-тест, правосторонний, t = 2.1, df = 15, α = 0.05p = 0.0267p < 0.05 → значимо. Односторонний t-тест с 15 df и t = 2.1 даёт p ≈ 0.027.
Хи-квадрат, правосторонний, χ² = 18.3, df = 10, α = 0.01p = 0.0499p > 0.01 → при α = 0.01 незначимо. Тот же результат значим при α = 0.05.
F-тест, правосторонний, F = 3.8, df1 = 2, df2 = 27, α = 0.05p = 0.0347p < 0.05 → значимо. F-отношение ANOVA 3.8 со степенями свободы 2 и 27.

Как использовать калькулятор p-значения

  1. Выберите тип статистического теста (Z-тест, t-тест, F-тест или хи-квадрат тест), соответствующий тому, как была вычислена ваша статистика.
  2. Выберите тип хвоста: двусторонний для H₁: ≠, правосторонний для H₁: > или левосторонний для H₁: <.
  3. Введите свою тестовую статистику в поле 'Тестовая статистика'. Для t-теста, F-теста и хи-квадрат теста также введите степени свободы (для F-теста — два значения).
  4. Установите уровень значимости α. Нажмите Рассчитать, чтобы получить p-значение и вывод о значимости.
  5. Если p ≤ α, отклоните H₀ и укажите результат как статистически значимый. Если p > α, H₀ не отклоняйте. Всегда дополняйте вывод размером эффекта.

Часто задаваемые вопросы

Что на самом деле измеряет p-значение?
p-значение измеряет вероятность наблюдать такую же экстремальную или более экстремальную тестовую статистику, как вычисленная, при условии, что нулевая гипотеза верна. Оно показывает, насколько ваши данные неожиданны при H₀. Оно не измеряет вероятность того, что H₀ верна, размер эффекта или вероятность совершения ошибки.
Почему α = 0.05 считается стандартным порогом?
Порог 0.05 был популяризирован Рональдом Фишером в 1920-х как удобная конвенция, а не как универсальная истина. Он означает, что вы принимаете 5% риск ложноположительного результата (отклонить истинную H₀). В разных областях используются разные пороги: физика частиц обычно требует p < 5×10⁻⁷, геномика часто использует p < 5×10⁻⁸, а в клинических исследованиях иногда применяют α = 0.01. Правильный порог зависит от цены ложноположительных и ложноотрицательных ошибок в вашей области.
В чём разница между односторонним и двусторонним тестом?
Двусторонний тест проверяет различие в любом направлении и делит α поровну между обоими хвостами. Односторонний тест сосредотачивает весь α на одном направлении и даёт больше мощности для обнаружения эффекта в этом направлении, но он корректен только тогда, когда направление эффекта было задано до просмотра данных. Использовать односторонний тест, чтобы спасти пограничный двусторонний результат, — это p-hacking.
Как определяются степени свободы?
Степени свободы (df) отражают число независимых элементов информации в данных. Для одноcамборного t-теста df = n − 1. Для t-теста двух независимых выборок df = n₁ + n₂ − 2. Для теста хи-квадрат на независимость в таблице r × c df = (r − 1)(c − 1). Для однофакторного F-теста ANOVA числитель df = k − 1 (число групп минус 1), а знаменатель df = N − k (общее число наблюдений минус число групп).
Что такое p-hacking и почему это вредно?
p-hacking — это практика многократного проведения тестов, подгрупп или спецификаций модели до тех пор, пока не появится результат с p < 0.05, а затем публикации только этого результата. Это резко увеличивает истинную ошибку I рода выше α и порождает ложноположительные результаты, которые не воспроизводятся. Чтобы этого избежать, предварительно регистрируйте план анализа, применяйте поправки на множественные сравнения (например, поправку Бонферрони) и сообщайте обо всех проведённых тестах.
Может ли очень маленькое p-значение означать, что результат неважен?
Да. При достаточно большой выборке даже крошечный эффект (например, препарат снижает давление всего на 0.1 mmHg) может дать p < 0.001. Статистическая значимость и практическая значимость — не одно и то же. Всегда вычисляйте и сообщайте размер эффекта (Cohen's d, odds ratio, R² и т. д.) вместе с p-значением, чтобы читатели могли оценить, достаточно ли велик эффект на практике.