Q: В чём разница между односторонним и двусторонним тестом?

Двусторонний тест проверяет различие в любом направлении и делит α поровну между обоими хвостами. Односторонний тест сосредотачивает весь α на одном направлении и даёт больше мощности для обнаружения эффекта в этом направлении, но он корректен только тогда, когда направление эффекта было задано до просмотра данных. Использовать односторонний тест, чтобы спасти пограничный двусторонний результат, — это p-hacking.

Q: Как определяются степени свободы?

Степени свободы (df) отражают число независимых элементов информации в данных. Для одноcамборного t-теста df = n − 1. Для t-теста двух независимых выборок df = n₁ + n₂ − 2. Для теста хи-квадрат на независимость в таблице r × c df = (r − 1)(c − 1). Для однофакторного F-теста ANOVA числитель df = k − 1 (число групп минус 1), а знаменатель df = N − k (общее число наблюдений минус число групп).

Q: Что такое p-hacking и почему это вредно?

p-hacking — это практика многократного проведения тестов, подгрупп или спецификаций модели до тех пор, пока не появится результат с p < 0.05, а затем публикации только этого результата. Это резко увеличивает истинную ошибку I рода выше α и порождает ложноположительные результаты, которые не воспроизводятся. Чтобы этого избежать, предварительно регистрируйте план анализа, применяйте поправки на множественные сравнения (например, поправку Бонферрони) и сообщайте обо всех проведённых тестах.

Q: Может ли очень маленькое p-значение означать, что результат неважен?

Да. При достаточно большой выборке даже крошечный эффект (например, препарат снижает давление всего на 0.1 mmHg) может дать p < 0.001. Статистическая значимость и практическая значимость — не одно и то же. Всегда вычисляйте и сообщайте размер эффекта (Cohen's d, odds ratio, R² и т. д.) вместе с p-значением, чтобы читатели могли оценить, достаточно ли велик эффект на практике.

Question 1

Что на самом деле измеряет p-значение?

Accepted Answer

p-значение измеряет вероятность наблюдать такую же экстремальную или более экстремальную тестовую статистику, как вычисленная, при условии, что нулевая гипотеза верна. Оно показывает, насколько ваши данные неожиданны при H₀. Оно не измеряет вероятность того, что H₀ верна, размер эффекта или вероятность совершения ошибки.

Question 2

Почему α = 0.05 считается стандартным порогом?

Accepted Answer

Порог 0.05 был популяризирован Рональдом Фишером в 1920-х как удобная конвенция, а не как универсальная истина. Он означает, что вы принимаете 5% риск ложноположительного результата (отклонить истинную H₀). В разных областях используются разные пороги: физика частиц обычно требует p < 5×10⁻⁷, геномика часто использует p < 5×10⁻⁸, а в клинических исследованиях иногда применяют α = 0.01. Правильный порог зависит от цены ложноположительных и ложноотрицательных ошибок в вашей области.

Question 3

В чём разница между односторонним и двусторонним тестом?

Accepted Answer

Двусторонний тест проверяет различие в любом направлении и делит α поровну между обоими хвостами. Односторонний тест сосредотачивает весь α на одном направлении и даёт больше мощности для обнаружения эффекта в этом направлении, но он корректен только тогда, когда направление эффекта было задано до просмотра данных. Использовать односторонний тест, чтобы спасти пограничный двусторонний результат, — это p-hacking.

Question 4

Как определяются степени свободы?

Accepted Answer

Степени свободы (df) отражают число независимых элементов информации в данных. Для одноcамборного t-теста df = n − 1. Для t-теста двух независимых выборок df = n₁ + n₂ − 2. Для теста хи-квадрат на независимость в таблице r × c df = (r − 1)(c − 1). Для однофакторного F-теста ANOVA числитель df = k − 1 (число групп минус 1), а знаменатель df = N − k (общее число наблюдений минус число групп).

Question 5

Что такое p-hacking и почему это вредно?

Accepted Answer

p-hacking — это практика многократного проведения тестов, подгрупп или спецификаций модели до тех пор, пока не появится результат с p < 0.05, а затем публикации только этого результата. Это резко увеличивает истинную ошибку I рода выше α и порождает ложноположительные результаты, которые не воспроизводятся. Чтобы этого избежать, предварительно регистрируйте план анализа, применяйте поправки на множественные сравнения (например, поправку Бонферрони) и сообщайте обо всех проведённых тестах.

Question 6

Может ли очень маленькое p-значение означать, что результат неважен?

Accepted Answer

Да. При достаточно большой выборке даже крошечный эффект (например, препарат снижает давление всего на 0.1 mmHg) может дать p < 0.001. Статистическая значимость и практическая значимость — не одно и то же. Всегда вычисляйте и сообщайте размер эффекта (Cohen's d, odds ratio, R² и т. д.) вместе с p-значением, чтобы читатели могли оценить, достаточно ли велик эффект на практике.

Конфигурация теста	P-значение	Вывод при α = 0.05
Z-тест, двусторонний, Z = 2.5, α = 0.05	p = 0.0124	p < 0.05 → значимо. Вероятность \|Z\| ≥ 2.5 при H₀ составляет около 1.24%.
t-тест, правосторонний, t = 2.1, df = 15, α = 0.05	p = 0.0267	p < 0.05 → значимо. Односторонний t-тест с 15 df и t = 2.1 даёт p ≈ 0.027.
Хи-квадрат, правосторонний, χ² = 18.3, df = 10, α = 0.01	p = 0.0499	p > 0.01 → при α = 0.01 незначимо. Тот же результат значим при α = 0.05.
F-тест, правосторонний, F = 3.8, df1 = 2, df2 = 27, α = 0.05	p = 0.0347	p < 0.05 → значимо. F-отношение ANOVA 3.8 со степенями свободы 2 и 27.

Калькулятор p-значения - Z, t, F и хи-квадрат

О калькуляторе p-значения

Примеры

Как использовать калькулятор p-значения

Часто задаваемые вопросы