Q: Что на самом деле означает p-value?

p-value — это вероятность получить статистику теста не менее экстремальную, чем наблюдаемая, при условии, что нулевая гипотеза истинна. Это не вероятность того, что H₀ истинна, и не вероятность того, что результат получился случайно. p-value ниже α (обычно 0.05) означает, что наблюдаемые данные были бы неожиданными, если бы H₀ была верна, поэтому H₀ отвергают. p-value выше α означает, что данные согласуются с H₀, поэтому ее не отвергают — но это не доказывает, что H₀ верна.

Q: Когда использовать односторонний тест, а когда двусторонний?

Используйте двусторонний тест, когда различие в любом направлении научно значимо и у вас нет веской причины ожидать конкретное направление. Используйте односторонний тест, когда теория или предыдущие данные заранее четко задают направление эффекта до сбора данных. Переключаться на односторонний тест после просмотра данных ради значимости — это p-hacking и такой анализ недействителен. Односторонний тест при α=0.05 эквивалентен двустороннему тесту при α=0.10.

Q: Что такое уровень значимости α и как его выбрать?

Уровень значимости α — это максимально допустимая вероятность ошибки первого рода, то есть ошибочно отвергнуть истинную нулевую гипотезу. Обычный выбор — 0.05 (5%), но 0.01 используют, когда ложные срабатывания особенно дороги (медицинская диагностика, критически важные системы безопасности). В некоторых областях сейчас рекомендуют сообщать точные p-value вместо опоры на фиксированный порог и сочетать их с доверительными интервалами и размерами эффекта для более полной картины.

Q: Что такое ошибки первого и второго рода?

Ошибка первого рода (ложноположительный результат) возникает, когда вы отвергаете H₀, хотя она верна; ее вероятность равна α. Ошибка второго рода (ложноотрицательный результат) возникает, когда вы не отвергаете H₀, хотя она ложна; ее вероятность равна β, а статистическая мощность равна 1−β. Снижение α ужесточает критерий отвергания, уменьшая ошибки первого рода, но увеличивая ошибки второго рода. Увеличение размера выборки — самый чистый способ уменьшить обе ошибки одновременно.

Q: Можно ли использовать этот калькулятор для долей из опроса?

Да — режим Z-теста для доли создан именно для этого. Введите гипотетическую долю генеральной совокупности p₀ (вашу базовую или теоретическую величину), размер выборки n и наблюдаемую выборочную долю p̂ (число успехов, деленное на n). Калькулятор применяет стандартную формулу Z = (p̂ − p₀) / √(p₀(1−p₀)/n). Нормальное приближение надежно, когда n·p₀ и n·(1−p₀) оба превышают 5 или 10.

Question 1

В чем разница между Z-тестом и T-тестом?

Accepted Answer

Z-тест используется, когда стандартное отклонение генеральной совокупности σ известно, что позволяет вычислять точные p-value с помощью стандартного нормального распределения. T-тест применяется, когда σ неизвестно и его нужно оценивать по выборочному стандартному отклонению s; полученная статистика следует t-распределению с n−1 степенями свободы, у которого хвосты тяжелее, чем у нормального, чтобы учесть дополнительную неопределенность. По мере роста выборки t-распределение сходится к нормальному, поэтому различие особенно важно для малых выборок (примерно n < 30).

Question 2

Что на самом деле означает p-value?

Accepted Answer

p-value — это вероятность получить статистику теста не менее экстремальную, чем наблюдаемая, при условии, что нулевая гипотеза истинна. Это не вероятность того, что H₀ истинна, и не вероятность того, что результат получился случайно. p-value ниже α (обычно 0.05) означает, что наблюдаемые данные были бы неожиданными, если бы H₀ была верна, поэтому H₀ отвергают. p-value выше α означает, что данные согласуются с H₀, поэтому ее не отвергают — но это не доказывает, что H₀ верна.

Question 3

Когда использовать односторонний тест, а когда двусторонний?

Accepted Answer

Используйте двусторонний тест, когда различие в любом направлении научно значимо и у вас нет веской причины ожидать конкретное направление. Используйте односторонний тест, когда теория или предыдущие данные заранее четко задают направление эффекта до сбора данных. Переключаться на односторонний тест после просмотра данных ради значимости — это p-hacking и такой анализ недействителен. Односторонний тест при α=0.05 эквивалентен двустороннему тесту при α=0.10.

Question 4

Что такое уровень значимости α и как его выбрать?

Accepted Answer

Уровень значимости α — это максимально допустимая вероятность ошибки первого рода, то есть ошибочно отвергнуть истинную нулевую гипотезу. Обычный выбор — 0.05 (5%), но 0.01 используют, когда ложные срабатывания особенно дороги (медицинская диагностика, критически важные системы безопасности). В некоторых областях сейчас рекомендуют сообщать точные p-value вместо опоры на фиксированный порог и сочетать их с доверительными интервалами и размерами эффекта для более полной картины.

Question 5

Что такое ошибки первого и второго рода?

Accepted Answer

Ошибка первого рода (ложноположительный результат) возникает, когда вы отвергаете H₀, хотя она верна; ее вероятность равна α. Ошибка второго рода (ложноотрицательный результат) возникает, когда вы не отвергаете H₀, хотя она ложна; ее вероятность равна β, а статистическая мощность равна 1−β. Снижение α ужесточает критерий отвергания, уменьшая ошибки первого рода, но увеличивая ошибки второго рода. Увеличение размера выборки — самый чистый способ уменьшить обе ошибки одновременно.

Question 6

Можно ли использовать этот калькулятор для долей из опроса?

Accepted Answer

Да — режим Z-теста для доли создан именно для этого. Введите гипотетическую долю генеральной совокупности p₀ (вашу базовую или теоретическую величину), размер выборки n и наблюдаемую выборочную долю p̂ (число успехов, деленное на n). Калькулятор применяет стандартную формулу Z = (p̂ − p₀) / √(p₀(1−p₀)/n). Нормальное приближение надежно, когда n·p₀ и n·(1−p₀) оба превышают 5 или 10.

Сценарий	Результат	Интерпретация
Контроль качества: x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, двусторонний Z-тест	Z=2.357, p=0.0184 → Отвергнуть H₀	Средний диаметр болтов значимо сместился относительно цели 10 мм; процесс нуждается в корректировке.
Испытание препарата: x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, правосторонний T-тест	T=3.651, df=29, p=0.0005 → Отвергнуть H₀	Есть сильные доказательства того, что препарат снижает давление в среднем более чем на 10 mmHg.
A/B-тест: p̂=0.095, p₀=0.08, n=1000, α=0.05, правосторонний Z-тест (доля)	Z=1.750, p=0.0401 → Отвергнуть H₀	Новый дизайн кнопки значительно увеличивает CTR выше базовых 8%.
Экономичность топлива: x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, левосторонний Z-тест	Z=−3.162, p=0.0008 → Отвергнуть H₀	На уровне 1% есть доказательства, что топливная экономичность модели ниже заявленных 30 mpg.

Калькулятор проверки гипотез - Z, T и p-value

О калькуляторе проверки гипотез

Примеры проверки гипотез

Как пользоваться калькулятором проверки гипотез

Часто задаваемые вопросы о проверке гипотез