Калькулятор проверки гипотез - Z, T и p-value

Проводите Z- и T-тесты для средних и долей. Введите выборочные данные, чтобы за секунды вычислить статистику теста, p-value и критическое значение.

Выберите тип теста и альтернативную гипотезу, введите данные и нажмите «Рассчитать», чтобы определить, следует ли отвергнуть нулевую гипотезу.

Калькулятор проверки гипотез - Z, T и p-value
Проводите Z- и T-тесты для средних и долей. Введите выборочные данные, чтобы за секунды вычислить статистику теста, p-value и критическое значение.

О калькуляторе проверки гипотез

Проверка гипотез — это основа математической статистики. Она дает обоснованную вероятностную рамку для решения, согласуются ли собранные данные с теоретическим утверждением — нулевой гипотезой — или доказательств достаточно, чтобы отвергнуть это утверждение в пользу альтернативы. Каждый эксперимент в медицине, психологии, экономике, инженерном контроле качества и A/B-тестировании сайтов в конечном счете сводится к той или иной форме проверки гипотез. Нулевая гипотеза (H₀) — это предположение по умолчанию: ничего не произошло, вмешательство не имеет эффекта, процесс находится на целевом уровне, доли не изменились. Альтернативная гипотеза (H₁) — это то, что вы пытаетесь обнаружить: среднее сместилось, доля изменилась или одно вмешательство лучше другого. Уровень значимости α — обычно 0.05 или 0.01 — это вероятность ошибочно отвергнуть H₀, когда она на самом деле верна (ошибка первого рода). Если p-value, полученное в тесте, меньше α, H₀ отвергают. Z-тест для средних подходит, когда стандартное отклонение генеральной совокупности σ известно и либо выборка большая (n ≥ 30), либо генеральная совокупность нормально распределена. Статистика теста: Z = (x̄ − μ₀) / (σ / √n). Поскольку σ известно, статистика точно следует стандартному нормальному распределению, а p-value берется из таблицы нормального распределения. T-тест для средних применяется, когда σ неизвестно, что на практике встречается чаще всего. В этом случае используют выборочное стандартное отклонение s, а статистика T = (x̄ − μ₀) / (s / √n) следует t-распределению со степенями свободы df = n − 1. При малых выборках t-распределение имеет более тяжелые хвосты, чем нормальное, поэтому достичь значимости сложнее — это разумная плата за дополнительную неопределенность σ. Z-тест для долей проверяет, согласуется ли наблюдаемая выборочная доля p̂ с гипотетической долей генеральной совокупности p₀. Стандартная ошибка равна √(p₀(1 − p₀) / n), а статистика теста: Z = (p̂ − p₀) / SE. Этот тест широко используется в A/B-тестах, первичных конечных точках клинических исследований и контрольных картах доли брака. Для двустороннего теста H₀ отвергают, когда |статистика| > критическое значение, что позволяет учитывать отклонения в обе стороны. Для одностороннего теста (левого или правого) направление задается заранее; это дает большую мощность для обнаружения сдвига в этом направлении, но не позволяет выявить неожиданный сдвиг в другую сторону. Показанное критическое значение относится к правой границе; для левостороннего теста соответствующей границей является его отрицательное значение. p-value — это вероятность наблюдать статистику теста не менее экстремальную, чем рассчитанная, при условии, что H₀ верна. p-value 0.03 не означает, что вероятность истинности нулевой гипотезы равна 3%; это означает, что если H₀ верна, то получить такие же или более экстремальные данные только случайной выборкой можно лишь с вероятностью 3%. Статистическая значимость не равна практической значимости: маленький эффект может быть очень значимым при большом n, а большой эффект может не достичь значимости при малом n. Всегда сочетайте p-value с размером эффекта и доверительным интервалом.

Примеры проверки гипотез

Реальные сценарии, иллюстрирующие каждый тип теста и направление хвоста.

СценарийРезультатИнтерпретация
Контроль качества: x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, двусторонний Z-тестZ=2.357, p=0.0184 → Отвергнуть H₀Средний диаметр болтов значимо сместился относительно цели 10 мм; процесс нуждается в корректировке.
Испытание препарата: x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, правосторонний T-тестT=3.651, df=29, p=0.0005 → Отвергнуть H₀Есть сильные доказательства того, что препарат снижает давление в среднем более чем на 10 mmHg.
A/B-тест: p̂=0.095, p₀=0.08, n=1000, α=0.05, правосторонний Z-тест (доля)Z=1.750, p=0.0401 → Отвергнуть H₀Новый дизайн кнопки значительно увеличивает CTR выше базовых 8%.
Экономичность топлива: x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, левосторонний Z-тестZ=−3.162, p=0.0008 → Отвергнуть H₀На уровне 1% есть доказательства, что топливная экономичность модели ниже заявленных 30 mpg.

Как пользоваться калькулятором проверки гипотез

  1. Выберите тип теста: Z-тест (среднее), если σ известно; T-тест (среднее), если σ неизвестно и у вас есть выборочное стандартное отклонение; либо Z-тест (доля) для категориальных результатов.
  2. Выберите направление альтернативной гипотезы — двусторонний для обнаружения любого изменения, левосторонний для снижения или правосторонний для роста.
  3. Введите значение нулевой гипотезы (μ₀ для тестов средних или p₀ для тестов долей), выбранный уровень значимости α (обычно 0.05) и размер выборки n.
  4. Заполните оставшееся поле: выборочное среднее x̄ и стандартное отклонение генеральной совокупности σ для Z-теста (среднее); выборочное среднее x̄ и выборочное стандартное отклонение s для T-теста; либо выборочную долю p̂ для Z-теста (доля).
  5. Нажмите Рассчитать. Инструмент покажет статистику теста, степени свободы (только для T-теста), p-value, критическое значение и решение отвергнуть или не отвергать H₀.

Часто задаваемые вопросы о проверке гипотез

В чем разница между Z-тестом и T-тестом?
Z-тест используется, когда стандартное отклонение генеральной совокупности σ известно, что позволяет вычислять точные p-value с помощью стандартного нормального распределения. T-тест применяется, когда σ неизвестно и его нужно оценивать по выборочному стандартному отклонению s; полученная статистика следует t-распределению с n−1 степенями свободы, у которого хвосты тяжелее, чем у нормального, чтобы учесть дополнительную неопределенность. По мере роста выборки t-распределение сходится к нормальному, поэтому различие особенно важно для малых выборок (примерно n < 30).
Что на самом деле означает p-value?
p-value — это вероятность получить статистику теста не менее экстремальную, чем наблюдаемая, при условии, что нулевая гипотеза истинна. Это не вероятность того, что H₀ истинна, и не вероятность того, что результат получился случайно. p-value ниже α (обычно 0.05) означает, что наблюдаемые данные были бы неожиданными, если бы H₀ была верна, поэтому H₀ отвергают. p-value выше α означает, что данные согласуются с H₀, поэтому ее не отвергают — но это не доказывает, что H₀ верна.
Когда использовать односторонний тест, а когда двусторонний?
Используйте двусторонний тест, когда различие в любом направлении научно значимо и у вас нет веской причины ожидать конкретное направление. Используйте односторонний тест, когда теория или предыдущие данные заранее четко задают направление эффекта до сбора данных. Переключаться на односторонний тест после просмотра данных ради значимости — это p-hacking и такой анализ недействителен. Односторонний тест при α=0.05 эквивалентен двустороннему тесту при α=0.10.
Что такое уровень значимости α и как его выбрать?
Уровень значимости α — это максимально допустимая вероятность ошибки первого рода, то есть ошибочно отвергнуть истинную нулевую гипотезу. Обычный выбор — 0.05 (5%), но 0.01 используют, когда ложные срабатывания особенно дороги (медицинская диагностика, критически важные системы безопасности). В некоторых областях сейчас рекомендуют сообщать точные p-value вместо опоры на фиксированный порог и сочетать их с доверительными интервалами и размерами эффекта для более полной картины.
Что такое ошибки первого и второго рода?
Ошибка первого рода (ложноположительный результат) возникает, когда вы отвергаете H₀, хотя она верна; ее вероятность равна α. Ошибка второго рода (ложноотрицательный результат) возникает, когда вы не отвергаете H₀, хотя она ложна; ее вероятность равна β, а статистическая мощность равна 1−β. Снижение α ужесточает критерий отвергания, уменьшая ошибки первого рода, но увеличивая ошибки второго рода. Увеличение размера выборки — самый чистый способ уменьшить обе ошибки одновременно.
Можно ли использовать этот калькулятор для долей из опроса?
Да — режим Z-теста для доли создан именно для этого. Введите гипотетическую долю генеральной совокупности p₀ (вашу базовую или теоретическую величину), размер выборки n и наблюдаемую выборочную долю p̂ (число успехов, деленное на n). Калькулятор применяет стандартную формулу Z = (p̂ − p₀) / √(p₀(1−p₀)/n). Нормальное приближение надежно, когда n·p₀ и n·(1−p₀) оба превышают 5 или 10.