假设检验计算器 - Z检验、T检验与P值

对均值和比例执行 Z 检验与 T 检验。输入样本数据,即可在数秒内计算检验统计量、p 值和临界值。

选择检验类型和备择假设,输入数据后点击计算,即可判断是否拒绝原假设。

假设检验计算器 - Z检验、T检验与P值
对均值和比例执行 Z 检验与 T 检验。输入样本数据,即可在数秒内计算检验统计量、p 值和临界值。

关于假设检验计算器

假设检验是推断统计的基石。它提供了一套有原则、基于概率的框架,用来判断你收集到的数据是否与某个理论主张——原假设——一致,或者证据是否强到足以拒绝该主张并支持备择假设。医学、心理学、经济学、工程质量控制以及 A/B 网站测试中的每一次实验,最终都可归结为某种形式的假设检验。 原假设 (H₀) 是默认假定:没有发生变化,处理没有效果,过程处于目标水平,或者比例没有改变。备择假设 (H₁) 则是你试图检测的内容:均值发生了偏移,比例发生了变化,或者一种处理优于另一种。显著性水平 α——通常为 0.05 或 0.01——是当 H₀ 实际为真时却错误拒绝它的概率(第一类错误)。如果检验返回的 p 值小于 α,就拒绝 H₀。 当已知总体标准差 σ,且样本较大(n ≥ 30)或总体服从正态分布时,均值的 Z 检验是合适的。检验统计量为 Z = (x̄ − μ₀) / (σ / √n)。由于 σ 已知,该统计量严格服从标准正态分布,p 值可直接从正态表中读取。均值的 T 检验适用于 σ 未知的情况,这也是现实研究中最常见的情形。此时使用样本标准差 s,检验统计量 T = (x̄ − μ₀) / (s / √n) 服从自由度为 df = n − 1 的 t 分布。样本较小时,t 分布的尾部比正态更厚,因此更难达到显著性——这正是对 σ 额外不确定性的一种合理惩罚。 比例的 Z 检验用于检验观测到的样本比例 p̂ 是否与假设的总体比例 p₀ 一致。标准误为 √(p₀(1 − p₀) / n),检验统计量为 Z = (p̂ − p₀) / SE。该检验广泛用于 A/B 测试、临床试验的主要终点,以及质量控制中的不合格率控制图。 对于双尾检验,当 |统计量| > 临界值时拒绝 H₀,这会捕捉两个方向上的偏离。对于单尾检验(左尾或右尾),你需要提前指定方向;这样在该方向上检出变化的能力更强,但无法识别相反方向的意外变化。显示的临界值对应右尾边界;对于左尾检验,相关边界是其相反数。 p 值是在 H₀ 为真的前提下,观察到一个至少同样极端的检验统计量的概率。p 值为 0.03 并不表示原假设有 3% 的概率是真的;它表示如果 H₀ 为真,仅有 3% 的概率会因随机抽样得到如此极端或更极端的数据。统计显著性不等于实际显著性:样本量很大时,微小效应也可能高度显著;而样本量很小时,较大效应也可能达不到显著性。务必将 p 值与效应量和置信区间一起解读。

假设检验示例

展示每种检验类型和尾部方向的真实场景。

场景结果解释
质量控制:x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, 双尾 Z 检验Z=2.357, p=0.0184 → 拒绝 H₀螺栓平均直径已显著偏离 10 mm 目标;需要调整工艺。
药物试验:x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, 右尾 T 检验T=3.651, df=29, p=0.0005 → 拒绝 H₀有强有力的证据表明,该药物平均可使血压降低超过 10 mmHg。
A/B 测试:p̂=0.095, p₀=0.08, n=1000, α=0.05, 右尾 Z 检验(比例)Z=1.750, p=0.0401 → 拒绝 H₀新的按钮设计显著提高了点击率,超过了 8% 的基线。
燃油效率:x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, 左尾 Z 检验Z=−3.162, p=0.0008 → 拒绝 H₀在 1% 显著性水平下,有证据表明该车型的燃油效率低于宣传的 30 mpg。

如何使用假设检验计算器

  1. 选择检验类型:若已知 σ,选 Z 检验(均值);若 σ 未知且有样本标准差,选 T 检验(均值);分类结果则选 Z 检验(比例)。
  2. 选择备择假设方向——双尾用于检出任意变化,左尾用于检出下降,右尾用于检出上升。
  3. 输入原假设值(均值检验为 μ₀,比例检验为 p₀)、所选显著性水平 α(通常为 0.05)以及样本量 n。
  4. 填写其余字段:Z 检验(均值)填样本均值 x̄ 和总体标准差 σ;T 检验填样本均值 x̄ 和样本标准差 s;Z 检验(比例)填样本比例 p̂。
  5. 点击计算。工具会显示检验统计量、自由度(仅 T 检验)、p 值、临界值,以及拒绝/不拒绝的结论。

假设检验常见问题

Z 检验和 T 检验有什么区别?
当已知总体标准差 σ 时使用 Z 检验,这样可以用标准正态分布计算精确的 p 值。当 σ 未知、必须用样本标准差 s 估计时使用 T 检验;此时检验统计量服从自由度为 n−1 的 t 分布,它的尾部比正态更厚,用来反映额外的不确定性。随着样本量增大,t 分布会收敛到正态分布,因此这种区别在小样本时最重要(大致 n < 30)。
p 值到底是什么意思?
p 值是在原假设为真的前提下,获得一个至少与观测值同样极端的检验统计量的概率。它不是 H₀ 为真的概率,也不是结果纯属偶然的概率。p 值低于 α(通常为 0.05)表示:如果 H₀ 为真,观察到当前数据会很反常,因此拒绝 H₀。p 值高于 α 表示数据与 H₀ 一致,因此不拒绝它——但这并不能证明 H₀ 正确。
什么时候该用单尾检验,什么时候该用双尾检验?
当两个方向的差异都具有科学意义,且你没有充分理由预期特定方向时,使用双尾检验。当理论或先验证据在数据收集前就明确指定效应方向时,使用单尾检验。为了追求显著性而在看到数据后再改用单尾检验属于 p-hacking,是无效的。α=0.05 的单尾检验等价于 α=0.10 的双尾检验。
显著性水平 α 是什么,应该如何选择?
显著性水平 α 是可接受的第一类错误的最大概率——也就是把真实的原假设错误拒绝掉。传统上通常选择 0.05(5%),但当假阳性代价特别高时(如医学诊断、安全关键系统)会使用 0.01。一些领域现在建议报告精确 p 值,而不是依赖固定阈值,并结合置信区间和效应量来获得更全面的结论。
什么是第一类错误和第二类错误?
第一类错误(假阳性)是指原假设 H₀ 实际为真,却错误地拒绝了它;其概率为 α。第二类错误(假阴性)是指原假设 H₀ 实际为假,却未能拒绝它;其概率为 β,而统计功效为 1−β。降低 α 会收紧拒绝标准,从而减少第一类错误,但会增加第二类错误。增加样本量是同时降低两类错误最有效的方法。
我可以把这个计算器用于问卷比例吗?
可以——比例的 Z 检验模式正是为此设计的。输入假设的总体比例 p₀(你的基线值或理论值)、样本量 n,以及观测到的样本比例 p̂(成功数除以 n)。计算器使用标准公式 Z = (p̂ − p₀) / √(p₀(1−p₀)/n)。当 n·p₀ 和 n·(1−p₀) 都大于 5 或 10 时,正态近似是可靠的。