Q: p 值到底是什么意思？

p 值是在原假设为真的前提下，获得一个至少与观测值同样极端的检验统计量的概率。它不是 H₀ 为真的概率，也不是结果纯属偶然的概率。p 值低于 α（通常为 0.05）表示：如果 H₀ 为真，观察到当前数据会很反常，因此拒绝 H₀。p 值高于 α 表示数据与 H₀ 一致，因此不拒绝它——但这并不能证明 H₀ 正确。

Q: 什么时候该用单尾检验，什么时候该用双尾检验？

当两个方向的差异都具有科学意义，且你没有充分理由预期特定方向时，使用双尾检验。当理论或先验证据在数据收集前就明确指定效应方向时，使用单尾检验。为了追求显著性而在看到数据后再改用单尾检验属于 p-hacking，是无效的。α=0.05 的单尾检验等价于 α=0.10 的双尾检验。

Q: 显著性水平 α 是什么，应该如何选择？

显著性水平 α 是可接受的第一类错误的最大概率——也就是把真实的原假设错误拒绝掉。传统上通常选择 0.05（5%），但当假阳性代价特别高时（如医学诊断、安全关键系统）会使用 0.01。一些领域现在建议报告精确 p 值，而不是依赖固定阈值，并结合置信区间和效应量来获得更全面的结论。

Q: 什么是第一类错误和第二类错误？

第一类错误（假阳性）是指原假设 H₀ 实际为真，却错误地拒绝了它；其概率为 α。第二类错误（假阴性）是指原假设 H₀ 实际为假，却未能拒绝它；其概率为 β，而统计功效为 1−β。降低 α 会收紧拒绝标准，从而减少第一类错误，但会增加第二类错误。增加样本量是同时降低两类错误最有效的方法。

Q: 我可以把这个计算器用于问卷比例吗？

可以——比例的 Z 检验模式正是为此设计的。输入假设的总体比例 p₀（你的基线值或理论值）、样本量 n，以及观测到的样本比例 p̂（成功数除以 n）。计算器使用标准公式 Z = (p̂ − p₀) / √(p₀(1−p₀)/n)。当 n·p₀ 和 n·(1−p₀) 都大于 5 或 10 时，正态近似是可靠的。

Question 1

Z 检验和 T 检验有什么区别？

Accepted Answer

当已知总体标准差 σ 时使用 Z 检验，这样可以用标准正态分布计算精确的 p 值。当 σ 未知、必须用样本标准差 s 估计时使用 T 检验；此时检验统计量服从自由度为 n−1 的 t 分布，它的尾部比正态更厚，用来反映额外的不确定性。随着样本量增大，t 分布会收敛到正态分布，因此这种区别在小样本时最重要（大致 n < 30）。

Question 2

p 值到底是什么意思？

Accepted Answer

p 值是在原假设为真的前提下，获得一个至少与观测值同样极端的检验统计量的概率。它不是 H₀ 为真的概率，也不是结果纯属偶然的概率。p 值低于 α（通常为 0.05）表示：如果 H₀ 为真，观察到当前数据会很反常，因此拒绝 H₀。p 值高于 α 表示数据与 H₀ 一致，因此不拒绝它——但这并不能证明 H₀ 正确。

Question 3

什么时候该用单尾检验，什么时候该用双尾检验？

Accepted Answer

当两个方向的差异都具有科学意义，且你没有充分理由预期特定方向时，使用双尾检验。当理论或先验证据在数据收集前就明确指定效应方向时，使用单尾检验。为了追求显著性而在看到数据后再改用单尾检验属于 p-hacking，是无效的。α=0.05 的单尾检验等价于 α=0.10 的双尾检验。

Question 4

显著性水平 α 是什么，应该如何选择？

Accepted Answer

显著性水平 α 是可接受的第一类错误的最大概率——也就是把真实的原假设错误拒绝掉。传统上通常选择 0.05（5%），但当假阳性代价特别高时（如医学诊断、安全关键系统）会使用 0.01。一些领域现在建议报告精确 p 值，而不是依赖固定阈值，并结合置信区间和效应量来获得更全面的结论。

Question 5

什么是第一类错误和第二类错误？

Accepted Answer

第一类错误（假阳性）是指原假设 H₀ 实际为真，却错误地拒绝了它；其概率为 α。第二类错误（假阴性）是指原假设 H₀ 实际为假，却未能拒绝它；其概率为 β，而统计功效为 1−β。降低 α 会收紧拒绝标准，从而减少第一类错误，但会增加第二类错误。增加样本量是同时降低两类错误最有效的方法。

Question 6

我可以把这个计算器用于问卷比例吗？

Accepted Answer

可以——比例的 Z 检验模式正是为此设计的。输入假设的总体比例 p₀（你的基线值或理论值）、样本量 n，以及观测到的样本比例 p̂（成功数除以 n）。计算器使用标准公式 Z = (p̂ − p₀) / √(p₀(1−p₀)/n)。当 n·p₀ 和 n·(1−p₀) 都大于 5 或 10 时，正态近似是可靠的。

场景	结果	解释
质量控制：x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, 双尾 Z 检验	Z=2.357, p=0.0184 → 拒绝 H₀	螺栓平均直径已显著偏离 10 mm 目标；需要调整工艺。
药物试验：x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, 右尾 T 检验	T=3.651, df=29, p=0.0005 → 拒绝 H₀	有强有力的证据表明，该药物平均可使血压降低超过 10 mmHg。
A/B 测试：p̂=0.095, p₀=0.08, n=1000, α=0.05, 右尾 Z 检验（比例）	Z=1.750, p=0.0401 → 拒绝 H₀	新的按钮设计显著提高了点击率，超过了 8% 的基线。
燃油效率：x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, 左尾 Z 检验	Z=−3.162, p=0.0008 → 拒绝 H₀	在 1% 显著性水平下，有证据表明该车型的燃油效率低于宣传的 30 mpg。

假设检验计算器 - Z检验、T检验与P值

关于假设检验计算器

假设检验示例

如何使用假设检验计算器

假设检验常见问题