Q: 单尾检验和双尾检验有什么区别？

双尾检验会检查任一方向上的差异，并将 α 平均分到两个尾部。单尾检验把全部 α 集中在一个方向上，因此在该方向上检出效应的能力更强，但只有在看到数据之前就已经明确效应方向时才有效。为了“补救”临界的双尾结果而改用单尾检验，就是 p-hacking。

Q: 自由度是如何确定的？

自由度（df）反映数据中独立信息的数量。单样本 t 检验中，df = n − 1。独立样本 t 检验中，df = n₁ + n₂ − 2。r × c 列联表中的卡方独立性检验，df = (r − 1)(c − 1)。单因素方差分析的 F 检验中，分子自由度 = k − 1（组数减 1），分母自由度 = N − k（总观测数减组数）。

Q: 什么是 p-hacking，为什么有害？

p-hacking 是反复进行多次检验、分组或模型设定，直到出现 p < 0.05 的结果为止，然后只报告这个结果的做法。它会把真实的一类错误率大幅抬高到超过 α，制造出难以重复的假阳性。要避免它，应该预先注册分析方案、对多重比较进行校正（例如 Bonferroni 校正），并报告所有执行过的检验。

Q: 非常小的 p 值会不会意味着结果并不重要？

会。只要样本足够大，即使是极小的效应（比如某药物只把血压降低 0.1 mmHg）也可能得到 p < 0.001。统计显著性和实际显著性不是一回事。应始终和 p 值一起计算并报告效应量（Cohen's d、比值比、R² 等），让读者判断该效应在实践中是否足够重要。

Question 1

p 值到底衡量什么？

Accepted Answer

p 值衡量的是：在原假设为真的前提下，观察到与当前计算结果一样极端或更极端的检验统计量的概率。它量化的是你的数据在 H₀ 下有多“反常”。它并不表示 H₀ 为真的概率、效应大小，也不表示你犯错的概率。

Question 2

为什么 α = 0.05 是惯例阈值？

Accepted Answer

0.05 这一阈值是 Ronald Fisher 在 20 世纪 20 年代推广开的便捷惯例，并非普适真理。它意味着你接受 5% 的假阳性风险（把真的 H₀ 拒绝掉）。不同领域会采用不同阈值：粒子物理通常要求 p < 5×10⁻⁷，基因组学一般使用 p < 5×10⁻⁸，临床试验有时采用 α = 0.01。合适的阈值取决于你所在领域中假阳性和假阴性的代价。

Question 3

单尾检验和双尾检验有什么区别？

Accepted Answer

双尾检验会检查任一方向上的差异，并将 α 平均分到两个尾部。单尾检验把全部 α 集中在一个方向上，因此在该方向上检出效应的能力更强，但只有在看到数据之前就已经明确效应方向时才有效。为了“补救”临界的双尾结果而改用单尾检验，就是 p-hacking。

Question 4

自由度是如何确定的？

Accepted Answer

自由度（df）反映数据中独立信息的数量。单样本 t 检验中，df = n − 1。独立样本 t 检验中，df = n₁ + n₂ − 2。r × c 列联表中的卡方独立性检验，df = (r − 1)(c − 1)。单因素方差分析的 F 检验中，分子自由度 = k − 1（组数减 1），分母自由度 = N − k（总观测数减组数）。

Question 5

什么是 p-hacking，为什么有害？

Accepted Answer

p-hacking 是反复进行多次检验、分组或模型设定，直到出现 p < 0.05 的结果为止，然后只报告这个结果的做法。它会把真实的一类错误率大幅抬高到超过 α，制造出难以重复的假阳性。要避免它，应该预先注册分析方案、对多重比较进行校正（例如 Bonferroni 校正），并报告所有执行过的检验。

Question 6

非常小的 p 值会不会意味着结果并不重要？

Accepted Answer

会。只要样本足够大，即使是极小的效应（比如某药物只把血压降低 0.1 mmHg）也可能得到 p < 0.001。统计显著性和实际显著性不是一回事。应始终和 p 值一起计算并报告效应量（Cohen's d、比值比、R² 等），让读者判断该效应在实践中是否足够重要。

检验配置	P值	在 α = 0.05 下的结论
Z检验，双尾，Z = 2.5，α = 0.05	p = 0.0124	p < 0.05 → 显著。在 H₀ 下 \|Z\| ≥ 2.5 的概率约为 1.24%。
T检验，右尾，t = 2.1，df = 15，α = 0.05	p = 0.0267	p < 0.05 → 显著。df = 15、t = 2.1 的单尾 t 检验得到 p ≈ 0.027。
卡方检验，右尾，χ² = 18.3，df = 10，α = 0.01	p = 0.0499	p > 0.01 → 在 α = 0.01 下不显著。同一结果在 α = 0.05 下显著。
F检验，右尾，F = 3.8，df1 = 2，df2 = 27，α = 0.05	p = 0.0347	p < 0.05 → 显著。一个具有 2 和 27 个自由度的方差分析 F 比为 3.8。

P值计算器 - Z、t、F和卡方检验

关于 P 值计算器

示例

如何使用 P 值计算器

常见问题