P值计算器 - Z、t、F和卡方检验

通过 Z、t、F 或卡方等任意检验统计量快速得到 p 值,并支持双尾、右尾或左尾检验,立即判断是否显著。

选择统计检验类型和尾部方向,输入检验统计量与自由度,即可获得精确的 p 值和显著性结论。

P值计算器 - Z、t、F和卡方检验
通过 Z、t、F 或卡方等任意检验统计量快速得到 p 值,并支持双尾、右尾或左尾检验,立即判断是否显著。

关于 P 值计算器

p 值是在原假设为真的前提下,得到当前观测到的检验统计量或更极端结果的概率。它几乎是所有经典统计检验的核心输出,也是判断是否拒绝原假设的主要依据。p 值越小,说明在原假设成立时观察到这些数据越不可能,这为备择假设提供了证据。 分析通常从原假设 H₀(一般表示无效应、无差异或无关联)和备择假设 H₁ 开始。接着收集数据,计算检验统计量(Z、t、F 或 χ²),再根据 H₀ 下该统计量的概率分布求出 p 值。如果 p 值小于或等于你预先设定的显著性水平 α(最常见的是 0.05),就拒绝 H₀,并将结果判定为统计显著。 不同的检验统计量对应不同的概率分布。Z 统计量服从标准正态分布,适用于已知总体标准差或样本量很大的情况。t 统计量服从具有特定自由度的 Student t 分布(单样本检验时 df = n − 1),用于总体标准差未知且样本量较小到中等的情形。F 统计量服从带有分子和分母自由度的 F 分布,是方差分析和方差齐性 F 检验的基础。卡方统计量服从自由度为 df 的卡方分布,用于列联表独立性检验和拟合优度检验。 尾部类型决定用分布的哪个区域来计算 p 值。备择假设为非方向性(H₁: μ ≠ μ₀)时应使用双尾检验,p 值会把两端极端区域的概率相加。备择假设指定正向差异(H₁: μ > μ₀)时使用右尾检验;指定负向差异(H₁: μ < μ₀)时使用左尾检验。对于 F 检验和卡方检验,由于在实践中天然是单侧的(检验统计量不能为负),标准报告值通常是右尾 p 值。 一个关键且常见的误解是:p 值等于 H₀ 为真的概率。事实上并不是。p 值是条件概率:P(在 H₀ 为真时得到如此极端的数据)。它并不说明 H₀ 或 H₁ 为真的概率;若要回答这个问题,需要带先验概率的贝叶斯推断。另一个误解是 p < 0.05 就意味着效应很大或具有实际重要性。统计显著性取决于样本量——只要样本足够大,即使极其微小、几乎没有意义的效应也可能得到 p < 0.05。务必在 p 值之外同时报告效应量。 显著性水平 α 应在查看数据之前确定,并应反映可接受的假阳性(第一类错误)风险。不同领域的常用标准不同:在大多数生物医学和社会科学研究中,α = 0.05 是标准;当假阳性代价很高时,α = 0.01 更常见;在全基因组关联研究中,会使用 α = 5 × 10⁻⁸ 来应对同时进行的大量检验。本计算器支持 0.01、0.05 和 0.10 这几种 α 值。

示例

四个示例分别覆盖所有支持的检验类型,展示输入、p 值和显著性结论。

检验配置P值在 α = 0.05 下的结论
Z检验,双尾,Z = 2.5,α = 0.05p = 0.0124p < 0.05 → 显著。在 H₀ 下 |Z| ≥ 2.5 的概率约为 1.24%。
T检验,右尾,t = 2.1,df = 15,α = 0.05p = 0.0267p < 0.05 → 显著。df = 15、t = 2.1 的单尾 t 检验得到 p ≈ 0.027。
卡方检验,右尾,χ² = 18.3,df = 10,α = 0.01p = 0.0499p > 0.01 → 在 α = 0.01 下不显著。同一结果在 α = 0.05 下显著。
F检验,右尾,F = 3.8,df1 = 2,df2 = 27,α = 0.05p = 0.0347p < 0.05 → 显著。一个具有 2 和 27 个自由度的方差分析 F 比为 3.8。

如何使用 P 值计算器

  1. 选择与你的检验统计量计算方式相匹配的统计检验类型(Z 检验、T 检验、F 检验或卡方检验)。
  2. 选择尾部类型:若 H₁: ≠ 选择双尾;若 H₁: > 选择右尾;若 H₁: < 选择左尾。
  3. 在“检验统计量”字段中输入你的统计量。对于 T 检验、F 检验和卡方检验,还需要输入自由度(F 检验需输入两个值)。
  4. 设置显著性水平 α,然后点击“计算”即可获得 p 值和显著性结论。
  5. 如果 p ≤ α,则拒绝 H₀,并将结果报告为统计显著;如果 p > α,则未能拒绝 H₀。请务必同时补充效应量。

常见问题

p 值到底衡量什么?
p 值衡量的是:在原假设为真的前提下,观察到与当前计算结果一样极端或更极端的检验统计量的概率。它量化的是你的数据在 H₀ 下有多“反常”。它并不表示 H₀ 为真的概率、效应大小,也不表示你犯错的概率。
为什么 α = 0.05 是惯例阈值?
0.05 这一阈值是 Ronald Fisher 在 20 世纪 20 年代推广开的便捷惯例,并非普适真理。它意味着你接受 5% 的假阳性风险(把真的 H₀ 拒绝掉)。不同领域会采用不同阈值:粒子物理通常要求 p < 5×10⁻⁷,基因组学一般使用 p < 5×10⁻⁸,临床试验有时采用 α = 0.01。合适的阈值取决于你所在领域中假阳性和假阴性的代价。
单尾检验和双尾检验有什么区别?
双尾检验会检查任一方向上的差异,并将 α 平均分到两个尾部。单尾检验把全部 α 集中在一个方向上,因此在该方向上检出效应的能力更强,但只有在看到数据之前就已经明确效应方向时才有效。为了“补救”临界的双尾结果而改用单尾检验,就是 p-hacking。
自由度是如何确定的?
自由度(df)反映数据中独立信息的数量。单样本 t 检验中,df = n − 1。独立样本 t 检验中,df = n₁ + n₂ − 2。r × c 列联表中的卡方独立性检验,df = (r − 1)(c − 1)。单因素方差分析的 F 检验中,分子自由度 = k − 1(组数减 1),分母自由度 = N − k(总观测数减组数)。
什么是 p-hacking,为什么有害?
p-hacking 是反复进行多次检验、分组或模型设定,直到出现 p < 0.05 的结果为止,然后只报告这个结果的做法。它会把真实的一类错误率大幅抬高到超过 α,制造出难以重复的假阳性。要避免它,应该预先注册分析方案、对多重比较进行校正(例如 Bonferroni 校正),并报告所有执行过的检验。
非常小的 p 值会不会意味着结果并不重要?
会。只要样本足够大,即使是极小的效应(比如某药物只把血压降低 0.1 mmHg)也可能得到 p < 0.001。统计显著性和实际显著性不是一回事。应始终和 p 值一起计算并报告效应量(Cohen's d、比值比、R² 等),让读者判断该效应在实践中是否足够重要。