显著结果（p ≤ α）意味着：如果原假设为真，观察到当前这样大的均值差不太可能只是偶然发生的。但这并不能证明原假设为假，也不能保证效应很大或具有临床重要性。应始终报告均值差 d̄、其置信区间以及效应量（如 Cohen's d = d̄ / s_d），这样读者才能判断结果的实际意义。

Question 1

什么时候该使用配对 t 检验而不是独立样本 t 检验？

Accepted Answer

当一组中的每个观测值都天然地与另一组中的恰好一个观测值配对或关联时，就应使用配对 t 检验——例如同一个人在治疗前后被测量，或一对兄弟姐妹分别接受两种不同饮食。如果两组彼此独立（不同且无关联的个体，也没有配对关系），则应使用独立样本 t 检验。

Question 2

假设均值差 μ₀ 是什么？

Accepted Answer

μ₀ 是你在原假设下认为真实均值差等于的值。对大多数应用——检验某项干预是否有任何效果——μ₀ = 0。对于更具体的假设，例如检验某种药物是否至少降低 10 mmHg 血压，则应设定 μ₀ = 10。

Question 3

如果我的差值不服从正态分布怎么办？

Accepted Answer

配对 t 检验假设差值近似服从正态分布。当 n ≥ 30 对时，中心极限定理会使这一假设不那么关键。对于样本较小且差值明显不正态的情况（可查看直方图），Wilcoxon 符号秩检验是稳健的非参数替代方法，因为它不要求正态性。

Question 4

如何解读置信区间？

Accepted Answer

95% 置信区间给出了真实均值差的合理取值范围。如果区间不包含 0，则结果在 α = 0.05 水平上显著。这个区间比单独的 p 值更有信息，因为它同时显示了效应的大小和方向。例如，(2.3, 9.8) 这样的置信区间说明结果显著，而且效应从小到中等偏大不等。

Question 5

我可以做单尾配对 t 检验吗？

Accepted Answer

可以。如果你预测第 1 组 > 第 2 组（正均值差），请选择“右尾检验”；如果你预测第 1 组 < 第 2 组（负均值差），请选择“左尾检验”。单尾检验更有统计功效，但只有在收集数据之前就明确指定了效应方向时才有效。仅仅因为双尾结果接近显著就改用单尾检验，属于 p-hacking。

Question 6

显著结果到底意味着什么？

Accepted Answer

显著结果（p ≤ α）意味着：如果原假设为真，观察到当前这样大的均值差不太可能只是偶然发生的。但这并不能证明原假设为假，也不能保证效应很大或具有临床重要性。应始终报告均值差 d̄、其置信区间以及效应量（如 Cohen's d = d̄ / s_d），这样读者才能判断结果的实际意义。

研究设计	t 统计量 / p 值	结论
治疗前血压：140,135,150,155,130,142,138,147,152,133 / 治疗后：132,130,145,148,125,135,130,140,145,128（双尾，α=0.05，n=10）	t ≈ 16.00, df = 9, p < 0.001	差异极显著。该药物使 10 名患者的收缩压平均降低了 6.4 mmHg。
测验成绩前：75,80,82,70,88,65,90,78 / 后：85,85,88,78,92,75,95,85（双尾，α=0.05，n=8）	t ≈ −8.47, df = 7, p < 0.001	显著提升。参加辅导项目后，学生的平均分提高了 6.9 分。
每周销售额前：500,550,480,600,520,530 / 后：540,580,500,650,550,560（双尾，α=0.05，n=6）	t ≈ −7.91, df = 5, p < 0.001	广告活动显著提升了销售额，每家门店每周平均增加 33.3 个单位。

配对样本 t 检验计算器 - 前后数据

关于配对样本 t 检验计算器