配对样本 t 检验计算器 - 前后数据

执行配对样本 t 检验,比较两组相关数据——前后测量、匹配样本——并得到 t 统计量、p 值和置信区间。

输入两组等长的逗号分隔数据,设置显著性水平和检验类型,即可立即获得完整的配对 t 检验结果。

配对样本 t 检验计算器 - 前后数据
执行配对样本 t 检验,比较两组相关数据——前后测量、匹配样本——并得到 t 统计量、p 值和置信区间。

关于配对样本 t 检验计算器

配对样本 t 检验(也称为依赖样本 t 检验或配对 t 检验)是一种参数统计方法,用于判断两组相关测量之间的平均差是否显著不同于 0(或其他假设值)。之所以称为“配对”,是因为第 1 组中的每个观测值都与第 2 组中的恰好一个观测值对应——两次测量来自同一受试者、匹配的参与者,或同一地点在两个不同时点的测量。 最常见的应用是前后对比研究:研究者在干预前测量某个指标(血压、考试成绩、体重、销售额),然后在干预后再次测量。由于同一批个体被测量了两次,两组并非独立,而是相关的。如果忽略这种相关性并使用独立样本 t 检验,就会出错;因为没有考虑到个体间的自然差异,而这种差异在计算差值时会相互抵消,从而低估比较的精度。 配对 t 检验之所以优雅,在于它把问题化简为单样本问题。对于每一对 i,计算差值 d_i = 第 1 组_i − 第 2 组_i。随后配对 t 检验要问的是:这些差值的均值(d̄)是否显著不同于 0?这样就把双样本问题转化为对差值进行的单样本 t 检验。检验统计量为 t = (d̄ − μ₀) / (s_d / √n),其中 μ₀ 是假设的均值差(通常为 0),s_d 是差值的样本标准差,n 是配对数量。在零假设成立时,该统计量服从自由度 df = n − 1 的 Student t 分布。 这个 t 统计量对应的 p 值告诉你:如果总体真实均值差为 μ₀,观察到像 d̄ 这样大(或更大)的均值差的概率有多高。如果 p 值低于你选择的显著性水平 α,就拒绝原假设,并得出两组配对测量之间存在统计显著均值差的结论。d̄ 的置信区间给出了真实均值差可能落入的范围,通常比单独的 p 值更有信息量。 为了使配对 t 检验有效,差值 d_i 必须近似服从正态分布。这个假设可以通过查看差值的直方图或正态 Q-Q 图来检查。当 n ≥ 30 时,即使单个差值并不完全正态,中心极限定理也会使这一假设更稳健。对于样本较小且差值明显不服从正态的情况,Wilcoxon 符号秩检验是相应的非参数替代方法。 常见应用包括医疗疗效试验(用药前后)、教育研究(前测与后测)、营养与健身研究(基线与随访测量)以及商业分析(广告活动前后的销售额)。在每一种情况下,关键要求都是每一对数值必须来自同一个个体、实体或匹配单位,而不是来自两个独立群体。

计算示例

三个前后对比研究场景,使用贴近现实的数据来展示配对 t 检验的输出。

研究设计t 统计量 / p 值结论
治疗前血压:140,135,150,155,130,142,138,147,152,133 / 治疗后:132,130,145,148,125,135,130,140,145,128(双尾,α=0.05,n=10)t ≈ 16.00, df = 9, p < 0.001差异极显著。该药物使 10 名患者的收缩压平均降低了 6.4 mmHg。
测验成绩前:75,80,82,70,88,65,90,78 / 后:85,85,88,78,92,75,95,85(双尾,α=0.05,n=8)t ≈ −8.47, df = 7, p < 0.001显著提升。参加辅导项目后,学生的平均分提高了 6.9 分。
每周销售额前:500,550,480,600,520,530 / 后:540,580,500,650,550,560(双尾,α=0.05,n=6)t ≈ −7.91, df = 5, p < 0.001广告活动显著提升了销售额,每家门店每周平均增加 33.3 个单位。

如何使用配对样本 t 检验计算器

  1. 在第一个输入框中输入第 1 组数据(例如“前”测值),用逗号分隔每个数字。
  2. 在第二个输入框中输入第 2 组数据(例如“后”测值)。两组必须有相同数量的数值;第 1 组中的第一个数值与第 2 组中的第一个数值配对,依此类推。
  3. 设置显著性水平 α(0.01、0.05 或 0.10)以及假设均值差 μ₀(通常为 0)。选择检验类型(双尾、右尾或左尾)。
  4. 点击“计算”即可查看 t 统计量、自由度、p 值、平均差值、差值标准差以及 95% 置信区间。
  5. 将 p 值与 α 比较。如果 p ≤ α,则拒绝 H₀,并得出存在统计显著均值差的结论;如果 p > α,则未能拒绝 H₀。

常见问题

什么时候该使用配对 t 检验而不是独立样本 t 检验?
当一组中的每个观测值都天然地与另一组中的恰好一个观测值配对或关联时,就应使用配对 t 检验——例如同一个人在治疗前后被测量,或一对兄弟姐妹分别接受两种不同饮食。如果两组彼此独立(不同且无关联的个体,也没有配对关系),则应使用独立样本 t 检验。
假设均值差 μ₀ 是什么?
μ₀ 是你在原假设下认为真实均值差等于的值。对大多数应用——检验某项干预是否有任何效果——μ₀ = 0。对于更具体的假设,例如检验某种药物是否至少降低 10 mmHg 血压,则应设定 μ₀ = 10。
如果我的差值不服从正态分布怎么办?
配对 t 检验假设差值近似服从正态分布。当 n ≥ 30 对时,中心极限定理会使这一假设不那么关键。对于样本较小且差值明显不正态的情况(可查看直方图),Wilcoxon 符号秩检验是稳健的非参数替代方法,因为它不要求正态性。
如何解读置信区间?
95% 置信区间给出了真实均值差的合理取值范围。如果区间不包含 0,则结果在 α = 0.05 水平上显著。这个区间比单独的 p 值更有信息,因为它同时显示了效应的大小和方向。例如,(2.3, 9.8) 这样的置信区间说明结果显著,而且效应从小到中等偏大不等。
我可以做单尾配对 t 检验吗?
可以。如果你预测第 1 组 > 第 2 组(正均值差),请选择“右尾检验”;如果你预测第 1 组 < 第 2 组(负均值差),请选择“左尾检验”。单尾检验更有统计功效,但只有在收集数据之前就明确指定了效应方向时才有效。仅仅因为双尾结果接近显著就改用单尾检验,属于 p-hacking。
显著结果到底意味着什么?
显著结果(p ≤ α)意味着:如果原假设为真,观察到当前这样大的均值差不太可能只是偶然发生的。但这并不能证明原假设为假,也不能保证效应很大或具有临床重要性。应始终报告均值差 d̄、其置信区间以及效应量(如 Cohen's d = d̄ / s_d),这样读者才能判断结果的实际意义。