Cohen's d效应量计算器

快速计算 Cohen's d,量化两组均值的标准化差异——立即得到合并标准差、效应量和解释标签。

输入每组的均值、标准差和样本量,然后点击“计算”即可查看 Cohen's d 及其效应量解释。

Cohen's d效应量计算器
快速计算 Cohen's d,量化两组均值的标准化差异——立即得到合并标准差、效应量和解释标签。

第 1 组数据

第 2 组数据

关于 Cohen's d 计算器

Cohen's d 是比较两个独立组均值时最常用的效应量指标。它由统计学家 Jacob Cohen 在 1969 年具有里程碑意义的著作《Statistical Power Analysis for the Behavioral Sciences》中提出,用合并标准差来表达两个均值之间的差异。这个结果是一个无量纲数,无论测量的是考试分数、反应时间、血压还是每位用户收入,都可以放在同一尺度上比较。 公式很简单:d = (M₁ − M₂) / s_pooled,其中 s_pooled 是两组样本方差加权平均后的平方根。这个合并标准差考虑了两组样本量可能不同的事实。d 的正负号表示方向:正值说明第 1 组均值更高,负值说明第 2 组更高。 Jacob Cohen 提出的经验阈值后来成为社会科学和生物医学领域的通用标准。绝对值小于 0.2 的 d 通常被视为可忽略——两组几乎没有差异,数据里很难看出实际区别。0.2 到 0.5 之间属于小效应,但仍然真实存在;大致相当于比较 15 岁和 16 岁男孩身高时看到的重叠程度。0.5 到 0.8 之间属于中等效应,类似于 Cohen 原始分析中文员与半熟练工人平均智商差异的量级。大于 0.8 则属于大效应,通常对应肉眼就能观察到的差异,例如 13 岁和 18 岁男孩身高之间的差距。 这些阈值应当作为经验参考,而不是硬性规则。在某些领域,很小的效应量也可能有极大的实际意义。比如,一种能让百万级人群死亡率哪怕只下降一点点的药物,也会带来巨大的公共卫生收益。相反,一个设计不佳的问卷即使得到很大的效应量,也未必代表真实世界中有意义的差异。解释 d 时,务必同时结合置信区间、样本量和领域知识。 Cohen's d 与其他效应量指标也密切相关。Hedges' g 使用对合并标准差进行偏差校正的版本,更适合小样本(每组 n < 20)。Glass's Δ 只用对照组的标准差作为分母,当两组预期具有不同方差时尤其有用。对于更复杂的设计——相关、方差分析、回归——对应的效应量分别是 Pearson's r、η²(eta-squared)和 partial η²。 在实践中,Cohen's d 最常出现在功效分析、Meta 分析和研究报告中。在功效分析里,知道预期效应量可以帮助你计算在给定检验效能(power)下需要的样本量。在 Meta 分析中,来自多项研究的 d 值可以加权平均,得到真实效应的合并估计。在临床研究中,很多期刊要求在 p 值之外同时报告 d,因为结果即使统计显著(p < 0.05),在样本很大时效应量也可能非常小。

Cohen's d 示例

来自教育、医学、心理学和营销的四个场景,展示如何解读效应量。

各组(M, SD, n)Cohen's d解读
G1: M=85, SD=10, n=30 vs G2: M=80, SD=9, n=30d ≈ 0.52中等效应。新教学方法带来的测试分数明显高于对照组。
G1: M=120, SD=15, n=50 vs G2: M=130, SD=16, n=50d ≈ −0.65中等效应(负向)。药物组的血压低于安慰剂组——这是有利的临床结果。
G1: M=450, SD=50, n=25 vs G2: M=500, SD=55, n=25d ≈ −0.95大效应。与不摄入咖啡因的组相比,咖啡因显著缩短了反应时间。
G1: M=75.50, SD=20, n=100 vs G2: M=70.25, SD=18, n=100d ≈ 0.28小效应。版式 A 让平均购买金额略有提升——统计上可检出,但实际影响有限。

如何使用 Cohen's d 计算器

  1. 在左侧面板输入第 1 组的均值 (M)、标准差 (s) 和样本量 (n)。
  2. 在右侧面板输入第 2 组的同样三个数值。样本量至少为 2。
  3. 点击“计算”。计算器会显示合并标准差、Cohen's d 以及解释标签(可忽略 / 小 / 中等 / 大)。
  4. 使用示例按钮可载入教育、医学研究和心理学中的预设场景。
  5. 点击“重置”可清空所有字段并开始新的计算。

Cohen's d 常见问题

什么样的 Cohen's d 算好?
Cohen 的常用阈值是 d = 0.2(小)、0.5(中等)和 0.8(大)。但“好不好”取决于具体情境。在认知心理学中,d = 0.3 的效应常常就很有意义;在医学中,哪怕是很小的 d,如果来自救命干预,也可能极其重要。解释 d 时,应结合该领域常见的效应量以及研究结果的实际后果。
什么是合并标准差?
合并标准差把两组的方差合并为一个组内离散程度的估计,并按各组自由度(n − 1)加权。它是 Cohen's d 公式中的分母。使用合并标准差而不是只用某一组的标准差,可以避免在两组样本量不同或方差略有差异时扭曲效应量。
什么时候该用 Hedges' g,而不是 Cohen's d?
Hedges' g 会对 Cohen's d 做小样本偏差校正。对于每组 n > 20 的情况,这个差异通常可以忽略,但在更小样本中可能很重要。如果任一组少于 20 个观测值,通常建议报告 Hedges' g。校正因子大约是 (1 − 3 / (4(n₁+n₂) − 9)),你可以将其乘到本计算器得到的 Cohen's d 上。
Cohen's d 是否假设方差相等?
标准的合并标准差公式隐含假设两总体方差大致相等(方差齐性)。如果方差差异很大,可以考虑使用 Glass's Δ,它只用对照组的标准差作为分母;或者为每个比较分别报告效应量。Levene 检验或对两个标准差做简单的目视比较,都可以帮助你判断这一假设是否合理。
Cohen's d 可以为负吗?
可以。负的 d 只是表示第 2 组均值高于第 1 组。符号反映的是差异方向,不是大小。在很多研究设计中,符号其实是人为约定的——取决于你如何定义第 1 组。解释效应量时,d 的绝对值才是关键,而符号告诉你哪一组得分更高。
效应量和统计显著性有什么关系?
统计显著性(p 值)告诉你某个效应是否不太可能由随机因素造成。效应量(Cohen's d)告诉你这个效应有多大。样本极大时,即使效应非常小,也可能得到高度显著的结果;反过来,样本很小时,大效应也可能达不到显著性。同时报告 p 值和 Cohen's d,才能完整呈现结果的强度和可靠性。