Wilcoxon秩和检验计算器(Mann-Whitney U)
使用非参数Wilcoxon秩和检验(Mann-Whitney U)比较两个独立样本。无需正态性假设,即可获得U统计量、Z分数和p值。
请输入两个独立样本,以逗号分隔数值,选择显著性水平和检验类型,然后点击“计算”。
Wilcoxon秩和检验计算器(Mann-Whitney U)
使用非参数Wilcoxon秩和检验(Mann-Whitney U)比较两个独立样本。无需正态性假设,即可获得U统计量、Z分数和p值。
关于Wilcoxon秩和检验
Wilcoxon秩和检验,也称为Mann-Whitney U检验,是一种非参数统计假设检验,用于判断两个独立样本是否来自分布相同的总体。与独立样本t检验不同,它不要求数据服从正态分布,因此非常适合序数数据、偏态分布或无法验证正态性的小样本。
该检验最初由Frank Wilcoxon于1945年提出,随后由Mann和Whitney于1947年扩展为如今最常用的形式。Mann-Whitney U统计量统计的是,一个组中的观测值大于另一组观测值的次数。相对于另一组而言,某一样本的U值较大,说明两个总体的中位数或中心趋势可能不同。
计算过程首先将两组样本合并,并将所有观测值从小到大排序并赋秩。若出现并列值,则取它们本应占据名次的平均秩。然后分别计算每组的秩和,再由秩和推导U统计量。对于较大的样本,U的分布可以很好地用正态分布近似,此时使用Z分数求得p值。
原假设认为两个总体完全相同——它们的分布不存在系统性差异。备择假设可以是双尾(存在任何差异)、右尾(第1组总体通常更大)或左尾(第1组总体通常更小)。尾部类型应根据研究问题在收集数据之前确定,以避免I类错误膨胀。
p值需要结合所选显著性水平α(通常为0.05)来解释。若p < α,则拒绝原假设,认为两组之间存在统计显著差异。若p ≥ α,则证据不足以得出存在差异的结论。
该检验在医学中常用于比较治疗组与对照组的患者结局,尤其适用于结局变量不服从正态分布的情况。在心理学中,它可以比较不同人群之间的Likert量表调查回答。在生态学中,它可用于检验两个地点的测量值是否存在显著差异。在教育领域,它可比较不同教学方法下学生的测试成绩。
为获得最佳结果,请确保每个样本内部的观测值彼此独立,并且两个样本之间也相互独立。当底层分布形状相似时,该检验对检测位置差异(中位数移动)最为有效。
实际示例
查看这些常见场景,了解Wilcoxon秩和检验的应用方式。
| 输入 | 输出 | 说明 |
|---|---|---|
| S1: 7, 8, 8, 9, 10, 12 — S2: 9, 11, 12, 13, 14, 15 — α=0.05, two-tailed | U=4, Z≈−2.24, p≈0.025 | 药物恢复时间——差异显著;药物组恢复更快。 |
| S1: 85, 90, 78, 92, 88, 76 — S2: 72, 80, 81, 75, 68, 79 — α=0.05, right-tailed | U=6, Z≈1.92, p≈0.027 | 教学方法成绩——新方法取得了显著更高的分数。 |
| S1: 120, 125, 130, 110, 115, 122, 128 — S2: 130, 135, 140, 128, 132, 138, 142 — α=0.01, left-tailed | U=2, Z≈−2.88, p≈0.002 | 肥料作物产量——肥料B的产量显著更高。 |
如何使用计算器
- 在第一个输入框中输入样本1的数值,用逗号或空格分隔。
- 在第二个输入框中输入独立的样本2数值。
- 点击相应按钮选择显著性水平α(0.01、0.05或0.10)。
- 选择尾部类型:双尾表示任意差异;若预计样本1更大,选择右尾;若预计样本1更小,选择左尾。
- 点击“计算”查看U统计量、Z分数、p值以及统计决策。
常见问题
Wilcoxon秩和检验和Mann-Whitney U检验有什么区别?
它们是同一个检验,只是名称和表述不同。Wilcoxon把检验统计量定义为秩和,而Mann和Whitney把U定义为有利于某一组的成对比较次数。两者线性相关,并产生相同的p值。
什么时候应该使用Wilcoxon秩和检验,而不是t检验?
当数据是序数型、正态性假设被破坏(尤其在小样本中),或存在离群值时,使用Wilcoxon检验。对于来自近似正态分布的大样本,t检验和Wilcoxon检验结果相近,但t检验的统计功效略高。
双尾检验和单尾检验是什么意思?
双尾检验检查两组之间是否存在任意方向的差异。右尾检验检查样本1是否在随机意义上大于样本2,左尾检验则检查相反情况。尾部类型应始终在收集数据之前根据假设决定。
计算器如何处理并列值?
合并数据集中出现并列的值会获得它们本应占据名次的平均秩。例如,如果两个观测值并列第3和第4名,则二者都获得3.5的秩。这个中秩修正可确保秩和有效,并使Z近似保持准确。
需要多大的样本量才能得到可靠的Z分数近似?
一般认为,当n₁和n₂都至少为8–10时,正态近似就足够可靠。对于非常小的样本(n < 8),应使用U的精确分布。此计算器使用正态近似,因此在样本很小时应谨慎解读p值。
这个检验可以用于非数值或序数数据吗?
可以。只要你能够为观测值赋予有意义的秩——例如Likert量表回答(1=非常不同意,5=非常同意)——Wilcoxon秩和检验就适用。你只需要能够对观测值排序,不需要精确的数值间距。