Wilcoxon秩和檢定計算器(Mann-Whitney U)

使用非參數Wilcoxon秩和檢定(Mann-Whitney U)比較兩個獨立樣本。無需常態性假設,即可取得U統計量、Z分數與p值。

請輸入兩個獨立樣本,以逗號分隔數值,選擇顯著性水準與尾端類型,然後按一下「計算」。

Wilcoxon秩和檢定計算器(Mann-Whitney U)
使用非參數Wilcoxon秩和檢定(Mann-Whitney U)比較兩個獨立樣本。無需常態性假設,即可取得U統計量、Z分數與p值。

關於Wilcoxon秩和檢定

Wilcoxon秩和檢定,也稱為Mann-Whitney U檢定,是一種非參數統計假設檢定,用來判斷兩個獨立樣本是否來自分布相同的母體。與獨立樣本 t 檢定不同,它不假設資料服從常態分布,因此非常適合序位資料、偏態分布,或無法確認常態性的小樣本。 此檢定最初由 Frank Wilcoxon 於 1945 年提出,之後由 Mann 與 Whitney 於 1947 年擴充為今日最常使用的形式。Mann-Whitney U 統計量計算的是,一組中的觀測值大於另一組觀測值的次數。相對於另一組而言,某一樣本的 U 值較大,表示兩個母體的中位數或中心趨勢可能不同。 計算流程會先將兩組樣本合併,並把所有觀測值由小到大排序與編秩。若有相同值,則取其原本應佔名次的平均秩。接著分別計算每組的秩和,再由秩和推導出 U 統計量。對於較大的樣本,U 的分布可用常態分布良好近似,此時會使用 Z 分數求得 p 值。 虛無假設表示兩個母體完全相同——其分布沒有系統性差異。對立假設可以是雙尾(任何差異)、右尾(第1組通常較大)或左尾(第1組通常較小)。尾端類型應根據研究問題在蒐集資料前決定,以避免第一類錯誤膨脹。 p 值需與所選顯著性水準 α(通常為 0.05)一起解讀。若 p < α,則拒絕虛無假設,並認定兩組之間存在統計顯著差異。若 p ≥ α,則證據不足以推論有差異。 此檢定廣泛用於醫學上比較治療組與對照組的病患結果,尤其適合結果變數不呈常態分布的情況。在心理學中,可比較不同人口群的李克特量表問卷回覆。在生態學中,可檢驗兩個地點的測量值是否顯著不同。在教育領域中,可比較不同教學方法下學生的測驗成績。 為了獲得最佳結果,請確認每個樣本內的觀測值彼此獨立,且兩個樣本彼此也獨立。當底層分布形狀相近時,此檢定對偵測位置差異(中位數位移)最為有效。

實用範例

查看這些常見情境,了解 Wilcoxon 秩和檢定的應用方式。

輸入輸出註記
S1: 7, 8, 8, 9, 10, 12 — S2: 9, 11, 12, 13, 14, 15 — α=0.05, two-tailedU=4, Z≈−2.24, p≈0.025藥物復原時間——差異顯著;藥物組復原較快。
S1: 85, 90, 78, 92, 88, 76 — S2: 72, 80, 81, 75, 68, 79 — α=0.05, right-tailedU=6, Z≈1.92, p≈0.027教學方法成績——新方法產生了顯著較高的分數。
S1: 120, 125, 130, 110, 115, 122, 128 — S2: 130, 135, 140, 128, 132, 138, 142 — α=0.01, left-tailedU=2, Z≈−2.88, p≈0.002肥料作物產量——肥料B的產量顯著較高。

如何使用計算器

  1. 在第一個欄位輸入樣本1的數值,以逗號或空格分隔。
  2. 在第二個欄位輸入獨立的樣本2數值。
  3. 點擊對應按鈕選擇顯著性水準 α(0.01、0.05 或 0.10)。
  4. 選擇尾端類型:雙尾表示任何差異;若預期樣本1較大,選擇右尾;若預期樣本1較小,選擇左尾。
  5. 按一下「計算」即可查看 U 統計量、Z 分數、p 值與統計決策。

常見問題

Wilcoxon 秩和檢定和 Mann-Whitney U 檢定有什麼差別?
它們其實是同一個檢定,只是名稱與表述不同。Wilcoxon 將檢定統計量定義為秩和,而 Mann 與 Whitney 將 U 定義為偏向某一組的成對比較次數。兩者線性相關,且會得到相同的 p 值。
什麼時候應該用 Wilcoxon 秩和檢定,而不是 t 檢定?
當資料是序位型、常態性假設被違反(尤其在小樣本中),或存在離群值時,應使用 Wilcoxon 檢定。對於來自近似常態分布的大樣本,t 檢定與 Wilcoxon 檢定結果相近,但 t 檢定的統計力略高。
雙尾與單尾檢定是什麼意思?
雙尾檢定會檢查兩組之間是否存在任何方向的差異。右尾檢定會檢查樣本1是否在隨機意義上大於樣本2,左尾檢定則檢查相反情況。尾端類型應始終在蒐集資料前依據假設決定。
計算器如何處理並列值?
合併資料集中出現並列的值會取得其原本應佔名次的平均秩。例如,如果兩個觀測值並列第 3 與第 4 名,兩者都會獲得 3.5 的秩。這個中秩修正可確保秩和有效,並讓 Z 近似保持準確。
需要多大的樣本數才能得到可靠的 Z 分數近似?
一般認為,當 n₁ 和 n₂ 都至少為 8–10 時,常態近似就足夠可靠。對於非常小的樣本(n < 8),應使用 U 的精確分布。此計算器使用常態近似,因此在樣本非常小時應審慎解讀 p 值。
這個檢定可以用於非數值或序位資料嗎?
可以。只要你能為觀測值指定有意義的秩——例如李克特量表回覆(1=非常不同意,5=非常同意)——Wilcoxon 秩和檢定就適用。你只需要能排序觀測值,不需要精確的數值距離。