Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)

使用非參數 Wilcoxon 秩和檢定(Mann-Whitney U)比較兩組獨立樣本。無需常態性假設,即可取得 U 統計量、Z 分數與 p 值。

請輸入兩組獨立樣本(以逗號分隔的數字),選擇顯著性水準與檢定方向,然後點擊計算。

Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)
使用非參數 Wilcoxon 秩和檢定(Mann-Whitney U)比較兩組獨立樣本。無需常態性假設,即可取得 U 統計量、Z 分數與 p 值。

關於 Wilcoxon 秩和檢定

Wilcoxon秩和檢定又稱 Mann-Whitney U 檢定,是一種非參數統計假設檢定,用來判斷兩組獨立樣本是否來自具有相同分布的母體。與獨立樣本 t 檢定不同,它不要求資料服從常態分布,因此非常適合有序資料、偏態分布或無法驗證常態性的小樣本。 此檢定最初由 Frank Wilcoxon 於 1945 年提出,之後由 Mann 與 Whitney 於 1947 年擴展為今日最常用的形式。Mann-Whitney U 統計量衡量的是一組數值大於另一組數值的次數。相較於另一組,某個樣本的 U 值越大,就越能說明兩個母體的中位數或中心趨勢存在差異。 計算流程會先將兩組樣本合併,並將所有觀測值由小到大排序。若有並列值,則會取其原本應佔秩位的平均值。接著分別計算各組的秩和,再由秩和推導出 U 統計量。對較大的樣本,U 的分布可良好地以常態分布近似,因此會使用 Z 分數求得 p 值。 虛無假設表示兩個母體完全相同——其分布不存在系統性差異。對立假設可以是雙尾(任何差異)、右尾(第1組傾向較大)或左尾(第1組傾向較小)。應依研究問題在蒐集資料前決定合適的尾部,以避免第一類錯誤膨脹。 p 值需配合所選顯著性水準 α 來解讀(通常為 0.05)。若 p < α,則拒絕虛無假設,並認為兩組之間存在統計顯著差異;若 p ≥ α,則證據不足,無法認定存在差異。 此檢定廣泛應用於醫學中,用來比較治療組與對照組的病患結果,特別是在結果未必服從常態分布時。在心理學中,可用來比較不同人口群體的李克特量表問卷回應。在生態學中,可用來檢驗兩個地點的測量值是否有顯著差異。在教育領域,則可比較不同教學方法下學生的成績。 為了得到最佳結果,請確認每個樣本內的觀測彼此獨立,且兩組樣本之間也彼此獨立。當底層分布形狀相近時,此檢定對位置差異(中位數平移)的檢出力最強。

實用範例

瀏覽這些常見情境,了解 Wilcoxon 秩和檢定的應用方式。

輸入輸出說明
S1: 7, 8, 8, 9, 10, 12 — S2: 9, 11, 12, 13, 14, 15 — α=0.05, two-tailedU=4, Z≈−2.24, p≈0.025藥物恢復時間——差異顯著;藥物組恢復更快。
S1: 85, 90, 78, 92, 88, 76 — S2: 72, 80, 81, 75, 68, 79 — α=0.05, right-tailedU=6, Z≈1.92, p≈0.027教學方法分數——新方法顯著提高了分數。
S1: 120, 125, 130, 110, 115, 122, 128 — S2: 130, 135, 140, 128, 132, 138, 142 — α=0.01, left-tailedU=2, Z≈−2.88, p≈0.002肥料作物產量——B肥料的產量顯著更高。

如何使用計算器

  1. 在第一個輸入框中輸入樣本1的數值,以逗號或空格分隔。
  2. 在第二個輸入框中輸入獨立的樣本2數值。
  3. 點擊對應按鈕選擇顯著性水準 α(0.01、0.05 或 0.10)。
  4. 選擇尾部類型:雙尾表示任何差異;若預期樣本1較大,請選右尾;若預期樣本1較小,請選左尾。
  5. 點擊計算即可查看 U 統計量、Z 分數、p 值與統計結論。

常見問題

Wilcoxon秩和檢定和 Mann-Whitney U 檢定有什麼差別?
它們是同一個檢定,只是名稱與表述不同。Wilcoxon 將檢定統計量定義為秩和,而 Mann 與 Whitney 則將 U 定義為偏向某一組的成對比較次數。這兩個統計量呈線性關係,得到的 p 值完全相同。
什麼時候應該使用 Wilcoxon 秩和檢定而不是 t 檢定?
當資料為有序變數、常態性假設被違反(尤其是小樣本)或存在離群值時,應使用 Wilcoxon 檢定。對於來自近似常態分布的大樣本,t 檢定與 Wilcoxon 檢定的結果通常相近,但 t 檢定的統計力略高。
雙尾檢定與單尾檢定是什麼意思?
雙尾檢定用來檢查兩組之間是否存在任何方向的差異。右尾檢定用來檢查樣本1是否在隨機意義上大於樣本2,左尾檢定則檢查相反情況。尾部類型應在蒐集資料前依據你的假設決定。
計算器如何處理並列值?
合併資料集中的並列值會取其原本應佔秩位的平均值。例如,若兩個觀測並列第3與第4名,兩者都會記為 3.5。這種中秩修正可確保秩和有效,並使 Z 近似保持準確。
需要多大的樣本量才能得到可靠的 Z 分數近似?
通常認為當 n₁ 與 n₂ 都至少為 8–10 時,常態近似就足夠了。對於非常小的樣本(n < 8),應使用 U 的精確分布。本計算器使用常態近似,因此在樣本很小時請謹慎解讀 p 值。
可以將此檢定用於非數值或有序資料嗎?
可以。只要你能為觀測賦予有意義的秩,例如李克特量表回應(1=非常不同意,5=非常同意),Wilcoxon 秩和檢定就很適合。你只需要能夠對觀測排序,不需要精確的數值距離。