Wilcoxon符號等級檢定計算器(配對樣本)
使用非參數Wilcoxon符號等級檢定比較兩個相關樣本或重複量測。無需常態性假設,即可得到W統計量、Z分數與p值。
請輸入成對的前後量測值,以逗號分隔。兩個樣本必須具有相同數量的數值。
Wilcoxon符號等級檢定計算器(配對樣本)
使用非參數Wilcoxon符號等級檢定比較兩個相關樣本或重複量測。無需常態性假設,即可得到W統計量、Z分數與p值。
關於Wilcoxon符號等級檢定
Wilcoxon符號等級檢定是一種非參數統計假設檢定,用來比較兩個相關樣本或同一組對象的重複量測。它是配對 t 檢定的非參數版本,適用於無法合理假設各對差值服從常態分布的情況。
此檢定由 Frank Wilcoxon 於 1945 年提出,在臨床試驗與行為科學中特別有用,因為同一受試者常會在介入前後被量測。這個檢定不是直接使用原始數值,而是先將配對觀測值的絕對差排序,再分別加總正差與負差對應的秩。
其程序如下。對每一對資料,先計算差值 d =(後 − 前)。差值為 0 的配對會被排除。將絕對差由小到大排序,若有同分則取平均秩。正差的秩和記為 W⁺,負差的秩和記為 W⁻。檢定統計量 W 取 W⁺ 與 W⁻ 中較小者。
對於較大的樣本(通常 n ≥ 10),W 的分布可用常態分布近似。Z 分數會根據虛無假設下 W 的平均數與標準差計算。其平均數為 n(n+1)/4,標準差為 √[n(n+1)(2n+1)/24],其中 n 為非零差值的個數。
虛無假設表示配對觀測值的中位數差為 0——處置沒有影響。對立假設可以是雙尾(中位數差不為 0),或單尾(差值為正或為負)。這個計算器回報雙尾 p 值,這是最保守的選擇。
當 p 值低於 0.05 時,通常可視為配對量測之間存在顯著差異。在血壓研究中,這可能表示某種藥物顯著降低了收縮壓;在心理學研究中,則可能代表某個療程顯著降低了焦慮分數。
這個檢定要求觀測值必須成對對應——樣本1中的每個觀測值都必須對應樣本2中的一個特定觀測值(同一受試者在不同時間,或經配對的受試者)。各配對之間必須彼此獨立,且差值應來自對稱分布,但不一定是常態分布。
與配對 t 檢定相比,Wilcoxon符號等級檢定對離群值與非常態分布更具穩健性,但在常態性假設成立時,檢定力會稍微低一些。對小樣本、序位結果或存在極端值的資料,它通常是更推薦的選擇。
實際範例
透過這些範例了解計算器如何處理不同的配對資料集。
| 輸入 | 輸出 | 說明 |
|---|---|---|
| 前: 140,135,150,160,130,145,155,138,148,152 — 後: 132,130,142,151,125,137,145,130,140,148 | W=0, Z≈−2.80, p≈0.005 | 血壓藥物——所有差值皆為負,代表明顯下降。 |
| 前: 8,7,6,9,8,7,8,9 — 後: 6,5,5,7,6,6,7,7 | W=0, Z≈−2.52, p≈0.012 | 治療後的焦慮分數——在 α = 0.05 水準下顯著改善。 |
| 前: 75,80,82,79,88,90,76,85,89,92,78,84 — 後: 80,85,85,83,90,94,81,88,92,95,81,89 | W=0, Z≈+3.06, p≈0.002 | 新教學方法前後的學生分數——提升顯著。 |
如何使用計算器
- 在樣本1欄位輸入治療前(或基準值)的量測資料,以逗號分隔。
- 在樣本2欄位輸入對應的治療後量測資料。兩個樣本必須具有完全相同的數值數量。
- 按下計算,求出差值、排序,並產生 W 統計量、Z 分數與 p 值。
- p 值低於 0.05(以紅色顯示)表示兩種條件之間存在統計顯著差異。
- 使用範例按鈕可快速載入真實資料集,並以已知結果驗證計算器。
常見問題
Wilcoxon符號等級檢定和配對 t 檢定有什麼差別?
兩者都用來比較配對量測,但配對 t 檢定假設差值服從常態分布。Wilcoxon符號等級檢定不作此假設,因此更適合小樣本、序位資料或含有明顯離群值的資料。在常態性成立時,t 檢定的檢定力略高。
差值為 0 的配對會怎麼處理?
前後數值完全相同(差值 = 0)的配對會從分析中排除。用於計算檢定統計量與 p 值的有效樣本量 n 只會計入非零差值。這是大多數統計教科書建議的標準程序。
如何處理並列差值?
當多個配對產生相同的絕對差值時,會獲得原本應占的秩的平均值。例如,3 個配對若 |d| = 5,並且原本應占第 4、5、6 名,則每個都記為 5 秩。這個中秩修正可維持 Z 近似的有效性。
為什麼這個計算器只回報雙尾 p 值?
雙尾檢定最保守,也是大多數探索性研究的預設選擇。它檢定中位數差是否在任一方向偏離 0。對於單向假設(例如治療一定改善結果),可以把回報的雙尾 p 值減半,得到單尾 p 值。
樣本要多大,Z 近似才算有效?
通常在 n ≥ 10(剔除零差值後)時,W 統計量的常態近似就相當可靠。樣本更小時,應參考 Wilcoxon 表中的精確臨界值。此計算器採用常態近似,因此當 n < 10 時請謹慎解讀。