P值計算器 - Z、t、F和卡方檢定
透過 Z、t、F 或卡方等任一檢定統計量快速取得 p 值,並支援雙尾、右尾或左尾選項,立即判斷顯著性。
選擇統計檢定類型與尾部方向,輸入檢定統計量及自由度,即可取得精確的 p 值與顯著性結論。
P值計算器 - Z、t、F和卡方檢定
透過 Z、t、F 或卡方等任一檢定統計量快速取得 p 值,並支援雙尾、右尾或左尾選項,立即判斷顯著性。
關於 P 值計算器
p 值是在原假設為真的前提下,得到目前觀察到的檢定統計量或更極端結果的機率。它幾乎是所有經典統計檢定的核心輸出,也是判斷是否拒絕原假設的主要依據。p 值越小,表示在原假設成立時觀察到這些資料越不可能,這是支持備擇假設的證據。
分析通常從原假設 H₀(一般表示無效應、無差異或無關聯)與備擇假設 H₁ 開始。接著蒐集資料、計算檢定統計量(Z、t、F 或 χ²),再依據 H₀ 下該統計量的機率分布求出 p 值。如果 p 值小於或等於你預先設定的顯著水準 α(最常見為 0.05),就拒絕 H₀,並將結果判定為統計顯著。
不同的檢定統計量對應不同的機率分布。Z 統計量服從標準常態分布,適用於已知母體標準差或樣本量很大的情況。t 統計量服從具有特定自由度的 Student t 分布(單一樣本檢定時 df = n − 1),用於母體標準差未知且樣本量偏小到中等的情境。F 統計量服從具有分子與分母自由度的 F 分布,是變異數分析與變異數同質性 F 檢定的基礎。卡方統計量服從自由度為 df 的卡方分布,用於列聯表獨立性檢定與適合度檢定。
尾部類型決定要用分布的哪個區域來計算 p 值。當備擇假設為非方向性(H₁: μ ≠ μ₀)時,應使用雙尾檢定,p 值會將兩端極端區域的機率相加。當備擇假設指定正向差異(H₁: μ > μ₀)時使用右尾檢定;當指定負向差異(H₁: μ < μ₀)時使用左尾檢定。對於 F 檢定與卡方檢定,由於在實務上本來就是單側的(檢定統計量不能為負),標準報告值通常是右尾 p 值。
一個關鍵且常見的誤解是:p 值等於 H₀ 為真的機率。事實上並不是。p 值是條件機率:P(在 H₀ 為真時得到如此極端的資料)。它並不能說明 H₀ 或 H₁ 為真的機率;若要回答這個問題,需要帶有先驗機率的貝葉斯推論。另一個誤解是 p < 0.05 就代表效應很大或具有實際重要性。統計顯著性取決於樣本量——只要樣本夠大,即使極其微小、幾乎沒有意義的效應也可能得到 p < 0.05。務必在 p 值之外同時報告效應量。
顯著水準 α 應在查看資料之前決定,並應反映可接受的假陽性(第一類錯誤)風險。不同領域的慣例不同:在大多數生醫與社會科學研究中,α = 0.05 是標準;當假陽性的代價很高時,α = 0.01 較常見;在全基因體關聯研究中,會使用 α = 5 × 10⁻⁸ 來因應同時進行的大量檢定。本計算器支援 0.01、0.05 與 0.10 這幾種 α 值。
範例
四個範例涵蓋所有支援的檢定類型,示範輸入、p 值與顯著性結論。
| 檢定設定 | P值 | 在 α = 0.05 下的結論 |
|---|---|---|
| Z檢定,雙尾,Z = 2.5,α = 0.05 | p = 0.0124 | p < 0.05 → 顯著。在 H₀ 下 |Z| ≥ 2.5 的機率約為 1.24%。 |
| T檢定,右尾,t = 2.1,df = 15,α = 0.05 | p = 0.0267 | p < 0.05 → 顯著。df = 15、t = 2.1 的單尾 t 檢定得到 p ≈ 0.027。 |
| 卡方檢定,右尾,χ² = 18.3,df = 10,α = 0.01 | p = 0.0499 | p > 0.01 → 在 α = 0.01 下不顯著。同一結果在 α = 0.05 下顯著。 |
| F檢定,右尾,F = 3.8,df1 = 2,df2 = 27,α = 0.05 | p = 0.0347 | p < 0.05 → 顯著。一個具有 2 與 27 個自由度的變異數分析 F 比為 3.8。 |
如何使用 P 值計算器
- 選擇與你的檢定統計量計算方式相符的統計檢定類型(Z 檢定、T 檢定、F 檢定或卡方檢定)。
- 選擇尾部類型:若 H₁: ≠ 選雙尾;若 H₁: > 選右尾;若 H₁: < 選左尾。
- 在「檢定統計量」欄位輸入你的統計量。對於 T 檢定、F 檢定與卡方檢定,還需要輸入自由度(F 檢定需輸入兩個值)。
- 設定顯著水準 α,然後按一下「計算」即可取得 p 值與顯著性結論。
- 如果 p ≤ α,則拒絕 H₀,並將結果報告為統計顯著;如果 p > α,則未能拒絕 H₀。請務必同時補充效應量。
常見問題
p 值到底衡量什麼?
p 值衡量的是:在原假設為真的前提下,觀察到與目前計算結果一樣極端或更極端的檢定統計量之機率。它量化的是你的資料在 H₀ 下有多「反常」。它並不表示 H₀ 為真的機率、效應大小,也不表示你犯錯的機率。
為什麼 α = 0.05 是慣例門檻?
0.05 這個門檻是 Ronald Fisher 在 20 世紀 20 年代推廣開來的方便慣例,並非普世真理。它表示你接受 5% 的假陽性風險(把真的 H₀ 錯誤拒絕)。不同領域會使用不同門檻:粒子物理通常要求 p < 5×10⁻⁷,基因組學一般使用 p < 5×10⁻⁸,臨床試驗有時採用 α = 0.01。合適的門檻取決於你所在領域中假陽性與假陰性的代價。
單尾檢定和雙尾檢定有什麼差別?
雙尾檢定會檢查任一方向上的差異,並將 α 平均分到兩個尾部。單尾檢定把全部 α 集中在一個方向上,因此在該方向上檢出效應的能力更強,但只有在看到資料之前就已先明確指定方向時才有效。為了「補救」臨界的雙尾結果而改用單尾檢定,就是 p-hacking。
自由度是如何決定的?
自由度(df)反映資料中獨立資訊的數量。單樣本 t 檢定中,df = n − 1。獨立樣本 t 檢定中,df = n₁ + n₂ − 2。r × c 列聯表中的卡方獨立性檢定,df = (r − 1)(c − 1)。單因子變異數分析的 F 檢定中,分子自由度 = k − 1(組數減 1),分母自由度 = N − k(總觀測數減組數)。
什麼是 p-hacking,為什麼有害?
p-hacking 是反覆進行多次檢定、分組或模型設置,直到出現 p < 0.05 的結果為止,再只報告那個結果的做法。它會把真實的一類錯誤率大幅提高到超過 α,製造出難以重現的假陽性。要避免它,應事先註冊分析計畫、對多重比較進行校正(例如 Bonferroni 校正),並報告所有執行過的檢定。
非常小的 p 值會不會代表結果並不重要?
會。只要樣本夠大,即使是極小的效應(例如某藥物只把血壓降低 0.1 mmHg)也可能得到 p < 0.001。統計顯著性和實際顯著性不是一回事。應始終與 p 值一起計算並報告效應量(Cohen's d、勝算比、R² 等),讓讀者判斷該效應在實務上是否足夠重要。