Q: 單尾檢定和雙尾檢定有什麼差別？

雙尾檢定會檢查任一方向上的差異，並將 α 平均分到兩個尾部。單尾檢定把全部 α 集中在一個方向上，因此在該方向上檢出效應的能力更強，但只有在看到資料之前就已先明確指定方向時才有效。為了「補救」臨界的雙尾結果而改用單尾檢定，就是 p-hacking。

Q: 自由度是如何決定的？

自由度（df）反映資料中獨立資訊的數量。單樣本 t 檢定中，df = n − 1。獨立樣本 t 檢定中，df = n₁ + n₂ − 2。r × c 列聯表中的卡方獨立性檢定，df = (r − 1)(c − 1)。單因子變異數分析的 F 檢定中，分子自由度 = k − 1（組數減 1），分母自由度 = N − k（總觀測數減組數）。

Q: 什麼是 p-hacking，為什麼有害？

p-hacking 是反覆進行多次檢定、分組或模型設置，直到出現 p < 0.05 的結果為止，再只報告那個結果的做法。它會把真實的一類錯誤率大幅提高到超過 α，製造出難以重現的假陽性。要避免它，應事先註冊分析計畫、對多重比較進行校正（例如 Bonferroni 校正），並報告所有執行過的檢定。

Q: 非常小的 p 值會不會代表結果並不重要？

會。只要樣本夠大，即使是極小的效應（例如某藥物只把血壓降低 0.1 mmHg）也可能得到 p < 0.001。統計顯著性和實際顯著性不是一回事。應始終與 p 值一起計算並報告效應量（Cohen's d、勝算比、R² 等），讓讀者判斷該效應在實務上是否足夠重要。

Question 1

p 值到底衡量什麼？

Accepted Answer

p 值衡量的是：在原假設為真的前提下，觀察到與目前計算結果一樣極端或更極端的檢定統計量之機率。它量化的是你的資料在 H₀ 下有多「反常」。它並不表示 H₀ 為真的機率、效應大小，也不表示你犯錯的機率。

Question 2

為什麼 α = 0.05 是慣例門檻？

Accepted Answer

0.05 這個門檻是 Ronald Fisher 在 20 世紀 20 年代推廣開來的方便慣例，並非普世真理。它表示你接受 5% 的假陽性風險（把真的 H₀ 錯誤拒絕）。不同領域會使用不同門檻：粒子物理通常要求 p < 5×10⁻⁷，基因組學一般使用 p < 5×10⁻⁸，臨床試驗有時採用 α = 0.01。合適的門檻取決於你所在領域中假陽性與假陰性的代價。

Question 3

單尾檢定和雙尾檢定有什麼差別？

Accepted Answer

雙尾檢定會檢查任一方向上的差異，並將 α 平均分到兩個尾部。單尾檢定把全部 α 集中在一個方向上，因此在該方向上檢出效應的能力更強，但只有在看到資料之前就已先明確指定方向時才有效。為了「補救」臨界的雙尾結果而改用單尾檢定，就是 p-hacking。

Question 4

自由度是如何決定的？

Accepted Answer

自由度（df）反映資料中獨立資訊的數量。單樣本 t 檢定中，df = n − 1。獨立樣本 t 檢定中，df = n₁ + n₂ − 2。r × c 列聯表中的卡方獨立性檢定，df = (r − 1)(c − 1)。單因子變異數分析的 F 檢定中，分子自由度 = k − 1（組數減 1），分母自由度 = N − k（總觀測數減組數）。

Question 5

什麼是 p-hacking，為什麼有害？

Accepted Answer

p-hacking 是反覆進行多次檢定、分組或模型設置，直到出現 p < 0.05 的結果為止，再只報告那個結果的做法。它會把真實的一類錯誤率大幅提高到超過 α，製造出難以重現的假陽性。要避免它，應事先註冊分析計畫、對多重比較進行校正（例如 Bonferroni 校正），並報告所有執行過的檢定。

Question 6

非常小的 p 值會不會代表結果並不重要？

Accepted Answer

會。只要樣本夠大，即使是極小的效應（例如某藥物只把血壓降低 0.1 mmHg）也可能得到 p < 0.001。統計顯著性和實際顯著性不是一回事。應始終與 p 值一起計算並報告效應量（Cohen's d、勝算比、R² 等），讓讀者判斷該效應在實務上是否足夠重要。

檢定設定	P值	在 α = 0.05 下的結論
Z檢定，雙尾，Z = 2.5，α = 0.05	p = 0.0124	p < 0.05 → 顯著。在 H₀ 下 \|Z\| ≥ 2.5 的機率約為 1.24%。
T檢定，右尾，t = 2.1，df = 15，α = 0.05	p = 0.0267	p < 0.05 → 顯著。df = 15、t = 2.1 的單尾 t 檢定得到 p ≈ 0.027。
卡方檢定，右尾，χ² = 18.3，df = 10，α = 0.01	p = 0.0499	p > 0.01 → 在 α = 0.01 下不顯著。同一結果在 α = 0.05 下顯著。
F檢定，右尾，F = 3.8，df1 = 2，df2 = 27，α = 0.05	p = 0.0347	p < 0.05 → 顯著。一個具有 2 與 27 個自由度的變異數分析 F 比為 3.8。

P值計算器 - Z、t、F和卡方檢定

關於 P 值計算器

範例

如何使用 P 值計算器

常見問題