Q: p 值到底是什麼意思？

p 值是在虛無假設為真的前提下，取得一個至少與觀測值同樣極端的檢定統計量的機率。它不是 H₀ 為真的機率，也不是結果只是巧合的機率。p 值低於 α（通常為 0.05）表示：如果 H₀ 為真，現在觀察到的資料會很罕見，因此拒絕 H₀。p 值高於 α 表示資料與 H₀ 一致，因此不拒絕它——但這並不能證明 H₀ 正確。

Q: 什麼時候該用單尾檢定，什麼時候該用雙尾檢定？

當兩個方向的差異都具有科學意義，且你沒有充分理由預期特定方向時，使用雙尾檢定。當理論或先驗證據在資料收集前就已明確指定效應方向時，使用單尾檢定。為了追求顯著性而在看到資料後再改用單尾檢定屬於 p-hacking，且無效。α=0.05 的單尾檢定等同於 α=0.10 的雙尾檢定。

Q: 顯著水準 α 是什麼，該怎麼選？

顯著水準 α 是可接受的第一類錯誤最大機率，也就是把真實的虛無假設錯誤拒絕掉。傳統上通常選擇 0.05（5%），但當假陽性的代價特別高時（如醫療診斷、安全關鍵系統）會使用 0.01。有些領域現在建議回報精確 p 值，而不是依賴固定門檻，並搭配信賴區間與效果量來獲得更完整的結論。

Q: 什麼是第一類錯誤和第二類錯誤？

第一類錯誤（假陽性）是指原假設 H₀ 實際為真，卻錯誤地將其拒絕；其機率為 α。第二類錯誤（假陰性）是指原假設 H₀ 實際為假，卻未能將其拒絕；其機率為 β，而統計力為 1−β。降低 α 會收緊拒絕標準，從而減少第一類錯誤，但會增加第二類錯誤。增加樣本數是同時降低兩類錯誤最乾淨的方法。

Q: 我可以把這個計算器用在問卷比例嗎？

可以——比例的 Z 檢定模式就是為此設計的。輸入假設的母體比例 p₀（你的基準值或理論值）、樣本數 n，以及觀測到的樣本比例 p̂（成功數除以 n）。計算器使用標準公式 Z = (p̂ − p₀) / √(p₀(1−p₀)/n)。當 n·p₀ 和 n·(1−p₀) 都大於 5 或 10 時，常態近似是可靠的。

Question 1

Z 檢定和 T 檢定有什麼差別？

Accepted Answer

當已知母體標準差 σ 時使用 Z 檢定，這樣可以用標準常態分布計算精確的 p 值。當 σ 未知、必須用樣本標準差 s 估計時使用 T 檢定；此時檢定統計量服從自由度為 n−1 的 t 分布，其尾部比常態更厚，用來反映額外的不確定性。隨著樣本數增加，t 分布會收斂到常態分布，因此這個差異在小樣本時最重要（大致 n < 30）。

Question 2

p 值到底是什麼意思？

Accepted Answer

p 值是在虛無假設為真的前提下，取得一個至少與觀測值同樣極端的檢定統計量的機率。它不是 H₀ 為真的機率，也不是結果只是巧合的機率。p 值低於 α（通常為 0.05）表示：如果 H₀ 為真，現在觀察到的資料會很罕見，因此拒絕 H₀。p 值高於 α 表示資料與 H₀ 一致，因此不拒絕它——但這並不能證明 H₀ 正確。

Question 3

什麼時候該用單尾檢定，什麼時候該用雙尾檢定？

Accepted Answer

當兩個方向的差異都具有科學意義，且你沒有充分理由預期特定方向時，使用雙尾檢定。當理論或先驗證據在資料收集前就已明確指定效應方向時，使用單尾檢定。為了追求顯著性而在看到資料後再改用單尾檢定屬於 p-hacking，且無效。α=0.05 的單尾檢定等同於 α=0.10 的雙尾檢定。

Question 4

顯著水準 α 是什麼，該怎麼選？

Accepted Answer

顯著水準 α 是可接受的第一類錯誤最大機率，也就是把真實的虛無假設錯誤拒絕掉。傳統上通常選擇 0.05（5%），但當假陽性的代價特別高時（如醫療診斷、安全關鍵系統）會使用 0.01。有些領域現在建議回報精確 p 值，而不是依賴固定門檻，並搭配信賴區間與效果量來獲得更完整的結論。

Question 5

什麼是第一類錯誤和第二類錯誤？

Accepted Answer

第一類錯誤（假陽性）是指原假設 H₀ 實際為真，卻錯誤地將其拒絕；其機率為 α。第二類錯誤（假陰性）是指原假設 H₀ 實際為假，卻未能將其拒絕；其機率為 β，而統計力為 1−β。降低 α 會收緊拒絕標準，從而減少第一類錯誤，但會增加第二類錯誤。增加樣本數是同時降低兩類錯誤最乾淨的方法。

Question 6

我可以把這個計算器用在問卷比例嗎？

Accepted Answer

可以——比例的 Z 檢定模式就是為此設計的。輸入假設的母體比例 p₀（你的基準值或理論值）、樣本數 n，以及觀測到的樣本比例 p̂（成功數除以 n）。計算器使用標準公式 Z = (p̂ − p₀) / √(p₀(1−p₀)/n)。當 n·p₀ 和 n·(1−p₀) 都大於 5 或 10 時，常態近似是可靠的。

情境	結果	解讀
品質管制：x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, 雙尾 Z 檢定	Z=2.357, p=0.0184 → 拒絕 H₀	螺栓平均直徑已明顯偏離 10 mm 目標；製程需要調整。
藥物試驗：x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, 右尾 T 檢定	T=3.651, df=29, p=0.0005 → 拒絕 H₀	有強而有力的證據顯示，該藥物平均可使血壓降低超過 10 mmHg。
A/B 測試：p̂=0.095, p₀=0.08, n=1000, α=0.05, 右尾 Z 檢定（比例）	Z=1.750, p=0.0401 → 拒絕 H₀	新的按鈕設計顯著提升了點擊率，超過 8% 的基準。
燃油效率：x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, 左尾 Z 檢定	Z=−3.162, p=0.0008 → 拒絕 H₀	在 1% 顯著水準下，有證據顯示該車型的燃油效率低於宣稱的 30 mpg。

假設檢定計算器 - Z檢定、T檢定與P值

關於假設檢定計算器

假設檢定範例

如何使用假設檢定計算器

假設檢定常見問題