假設檢定計算器 - Z檢定、T檢定與P值

對平均數與比例執行 Z 檢定與 T 檢定。輸入樣本資料,即可在數秒內計算檢定統計量、p 值與臨界值。

選擇檢定類型與對立假設,輸入資料後點擊計算,即可判斷是否拒絕虛無假設。

假設檢定計算器 - Z檢定、T檢定與P值
對平均數與比例執行 Z 檢定與 T 檢定。輸入樣本資料,即可在數秒內計算檢定統計量、p 值與臨界值。

關於假設檢定計算器

假設檢定是推論統計的基礎。它提供一套有原則、以機率為基礎的框架,用來判斷你蒐集到的資料是否與某個理論主張——虛無假設——一致,或證據是否強到足以拒絕該主張並支持對立假設。醫學、心理學、經濟學、工程品質管制與 A/B 網站測試中的每一次實驗,最後都可歸結為某種形式的假設檢定。 虛無假設 (H₀) 是預設假定:沒有發生變化,處置沒有影響,製程維持在目標值,或比例沒有改變。對立假設 (H₁) 則是你試圖偵測的內容:平均數發生偏移、比例改變,或一種處置優於另一種。顯著水準 α——通常為 0.05 或 0.01——是當 H₀ 實際為真時卻錯誤拒絕它的機率(第一類錯誤)。如果檢定回傳的 p 值小於 α,就拒絕 H₀。 當已知母體標準差 σ,且樣本較大(n ≥ 30)或母體呈常態分布時,平均數的 Z 檢定是合適的。檢定統計量為 Z = (x̄ − μ₀) / (σ / √n)。由於 σ 已知,該統計量嚴格服從標準常態分布,p 值可直接由常態表讀取。平均數的 T 檢定適用於 σ 未知的情況,這也是現實研究中最常見的情形。此時使用樣本標準差 s,檢定統計量 T = (x̄ − μ₀) / (s / √n) 服從自由度 df = n − 1 的 t 分布。樣本較小時,t 分布的尾部比常態更厚,因此更難達到顯著性——這正是對 σ 額外不確定性的一種合理代價。 比例的 Z 檢定用於檢驗觀察到的樣本比例 p̂ 是否與假設的母體比例 p₀ 一致。標準誤為 √(p₀(1 − p₀) / n),檢定統計量為 Z = (p̂ − p₀) / SE。這個檢定廣泛用於 A/B 測試、臨床試驗的主要終點,以及品質管制中的不良率管制圖。 對於雙尾檢定,當 |統計量| > 臨界值時拒絕 H₀,這可捕捉任一方向的偏離。對於單尾檢定(左尾或右尾),你必須事先指定方向;這樣在該方向上檢出變化的能力較強,但無法標示相反方向的意外變化。畫面上顯示的臨界值是右尾邊界;對左尾檢定而言,相關邊界是其相反數。 p 值是在 H₀ 為真的前提下,觀察到一個至少同樣極端的檢定統計量的機率。p 值為 0.03 並不代表原假設有 3% 的機率為真;它表示如果 H₀ 為真,僅有 3% 的機率會因隨機抽樣而看到如此極端或更極端的資料。統計顯著性不等於實際顯著性:樣本數很大時,微小效果也可能高度顯著;而樣本數很小時,較大效果也可能無法達到顯著性。務必將 p 值與效果量和信賴區間一併解讀。

假設檢定範例

展示每種檢定類型與尾端方向的真實情境。

情境結果解讀
品質管制:x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, 雙尾 Z 檢定Z=2.357, p=0.0184 → 拒絕 H₀螺栓平均直徑已明顯偏離 10 mm 目標;製程需要調整。
藥物試驗:x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, 右尾 T 檢定T=3.651, df=29, p=0.0005 → 拒絕 H₀有強而有力的證據顯示,該藥物平均可使血壓降低超過 10 mmHg。
A/B 測試:p̂=0.095, p₀=0.08, n=1000, α=0.05, 右尾 Z 檢定(比例)Z=1.750, p=0.0401 → 拒絕 H₀新的按鈕設計顯著提升了點擊率,超過 8% 的基準。
燃油效率:x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, 左尾 Z 檢定Z=−3.162, p=0.0008 → 拒絕 H₀在 1% 顯著水準下,有證據顯示該車型的燃油效率低於宣稱的 30 mpg。

如何使用假設檢定計算器

  1. 選擇檢定類型:若已知 σ,選 Z 檢定(平均數);若 σ 未知且有樣本標準差,選 T 檢定(平均數);分類結果則選 Z 檢定(比例)。
  2. 選擇對立假設方向——雙尾用於偵測任何變化,左尾用於偵測下降,右尾用於偵測上升。
  3. 輸入虛無假設值(平均數檢定為 μ₀,比例檢定為 p₀)、所選顯著水準 α(通常為 0.05)以及樣本數 n。
  4. 填入其餘欄位:Z 檢定(平均數)填樣本平均數 x̄ 與母體標準差 σ;T 檢定填樣本平均數 x̄ 與樣本標準差 s;Z 檢定(比例)填樣本比例 p̂。
  5. 點擊計算。工具會顯示檢定統計量、自由度(僅 T 檢定)、p 值、臨界值,以及拒絕/不拒絕的結論。

假設檢定常見問題

Z 檢定和 T 檢定有什麼差別?
當已知母體標準差 σ 時使用 Z 檢定,這樣可以用標準常態分布計算精確的 p 值。當 σ 未知、必須用樣本標準差 s 估計時使用 T 檢定;此時檢定統計量服從自由度為 n−1 的 t 分布,其尾部比常態更厚,用來反映額外的不確定性。隨著樣本數增加,t 分布會收斂到常態分布,因此這個差異在小樣本時最重要(大致 n < 30)。
p 值到底是什麼意思?
p 值是在虛無假設為真的前提下,取得一個至少與觀測值同樣極端的檢定統計量的機率。它不是 H₀ 為真的機率,也不是結果只是巧合的機率。p 值低於 α(通常為 0.05)表示:如果 H₀ 為真,現在觀察到的資料會很罕見,因此拒絕 H₀。p 值高於 α 表示資料與 H₀ 一致,因此不拒絕它——但這並不能證明 H₀ 正確。
什麼時候該用單尾檢定,什麼時候該用雙尾檢定?
當兩個方向的差異都具有科學意義,且你沒有充分理由預期特定方向時,使用雙尾檢定。當理論或先驗證據在資料收集前就已明確指定效應方向時,使用單尾檢定。為了追求顯著性而在看到資料後再改用單尾檢定屬於 p-hacking,且無效。α=0.05 的單尾檢定等同於 α=0.10 的雙尾檢定。
顯著水準 α 是什麼,該怎麼選?
顯著水準 α 是可接受的第一類錯誤最大機率,也就是把真實的虛無假設錯誤拒絕掉。傳統上通常選擇 0.05(5%),但當假陽性的代價特別高時(如醫療診斷、安全關鍵系統)會使用 0.01。有些領域現在建議回報精確 p 值,而不是依賴固定門檻,並搭配信賴區間與效果量來獲得更完整的結論。
什麼是第一類錯誤和第二類錯誤?
第一類錯誤(假陽性)是指原假設 H₀ 實際為真,卻錯誤地將其拒絕;其機率為 α。第二類錯誤(假陰性)是指原假設 H₀ 實際為假,卻未能將其拒絕;其機率為 β,而統計力為 1−β。降低 α 會收緊拒絕標準,從而減少第一類錯誤,但會增加第二類錯誤。增加樣本數是同時降低兩類錯誤最乾淨的方法。
我可以把這個計算器用在問卷比例嗎?
可以——比例的 Z 檢定模式就是為此設計的。輸入假設的母體比例 p₀(你的基準值或理論值)、樣本數 n,以及觀測到的樣本比例 p̂(成功數除以 n)。計算器使用標準公式 Z = (p̂ − p₀) / √(p₀(1−p₀)/n)。當 n·p₀ 和 n·(1−p₀) 都大於 5 或 10 時,常態近似是可靠的。