対応のある t 検定計算機 - 前後データ
対応のある t 検定で、前後測定やペアデータなどの関連する2群を比較し、t 値、p 値、信頼区間を求めます。
同じ長さの2つのカンマ区切りデータを入力し、有意水準と検定タイプを設定すると、対応のある t 検定の結果をすぐに表示します。
対応のある t 検定計算機 - 前後データ
対応のある t 検定で、前後測定やペアデータなどの関連する2群を比較し、t 値、p 値、信頼区間を求めます。
対応のある t 検定計算機について
対応のある t 検定(依存 t 検定、またはペア t 検定とも呼ばれます)は、2つの関連する測定値の平均差が 0(または他の仮説値)と有意に異なるかどうかを判定するパラメトリックな統計手法です。「対応のある」と呼ばれるのは、グループ1の各観測値がグループ2のちょうど1つの観測値に対応しており、同一被験者、対応付けられた参加者、または同じ場所を異なる2時点で測定したデータだからです。
最も一般的な用途は前後比較の研究デザインです。研究者が介入前に血圧、テスト得点、体重、売上などを測定し、介入後に再度測定します。同じ個体を2回測定するため、2群は独立ではなく相関しています。この相関を無視して独立サンプル t 検定を使うのは誤りです。差を取ると個体間の自然なばらつきが打ち消されるため、本来より精度を低く見積もってしまいます。
対応のある t 検定が扱いやすいのは、問題を1標本問題に落とし込めるからです。各ペア i について差 d_i = グループ1_i − グループ2_i を計算します。すると検定では、この差の平均(d̄)が 0 と有意に異なるかを調べます。これにより、2標本問題は差に対する1標本 t 検定へ変換されます。検定統計量は t = (d̄ − μ₀) / (s_d / √n) で、μ₀ は仮定された平均差(通常は 0)、s_d は差の標本標準偏差、n はペア数です。帰無仮説の下では、この統計量は自由度 df = n − 1 の Student の t 分布に従います。
この t 値から得られる p 値は、母集団の真の平均差が μ₀ であるとしたとき、d̄ ほど大きい(またはそれ以上の)平均差が観測される確率を示します。p 値が選んだ有意水準 α を下回れば、帰無仮説を棄却し、対応のある測定値の間に統計的に有意な平均差があると結論づけます。d̄ の信頼区間は、真の平均差がありそうな範囲を示し、p 値単独よりも多くの情報を与えてくれます。
対応のある t 検定が有効であるためには、差 d_i がほぼ正規分布に従う必要があります。この前提は、差のヒストグラムや正規 Q-Q プロットを見て確認します。n ≥ 30 なら、個々の差が完全な正規分布でなくても中心極限定理によりこの前提はそれほど厳しくありません。小標本で差が明らかに正規的でない場合は、Wilcoxon の符号順位検定が対応するノンパラメトリックな代替手法です。
主な用途には、医療の有効性試験(投薬前後)、教育研究(事前テストと事後テスト)、栄養・フィットネス研究(ベースラインと追跡測定)、ビジネス分析(広告施策前後の売上)などがあります。いずれの場合も重要なのは、各ペアの値が同一人物、同一対象、または対応付けられた単位から得られていることであり、独立した2群ではないことです。
計算例
前後比較の3つのシナリオで、現実的なデータを使って対応のある t 検定の出力を示します。
| 研究デザイン | t 値 / p 値 | 結論 |
|---|---|---|
| 血圧(前): 140,135,150,155,130,142,138,147,152,133 / (後): 132,130,145,148,125,135,130,140,145,128(両側、α=0.05、n=10) | t ≈ 16.00, df = 9, p < 0.001 | 非常に有意です。薬により 10 人の収縮期血圧が平均 6.4 mmHg 低下しました。 |
| テスト得点(前): 75,80,82,70,88,65,90,78 / (後): 85,85,88,78,92,75,95,85(両側、α=0.05、n=8) | t ≈ −8.47, df = 7, p < 0.001 | 有意な改善です。個別指導プログラム後、学生の得点は平均 6.9 点上がりました。 |
| 週売上(前): 500,550,480,600,520,530 / (後): 540,580,500,650,550,560(両側、α=0.05、n=6) | t ≈ −7.91, df = 5, p < 0.001 | 広告キャンペーンにより、店舗あたりの週売上は平均 33.3 単位増加しました。 |
対応のある t 検定計算機の使い方
- 最初の欄にグループ1(例: 「前」)のデータをカンマ区切りで入力します。
- 2つ目の欄にグループ2(例: 「後」)のデータを入力します。両グループは同じ個数でなければならず、グループ1の最初の数値はグループ2の最初の数値と対応します。
- 有意水準 α(0.01、0.05、0.10 など)と仮定平均との差 μ₀(通常は 0)を設定し、検定タイプ(両側、右側、左側)を選びます。
- 「計算」をクリックすると、t 値、自由度、p 値、平均差、差の標準偏差、95%信頼区間が表示されます。
- p 値と α を比較します。p ≤ α なら H₀ を棄却し、統計的に有意な平均差があると結論づけます。p > α なら H₀ を棄却できません。
よくある質問
独立サンプル t 検定ではなく、対応のある t 検定を使うのはいつですか?
一方のグループの各観測値が、他方のグループのちょうど1つの観測値と自然に対応している、または結び付いている場合に使います。例えば同じ人の治療前後の測定、あるいは2人の兄弟姉妹を別々の食事法に割り当てた場合です。2群が独立(無関係な別個体で対応づけがない)なら、独立サンプル t 検定を使います。
仮定平均との差 μ₀ とは何ですか?
μ₀ は、帰無仮説の下で真の平均差が等しいと仮定する値です。多くの用途では、介入に効果があるかどうかを調べるため μ₀ = 0 を使います。たとえば薬が血圧を少なくとも 10 mmHg 下げるかを検定する場合は、μ₀ = 10 とします。
差が正規分布していない場合はどうすればよいですか?
対応のある t 検定は、差がほぼ正規分布していることを前提とします。n ≥ 30 ペアなら、中心極限定理によりこの前提はそれほど重要ではありません。小標本で差が明らかに正規的でない場合(ヒストグラムを確認してください)、Wilcoxon の符号順位検定は正規性を仮定しない堅牢な非パラメトリック代替手法です。
信頼区間はどう解釈しますか?
95%信頼区間は、真の平均差として妥当な値の範囲を示します。区間に 0 が含まれなければ、結果は α = 0.05 で有意です。区間は効果の大きさと方向を示すため、p 値単独よりも有益です。たとえば (2.3, 9.8) という区間は、結果が有意であり、効果が小さいものから中程度に大きいものまであり得ることを示します。
片側の対応のある t 検定はできますか?
はい。グループ1 > グループ2(正の平均差)と予測するなら「右側検定」、グループ1 < グループ2(負の平均差)と予測するなら「左側検定」を選びます。片側検定は検出力が高いですが、効果の方向をデータ収集前に指定していた場合にのみ有効です。両側検定の結果が境界線上だったからという理由だけで片側検定にするのは p-hacking です。
有意結果は実際には何を意味しますか?
有意結果(p ≤ α)は、帰無仮説が真であるなら、観測された平均差が偶然に生じた可能性は低いことを意味します。しかし、帰無仮説が偽であることの証明でもなければ、効果が大きい、あるいは臨床的に重要であることの保証でもありません。d̄、信頼区間、そして効果量(たとえば Cohen's d = d̄ / s_d)を必ず報告し、読者が実用上の意味を判断できるようにしてください。