t-Test für gepaarte Stichproben - Vorher/Nachher

Führen Sie einen t-Test für gepaarte Stichproben durch, um zwei zusammengehörige Gruppen — Vorher-/Nachher-Messungen, gepaarte Paare — zu vergleichen und t-Wert, p-Wert und Konfidenzintervall zu erhalten.

Geben Sie zwei durch Kommas getrennte Datengruppen gleicher Länge ein, legen Sie das Signifikanzniveau und den Testtyp fest, und erhalten Sie sofort die vollständige Ausgabe des gepaarten t-Tests.

t-Test für gepaarte Stichproben - Vorher/Nachher
Führen Sie einen t-Test für gepaarte Stichproben durch, um zwei zusammengehörige Gruppen — Vorher-/Nachher-Messungen, gepaarte Paare — zu vergleichen und t-Wert, p-Wert und Konfidenzintervall zu erhalten.

Über den t-Test für gepaarte Stichproben

Der t-Test für gepaarte Stichproben (auch abhängiger t-Test oder t-Test für verbundene Stichproben genannt) ist ein parametrisches statistisches Verfahren, das prüft, ob sich die Mittelwertdifferenz zwischen zwei zusammengehörigen Messreihen signifikant von Null (oder einem anderen hypothetischen Wert) unterscheidet. Er heißt „gepaart“, weil jede Beobachtung in Gruppe 1 genau einer Beobachtung in Gruppe 2 entspricht — beide Messungen stammen von derselben Person, von gematchten Teilnehmern oder vom selben Ort, der zu zwei verschiedenen Zeitpunkten gemessen wurde. Die häufigste Anwendung ist ein Vorher-Nachher-Design: Eine Forscherin misst eine Größe (Blutdruck, Testergebnis, Gewicht, Umsatz) vor einer Intervention und danach erneut. Weil dieselben Personen zweimal gemessen werden, sind die beiden Gruppen nicht unabhängig, sondern korreliert. Diese Korrelation zu ignorieren und einen t-Test für unabhängige Stichproben zu verwenden, wäre falsch; die Vergleichsgenauigkeit würde unterschätzt, weil die natürliche Streuung zwischen Personen nicht berücksichtigt wird, die sich bei Differenzen herauskürzt. Der elegante Rechentrick des gepaarten t-Tests besteht darin, das Problem auf eine Ein-Stichproben-Aufgabe zu reduzieren. Für jedes Paar i berechnen Sie die Differenz d_i = Gruppe1_i − Gruppe2_i. Der Test fragt dann: Ist der Mittelwert dieser Differenzen (d̄) signifikant ungleich Null? Dadurch wird das Zwei-Stichproben-Problem zu einem Ein-Stichproben-t-Test auf die Differenzen. Die Teststatistik lautet t = (d̄ − μ₀) / (s_d / √n), wobei μ₀ die hypothetische mittlere Differenz (meist 0) ist, s_d die Stichproben-Standardabweichung der Differenzen und n die Anzahl der Paare. Unter der Nullhypothese folgt die Statistik einer Student-t-Verteilung mit df = n − 1 Freiheitsgraden. Der p-Wert aus dieser t-Statistik gibt an, wie wahrscheinlich es ist, unter der Annahme einer wahren Populationsdifferenz von μ₀ einen Mittelwertunterschied mindestens in der Größe von d̄ zu beobachten. Liegt der p-Wert unter dem gewählten Signifikanzniveau α, verwerfen Sie die Nullhypothese und schließen auf einen statistisch signifikanten Mittelwertunterschied zwischen den gepaarten Messungen. Das Konfidenzintervall für d̄ liefert einen plausiblen Bereich für die wahre mittlere Differenz und ist oft informativer als der p-Wert allein. Damit der gepaarte t-Test gültig ist, sollten die Differenzen d_i annähernd normalverteilt sein. Diese Annahme prüft man mit einem Histogramm oder einem Normal-Q-Q-Plot der Differenzen. Bei n ≥ 30 ist die Annahme dank des Zentralen Grenzwertsatzes auch dann weniger kritisch, wenn die einzelnen Differenzen nicht normal sind. Bei kleinen Stichproben mit klar nicht normalverteilten Differenzen ist der Wilcoxon-Vorzeichen-Rang-Test die nichtparametrische Alternative. Typische Anwendungen sind medizinische Wirksamkeitsstudien (vor vs. nach einer Medikamentengabe), Bildungsforschung (Vorher- vs. Nachher-Test), Ernährungs- und Fitnessstudien (Ausgangs- vs. Folgemessungen) und Business-Analytics (Umsatz vor vs. nach einer Werbekampagne). In jedem Fall müssen beide Werte eines Paares von derselben Person, demselben Objekt oder einer gematchten Einheit stammen — nicht aus zwei unabhängigen Gruppen.

Durchgerechnete Beispiele

Drei Vorher-Nachher-Szenarien mit realistischen Daten zur Veranschaulichung der Ausgabe des gepaarten t-Tests.

Studiendesignt-Wert / p-WertFazit
Blutdruck vor: 140,135,150,155,130,142,138,147,152,133 / nach: 132,130,145,148,125,135,130,140,145,128 (zweiseitig, α=0.05, n=10)t ≈ 16.00, df = 9, p < 0.001Hochsignifikant. Das Medikament senkte den systolischen Blutdruck bei 10 Patientinnen und Patienten im Schnitt um 6.4 mmHg.
Testpunkte vor: 75,80,82,70,88,65,90,78 / nach: 85,85,88,78,92,75,95,85 (zweiseitig, α=0.05, n=8)t ≈ −8.47, df = 7, p < 0.001Signifikante Verbesserung. Die Studierenden erzielten nach dem Nachhilfeprogramm im Schnitt 6.9 Punkte mehr.
Wöchentliches Verkaufsvolumen vor: 500,550,480,600,520,530 / nach: 540,580,500,650,550,560 (zweiseitig, α=0.05, n=6)t ≈ −7.91, df = 5, p < 0.001Die Werbekampagne steigerte den wöchentlichen Umsatz signifikant um durchschnittlich 33.3 Einheiten pro Filiale.

So verwenden Sie den t-Test für gepaarte Stichproben

  1. Geben Sie die Daten der Gruppe 1 (z. B. „Vorher“-Werte) als durch Kommas getrennte Liste in das erste Feld ein.
  2. Geben Sie die Daten der Gruppe 2 (z. B. „Nachher“-Werte) in das zweite Feld ein. Beide Gruppen müssen gleich viele Werte enthalten; die erste Zahl aus Gruppe 1 wird mit der ersten aus Gruppe 2 gepaart, und so weiter.
  3. Legen Sie das Signifikanzniveau α (0.01, 0.05 oder 0.10) und die hypothetische mittlere Differenz μ₀ (meist 0) fest. Wählen Sie den Testtyp (zweiseitig, rechtsseitig oder linksseitig).
  4. Klicken Sie auf Berechnen, um t-Wert, Freiheitsgrade, p-Wert, mittlere Differenz, Standardabweichung der Differenzen und ein 95%-Konfidenzintervall anzuzeigen.
  5. Vergleichen Sie den p-Wert mit α. Wenn p ≤ α, verwerfen Sie H₀ und schließen auf eine statistisch signifikante mittlere Differenz. Wenn p > α, verwerfen Sie H₀ nicht.

Häufige Fragen

Wann sollte ich einen gepaarten t-Test statt eines t-Tests für unabhängige Stichproben verwenden?
Verwenden Sie einen gepaarten t-Test, wenn jede Beobachtung in einer Gruppe natürlich mit genau einer Beobachtung der anderen Gruppe verbunden ist — zum Beispiel dieselbe Person vor und nach einer Behandlung oder zwei Geschwister, die zwei verschiedenen Diäten zugeteilt werden. Sind die beiden Gruppen unabhängig (verschiedene, nicht zusammenhängende Personen ohne Paarung), verwenden Sie einen t-Test für unabhängige Stichproben.
Was ist die hypothetische mittlere Differenz μ₀?
μ₀ ist der Wert, von dem Sie unter der Nullhypothese annehmen, dass er der wahren mittleren Differenz entspricht. In den meisten Anwendungen — wenn man prüft, ob eine Intervention irgendeinen Effekt hat — ist μ₀ = 0. Bei spezifischeren Hypothesen, etwa ob ein Medikament den Blutdruck um mindestens 10 mmHg senkt, setzen Sie μ₀ = 10.
Was, wenn meine Differenzen nicht normalverteilt sind?
Der gepaarte t-Test setzt voraus, dass die Differenzen näherungsweise normalverteilt sind. Bei n ≥ 30 Paaren macht der Zentrale Grenzwertsatz diese Annahme weniger kritisch. Bei kleineren Stichproben mit klar nicht normalverteilten Differenzen (Histogramm prüfen) ist der Wilcoxon-Vorzeichen-Rang-Test eine robuste nichtparametrische Alternative ohne Normalitätsannahme.
Wie interpretiere ich das Konfidenzintervall?
Das 95%-Konfidenzintervall gibt einen Bereich plausibler Werte für die wahre mittlere Differenz an. Enthält das Intervall die Null nicht, ist das Ergebnis bei α = 0.05 signifikant. Das Intervall ist informativer als der p-Wert allein, weil es die Größe und Richtung des Effekts zeigt. Ein KI von (2.3, 9.8) sagt beispielsweise, dass der Effekt signifikant ist und von klein bis mäßig groß reicht.
Kann ich einen einseitigen gepaarten t-Test durchführen?
Ja. Wählen Sie „Rechtsseitig“, wenn Sie Gruppe 1 > Gruppe 2 (positive mittlere Differenz) erwarten, oder „Linksseitig“, wenn Sie Gruppe 1 < Gruppe 2 (negative mittlere Differenz) erwarten. Ein einseitiger Test ist mächtiger, aber nur gültig, wenn die Richtung des Effekts bereits vor der Datenerhebung festgelegt wurde. Einen einseitigen Test nur zu wählen, weil das zweiseitige Ergebnis knapp ist, ist eine Form von p-Hacking.
Was bedeutet ein signifikantes Ergebnis eigentlich?
Ein signifikantes Ergebnis (p ≤ α) bedeutet, dass die beobachtete mittlere Differenz unter der Annahme der wahren Nullhypothese unwahrscheinlich durch Zufall entstanden ist. Es beweist aber weder, dass die Nullhypothese falsch ist, noch garantiert es, dass der Effekt groß oder klinisch wichtig ist. Berichten Sie immer die mittlere Differenz d̄, ihr Konfidenzintervall und eine Effektgröße (etwa Cohen's d = d̄ / s_d), damit Leser die praktische Bedeutung beurteilen können.