Q: Was ist der Unterschied zwischen einseitigem und zweiseitigem Test?

Ein zweiseitiger Test prüft auf Unterschiede in beide Richtungen und teilt α gleich auf beide Seiten auf. Ein einseitiger Test konzentriert das gesamte α auf eine Richtung und bietet dort mehr Power, ist aber nur gültig, wenn die Richtung des Effekts vor dem Blick auf die Daten festgelegt wurde. Einen einseitigen Test zu nutzen, um ein grenzwertiges zweiseitiges Ergebnis zu retten, ist p-Hacking.

Q: Wie werden die Freiheitsgrade bestimmt?

Die Freiheitsgrade (df) spiegeln die Zahl unabhängiger Informationsstücke in den Daten wider. Beim Ein-Stichproben-t-Test gilt df = n − 1. Beim unabhängigen Zwei-Stichproben-t-Test gilt df = n₁ + n₂ − 2. Beim Chi-Quadrat-Test auf Unabhängigkeit in einer r × c-Tabelle gilt df = (r − 1)(c − 1). Beim einseitigen ANOVA-F-Test gilt: Zähler-df = k − 1 (Gruppen minus 1) und Nenner-df = N − k (Gesamtbeobachtungen minus Gruppen).

Q: Was ist p-Hacking und warum ist es schädlich?

p-Hacking ist die Praxis, mehrere Tests, Teilgruppen oder Modell-Spezifikationen so lange durchzuführen, bis ein p < 0.05-Ergebnis erscheint, und dann nur dieses Ergebnis zu berichten. Dadurch steigt die tatsächliche Fehler-1.-Art-Rate weit über α hinaus, und es entstehen falsch-positive Ergebnisse, die sich nicht replizieren lassen. Um das zu vermeiden, sollten Sie Ihren Analyseplan vorab registrieren, für multiples Testen korrigieren (z. B. Bonferroni-Korrektur) und alle durchgeführten Tests berichten.

Q: Kann ein sehr kleiner p-Wert bedeuten, dass das Ergebnis unwichtig ist?

Ja. Bei ausreichend großer Stichprobe kann selbst ein winziger Effekt (etwa ein Medikament, das den Blutdruck nur um 0.1 mmHg senkt) p < 0.001 ergeben. Statistische Signifikanz und praktische Relevanz sind nicht dasselbe. Berechnen und berichten Sie immer eine Effektgröße (Cohen's d, Odds Ratio, R² usw.) zusammen mit dem p-Wert, damit Leser beurteilen können, ob der Effekt praktisch groß genug ist.

Question 1

Was misst der p-Wert eigentlich?

Accepted Answer

Der p-Wert misst die Wahrscheinlichkeit, unter der Annahme einer wahren Nullhypothese eine Teststatistik zu beobachten, die so extrem oder extremer ist als die berechnete. Er quantifiziert, wie überraschend Ihre Daten unter H₀ sind. Er misst nicht die Wahrscheinlichkeit, dass H₀ wahr ist, die Größe des Effekts oder die Wahrscheinlichkeit, einen Fehler gemacht zu haben.

Question 2

Warum ist α = 0.05 der konventionelle Schwellenwert?

Accepted Answer

Der 0.05-Schwellenwert wurde von Ronald Fisher in den 1920er-Jahren als praktische Konvention populär gemacht, nicht als universelle Wahrheit. Er bedeutet, dass Sie ein 5%iges Risiko eines falsch-positiven Ergebnisses akzeptieren. Verschiedene Bereiche verwenden unterschiedliche Schwellen: Teilchenphysik verlangt oft p < 5×10⁻⁷, Genomik typischerweise p < 5×10⁻⁸, und klinische Studien nutzen manchmal α = 0.01. Der richtige Schwellenwert hängt von den Kosten falsch-positiver und falsch-negativer Ergebnisse ab.

Question 3

Was ist der Unterschied zwischen einseitigem und zweiseitigem Test?

Accepted Answer

Ein zweiseitiger Test prüft auf Unterschiede in beide Richtungen und teilt α gleich auf beide Seiten auf. Ein einseitiger Test konzentriert das gesamte α auf eine Richtung und bietet dort mehr Power, ist aber nur gültig, wenn die Richtung des Effekts vor dem Blick auf die Daten festgelegt wurde. Einen einseitigen Test zu nutzen, um ein grenzwertiges zweiseitiges Ergebnis zu retten, ist p-Hacking.

Question 4

Wie werden die Freiheitsgrade bestimmt?

Accepted Answer

Die Freiheitsgrade (df) spiegeln die Zahl unabhängiger Informationsstücke in den Daten wider. Beim Ein-Stichproben-t-Test gilt df = n − 1. Beim unabhängigen Zwei-Stichproben-t-Test gilt df = n₁ + n₂ − 2. Beim Chi-Quadrat-Test auf Unabhängigkeit in einer r × c-Tabelle gilt df = (r − 1)(c − 1). Beim einseitigen ANOVA-F-Test gilt: Zähler-df = k − 1 (Gruppen minus 1) und Nenner-df = N − k (Gesamtbeobachtungen minus Gruppen).

Question 5

Was ist p-Hacking und warum ist es schädlich?

Accepted Answer

p-Hacking ist die Praxis, mehrere Tests, Teilgruppen oder Modell-Spezifikationen so lange durchzuführen, bis ein p < 0.05-Ergebnis erscheint, und dann nur dieses Ergebnis zu berichten. Dadurch steigt die tatsächliche Fehler-1.-Art-Rate weit über α hinaus, und es entstehen falsch-positive Ergebnisse, die sich nicht replizieren lassen. Um das zu vermeiden, sollten Sie Ihren Analyseplan vorab registrieren, für multiples Testen korrigieren (z. B. Bonferroni-Korrektur) und alle durchgeführten Tests berichten.

Question 6

Kann ein sehr kleiner p-Wert bedeuten, dass das Ergebnis unwichtig ist?

Accepted Answer

Ja. Bei ausreichend großer Stichprobe kann selbst ein winziger Effekt (etwa ein Medikament, das den Blutdruck nur um 0.1 mmHg senkt) p < 0.001 ergeben. Statistische Signifikanz und praktische Relevanz sind nicht dasselbe. Berechnen und berichten Sie immer eine Effektgröße (Cohen's d, Odds Ratio, R² usw.) zusammen mit dem p-Wert, damit Leser beurteilen können, ob der Effekt praktisch groß genug ist.

Testkonfiguration	p-Wert	Urteil bei α = 0.05
Z-Test, zweiseitig, Z = 2.5, α = 0.05	p = 0.0124	p < 0.05 → signifikant. Die Wahrscheinlichkeit von \|Z\| ≥ 2.5 unter H₀ beträgt etwa 1.24%.
t-Test, rechtsseitig, t = 2.1, df = 15, α = 0.05	p = 0.0267	p < 0.05 → signifikant. Ein einseitiger t-Test mit 15 df bei t = 2.1 ergibt p ≈ 0.027.
Chi-Quadrat, rechtsseitig, χ² = 18.3, df = 10, α = 0.01	p = 0.0499	p > 0.01 → bei α = 0.01 nicht signifikant. Dasselbe Ergebnis ist bei α = 0.05 signifikant.
F-Test, rechtsseitig, F = 3.8, df1 = 2, df2 = 27, α = 0.05	p = 0.0347	p < 0.05 → signifikant. Ein ANOVA-F-Verhältnis von 3.8 mit 2 und 27 Freiheitsgraden.

p-Wert-Rechner - Z-, t-, F- und Chi-Quadrat-Tests

Über den p-Wert-Rechner

Rechenbeispiele

So verwenden Sie den p-Wert-Rechner

Häufig gestellte Fragen