p-Wert-Rechner - Z-, t-, F- und Chi-Quadrat-Tests
Finden Sie den p-Wert zu jeder Teststatistik — Z, t, F oder Chi-Quadrat — mit zweiseitigen, rechtsseitigen oder linksseitigen Optionen für sofortige Signifikanzentscheidungen.
Wählen Sie den statistischen Testtyp und die Seite, geben Sie die Teststatistik und die Freiheitsgrade ein und erhalten Sie den exakten p-Wert sowie ein Signifikanzurteil.
p-Wert-Rechner - Z-, t-, F- und Chi-Quadrat-Tests
Finden Sie den p-Wert zu jeder Teststatistik — Z, t, F oder Chi-Quadrat — mit zweiseitigen, rechtsseitigen oder linksseitigen Optionen für sofortige Signifikanzentscheidungen.
Über den p-Wert-Rechner
Der p-Wert ist die Wahrscheinlichkeit, unter der Annahme, dass die Nullhypothese wahr ist, eine Teststatistik mindestens so extrem wie die tatsächlich beobachtete zu erhalten. Er ist die zentrale Ausgabe fast aller klassischen statistischen Tests und das wichtigste Kriterium für die Entscheidung, ob die Nullhypothese verworfen werden soll. Ein kleiner p-Wert bedeutet, dass die beobachteten Daten unter der Nullhypothese unwahrscheinlich sind und liefert damit Evidenz zugunsten der Alternativhypothese.
Das Verfahren beginnt mit einer Nullhypothese H₀ (typischerweise keine Wirkung, kein Unterschied oder kein Zusammenhang) und einer Alternativhypothese H₁. Dann erheben Sie Daten, berechnen eine Teststatistik (Z, t, F oder χ²) und verwenden die Wahrscheinlichkeitsverteilung dieser Statistik unter H₀, um den p-Wert zu bestimmen. Wenn der p-Wert kleiner oder gleich dem vorab festgelegten Signifikanzniveau α ist (am häufigsten 0.05), verwerfen Sie H₀ und bezeichnen das Ergebnis als statistisch signifikant.
Verschiedene Teststatistiken folgen unterschiedlichen Wahrscheinlichkeitsverteilungen. Die Z-Statistik folgt der Standardnormalverteilung und wird verwendet, wenn die Populationsstandardabweichung bekannt ist oder die Stichprobe sehr groß ist. Die t-Statistik folgt einer Student-t-Verteilung mit einer bestimmten Anzahl Freiheitsgrade (df = n − 1 für einen Ein-Stichproben-Test) und wird bei kleinen bis mittleren Stichproben verwendet, wenn die Populationsstandardabweichung unbekannt ist. Die F-Statistik folgt einer F-Verteilung mit Zähler- und Nenner-Freiheitsgraden und ist die Grundlage für ANOVA und den F-Test auf Varianzgleichheit. Die Chi-Quadrat-Statistik folgt einer Chi-Quadrat-Verteilung mit df Freiheitsgraden und wird für Unabhängigkeitstests in Kontingenztafeln und Anpassungstests verwendet.
Der Seitentyp bestimmt, welcher Bereich der Verteilung zur Berechnung des p-Werts verwendet wird. Ein zweiseitiger Test ist angemessen, wenn die Alternativhypothese nicht gerichtet ist (H₁: μ ≠ μ₀) und der p-Wert die Wahrscheinlichkeit in beiden Extremen aufsummiert. Ein rechtsseitiger Test wird verwendet, wenn H₁ eine positive Richtung vorgibt (H₁: μ > μ₀), und ein linksseitiger Test, wenn H₁ eine negative Richtung vorgibt (H₁: μ < μ₀). Beim F-Test und Chi-Quadrat-Test, die in der Praxis von Natur aus einseitig sind (die Teststatistik kann nicht negativ sein), ist der rechtsseitige p-Wert der Standard.
Ein kritisches und häufiges Missverständnis ist, dass der p-Wert die Wahrscheinlichkeit sei, dass H₀ wahr ist. Das ist er nicht. Der p-Wert ist eine bedingte Wahrscheinlichkeit: P(Daten so extrem | H₀ wahr). Er sagt nichts über die Wahrscheinlichkeit aus, dass H₀ oder H₁ wahr ist; dafür braucht man bayessche Inferenz mit Priorwahrscheinlichkeiten. Ein weiteres Missverständnis ist, dass p < 0.05 bedeutet, der Effekt sei groß oder praktisch wichtig. Statistische Signifikanz hängt von der Stichprobengröße ab — mit einer ausreichend großen Stichprobe kann selbst ein trivial kleiner und bedeutungsloser Effekt p < 0.05 ergeben. Berichten Sie daher immer Effektgrößen zusammen mit p-Werten.
Das Signifikanzniveau α sollte vor dem Blick auf die Daten festgelegt werden und das vertretbare Risiko eines falsch-positiven Befunds (Fehler 1. Art) widerspiegeln. Verschiedene Fachgebiete verwenden unterschiedliche Konventionen: α = 0.05 ist in den meisten biomedizinischen und sozialwissenschaftlichen Studien Standard, α = 0.01 ist üblich, wenn falsch-positive Ergebnisse teuer sind, und α = 5 × 10⁻⁸ wird in genomweiten Assoziationsstudien verwendet, um die große Zahl gleichzeitig durchgeführter Tests zu berücksichtigen. Dieser Rechner unterstützt α-Werte von 0.01, 0.05 und 0.10.
Rechenbeispiele
Vier Beispiele für jeden unterstützten Testtyp zeigen Eingabe, p-Wert und Signifikanzurteil.
| Testkonfiguration | p-Wert | Urteil bei α = 0.05 |
|---|---|---|
| Z-Test, zweiseitig, Z = 2.5, α = 0.05 | p = 0.0124 | p < 0.05 → signifikant. Die Wahrscheinlichkeit von |Z| ≥ 2.5 unter H₀ beträgt etwa 1.24%. |
| t-Test, rechtsseitig, t = 2.1, df = 15, α = 0.05 | p = 0.0267 | p < 0.05 → signifikant. Ein einseitiger t-Test mit 15 df bei t = 2.1 ergibt p ≈ 0.027. |
| Chi-Quadrat, rechtsseitig, χ² = 18.3, df = 10, α = 0.01 | p = 0.0499 | p > 0.01 → bei α = 0.01 nicht signifikant. Dasselbe Ergebnis ist bei α = 0.05 signifikant. |
| F-Test, rechtsseitig, F = 3.8, df1 = 2, df2 = 27, α = 0.05 | p = 0.0347 | p < 0.05 → signifikant. Ein ANOVA-F-Verhältnis von 3.8 mit 2 und 27 Freiheitsgraden. |
So verwenden Sie den p-Wert-Rechner
- Wählen Sie den statistischen Testtyp (Z-Test, t-Test, F-Test oder Chi-Quadrat-Test), der zu Ihrer Berechnung der Teststatistik passt.
- Wählen Sie den Seitentyp: Zweiseitig für H₁: ≠, rechtsseitig für H₁: > oder linksseitig für H₁: <.
- Geben Sie Ihre Teststatistik in das Feld 'Teststatistik' ein. Beim t-Test, F-Test und Chi-Quadrat-Test müssen Sie außerdem die Freiheitsgrade angeben (beim F-Test zwei Werte).
- Setzen Sie das Signifikanzniveau α. Klicken Sie auf Berechnen, um p-Wert und Signifikanzurteil zu erhalten.
- Wenn p ≤ α, verwerfen Sie H₀ und berichten das Ergebnis als statistisch signifikant. Wenn p > α, verwerfen Sie H₀ nicht. Ergänzen Sie immer eine Effektgröße.
Häufig gestellte Fragen
Was misst der p-Wert eigentlich?
Der p-Wert misst die Wahrscheinlichkeit, unter der Annahme einer wahren Nullhypothese eine Teststatistik zu beobachten, die so extrem oder extremer ist als die berechnete. Er quantifiziert, wie überraschend Ihre Daten unter H₀ sind. Er misst nicht die Wahrscheinlichkeit, dass H₀ wahr ist, die Größe des Effekts oder die Wahrscheinlichkeit, einen Fehler gemacht zu haben.
Warum ist α = 0.05 der konventionelle Schwellenwert?
Der 0.05-Schwellenwert wurde von Ronald Fisher in den 1920er-Jahren als praktische Konvention populär gemacht, nicht als universelle Wahrheit. Er bedeutet, dass Sie ein 5%iges Risiko eines falsch-positiven Ergebnisses akzeptieren. Verschiedene Bereiche verwenden unterschiedliche Schwellen: Teilchenphysik verlangt oft p < 5×10⁻⁷, Genomik typischerweise p < 5×10⁻⁸, und klinische Studien nutzen manchmal α = 0.01. Der richtige Schwellenwert hängt von den Kosten falsch-positiver und falsch-negativer Ergebnisse ab.
Was ist der Unterschied zwischen einseitigem und zweiseitigem Test?
Ein zweiseitiger Test prüft auf Unterschiede in beide Richtungen und teilt α gleich auf beide Seiten auf. Ein einseitiger Test konzentriert das gesamte α auf eine Richtung und bietet dort mehr Power, ist aber nur gültig, wenn die Richtung des Effekts vor dem Blick auf die Daten festgelegt wurde. Einen einseitigen Test zu nutzen, um ein grenzwertiges zweiseitiges Ergebnis zu retten, ist p-Hacking.
Wie werden die Freiheitsgrade bestimmt?
Die Freiheitsgrade (df) spiegeln die Zahl unabhängiger Informationsstücke in den Daten wider. Beim Ein-Stichproben-t-Test gilt df = n − 1. Beim unabhängigen Zwei-Stichproben-t-Test gilt df = n₁ + n₂ − 2. Beim Chi-Quadrat-Test auf Unabhängigkeit in einer r × c-Tabelle gilt df = (r − 1)(c − 1). Beim einseitigen ANOVA-F-Test gilt: Zähler-df = k − 1 (Gruppen minus 1) und Nenner-df = N − k (Gesamtbeobachtungen minus Gruppen).
Was ist p-Hacking und warum ist es schädlich?
p-Hacking ist die Praxis, mehrere Tests, Teilgruppen oder Modell-Spezifikationen so lange durchzuführen, bis ein p < 0.05-Ergebnis erscheint, und dann nur dieses Ergebnis zu berichten. Dadurch steigt die tatsächliche Fehler-1.-Art-Rate weit über α hinaus, und es entstehen falsch-positive Ergebnisse, die sich nicht replizieren lassen. Um das zu vermeiden, sollten Sie Ihren Analyseplan vorab registrieren, für multiples Testen korrigieren (z. B. Bonferroni-Korrektur) und alle durchgeführten Tests berichten.
Kann ein sehr kleiner p-Wert bedeuten, dass das Ergebnis unwichtig ist?
Ja. Bei ausreichend großer Stichprobe kann selbst ein winziger Effekt (etwa ein Medikament, das den Blutdruck nur um 0.1 mmHg senkt) p < 0.001 ergeben. Statistische Signifikanz und praktische Relevanz sind nicht dasselbe. Berechnen und berichten Sie immer eine Effektgröße (Cohen's d, Odds Ratio, R² usw.) zusammen mit dem p-Wert, damit Leser beurteilen können, ob der Effekt praktisch groß genug ist.