Calculadora de p-valor - pruebas Z, t, F y chi-cuadrado

Obtén el p-valor de cualquier estadístico de prueba — Z, t, F o chi-cuadrado — con opciones de cola bilateral, derecha o izquierda para decidir la significancia al instante.

Selecciona el tipo de prueba estadística y la cola, introduce el estadístico de prueba y los grados de libertad, y obtén el p-valor exacto y un veredicto de significancia.

Calculadora de p-valor - pruebas Z, t, F y chi-cuadrado
Obtén el p-valor de cualquier estadístico de prueba — Z, t, F o chi-cuadrado — con opciones de cola bilateral, derecha o izquierda para decidir la significancia al instante.

Acerca de la calculadora de p-valor

El p-valor es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el observado, suponiendo que la hipótesis nula es verdadera. Es el resultado central de casi todas las pruebas estadísticas clásicas y sirve como criterio principal para decidir si se rechaza la hipótesis nula. Un p-valor pequeño significa que los datos observados son poco probables bajo la hipótesis nula, lo que constituye evidencia a favor de la hipótesis alternativa. El procedimiento comienza con una hipótesis nula H₀ (normalmente una afirmación de ausencia de efecto, diferencia o asociación) y una hipótesis alternativa H₁. Luego se recogen los datos, se calcula un estadístico de prueba (Z, t, F o χ²) y se usa la distribución de probabilidad de ese estadístico bajo H₀ para encontrar el p-valor. Si el p-valor es menor o igual que el nivel de significancia α predefinido (habitualmente 0.05), se rechaza H₀ y se declara que el resultado es estadísticamente significativo. Los distintos estadísticos de prueba siguen distribuciones de probabilidad diferentes. El estadístico Z sigue una distribución normal estándar y se usa cuando la desviación estándar poblacional es conocida o la muestra es muy grande. El estadístico t sigue una distribución t de Student con un número específico de grados de libertad (df = n − 1 en una prueba de una muestra) y se usa para muestras pequeñas o moderadas cuando la desviación estándar poblacional es desconocida. El estadístico F sigue una distribución F con grados de libertad del numerador y del denominador, y es la base del ANOVA y de la prueba F de igualdad de varianzas. El estadístico de chi-cuadrado sigue una distribución chi-cuadrado con df grados de libertad y se usa para pruebas de independencia en tablas de contingencia y pruebas de bondad de ajuste. El tipo de cola determina qué región de la distribución se usa para calcular el p-valor. Una prueba bilateral es apropiada cuando la hipótesis alternativa es no direccional (H₁: μ ≠ μ₀) y el p-valor suma la probabilidad de ambos extremos. Una prueba de cola derecha se aplica cuando H₁ especifica una dirección positiva (H₁: μ > μ₀), y una de cola izquierda cuando H₁ especifica una dirección negativa (H₁: μ < μ₀). En la práctica, la prueba F y la prueba chi-cuadrado son intrínsecamente unilaterales (el estadístico no puede ser negativo), por lo que el valor estándar que se reporta es el p-valor de cola derecha. Un error común y crítico es pensar que el p-valor es la probabilidad de que H₀ sea verdadera. No lo es. El p-valor es una probabilidad condicional: P(datos tan extremos | H₀ verdadera). No dice nada sobre la probabilidad de que H₀ o H₁ sean verdaderas; para eso se necesita inferencia bayesiana con probabilidades previas. Otro error es creer que p < 0.05 significa que el efecto es grande o importante en la práctica. La significancia estadística depende del tamaño de la muestra: con una muestra suficientemente grande, incluso un efecto diminuto e irrelevante dará p < 0.05. Siempre informa el tamaño del efecto junto con los p-valores. El nivel de significancia α debe decidirse antes de ver los datos y debe reflejar el riesgo tolerable de un falso positivo (error de tipo I). Distintos campos usan distintos criterios: α = 0.05 es el estándar en la mayoría de la investigación biomédica y de ciencias sociales, α = 0.01 es común cuando los falsos positivos son costosos, y α = 5 × 10⁻⁸ se usa en estudios de asociación del genoma completo para ajustar la gran cantidad de pruebas simultáneas. Esta calculadora admite valores de α de 0.01, 0.05 y 0.10.

Ejemplos resueltos

Cuatro ejemplos que cubren cada tipo de prueba compatible, mostrando la entrada, el p-valor y el veredicto de significancia.

Configuración de la pruebaP-valorVeredicto con α = 0.05
Prueba Z, bilateral, Z = 2.5, α = 0.05p = 0.0124p < 0.05 → significativo. La probabilidad de |Z| ≥ 2.5 bajo H₀ es de aproximadamente 1.24%.
Prueba t, cola derecha, t = 2.1, df = 15, α = 0.05p = 0.0267p < 0.05 → significativo. Una prueba t unilateral con 15 df y t = 2.1 da p ≈ 0.027.
Chi-cuadrado, cola derecha, χ² = 18.3, df = 10, α = 0.01p = 0.0499p > 0.01 → no significativo con α = 0.01. El mismo resultado es significativo con α = 0.05.
Prueba F, cola derecha, F = 3.8, df1 = 2, df2 = 27, α = 0.05p = 0.0347p < 0.05 → significativo. Un cociente F de ANOVA de 3.8 con 2 y 27 grados de libertad.

Cómo usar la calculadora de p-valor

  1. Selecciona el tipo de prueba estadística (Z, t, F o chi-cuadrado) que corresponda a cómo se calculó tu estadístico.
  2. Elige el tipo de cola: bilateral para H₁: ≠, cola derecha para H₁: >, o cola izquierda para H₁: <.
  3. Introduce tu estadístico de prueba en el campo 'Estadístico de prueba'. Para la prueba t, F y chi-cuadrado, introduce también los grados de libertad (dos valores para la prueba F).
  4. Configura el nivel de significancia α. Haz clic en Calcular para obtener el p-valor y el veredicto de significancia.
  5. Si p ≤ α, rechaza H₀ y reporta el resultado como estadísticamente significativo. Si p > α, no rechaces H₀. Acompaña siempre con un tamaño del efecto.

Preguntas frecuentes

¿Qué mide realmente el p-valor?
El p-valor mide la probabilidad de observar un estadístico de prueba tan extremo como (o más extremo que) el que calculaste, suponiendo que la hipótesis nula es verdadera. Cuantifica cuán sorprendentes son tus datos bajo H₀. No mide la probabilidad de que H₀ sea verdadera, el tamaño del efecto ni la probabilidad de haber cometido un error.
¿Por qué α = 0.05 es el umbral convencional?
El umbral de 0.05 fue popularizado por Ronald Fisher en la década de 1920 como una convención práctica, no como una verdad universal. Significa que aceptas una probabilidad del 5% de falso positivo (rechazar una H₀ verdadera). Distintos campos usan distintos umbrales: la física de partículas exige p < 5×10⁻⁷, la genómica suele usar p < 5×10⁻⁸ y los ensayos clínicos a veces emplean α = 0.01. El umbral adecuado depende del costo de los falsos positivos y falsos negativos en tu área.
¿Cuál es la diferencia entre una prueba unilateral y una bilateral?
Una prueba bilateral busca una diferencia en cualquier dirección y divide α por igual entre ambas colas. Una prueba unilateral concentra todo α en una sola dirección y ofrece más potencia para detectar un efecto en esa dirección, pero solo es válida cuando la dirección del efecto se especificó antes de ver los datos. Usar una prueba unilateral para rescatar un resultado bilateral borderline es p-hacking.
¿Cómo se determinan los grados de libertad?
Los grados de libertad (df) reflejan la cantidad de información independiente en los datos. En una prueba t de una muestra, df = n − 1. En una prueba t de muestras independientes, df = n₁ + n₂ − 2. En una prueba chi-cuadrado de independencia en una tabla r × c, df = (r − 1)(c − 1). En una prueba F de ANOVA de una vía, el numerador df = k − 1 (grupos menos 1) y el denominador df = N − k (observaciones totales menos grupos).
¿Qué es el p-hacking y por qué es perjudicial?
El p-hacking consiste en ejecutar múltiples pruebas, subgrupos o especificaciones de modelo hasta que aparezca un resultado con p < 0.05 y luego reportar solo ese resultado. Infla la tasa real de error de tipo I muy por encima de α y produce falsos positivos que no se replican. Para evitarlo, preregistra tu plan de análisis, corrige por comparaciones múltiples (por ejemplo, corrección de Bonferroni) y reporta todas las pruebas realizadas.
¿Un p-valor muy pequeño puede significar que el resultado es poco importante?
Sí. Con una muestra suficientemente grande, incluso un efecto trivial (por ejemplo, un fármaco que reduce la presión arterial solo 0.1 mmHg) puede producir p < 0.001. La significancia estadística y la significancia práctica no son lo mismo. Calcula y reporta siempre una medida del tamaño del efecto (d de Cohen, odds ratio, R², etc.) junto con el p-valor para que los lectores juzguen si el efecto es suficientemente grande en la práctica.