Q: ¿Cuál es la diferencia entre una prueba unilateral y una bilateral?

Una prueba bilateral busca una diferencia en cualquier dirección y divide α por igual entre ambas colas. Una prueba unilateral concentra todo α en una sola dirección y ofrece más potencia para detectar un efecto en esa dirección, pero solo es válida cuando la dirección del efecto se especificó antes de ver los datos. Usar una prueba unilateral para rescatar un resultado bilateral borderline es p-hacking.

Q: ¿Cómo se determinan los grados de libertad?

Los grados de libertad (df) reflejan la cantidad de información independiente en los datos. En una prueba t de una muestra, df = n − 1. En una prueba t de muestras independientes, df = n₁ + n₂ − 2. En una prueba chi-cuadrado de independencia en una tabla r × c, df = (r − 1)(c − 1). En una prueba F de ANOVA de una vía, el numerador df = k − 1 (grupos menos 1) y el denominador df = N − k (observaciones totales menos grupos).

Q: ¿Qué es el p-hacking y por qué es perjudicial?

El p-hacking consiste en ejecutar múltiples pruebas, subgrupos o especificaciones de modelo hasta que aparezca un resultado con p < 0.05 y luego reportar solo ese resultado. Infla la tasa real de error de tipo I muy por encima de α y produce falsos positivos que no se replican. Para evitarlo, preregistra tu plan de análisis, corrige por comparaciones múltiples (por ejemplo, corrección de Bonferroni) y reporta todas las pruebas realizadas.

Q: ¿Un p-valor muy pequeño puede significar que el resultado es poco importante?

Sí. Con una muestra suficientemente grande, incluso un efecto trivial (por ejemplo, un fármaco que reduce la presión arterial solo 0.1 mmHg) puede producir p < 0.001. La significancia estadística y la significancia práctica no son lo mismo. Calcula y reporta siempre una medida del tamaño del efecto (d de Cohen, odds ratio, R², etc.) junto con el p-valor para que los lectores juzguen si el efecto es suficientemente grande en la práctica.

Question 1

¿Qué mide realmente el p-valor?

Accepted Answer

El p-valor mide la probabilidad de observar un estadístico de prueba tan extremo como (o más extremo que) el que calculaste, suponiendo que la hipótesis nula es verdadera. Cuantifica cuán sorprendentes son tus datos bajo H₀. No mide la probabilidad de que H₀ sea verdadera, el tamaño del efecto ni la probabilidad de haber cometido un error.

Question 2

¿Por qué α = 0.05 es el umbral convencional?

Accepted Answer

El umbral de 0.05 fue popularizado por Ronald Fisher en la década de 1920 como una convención práctica, no como una verdad universal. Significa que aceptas una probabilidad del 5% de falso positivo (rechazar una H₀ verdadera). Distintos campos usan distintos umbrales: la física de partículas exige p < 5×10⁻⁷, la genómica suele usar p < 5×10⁻⁸ y los ensayos clínicos a veces emplean α = 0.01. El umbral adecuado depende del costo de los falsos positivos y falsos negativos en tu área.

Question 3

¿Cuál es la diferencia entre una prueba unilateral y una bilateral?

Accepted Answer

Una prueba bilateral busca una diferencia en cualquier dirección y divide α por igual entre ambas colas. Una prueba unilateral concentra todo α en una sola dirección y ofrece más potencia para detectar un efecto en esa dirección, pero solo es válida cuando la dirección del efecto se especificó antes de ver los datos. Usar una prueba unilateral para rescatar un resultado bilateral borderline es p-hacking.

Question 4

¿Cómo se determinan los grados de libertad?

Accepted Answer

Los grados de libertad (df) reflejan la cantidad de información independiente en los datos. En una prueba t de una muestra, df = n − 1. En una prueba t de muestras independientes, df = n₁ + n₂ − 2. En una prueba chi-cuadrado de independencia en una tabla r × c, df = (r − 1)(c − 1). En una prueba F de ANOVA de una vía, el numerador df = k − 1 (grupos menos 1) y el denominador df = N − k (observaciones totales menos grupos).

Question 5

¿Qué es el p-hacking y por qué es perjudicial?

Accepted Answer

El p-hacking consiste en ejecutar múltiples pruebas, subgrupos o especificaciones de modelo hasta que aparezca un resultado con p < 0.05 y luego reportar solo ese resultado. Infla la tasa real de error de tipo I muy por encima de α y produce falsos positivos que no se replican. Para evitarlo, preregistra tu plan de análisis, corrige por comparaciones múltiples (por ejemplo, corrección de Bonferroni) y reporta todas las pruebas realizadas.

Question 6

¿Un p-valor muy pequeño puede significar que el resultado es poco importante?

Accepted Answer

Sí. Con una muestra suficientemente grande, incluso un efecto trivial (por ejemplo, un fármaco que reduce la presión arterial solo 0.1 mmHg) puede producir p < 0.001. La significancia estadística y la significancia práctica no son lo mismo. Calcula y reporta siempre una medida del tamaño del efecto (d de Cohen, odds ratio, R², etc.) junto con el p-valor para que los lectores juzguen si el efecto es suficientemente grande en la práctica.

Configuración de la prueba	P-valor	Veredicto con α = 0.05
Prueba Z, bilateral, Z = 2.5, α = 0.05	p = 0.0124	p < 0.05 → significativo. La probabilidad de \|Z\| ≥ 2.5 bajo H₀ es de aproximadamente 1.24%.
Prueba t, cola derecha, t = 2.1, df = 15, α = 0.05	p = 0.0267	p < 0.05 → significativo. Una prueba t unilateral con 15 df y t = 2.1 da p ≈ 0.027.
Chi-cuadrado, cola derecha, χ² = 18.3, df = 10, α = 0.01	p = 0.0499	p > 0.01 → no significativo con α = 0.01. El mismo resultado es significativo con α = 0.05.
Prueba F, cola derecha, F = 3.8, df1 = 2, df2 = 27, α = 0.05	p = 0.0347	p < 0.05 → significativo. Un cociente F de ANOVA de 3.8 con 2 y 27 grados de libertad.

Calculadora de p-valor - pruebas Z, t, F y chi-cuadrado

Acerca de la calculadora de p-valor

Ejemplos resueltos

Cómo usar la calculadora de p-valor

Preguntas frecuentes