Q: ¿Qué significa realmente el p-valor?

El p-valor es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el observado, suponiendo que la hipótesis nula es verdadera. No es la probabilidad de que H₀ sea verdadera, ni la probabilidad de que tu resultado haya ocurrido por casualidad. Un p-valor por debajo de α (comúnmente 0.05) significa que los datos observados serían sorprendentes si H₀ fuera verdadera, por lo que se rechaza H₀. Un p-valor por encima de α significa que los datos son consistentes con H₀, así que no se rechaza, pero eso no prueba que H₀ sea correcta.

Q: ¿Cuándo debo usar una prueba unilateral y cuándo una bilateral?

Usa una prueba bilateral cuando una diferencia en cualquiera de las dos direcciones sea científicamente relevante y no tengas una razón fuerte para esperar una dirección específica. Usa una prueba unilateral cuando la teoría o la evidencia previa especifican claramente la dirección del efecto antes de recolectar datos. Cambiar a una prueba unilateral después de ver los datos para lograr significancia es p-hacking e invalida el análisis. Una prueba unilateral con α=0.05 equivale a una prueba bilateral con α=0.10.

Q: ¿Qué es el nivel de significancia α y cómo lo elijo?

El nivel de significancia α es la probabilidad máxima aceptable de un error de Tipo I, es decir, rechazar incorrectamente una hipótesis nula verdadera. La elección convencional es 0.05 (5%), pero se usa 0.01 cuando los falsos positivos son especialmente costosos (diagnóstico médico, sistemas críticos de seguridad). Algunas áreas recomiendan reportar p-valores exactos en lugar de depender de un umbral fijo, y combinarlos con intervalos de confianza y tamaños del efecto para tener una imagen más completa.

Q: ¿Qué son los errores de Tipo I y Tipo II?

Un error de Tipo I (falso positivo) ocurre cuando rechazas H₀ aunque sea verdadera; su probabilidad es α. Un error de Tipo II (falso negativo) ocurre cuando no rechazas H₀ aunque sea falsa; su probabilidad es β, y la potencia estadística es 1−β. Reducir α endurece el criterio de rechazo, lo que baja los errores de Tipo I pero aumenta los de Tipo II. Aumentar el tamaño de muestra es la forma más limpia de reducir ambos al mismo tiempo.

Q: ¿Puedo usar esta calculadora para proporciones de encuestas?

Sí — el modo de Prueba Z para Proporción está diseñado exactamente para eso. Ingresa la proporción poblacional hipotetizada p₀ (tu línea base o valor teórico), tu tamaño de muestra n y la proporción muestral observada p̂ (éxitos divididos entre n). La calculadora aplica la fórmula estándar Z = (p̂ − p₀) / √(p₀(1−p₀)/n). La aproximación normal es confiable cuando tanto n·p₀ como n·(1−p₀) superan 5 o 10.

Question 1

¿Cuál es la diferencia entre una prueba Z y una prueba T?

Accepted Answer

Una prueba Z se usa cuando la desviación estándar poblacional σ es conocida, lo que permite usar la distribución normal estándar para calcular p-valores exactos. Una prueba T se usa cuando σ es desconocida y debe estimarse con la desviación estándar muestral s; el estadístico resultante sigue una distribución t con n−1 grados de libertad, que tiene colas más pesadas que la normal para reflejar la incertidumbre adicional. A medida que crece el tamaño de muestra, la t converge a la normal, así que la diferencia importa sobre todo en muestras pequeñas (aprox. n < 30).

Question 2

¿Qué significa realmente el p-valor?

Accepted Answer

El p-valor es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el observado, suponiendo que la hipótesis nula es verdadera. No es la probabilidad de que H₀ sea verdadera, ni la probabilidad de que tu resultado haya ocurrido por casualidad. Un p-valor por debajo de α (comúnmente 0.05) significa que los datos observados serían sorprendentes si H₀ fuera verdadera, por lo que se rechaza H₀. Un p-valor por encima de α significa que los datos son consistentes con H₀, así que no se rechaza, pero eso no prueba que H₀ sea correcta.

Question 3

¿Cuándo debo usar una prueba unilateral y cuándo una bilateral?

Accepted Answer

Usa una prueba bilateral cuando una diferencia en cualquiera de las dos direcciones sea científicamente relevante y no tengas una razón fuerte para esperar una dirección específica. Usa una prueba unilateral cuando la teoría o la evidencia previa especifican claramente la dirección del efecto antes de recolectar datos. Cambiar a una prueba unilateral después de ver los datos para lograr significancia es p-hacking e invalida el análisis. Una prueba unilateral con α=0.05 equivale a una prueba bilateral con α=0.10.

Question 4

¿Qué es el nivel de significancia α y cómo lo elijo?

Accepted Answer

El nivel de significancia α es la probabilidad máxima aceptable de un error de Tipo I, es decir, rechazar incorrectamente una hipótesis nula verdadera. La elección convencional es 0.05 (5%), pero se usa 0.01 cuando los falsos positivos son especialmente costosos (diagnóstico médico, sistemas críticos de seguridad). Algunas áreas recomiendan reportar p-valores exactos en lugar de depender de un umbral fijo, y combinarlos con intervalos de confianza y tamaños del efecto para tener una imagen más completa.

Question 5

¿Qué son los errores de Tipo I y Tipo II?

Accepted Answer

Un error de Tipo I (falso positivo) ocurre cuando rechazas H₀ aunque sea verdadera; su probabilidad es α. Un error de Tipo II (falso negativo) ocurre cuando no rechazas H₀ aunque sea falsa; su probabilidad es β, y la potencia estadística es 1−β. Reducir α endurece el criterio de rechazo, lo que baja los errores de Tipo I pero aumenta los de Tipo II. Aumentar el tamaño de muestra es la forma más limpia de reducir ambos al mismo tiempo.

Question 6

¿Puedo usar esta calculadora para proporciones de encuestas?

Accepted Answer

Sí — el modo de Prueba Z para Proporción está diseñado exactamente para eso. Ingresa la proporción poblacional hipotetizada p₀ (tu línea base o valor teórico), tu tamaño de muestra n y la proporción muestral observada p̂ (éxitos divididos entre n). La calculadora aplica la fórmula estándar Z = (p̂ − p₀) / √(p₀(1−p₀)/n). La aproximación normal es confiable cuando tanto n·p₀ como n·(1−p₀) superan 5 o 10.

Escenario	Resultado	Interpretación
Control de calidad: x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, prueba Z bilateral	Z=2.357, p=0.0184 → Rechazar H₀	El diámetro promedio del perno se ha desplazado significativamente del objetivo de 10 mm; el proceso necesita ajuste.
Ensayo de medicamento: x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, prueba T de cola derecha	T=3.651, df=29, p=0.0005 → Rechazar H₀	Hay evidencia sólida de que el fármaco reduce la presión arterial en más de 10 mmHg en promedio.
Prueba A/B: p̂=0.095, p₀=0.08, n=1000, α=0.05, prueba Z de cola derecha (proporción)	Z=1.750, p=0.0401 → Rechazar H₀	El nuevo diseño del botón aumenta significativamente la tasa de clics por encima del 8% base.
Eficiencia de combustible: x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, prueba Z de cola izquierda	Z=−3.162, p=0.0008 → Rechazar H₀	Hay evidencia al 1% de que la eficiencia de combustible del modelo está por debajo de los 30 mpg anunciados.

Calculadora de hipótesis - Z, T y p-valor

Acerca de la calculadora de hipótesis

Ejemplos de prueba de hipótesis

Cómo usar la calculadora de hipótesis

Preguntas frecuentes sobre prueba de hipótesis