Q: O que o p-valor realmente significa?

O p-valor é a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a observada, assumindo que a hipótese nula é verdadeira. Não é a probabilidade de H₀ ser verdadeira, nem a probabilidade de o seu resultado ter acontecido por acaso. Um p-valor abaixo de α (comumente 0.05) significa que os dados observados seriam surpreendentes se H₀ fosse verdadeira, então você rejeita H₀. Um p-valor acima de α significa que os dados são consistentes com H₀, então você não a rejeita — mas isso não prova que H₀ está correta.

Q: Quando devo usar um teste unicaudal em vez de bicaudal?

Use um teste bicaudal quando uma diferença em qualquer direção for cientificamente relevante e você não tiver uma razão forte para esperar uma direção específica. Use um teste unicaudal quando a teoria ou evidências prévias especificarem claramente a direção do efeito antes da coleta de dados. Mudar para um teste unicaudal depois de ver os dados para buscar significância é p-hacking e invalida a análise. Um teste unicaudal com α=0.05 equivale a um teste bicaudal com α=0.10.

Q: O que é o nível de significância α e como devo escolhê-lo?

O nível de significância α é a probabilidade máxima aceitável de um erro do Tipo I — rejeitar incorretamente uma hipótese nula verdadeira. A escolha convencional é 0.05 (5%), mas 0.01 é usado quando falsos positivos são especialmente caros (diagnóstico médico, sistemas críticos de segurança). Algumas áreas agora recomendam reportar p-valores exatos em vez de depender de um limiar fixo, e combiná-los com intervalos de confiança e tamanhos de efeito para uma visão mais completa.

Q: O que são erros do Tipo I e Tipo II?

Um erro do Tipo I (falso positivo) ocorre quando você rejeita H₀ mesmo ela sendo verdadeira; sua probabilidade é α. Um erro do Tipo II (falso negativo) ocorre quando você não rejeita H₀ mesmo ela sendo falsa; sua probabilidade é β, e o poder estatístico é 1−β. Reduzir α torna o critério de rejeição mais rígido, o que diminui erros do Tipo I, mas aumenta os do Tipo II. Aumentar o tamanho da amostra é a forma mais limpa de reduzir ambos ao mesmo tempo.

Q: Posso usar esta calculadora para proporções de pesquisa?

Sim — o modo de Teste Z para Proporção foi feito exatamente para isso. Digite a proporção populacional hipotetizada p₀ (seu valor de referência ou teórico), o tamanho da amostra n e a proporção amostral observada p̂ (sucessos divididos por n). A calculadora aplica a fórmula padrão Z = (p̂ − p₀) / √(p₀(1−p₀)/n). A aproximação normal é confiável quando tanto n·p₀ quanto n·(1−p₀) excedem 5 ou 10.

Question 1

Qual é a diferença entre um teste Z e um teste T?

Accepted Answer

Um teste Z é usado quando o desvio padrão populacional σ é conhecido, o que permite usar a distribuição normal padrão para calcular p-valores exatos. Um teste T é usado quando σ é desconhecido e precisa ser estimado pelo desvio padrão amostral s; a estatística resultante segue uma distribuição t com n−1 graus de liberdade, que tem caudas mais pesadas que a normal para acomodar a incerteza adicional. À medida que o tamanho da amostra cresce, a t converge para a normal, então a distinção importa mais para amostras pequenas (aprox. n < 30).

Question 2

O que o p-valor realmente significa?

Accepted Answer

O p-valor é a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a observada, assumindo que a hipótese nula é verdadeira. Não é a probabilidade de H₀ ser verdadeira, nem a probabilidade de o seu resultado ter acontecido por acaso. Um p-valor abaixo de α (comumente 0.05) significa que os dados observados seriam surpreendentes se H₀ fosse verdadeira, então você rejeita H₀. Um p-valor acima de α significa que os dados são consistentes com H₀, então você não a rejeita — mas isso não prova que H₀ está correta.

Question 3

Quando devo usar um teste unicaudal em vez de bicaudal?

Accepted Answer

Use um teste bicaudal quando uma diferença em qualquer direção for cientificamente relevante e você não tiver uma razão forte para esperar uma direção específica. Use um teste unicaudal quando a teoria ou evidências prévias especificarem claramente a direção do efeito antes da coleta de dados. Mudar para um teste unicaudal depois de ver os dados para buscar significância é p-hacking e invalida a análise. Um teste unicaudal com α=0.05 equivale a um teste bicaudal com α=0.10.

Question 4

O que é o nível de significância α e como devo escolhê-lo?

Accepted Answer

O nível de significância α é a probabilidade máxima aceitável de um erro do Tipo I — rejeitar incorretamente uma hipótese nula verdadeira. A escolha convencional é 0.05 (5%), mas 0.01 é usado quando falsos positivos são especialmente caros (diagnóstico médico, sistemas críticos de segurança). Algumas áreas agora recomendam reportar p-valores exatos em vez de depender de um limiar fixo, e combiná-los com intervalos de confiança e tamanhos de efeito para uma visão mais completa.

Question 5

O que são erros do Tipo I e Tipo II?

Accepted Answer

Um erro do Tipo I (falso positivo) ocorre quando você rejeita H₀ mesmo ela sendo verdadeira; sua probabilidade é α. Um erro do Tipo II (falso negativo) ocorre quando você não rejeita H₀ mesmo ela sendo falsa; sua probabilidade é β, e o poder estatístico é 1−β. Reduzir α torna o critério de rejeição mais rígido, o que diminui erros do Tipo I, mas aumenta os do Tipo II. Aumentar o tamanho da amostra é a forma mais limpa de reduzir ambos ao mesmo tempo.

Question 6

Posso usar esta calculadora para proporções de pesquisa?

Accepted Answer

Sim — o modo de Teste Z para Proporção foi feito exatamente para isso. Digite a proporção populacional hipotetizada p₀ (seu valor de referência ou teórico), o tamanho da amostra n e a proporção amostral observada p̂ (sucessos divididos por n). A calculadora aplica a fórmula padrão Z = (p̂ − p₀) / √(p₀(1−p₀)/n). A aproximação normal é confiável quando tanto n·p₀ quanto n·(1−p₀) excedem 5 ou 10.

Cenário	Resultado	Interpretação
Controle de qualidade: x̄=10.01mm, μ₀=10mm, σ=0.03, n=50, α=0.05, teste Z bicaudal	Z=2.357, p=0.0184 → Rejeitar H₀	O diâmetro médio do parafuso mudou significativamente em relação ao alvo de 10 mm; o processo precisa de ajuste.
Ensaio de medicamento: x̄=12 mmHg, μ₀=10, s=3, n=30, α=0.05, teste T de cauda direita	T=3.651, df=29, p=0.0005 → Rejeitar H₀	Há evidência forte de que o medicamento reduz a pressão arterial em mais de 10 mmHg, em média.
Teste A/B: p̂=0.095, p₀=0.08, n=1000, α=0.05, teste Z de cauda direita (proporção)	Z=1.750, p=0.0401 → Rejeitar H₀	O novo design do botão aumenta significativamente a taxa de cliques acima da base de 8%.
Eficiência de combustível: x̄=29 mpg, μ₀=30, σ=2, n=40, α=0.01, teste Z de cauda esquerda	Z=−3.162, p=0.0008 → Rejeitar H₀	Há evidência, no nível de 1%, de que a eficiência do modelo está abaixo dos 30 mpg anunciados.

Calculadora de hipótese - Z, T e p-valor

Sobre a calculadora de hipótese

Exemplos de teste de hipóteses

Como usar a calculadora de hipótese

Perguntas frequentes sobre teste de hipóteses