Q: Qual é a diferença entre teste unilateral e bicaudal?

Um teste bicaudal verifica diferença em qualquer direção e divide α igualmente entre as duas caudas. Um teste unilateral concentra todo o α em uma única direção e oferece mais poder para detectar um efeito nessa direção, mas só é válido quando a direção do efeito foi especificada antes de ver os dados. Usar um teste unilateral para salvar um resultado bicaudal limítrofe é p-hacking.

Q: Como os graus de liberdade são determinados?

Os graus de liberdade (df) refletem o número de informações independentes nos dados. Em um teste t de uma amostra, df = n − 1. Em um teste t de amostras independentes, df = n₁ + n₂ − 2. Em um teste qui-quadrado de independência em uma tabela r × c, df = (r − 1)(c − 1). Em um teste F de ANOVA de um fator, o numerador df = k − 1 (grupos menos 1) e o denominador df = N − k (observações totais menos grupos).

Q: O que é p-hacking e por que é prejudicial?

P-hacking é a prática de executar múltiplos testes, subgrupos ou especificações de modelo até surgir um resultado com p < 0.05 e então reportar apenas esse resultado. Isso infla a taxa real de erro do tipo I muito acima de α e produz falsos positivos que não se replicam. Para evitar isso, preregistre seu plano de análise, corrija para comparações múltiplas (por exemplo, correção de Bonferroni) e reporte todos os testes realizados.

Q: Um p-valor muito pequeno pode significar que o resultado é pouco importante?

Sim. Com uma amostra grande o suficiente, até um efeito minúsculo (por exemplo, um remédio que reduza a pressão arterial em apenas 0.1 mmHg) pode produzir p < 0.001. Significância estatística e significância prática não são a mesma coisa. Sempre calcule e reporte uma medida de tamanho de efeito (d de Cohen, odds ratio, R² etc.) junto com o p-valor para que os leitores possam avaliar se o efeito é grande o suficiente na prática.

Question 1

O que o p-valor realmente mede?

Accepted Answer

O p-valor mede a probabilidade de observar uma estatística de teste tão extrema quanto (ou mais extrema que) a calculada, assumindo que a hipótese nula é verdadeira. Ele quantifica o quão surpreendentes são seus dados sob H₀. Não mede a probabilidade de H₀ ser verdadeira, o tamanho do efeito ou a probabilidade de ter cometido um erro.

Question 2

Por que α = 0.05 é o limiar convencional?

Accepted Answer

O limiar de 0.05 foi popularizado por Ronald Fisher nos anos 1920 como uma convenção prática, não como uma verdade universal. Ele significa que você aceita uma chance de 5% de falso positivo (rejeitar uma H₀ verdadeira). Diferentes áreas usam limites diferentes: física de partículas costuma exigir p < 5×10⁻⁷, genômica geralmente usa p < 5×10⁻⁸ e ensaios clínicos às vezes usam α = 0.01. O limite certo depende dos custos de falsos positivos e falsos negativos na sua área.

Question 3

Qual é a diferença entre teste unilateral e bicaudal?

Accepted Answer

Um teste bicaudal verifica diferença em qualquer direção e divide α igualmente entre as duas caudas. Um teste unilateral concentra todo o α em uma única direção e oferece mais poder para detectar um efeito nessa direção, mas só é válido quando a direção do efeito foi especificada antes de ver os dados. Usar um teste unilateral para salvar um resultado bicaudal limítrofe é p-hacking.

Question 4

Como os graus de liberdade são determinados?

Accepted Answer

Os graus de liberdade (df) refletem o número de informações independentes nos dados. Em um teste t de uma amostra, df = n − 1. Em um teste t de amostras independentes, df = n₁ + n₂ − 2. Em um teste qui-quadrado de independência em uma tabela r × c, df = (r − 1)(c − 1). Em um teste F de ANOVA de um fator, o numerador df = k − 1 (grupos menos 1) e o denominador df = N − k (observações totais menos grupos).

Question 5

O que é p-hacking e por que é prejudicial?

Accepted Answer

P-hacking é a prática de executar múltiplos testes, subgrupos ou especificações de modelo até surgir um resultado com p < 0.05 e então reportar apenas esse resultado. Isso infla a taxa real de erro do tipo I muito acima de α e produz falsos positivos que não se replicam. Para evitar isso, preregistre seu plano de análise, corrija para comparações múltiplas (por exemplo, correção de Bonferroni) e reporte todos os testes realizados.

Question 6

Um p-valor muito pequeno pode significar que o resultado é pouco importante?

Accepted Answer

Sim. Com uma amostra grande o suficiente, até um efeito minúsculo (por exemplo, um remédio que reduza a pressão arterial em apenas 0.1 mmHg) pode produzir p < 0.001. Significância estatística e significância prática não são a mesma coisa. Sempre calcule e reporte uma medida de tamanho de efeito (d de Cohen, odds ratio, R² etc.) junto com o p-valor para que os leitores possam avaliar se o efeito é grande o suficiente na prática.

Configuração do teste	P-valor	Veredito em α = 0.05
Teste Z, bicaudal, Z = 2.5, α = 0.05	p = 0.0124	p < 0.05 → significativo. A probabilidade de \|Z\| ≥ 2.5 sob H₀ é de cerca de 1.24%.
Teste t, cauda direita, t = 2.1, df = 15, α = 0.05	p = 0.0267	p < 0.05 → significativo. Um teste t unilateral com 15 df e t = 2.1 produz p ≈ 0.027.
Qui-quadrado, cauda direita, χ² = 18.3, df = 10, α = 0.01	p = 0.0499	p > 0.01 → não significativo em α = 0.01. O mesmo resultado é significativo em α = 0.05.
Teste F, cauda direita, F = 3.8, df1 = 2, df2 = 27, α = 0.05	p = 0.0347	p < 0.05 → significativo. Uma razão F de ANOVA de 3.8 com 2 e 27 graus de liberdade.

Calculadora de p-valor - testes Z, t, F e qui-quadrado

Sobre a calculadora de p-valor

Exemplos resolvidos

Como usar a calculadora de p-valor

Perguntas frequentes