Calculadora de p-valor - testes Z, t, F e qui-quadrado

Encontre o p-valor de qualquer estatística de teste — Z, t, F ou qui-quadrado — com opções bicaudal, cauda direita ou cauda esquerda para decisões imediatas de significância.

Selecione o tipo de teste estatístico e a cauda, informe a estatística de teste e os graus de liberdade, e obtenha o p-valor exato e um veredito de significância.

Calculadora de p-valor - testes Z, t, F e qui-quadrado
Encontre o p-valor de qualquer estatística de teste — Z, t, F ou qui-quadrado — com opções bicaudal, cauda direita ou cauda esquerda para decisões imediatas de significância.

Sobre a calculadora de p-valor

O p-valor é a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a observada, assumindo que a hipótese nula é verdadeira. É a saída central de quase todos os testes estatísticos clássicos e serve como o principal critério para decidir se a hipótese nula deve ser rejeitada. Um p-valor pequeno significa que os dados observados são improváveis sob a hipótese nula, o que é evidência a favor da hipótese alternativa. O procedimento começa com uma hipótese nula H₀ (normalmente uma afirmação de nenhum efeito, nenhuma diferença ou nenhuma associação) e uma hipótese alternativa H₁. Em seguida, você coleta dados, calcula uma estatística de teste (Z, t, F ou χ²) e usa a distribuição de probabilidade dessa estatística sob H₀ para encontrar o p-valor. Se o p-valor for menor ou igual ao nível de significância α pré-definido (mais comumente 0.05), você rejeita H₀ e declara o resultado estatisticamente significativo. Diferentes estatísticas de teste seguem diferentes distribuições de probabilidade. A estatística Z segue a distribuição normal padrão e é usada quando o desvio-padrão populacional é conhecido ou a amostra é muito grande. A estatística t segue a distribuição t de Student com um número específico de graus de liberdade (df = n − 1 em um teste de uma amostra) e é usada para amostras pequenas a moderadas quando o desvio-padrão populacional é desconhecido. A estatística F segue uma distribuição F com graus de liberdade do numerador e do denominador, e é a base da ANOVA e do teste F de igualdade de variâncias. A estatística qui-quadrado segue uma distribuição qui-quadrado com df graus de liberdade e é usada para testes de independência em tabelas de contingência e testes de aderência. O tipo de cauda determina qual região da distribuição é usada para calcular o p-valor. Um teste bicaudal é apropriado quando a hipótese alternativa é não direcional (H₁: μ ≠ μ₀) e o p-valor soma a probabilidade nas duas extremidades. Um teste de cauda direita se aplica quando H₁ especifica uma direção positiva (H₁: μ > μ₀), e um teste de cauda esquerda quando H₁ especifica uma direção negativa (H₁: μ < μ₀). Para o teste F e o teste qui-quadrado, que na prática são inerentemente unilaterais (a estatística não pode ser negativa), o valor padrão reportado é o p-valor de cauda direita. Um equívoco crítico e comum é pensar que o p-valor é a probabilidade de H₀ ser verdadeira. Não é. O p-valor é uma probabilidade condicional: P(dados tão extremos | H₀ verdadeira). Ele não diz nada sobre a probabilidade de H₀ ou H₁ ser verdadeira; para isso você precisa de inferência bayesiana com probabilidades prévias. Outro equívoco é que p < 0.05 significa que o efeito é grande ou praticamente importante. A significância estatística depende do tamanho da amostra — com uma amostra grande o suficiente, até um efeito trivial e sem importância produzirá p < 0.05. Sempre informe tamanhos de efeito junto com os p-valores. O nível de significância α deve ser decidido antes de olhar os dados e deve refletir o risco tolerável de falso positivo (erro do tipo I). Diferentes áreas usam convenções diferentes: α = 0.05 é padrão na maioria das pesquisas biomédicas e de ciências sociais, α = 0.01 é comum quando falsos positivos são caros, e α = 5 × 10⁻⁸ é usado em estudos de associação genômica ampla para lidar com o grande número de testes realizados simultaneamente. Esta calculadora aceita valores de α de 0.01, 0.05 e 0.10.

Exemplos resolvidos

Quatro exemplos cobrindo cada tipo de teste suportado, mostrando a entrada, o p-valor e o veredito de significância.

Configuração do testeP-valorVeredito em α = 0.05
Teste Z, bicaudal, Z = 2.5, α = 0.05p = 0.0124p < 0.05 → significativo. A probabilidade de |Z| ≥ 2.5 sob H₀ é de cerca de 1.24%.
Teste t, cauda direita, t = 2.1, df = 15, α = 0.05p = 0.0267p < 0.05 → significativo. Um teste t unilateral com 15 df e t = 2.1 produz p ≈ 0.027.
Qui-quadrado, cauda direita, χ² = 18.3, df = 10, α = 0.01p = 0.0499p > 0.01 → não significativo em α = 0.01. O mesmo resultado é significativo em α = 0.05.
Teste F, cauda direita, F = 3.8, df1 = 2, df2 = 27, α = 0.05p = 0.0347p < 0.05 → significativo. Uma razão F de ANOVA de 3.8 com 2 e 27 graus de liberdade.

Como usar a calculadora de p-valor

  1. Selecione o tipo de teste estatístico (Z, t, F ou qui-quadrado) que corresponde à forma como sua estatística foi calculada.
  2. Escolha o tipo de cauda: bicaudal para H₁: ≠, cauda direita para H₁: >, ou cauda esquerda para H₁: <.
  3. Digite sua estatística de teste no campo 'Estatística de teste'. Para os testes t, F e qui-quadrado, informe também os graus de liberdade (dois valores para o teste F).
  4. Defina o nível de significância α. Clique em Calcular para obter o p-valor e o veredito de significância.
  5. Se p ≤ α, rejeite H₀ e reporte o resultado como estatisticamente significativo. Se p > α, não rejeite H₀. Sempre complemente com um tamanho de efeito.

Perguntas frequentes

O que o p-valor realmente mede?
O p-valor mede a probabilidade de observar uma estatística de teste tão extrema quanto (ou mais extrema que) a calculada, assumindo que a hipótese nula é verdadeira. Ele quantifica o quão surpreendentes são seus dados sob H₀. Não mede a probabilidade de H₀ ser verdadeira, o tamanho do efeito ou a probabilidade de ter cometido um erro.
Por que α = 0.05 é o limiar convencional?
O limiar de 0.05 foi popularizado por Ronald Fisher nos anos 1920 como uma convenção prática, não como uma verdade universal. Ele significa que você aceita uma chance de 5% de falso positivo (rejeitar uma H₀ verdadeira). Diferentes áreas usam limites diferentes: física de partículas costuma exigir p < 5×10⁻⁷, genômica geralmente usa p < 5×10⁻⁸ e ensaios clínicos às vezes usam α = 0.01. O limite certo depende dos custos de falsos positivos e falsos negativos na sua área.
Qual é a diferença entre teste unilateral e bicaudal?
Um teste bicaudal verifica diferença em qualquer direção e divide α igualmente entre as duas caudas. Um teste unilateral concentra todo o α em uma única direção e oferece mais poder para detectar um efeito nessa direção, mas só é válido quando a direção do efeito foi especificada antes de ver os dados. Usar um teste unilateral para salvar um resultado bicaudal limítrofe é p-hacking.
Como os graus de liberdade são determinados?
Os graus de liberdade (df) refletem o número de informações independentes nos dados. Em um teste t de uma amostra, df = n − 1. Em um teste t de amostras independentes, df = n₁ + n₂ − 2. Em um teste qui-quadrado de independência em uma tabela r × c, df = (r − 1)(c − 1). Em um teste F de ANOVA de um fator, o numerador df = k − 1 (grupos menos 1) e o denominador df = N − k (observações totais menos grupos).
O que é p-hacking e por que é prejudicial?
P-hacking é a prática de executar múltiplos testes, subgrupos ou especificações de modelo até surgir um resultado com p < 0.05 e então reportar apenas esse resultado. Isso infla a taxa real de erro do tipo I muito acima de α e produz falsos positivos que não se replicam. Para evitar isso, preregistre seu plano de análise, corrija para comparações múltiplas (por exemplo, correção de Bonferroni) e reporte todos os testes realizados.
Um p-valor muito pequeno pode significar que o resultado é pouco importante?
Sim. Com uma amostra grande o suficiente, até um efeito minúsculo (por exemplo, um remédio que reduza a pressão arterial em apenas 0.1 mmHg) pode produzir p < 0.001. Significância estatística e significância prática não são a mesma coisa. Sempre calcule e reporte uma medida de tamanho de efeito (d de Cohen, odds ratio, R² etc.) junto com o p-valor para que os leitores possam avaliar se o efeito é grande o suficiente na prática.