Calculadora de gráfico de dispersão - Correlação e regressão linear
Calcule o coeficiente de correlação (r), R² e a reta de melhor ajuste para quaisquer dois conjuntos de dados — estatísticas instantâneas do gráfico de dispersão.
Insira valores X e Y separados por vírgulas para calcular a regressão linear, o coeficiente de correlação de Pearson e estatísticas descritivas importantes.
Calculadora de gráfico de dispersão - Correlação e regressão linear
Calcule o coeficiente de correlação (r), R² e a reta de melhor ajuste para quaisquer dois conjuntos de dados — estatísticas instantâneas do gráfico de dispersão.
Sobre a calculadora de gráfico de dispersão
Um gráfico de dispersão é um tipo de visualização de dados que mostra duas variáveis numéricas como pontos em um plano cartesiano. Cada ponto representa uma observação: sua posição horizontal corresponde ao valor X e sua posição vertical ao valor Y. Ao examinar o padrão dos pontos, você pode avaliar se existe relação entre as duas variáveis, quão forte ela é e se é linear ou não linear.
Esta calculadora de gráfico de dispersão calcula três grupos de estatísticas. O primeiro grupo é descritivo: o número de pontos de dados n, a média de X (x̄) e a média de Y (ȳ). O segundo grupo é a reta de regressão linear — a linha reta que minimiza a soma dos quadrados das distâncias verticais de cada ponto até a linha. Ela é descrita pela equação y = mx + b, onde m é a inclinação e b é o intercepto em y. A inclinação m é calculada como Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²], e o intercepto b = ȳ − m·x̄.
O terceiro grupo é o das estatísticas de correlação. O coeficiente de correlação de Pearson r = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²] mede a força e a direção da relação linear entre X e Y. Ele varia de −1 a +1. Um valor próximo de +1 indica uma relação positiva forte (à medida que X aumenta, Y aumenta), próximo de −1 indica uma relação negativa forte, e próximo de 0 indica pouca ou nenhuma relação linear. R² (o coeficiente de determinação) é igual a r² e representa a proporção da variância em Y explicada pela regressão linear sobre X. Um R² de 0.90, por exemplo, significa que 90% da variabilidade em Y é explicada pela relação linear com X.
Usos comuns incluem economia (relacionar preço e demanda), biologia (estudar a relação entre altura e peso), educação (correlacionar tempo de estudo com notas), engenharia (prever saída a partir de variáveis de entrada) e análise de negócios (relacionar gasto com publicidade e receita de vendas).
Ao interpretar os resultados, lembre-se de que correlação não implica causalidade. Um r alto apenas mostra que as duas variáveis variam juntas de forma linear; isso não diz se uma causa a outra. Além disso, a regressão linear assume que a relação é realmente linear. Se o gráfico de dispersão sugerir uma curva, um modelo linear será um ajuste ruim, não importa quantos pontos você forneça. Verifique sempre os resíduos ou plote os dados junto com a reta para validar o modelo.
Exemplos da calculadora de gráfico de dispersão
Três conjuntos de dados representativos com coeficientes de correlação e retas de regressão calculados.
| Valores de X, valores de Y | Resultados principais | Interpretação |
|---|---|---|
| X: 1,2,3,4,5 — Y: 2,4,5,4,5 | m≈0.7, b≈2.0, r≈0.8165, R²≈0.6667 | Relação linear positiva moderada. 67% da variância de Y é explicada por X. |
| X: 1,2,3,4,5 — Y: 5,4,3,2,1 | m=−1, b=6, r=−1, R²=1 | Relação linear negativa perfeita. Cada aumento de 1 unidade em X reduz Y exatamente em 1. |
| X: 2,4,6,8,10 — Y: 3,7,8,13,15 | m≈1.5, b≈−0.2, r≈0.9918, R²≈0.9837 | Relação positiva muito forte. A reta y = 1.5x − 0.2 explica 98.4% da variação em Y. |
Como usar a calculadora de gráfico de dispersão
- Digite seus dados do eixo X como números separados por vírgulas no campo 'Valores do eixo X' — por exemplo: 1, 2, 3, 4, 5.
- Digite os dados correspondentes do eixo Y no campo 'Valores do eixo Y'. A quantidade de valores deve corresponder ao campo X.
- Clique em Calcular. A ferramenta calcula a inclinação da regressão m, o intercepto b, o coeficiente de correlação r e R².
- Leia a equação de regressão y = mx + b para prever Y para qualquer novo valor de X.
- Interprete r: valores próximos de ±1 indicam relações lineares fortes; valores próximos de 0 sugerem correlação linear fraca ou inexistente.
FAQ da calculadora de gráfico de dispersão
O que é o coeficiente de correlação de Pearson r?
O coeficiente de correlação de Pearson r mede a força e a direção da relação linear entre duas variáveis. Ele varia de −1 (correlação linear negativa perfeita) até +1 (correlação linear positiva perfeita). Um valor de 0 significa que não existe relação linear, embora ainda possa haver uma relação não linear.
O que é R² e como interpretá-lo?
R² (o coeficiente de determinação) é igual a r² e mostra que proporção da variância em Y é explicada pela regressão linear sobre X. Um R² de 0.85 significa que 85% da dispersão dos valores de Y é explicada pelo modelo linear. Os 15% restantes são atribuídos a outros fatores ou variação aleatória.
O que significa a inclinação da reta de regressão?
A inclinação m em y = mx + b representa a mudança média em Y para cada aumento de uma unidade em X. Uma inclinação de 2 significa que Y aumenta, em média, 2 unidades a cada 1 unidade adicional em X. Uma inclinação negativa significa que Y diminui à medida que X aumenta.
Correlação implica causalidade?
Não. Um coeficiente de correlação alto diz apenas que duas variáveis se movem juntas de forma linear; ele não explica por quê. Uma pode causar a outra, ambas podem ser influenciadas por uma terceira variável (confusão) ou a correlação pode ser coincidência. Estabelecer causalidade requer experimentos controlados ou métodos de inferência causal.
Quantos pontos de dados eu preciso para regressão linear?
Você precisa de pelo menos 2 pontos para ajustar uma linha, mas isso sempre gera r = ±1 por definição e não fornece informações úteis sobre a relação real. Na prática, são necessários pelo menos 10–20 pontos para uma regressão significativa, e quanto mais dados você tiver, mais confiáveis serão suas estimativas de m, b e r.
E se meu coeficiente de correlação estiver perto de zero?
Um valor próximo de zero significa que há pouca ou nenhuma relação linear entre X e Y. No entanto, isso não quer dizer que as variáveis sejam independentes — elas podem ter uma relação não linear forte, como quadrática ou senoidal. Considere plotar seus dados para verificar padrões não lineares antes de concluir que as variáveis são independentes.