Calculadora de diagrama de dispersión - Correlación y regresión lineal

Calcula el coeficiente de correlación (r), R² y la recta de mejor ajuste para cualquier par de conjuntos de datos: estadísticas instantáneas del diagrama de dispersión.

Introduce valores X e Y separados por comas para calcular la regresión lineal, el coeficiente de correlación de Pearson y estadísticas descriptivas clave.

Calculadora de diagrama de dispersión - Correlación y regresión lineal
Calcula el coeficiente de correlación (r), R² y la recta de mejor ajuste para cualquier par de conjuntos de datos: estadísticas instantáneas del diagrama de dispersión.

Acerca de la calculadora de dispersión

Un diagrama de dispersión es un tipo de visualización de datos que muestra dos variables numéricas como puntos en un plano cartesiano. Cada punto representa una observación: su posición horizontal corresponde al valor X y su posición vertical al valor Y. Al examinar el patrón de los puntos, puedes juzgar si existe una relación entre las dos variables, qué tan fuerte es y si es lineal o no lineal. Esta calculadora de diagrama de dispersión calcula tres grupos de estadísticas. El primer grupo es descriptivo: el número de puntos de datos n, la media de X (x̄) y la media de Y (ȳ). El segundo grupo es la recta de regresión lineal — la línea recta que minimiza la suma de las distancias verticales al cuadrado desde cada punto hasta la línea. Se describe con la ecuación y = mx + b, donde m es la pendiente y b es la ordenada al origen. La pendiente m se calcula como Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²], y el intercepto b = ȳ − m·x̄. El tercer grupo son las estadísticas de correlación. El coeficiente de correlación de Pearson r = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²] mide la fuerza y la dirección de la relación lineal entre X e Y. Va de −1 a +1. Un valor cercano a +1 indica una relación positiva fuerte (al aumentar X, aumenta Y), cercano a −1 indica una relación negativa fuerte, y cercano a 0 indica poca o ninguna relación lineal. R² (el coeficiente de determinación) es igual a r² y representa la proporción de la varianza en Y que explica la regresión lineal sobre X. Un R² de 0.90, por ejemplo, significa que el 90% de la variabilidad en Y queda explicada por la relación lineal con X. Entre los usos comunes están economía (relacionar precio con demanda), biología (estudiar la relación entre altura y peso), educación (correlacionar tiempo de estudio con resultados de exámenes), ingeniería (predecir la salida a partir de variables de entrada) y analítica empresarial (relacionar gasto publicitario con ingresos por ventas). Al interpretar los resultados, recuerda que correlación no implica causalidad. Un r alto solo significa que las dos variables se mueven juntas de forma lineal; no dice si una causa a la otra. Además, la regresión lineal supone que la relación es realmente lineal. Si el diagrama sugiere una curva, un modelo lineal será un mal ajuste por muchos puntos que introduzcas. Comprueba siempre los residuos o representa los datos junto con la recta para validar el modelo.

Ejemplos de la calculadora de dispersión

Tres conjuntos de datos representativos con coeficientes de correlación y rectas de regresión calculados.

Valores X, valores YResultados claveInterpretación
X: 1,2,3,4,5 — Y: 2,4,5,4,5m≈0.7, b≈2.0, r≈0.8165, R²≈0.6667Relación lineal positiva moderada. El 67% de la varianza de Y queda explicada por X.
X: 1,2,3,4,5 — Y: 5,4,3,2,1m=−1, b=6, r=−1, R²=1Relación lineal negativa perfecta. Cada aumento de 1 unidad en X reduce Y exactamente en 1.
X: 2,4,6,8,10 — Y: 3,7,8,13,15m≈1.5, b≈−0.2, r≈0.9918, R²≈0.9837Relación positiva muy fuerte. La recta y = 1.5x − 0.2 explica el 98.4% de la variación en Y.

Cómo usar la calculadora de dispersión

  1. Introduce los datos del eje X como números separados por comas en el campo 'Valores del eje X'; por ejemplo: 1, 2, 3, 4, 5.
  2. Introduce los datos correspondientes del eje Y en el campo 'Valores del eje Y'. La cantidad de valores debe coincidir con la del campo X.
  3. Haz clic en Calcular. La herramienta calcula la pendiente de regresión m, el intercepto b, el coeficiente de correlación r y R².
  4. Lee la ecuación de regresión y = mx + b para predecir Y para cualquier nuevo valor de X.
  5. Interpreta r: los valores cercanos a ±1 indican relaciones lineales fuertes; los valores cercanos a 0 sugieren una correlación lineal débil o nula.

Preguntas frecuentes sobre la calculadora de dispersión

¿Qué es el coeficiente de correlación de Pearson r?
El coeficiente de correlación de Pearson r mide la fuerza y la dirección de la relación lineal entre dos variables. Va de −1 (correlación lineal negativa perfecta) a +1 (correlación lineal positiva perfecta). Un valor de 0 significa que no existe relación lineal, aunque podría existir una relación no lineal.
¿Qué es R² y cómo lo interpreto?
R² (el coeficiente de determinación) es igual a r² y te dice qué proporción de la varianza en Y explica la regresión lineal sobre X. Un R² de 0.85 significa que el 85% de la dispersión de los valores de Y queda explicada por el modelo lineal. El 15% restante se atribuye a otros factores o a variación aleatoria.
¿Qué significa la pendiente de la recta de regresión?
La pendiente m en y = mx + b representa el cambio promedio en Y por cada aumento de una unidad en X. Una pendiente de 2 significa que Y aumenta en 2 unidades de media por cada 1 unidad adicional en X. Una pendiente negativa significa que Y disminuye a medida que X aumenta.
¿La correlación implica causalidad?
No. Un coeficiente de correlación alto indica que dos variables se mueven juntas de forma lineal, pero no dice por qué. Una podría causar la otra, ambas podrían estar impulsadas por una tercera variable (confusión) o la correlación podría ser coincidencia. Establecer causalidad requiere experimentos controlados o métodos de inferencia causal.
¿Cuántos datos necesito para una regresión lineal?
Necesitas al menos 2 puntos para ajustar una recta, pero eso siempre da r = ±1 por definición y no aporta información útil sobre la relación real. En la práctica, hacen falta al menos 10–20 puntos para una regresión significativa, y cuantos más datos tengas, más fiables serán tus estimaciones de m, b y r.
¿Qué pasa si mi coeficiente de correlación está cerca de cero?
Un valor cercano a cero significa que existe poca o ninguna relación lineal entre X e Y. Sin embargo, eso no quiere decir que las variables no estén relacionadas: podrían tener una relación no lineal fuerte, como una cuadrática o sinusoidal. Considera representar los datos para comprobar si hay patrones no lineales antes de concluir que son independientes.