散点图计算器 - 相关性与线性回归

为任意两组数据点计算相关系数 (r)、R² 和最佳拟合直线——即时查看散点图统计结果。

输入以逗号分隔的 X 值和 Y 值,即可计算线性回归、皮尔逊相关系数以及关键描述性统计。

散点图计算器 - 相关性与线性回归
为任意两组数据点计算相关系数 (r)、R² 和最佳拟合直线——即时查看散点图统计结果。

关于散点图计算器

散点图是一种数据可视化方式,它将两个数值变量显示为笛卡尔平面上的点。每个点代表一条观测值:其水平位置对应 X 值,垂直位置对应 Y 值。通过观察这些点的分布模式,你可以判断两个变量之间是否存在关系、关系有多强,以及它是线性还是非线性的。 这个散点图计算器会计算三类统计量。第一类是描述性统计:数据点数量 n、X 的平均值 (x̄) 和 Y 的平均值 (ȳ)。第二类是线性回归直线——即使每个点到直线的垂直距离平方和最小的那条直线。它由方程 y = mx + b 表示,其中 m 是斜率,b 是 y 轴截距。斜率 m 的计算公式为 Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²],截距 b = ȳ − m·x̄。 第三类是相关统计。皮尔逊相关系数 r = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²],用于衡量 X 和 Y 之间线性关系的强度和方向。它的范围是 −1 到 +1。接近 +1 表示强正相关(X 增加时 Y 也增加),接近 −1 表示强负相关,接近 0 则表示几乎没有线性关系。R²(决定系数)等于 r²,表示 Y 的方差中有多少比例可由 X 上的线性回归解释。例如,R² 为 0.90 表示 Y 的 90% 变异可由与 X 的线性关系解释。 常见用途包括经济学(价格与需求的关系)、生物学(研究身高与体重的关系)、教育(学习时间与考试成绩的相关性)、工程学(根据输入变量预测输出)以及商业分析(广告支出与销售收入的关系)。 解读结果时请记住,相关不等于因果。较高的 r 只说明两个变量在线性上一起变化,并不说明其中一个会导致另一个。线性回归还假设真实关系本身就是线性的。如果散点图呈现曲线趋势,无论你提供多少点,线性模型都不会是好拟合。务必查看残差或将数据与直线一起绘制,以验证模型。

散点图计算器示例

三个具有代表性的数据集,附有计算出的相关系数和回归直线。

X 值,Y 值关键结果解读
X: 1,2,3,4,5 — Y: 2,4,5,4,5m≈0.7, b≈2.0, r≈0.8165, R²≈0.6667中等程度的正线性关系。X 可解释 67% 的 Y 方差。
X: 1,2,3,4,5 — Y: 5,4,3,2,1m=−1, b=6, r=−1, R²=1完全负线性关系。X 每增加 1 个单位,Y 就恰好减少 1。
X: 2,4,6,8,10 — Y: 3,7,8,13,15m≈1.5, b≈−0.2, r≈0.9918, R²≈0.9837非常强的正相关。直线 y = 1.5x − 0.2 可解释 Y 98.4% 的变化。

如何使用散点图计算器

  1. 在“X 轴数值”字段中输入以逗号分隔的 X 轴数据,例如:1, 2, 3, 4, 5。
  2. 在“Y 轴数值”字段中输入对应的 Y 轴数据。数值数量必须与 X 字段一致。
  3. 点击“计算”。工具会计算回归斜率 m、截距 b、相关系数 r 和 R²。
  4. 阅读回归方程 y = mx + b,以预测任意新的 X 值对应的 Y 值。
  5. 解读 r:接近 ±1 的值表示强线性关系;接近 0 的值表示线性相关较弱或几乎没有。

散点图计算器常见问题

什么是皮尔逊相关系数 r?
皮尔逊相关系数 r 用于衡量两个变量之间线性关系的强度和方向。其范围从 −1(完全负线性相关)到 +1(完全正线性相关)。值为 0 表示不存在线性关系,不过仍可能存在非线性关系。
什么是 R²,应该如何解读?
R²(决定系数)等于 r²,用来说明 Y 的方差中有多少比例可由 X 上的线性回归解释。R² 为 0.85 表示 Y 值的 85% 离散程度可由线性模型解释,剩余 15% 可归因于其他因素或随机波动。
回归直线的斜率是什么意思?
y = mx + b 中的斜率 m 表示 X 每增加 1 个单位时,Y 的平均变化量。斜率为 2 表示 X 每增加 1 个单位,Y 平均增加 2 个单位。负斜率则表示 X 增加时 Y 减少。
相关性是否意味着因果关系?
不意味着。较高的相关系数只能说明两个变量在线性上一起变化,但不能解释原因。它们可能是彼此因果、都受第三个变量影响(混杂因素),或者只是巧合。要建立因果关系,需要受控实验或因果推断方法。
做线性回归至少需要多少个数据点?
拟合一条直线至少需要 2 个点,但按定义这会得到 r = ±1,无法提供关于真实关系的有用信息。实际应用中,至少需要 10–20 个点才能得到有意义的回归;数据越多,m、b 和 r 的估计越可靠。
如果相关系数接近 0 怎么办?
接近 0 表示 X 和 Y 之间几乎没有线性关系。但这并不意味着变量彼此无关——它们可能存在很强的非线性关系,例如二次或正弦关系。在得出变量独立的结论前,先画图检查是否存在非线性模式。