산점도 계산기 - 상관관계와 선형 회귀

두 데이터 집합에 대해 상관계수 (r), R², 최적 적합선을 즉시 계산합니다.

쉼표로 구분된 X 값과 Y 값을 입력하면 선형 회귀, 피어슨 상관계수, 주요 기술 통계를 계산할 수 있습니다.

산점도 계산기 - 상관관계와 선형 회귀
두 데이터 집합에 대해 상관계수 (r), R², 최적 적합선을 즉시 계산합니다.

산점도 계산기 소개

산점도는 두 개의 수치 변수를 데카르트 평면 위의 점으로 보여 주는 데이터 시각화입니다. 각 점은 하나의 관측값을 나타내며, 가로 위치는 X 값, 세로 위치는 Y 값을 뜻합니다. 점들의 패턴을 보면 두 변수 사이에 관계가 있는지, 그 관계가 얼마나 강한지, 그리고 선형인지 비선형인지 판단할 수 있습니다. 이 산점도 계산기는 세 종류의 통계를 계산합니다. 첫째는 기술 통계로, 데이터 포인트 수 n, X의 평균 (x̄), Y의 평균 (ȳ)입니다. 둘째는 선형 회귀선으로, 각 점에서 직선까지의 수직 거리 제곱합을 최소화하는 직선입니다. 이는 y = mx + b로 표현되며, m은 기울기, b는 y절편입니다. 기울기 m은 Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²], 절편 b = ȳ − m·x̄로 계산합니다. 셋째는 상관 통계입니다. 피어슨 상관계수 r = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²]는 X와 Y 사이 선형 관계의 강도와 방향을 측정합니다. 범위는 −1에서 +1까지입니다. +1에 가까우면 강한 양의 관계(X가 증가하면 Y도 증가), −1에 가까우면 강한 음의 관계, 0에 가까우면 선형 관계가 거의 없음을 뜻합니다. R²(결정계수)는 r²와 같으며, Y의 분산 중 X에 대한 선형 회귀가 설명하는 비율을 나타냅니다. 예를 들어 R²가 0.90이면 Y의 변동성 90%가 X와의 선형 관계로 설명된다는 뜻입니다. 주요 활용 분야로는 경제학(가격과 수요의 관계), 생물학(키와 몸무게의 관계), 교육(학습 시간과 시험 점수의 상관), 공학(입력 변수로 출력 예측), 비즈니스 분석(광고비와 매출의 관계) 등이 있습니다. 결과를 해석할 때는 상관관계가 인과관계를 의미하지 않는다는 점을 기억하세요. 높은 r은 두 변수가 선형으로 함께 움직인다는 뜻일 뿐, 하나가 다른 하나의 원인이라는 뜻은 아닙니다. 또한 선형 회귀는 실제 관계가 선형이라고 가정합니다. 산점도가 곡선을 보인다면, 점이 아무리 많아도 선형 모델은 좋은 적합이 아닙니다. 반드시 잔차를 확인하거나 데이터를 직선과 함께 그려 모델을 검증하세요.

산점도 계산기 예시

상관계수와 회귀선을 계산한 대표적인 세 가지 데이터 세트입니다.

X 값, Y 값핵심 결과해석
X: 1,2,3,4,5 — Y: 2,4,5,4,5m≈0.7, b≈2.0, r≈0.8165, R²≈0.6667중간 정도의 양의 선형 관계입니다. X가 Y 분산의 67%를 설명합니다.
X: 1,2,3,4,5 — Y: 5,4,3,2,1m=−1, b=6, r=−1, R²=1완벽한 음의 선형 관계입니다. X가 1 증가할 때마다 Y는 정확히 1만큼 감소합니다.
X: 2,4,6,8,10 — Y: 3,7,8,13,15m≈1.5, b≈−0.2, r≈0.9918, R²≈0.9837매우 강한 양의 관계입니다. 직선 y = 1.5x − 0.2가 Y 변동의 98.4%를 설명합니다.

산점도 계산기 사용 방법

  1. ‘X축 값’ 필드에 1, 2, 3, 4, 5처럼 쉼표로 구분된 X 데이터를 입력하세요.
  2. ‘Y축 값’ 필드에 대응하는 Y 데이터를 입력하세요. 값의 개수는 X와 같아야 합니다.
  3. ‘계산’을 클릭하세요. 도구가 회귀 기울기 m, 절편 b, 상관계수 r, R²를 계산합니다.
  4. 회귀 방정식 y = mx + b를 읽고 새로운 X 값에 대한 Y 값을 예측하세요.
  5. r을 해석하세요. ±1에 가까우면 강한 선형 관계, 0에 가까우면 약하거나 거의 없는 선형 상관을 뜻합니다.

산점도 계산기 FAQ

피어슨 상관계수 r은 무엇인가요?
피어슨 상관계수 r은 두 변수 사이 선형 관계의 강도와 방향을 측정합니다. 범위는 −1(완전한 음의 선형 상관)에서 +1(완전한 양의 선형 상관)까지입니다. 0은 선형 관계가 없음을 뜻하지만, 비선형 관계는 존재할 수 있습니다.
R²는 무엇이며 어떻게 해석하나요?
R²(결정계수)는 r²와 같고, Y의 분산 중 X에 대한 선형 회귀가 설명하는 비율을 알려줍니다. R²가 0.85라면 Y 값의 85% 산포가 선형 모델로 설명되며, 나머지 15%는 다른 요인이나 우연한 변동 때문이라고 볼 수 있습니다.
회귀선의 기울기는 무엇을 의미하나요?
y = mx + b에서 기울기 m은 X가 1단위 증가할 때 Y가 평균적으로 얼마나 변하는지를 나타냅니다. 기울기가 2이면 X가 1 증가할 때 Y가 평균 2 증가합니다. 음의 기울기는 X가 증가할수록 Y가 감소함을 뜻합니다.
상관관계가 인과관계를 뜻하나요?
아니요. 상관계수가 높아도 두 변수가 선형적으로 함께 움직인다는 뜻일 뿐, 왜 그런지는 알려 주지 않습니다. 하나가 다른 하나를 원인으로 만들 수도 있고, 둘 다 제3의 변수의 영향을 받을 수도 있으며(교란), 단순한 우연일 수도 있습니다. 인과를 입증하려면 통제 실험이나 인과 추론 방법이 필요합니다.
선형 회귀에는 데이터 포인트가 몇 개나 필요하나요?
직선을 맞추려면 최소 2점이 필요하지만, 이렇게 하면 정의상 r = ±1이 되어 실제 관계에 대한 유용한 정보를 주지 못합니다. 실무에서는 의미 있는 회귀를 위해 최소 10–20점이 필요하며, 데이터가 많을수록 m, b, r의 추정이 더 신뢰할 만합니다.
상관계수가 0에 가깝다면 어떻게 해야 하나요?
0에 가깝다는 것은 X와 Y 사이에 선형 관계가 거의 없다는 뜻입니다. 하지만 변수가 서로 무관하다는 의미는 아닙니다. 이차나 사인 형태 같은 강한 비선형 관계가 있을 수 있습니다. 독립이라고 결론 내리기 전에 데이터를 그려 비선형 패턴이 있는지 확인하세요.