다항 회귀 계산기

데이터를 다항 곡선에 맞추고 새 값을 예측

데이터 점(한 줄에 x,y 쌍 하나)과 원하는 다항식 차수를 입력하면 최적 적합식, R², 예측값을 계산합니다.

다항 회귀 계산기
데이터를 다항 곡선에 맞추고 새 값을 예측
예시 빠른 불러오기

다항 회귀 계산기 소개

다항 회귀는 선형 회귀를 확장한 방법으로, 독립변수 x와 종속변수 y의 관계를 n차 다항식으로 모델링합니다. 직선을 맞추는 단순 선형 회귀와 달리, 다항 회귀는 곡선, 굴곡, 더 복잡한 패턴을 포착할 수 있어 실제 관계가 분명히 비선형일 때 유용합니다. 수학적 모델은 y = β₀ + β₁x + β₂x² + … + βₙxⁿ의 형태이며, 계수 β₀부터 βₙ까지는 최소제곱법으로 데이터에서 추정합니다. 곡선을 맞추지만 계수에 대해서는 선형이므로, 다항 회귀는 여전히 선형 모델로 분류됩니다. 최소제곱법은 관측된 y값과 다항식이 예측한 값의 차이인 잔차 제곱합을 최소화합니다. 이는 정규방정식 (XᵀX)β = Xᵀy를 푸는 방식으로 수행되며, X는 x값으로 구성된 반더몬드 행렬입니다. 이 계산기는 가우스 소거법으로 이를 풀며, 최대 10차 다항식까지 적합한 견고한 수치 방법입니다. R²(결정계수)는 적합된 다항식이 y의 전체 변동을 얼마나 잘 설명하는지 측정합니다. R²가 1.0이면 곡선이 모든 데이터 점을 정확히 지나가고, 0.0이면 분산을 전혀 설명하지 못한다는 뜻입니다. R²는 차수가 높아질수록 항상 증가하지만, 고차 다항식에서 아주 높은 R²는 과적합을 의미할 수 있습니다. 즉, 진짜 추세를 잡은 것이 아니라 학습 데이터를 외운 것일 수 있습니다. 적절한 차수를 고르는 것이 중요합니다. 1차는 직선이며(단순 선형 회귀와 동일), 2차는 U자형 또는 역U자형 패턴을 포착합니다. 3차는 S자형 추세나 더 복잡한 성장 곡선을 모델링할 수 있습니다. 대부분의 실무 데이터에서는 2차나 3차면 충분하고, 5차나 6차를 넘기면 수치 불안정성과 과적합이 자주 생깁니다. 다항 회귀는 여러 분야에서 사용됩니다. 공학에서는 응력-변형률 관계와 포물선 운동에 2차 모델을 사용합니다. 경제학에서는 비용 함수와 생산 모델에 3차 곡선을 맞춥니다. 생물학에서는 성장 곡선과 용량-반응 연구에 적용합니다. 데이터 과학에서는 머신러닝 파이프라인의 전처리 단계로 쓰이기도 합니다. 이 계산기를 사용할 때는 외삽 위험에 주의하세요. 다항 곡선은 관측 범위를 벗어나면 매우 극단적으로 움직일 수 있습니다. 예측은 반드시 도메인 지식으로 검증하고, 차수를 높이기 전에 더 단순한 모델을 먼저 고려하세요.

예시

이 예시는 일반적인 데이터 패턴에서 다항 회귀가 어떻게 쓰이는지 보여줍니다.

데이터 및 차수식 / R²사용 사례
Points: (0,1),(1,2.5),(2,5),(3,8.5),(4,13) Degree: 2y ≈ 0.5x² + x + 1, R²≈1.00포물선형 2차 성장
Points: (1,2),(2,4.1),(3,5.9),(4,8.2),(5,10) Degree: 1y ≈ 2x, R²≈0.9997선형 추세, 거의 완벽한 적합
Points: (-2,-10),(-1,0),(0,2),(1,4),(2,18) Degree: 3y ≈ 3x³−2x²+x+2, R²≈1.003차 응력-변형률 모델
Points: (1,3),(2,5),(3,4),(4,6),(5,8),(6,7) Degree: 4고차 적합, R²>0.99변동이 큰 데이터의 고차 평활화

사용 방법

  1. 텍스트 영역에 데이터 점을 입력하세요. 각 줄에 'x, y' 형식의 한 쌍을 넣습니다(쉼표 또는 공백 구분).
  2. 다항식 차수를 설정하세요. 1은 선형, 2는 2차, 3은 3차입니다.
  3. 원하면 'Predict Y' 필드에 X 값을 입력해 해당 지점의 출력을 예측할 수 있습니다.
  4. 「계산」을 클릭하면 회귀식, R-squared 값, 예측된 Y가 표시됩니다.
  5. 빠른 불러오기 버튼으로 준비된 예시를 살펴보거나, 「초기화」를 눌러 모든 필드를 지우세요.

자주 묻는 질문

다항 회귀란 무엇인가요?
다항 회귀는 종속변수 y와 독립변수 x의 관계를 n차 다항식으로 모델링하는 회귀 분석입니다. 단순 선형 회귀와 달리 곡선 관계를 맞출 수 있습니다. 이 모델은 계수에 대해서는 선형이며 최소제곱법으로 풉니다.
다항식 차수는 어떻게 선택하나요?
낮은 차수(1 또는 2)부터 시작하고, 적합이 좋지 않을 때만 높이세요. 높은 차수는 데이터를 과적합시켜 모든 점을 지나지만 새 값 예측은 나쁜 곡선을 만들 수 있습니다. R-squared 값은 차수가 높아질수록 개선되지만, 그 향상이 의미 있는지 아니면 과적합의 신호인지 확인해야 합니다.
R-squared는 무엇을 의미하나요?
R-squared(결정계수)는 회귀 곡선이 데이터의 변동성을 얼마나 잘 설명하는지 측정합니다. 1.0은 완벽한 적합, 0.0은 분산을 전혀 설명하지 못함을 뜻합니다. 0.9 이상은 일반적으로 강한 적합이지만, 문맥과 데이터 포인트 수도 함께 고려해야 합니다.
왜 차수보다 더 많은 점이 필요한가요?
d차 다항식에는 추정해야 할 계수가 d+1개 있습니다. 정규방정식을 풀려면 최소한 d+1개의 데이터 점이 필요합니다. 정확히 d+1개가 있으면 곡선은 모든 점을 정확히 지나가지만(R²=1), 실제 관계가 아니라 과적합일 수 있습니다.
시계열 예측에 사용할 수 있나요?
시간을 x 변수로 보면 시계열 데이터에도 다항 회귀를 적용할 수 있습니다. 다만 다항 모델은 관측 범위를 벗어난 외삽이 잘 안 되며, 특히 고차 다항식에서 더 그렇습니다. 더 견고한 시계열 예측을 원한다면 다항 회귀와 함께 지수 평활법이나 ARIMA 모델도 고려하세요.
다항 회귀와 다른 곡선 맞춤 방법의 차이는 무엇인가요?
다항 회귀는 특정 대수 형태(다항식)로 데이터를 맞춥니다. 다른 곡선 맞춤 방법에는 지수 회귀(y = ae^bx), 로그 회귀(y = a + b ln x), 거듭제곱 회귀(y = ax^b)가 있습니다. 데이터의 기본 패턴과 그 관계를 설명하는 이론에 따라 방법을 선택하세요.