多項式回帰計算機

データを多項式曲線に当てはめ、新しい値を予測

データ点(1 行に 1 つの x,y ペア)と目的の多項式次数を入力すると、最適近似式、R²、予測値を計算できます。

多項式回帰計算機
データを多項式曲線に当てはめ、新しい値を予測
例をすばやく読み込む

多項式回帰計算機について

多項式回帰は線形回帰を強力に拡張した手法で、独立変数 x と従属変数 y の関係を n 次多項式としてモデル化します。直線を当てはめる単純線形回帰とは異なり、多項式回帰は曲線、曲がり、より複雑なデータパターンを捉えられるため、現実の関係が明らかに非線形である場合に役立ちます。 数学モデルは y = β₀ + β₁x + β₂x² + … + βₙxⁿ の形を取り、係数 β₀ から βₙ は最小二乗法によってデータから推定されます。直線ではなく曲線を当てはめるにもかかわらず、多項式回帰は係数に関して線形であるため、線形モデルに分類されます。 最小二乗法は、観測された y 値と多項式による予測値との差である残差の二乗和を最小化します。これは正規方程式 (XᵀX)β = Xᵀy を解くことで行われます。ここで X は x 値から構成されるヴァンデルモンド行列です。この計算機は、10 次までの多項式に適した堅牢な数値手法であるガウス消去法を使ってこれらの方程式を解きます。 R 二乗(R²)、すなわち決定係数は、当てはめた多項式が y の全変動をどの程度説明できるかを測ります。R² が 1.0 の場合、曲線はすべてのデータ点を正確に通ります。0.0 の場合、モデルは分散をまったく説明できません。R² は多項式次数を上げるほど常に増加しますが、高次数多項式で非常に高い R² が出る場合、真の基礎的傾向を捉えるのではなく学習データを記憶している過学習を示すことがあります。 適切な次数の選択は重要です。次数 1 は直線(単純線形回帰と同等)です。次数 2(二次)は U 字型または逆 U 字型のパターンを捉えます。次数 3(三次)は S 字型の傾向やより複雑な成長曲線をモデル化できます。多くの実用的なデータセットでは 2 次または 3 次で十分であり、5 次や 6 次を超えると数値的不安定性や過学習が生じやすくなります。 多項式回帰の応用は多くの分野に広がっています。エンジニアは応力-ひずみ関係や放物運動に二次モデルを使います。経済学者は費用関数や生産モデルに三次曲線を当てはめます。生物学者は成長曲線や用量反応研究に多項式回帰を適用します。データサイエンティストは機械学習パイプラインの前処理ステップとしても利用します。 この計算機を使う際は、外挿リスクに注意してください。多項式曲線は観測データの範囲外で大きく不安定な挙動を示すことがあります。予測は必ず領域知識と照合し、多項式次数を上げる前に、まずより単純なモデルを検討してください。

これらの例は、一般的なデータパターンに対する多項式回帰を示しています。

データと次数方程式 / R²用途
点:(0,1),(1,2.5),(2,5),(3,8.5),(4,13) 次数:2y ≈ 0.5x² + x + 1、R²≈1.00放物運動のような二次成長
点:(1,2),(2,4.1),(3,5.9),(4,8.2),(5,10) 次数:1y ≈ 2x、R²≈0.9997線形傾向、ほぼ完全な適合
点:(-2,-10),(-1,0),(0,2),(1,4),(2,18) 次数:3y ≈ 3x³−2x²+x+2、R²≈1.00三次の応力-ひずみモデル
点:(1,3),(2,5),(3,4),(4,6),(5,8),(6,7) 次数:4高次数フィット、R²>0.99変動の大きいデータの高次数平滑化

この計算機の使い方

  1. テキストエリアにデータ点を入力します。1 行に 1 組、形式は「x, y」(カンマまたはスペース区切り)です。
  2. 多項式次数を設定します。線形は 1、二次は 2、三次は 3、というように入力します。
  3. 必要に応じて「Y を予測」フィールドに X 値を入力し、その点での出力を予測します。
  4. 「計算」をクリックすると、回帰方程式、R²値、予測 Y が表示されます。
  5. クイック読み込みボタンで用意された例を試すか、「リセット」をクリックしてすべてのフィールドを消去します。

よくある質問

多項式回帰とは何ですか?
多項式回帰は、従属変数 y と独立変数 x の関係を n 次多項式としてモデル化する回帰分析の一種です。単純線形回帰とは異なり、曲線的な関係に適合できます。モデルは係数に関しては線形であり、最小二乗法で解かれます。
多項式次数はどのように選べばよいですか?
低い次数(1 または 2)から始め、適合が悪い場合にのみ上げてください。高い次数は、すべての点を通るものの新しい値の予測が悪い曲線を作り、過学習を起こすことがあります。R²値は次数が高いほど改善しますが、その改善が意味のあるものか、過学習の兆候かを確認してください。
R 二乗とは何を意味しますか?
R 二乗(決定係数)は、回帰曲線がデータの変動をどれだけ説明できるかを測る指標です。1.0 は完全な適合、0.0 はモデルが分散をまったく説明しないことを意味します。一般に 0.9 を超える値は強い適合を示しますが、文脈やデータ点の数も必ず考慮してください。
なぜ計算機は次数より多い点を要求するのですか?
次数 d の多項式には推定すべき d+1 個の係数があります。正規方程式を解くには少なくとも d+1 個のデータ点が必要です。ちょうど d+1 個の点がある場合、曲線はそれらすべてを正確に通ります(R²=1)が、それはデータ内の真の関係ではなく過学習を表している可能性があります。
時系列予測に使えますか?
時間を x 変数として扱えば、多項式回帰を時系列データに適用できます。ただし、多項式モデルは観測データの範囲外で外挿がうまくいかないことがあり、特に高次数多項式では顕著です。堅牢な時系列予測には、多項式回帰に加えて指数平滑法や ARIMA モデルも検討してください。
多項式回帰と他の曲線フィッティング手法の違いは何ですか?
多項式回帰は、特定の代数形式(多項式)をデータに当てはめます。他の曲線フィッティング手法には、指数回帰(y = ae^bx)、対数回帰(y = a + b ln x)、べき乗回帰(y = ax^b)があります。データの背後にあるパターンと、その関係を説明する理論に基づいて方法を選んでください。