多項式回帰計算機
データを多項式曲線に当てはめて新しい値を予測
データ点(1行につき1つの x,y ペア)と希望する多項式の次数を入力すると、最適な式、R²、予測値を計算できます。
多項式回帰計算機
データを多項式曲線に当てはめて新しい値を予測
例をすばやく読み込む
多項式回帰計算機について
多項式回帰は線形回帰の強力な拡張で、独立変数 x と従属変数 y の関係を n 次多項式としてモデル化します。直線を当てはめる単純な線形回帰と違い、多項式回帰は曲線、折れ曲がり、より複雑なパターンを捉えられるため、現実の関係が明らかに非線形な場合に役立ちます。
数理モデルは y = β₀ + β₁x + β₂x² + … + βₙxⁿ の形をとり、係数 β₀ から βₙ は最小二乗法でデータから推定されます。曲線を当てはめますが、係数に対しては線形なので、多項式回帰は線形モデルに分類されます。
最小二乗法は、観測された y 値と多項式が予測した値の差である残差平方和を最小化します。これは正規方程式 (XᵀX)β = Xᵀy を解くことで行われ、X は x 値から作られるヴァンデルモンド行列です。この計算機はそれらをガウス消去法で解きます。これは 10 次までの多項式に適した堅牢な数値手法です。
R²(決定係数)は、当てはめた多項式が y の全体的な変動をどれだけ説明できるかを表します。R² が 1.0 なら曲線はすべてのデータ点を完全に通過し、0.0 なら分散をまったく説明できません。R² は次数を上げるほど必ず増えますが、高次多項式で非常に高い R² が出ても、過学習を示している可能性があります。つまり、真の傾向ではなく学習データを覚えているだけかもしれません。
適切な次数を選ぶことは重要です。1 次は直線(単純線形回帰と同等)です。2 次(2次関数)は U 字形や逆 U 字形のパターンを捉えられます。3 次は S 字型の傾向や、より複雑な成長曲線をモデル化できます。多くの実務データでは 2 次か 3 次で十分で、5 次や 6 次を超えると数値的不安定性と過学習が生じやすくなります。
多項式回帰はさまざまな分野で使われます。工学では応力-ひずみ関係や投射運動に 2 次モデルを使います。経済学ではコスト関数や生産モデルに 3 次曲線を当てはめます。生物学では成長曲線や用量反応研究に応用されます。データサイエンスでは機械学習パイプラインの前処理として使われることもあります。
この計算機を使うときは、外挿のリスクに注意してください。多項式曲線は観測範囲の外で極端な振る舞いをすることがあります。予測は必ずドメイン知識で確認し、次数を上げる前により単純なモデルを検討してください。
例
これらの例は、よくあるデータパターンにおける多項式回帰を示しています。
| データと次数 | 式 / R² | 用途 |
|---|---|---|
| Points: (0,1),(1,2.5),(2,5),(3,8.5),(4,13) Degree: 2 | y ≈ 0.5x² + x + 1, R²≈1.00 | 放物線的な 2 次成長 |
| Points: (1,2),(2,4.1),(3,5.9),(4,8.2),(5,10) Degree: 1 | y ≈ 2x, R²≈0.9997 | 線形トレンド、ほぼ完全な当てはまり |
| Points: (-2,-10),(-1,0),(0,2),(1,4),(2,18) Degree: 3 | y ≈ 3x³−2x²+x+2, R²≈1.00 | 3 次の応力-ひずみモデル |
| Points: (1,3),(2,5),(3,4),(4,6),(5,8),(6,7) Degree: 4 | 高次フィット、R²>0.99 | 変動の大きいデータの高次平滑化 |
使い方
- テキストエリアにデータ点を入力します。各行に 'x, y' 形式の 1 組を入れてください(カンマまたはスペース区切り)。
- 多項式の次数を設定します。1 は線形、2 は二次、3 は三次、というように入力します。
- 必要に応じて、'Predict Y' フィールドに X 値を入力して、その点での出力を予測できます。
- 「計算する」をクリックすると、回帰式、R-squared 値、予測された Y が表示されます。
- クイックロードボタンで用意済みの例を試すか、「リセット」で全フィールドをクリアします。
よくある質問
多項式回帰とは何ですか?
多項式回帰は、従属変数 y と独立変数 x の関係を n 次多項式としてモデル化する回帰分析です。単純線形回帰と違い、曲線的な関係を当てはめられます。モデルは係数に関しては線形で、最小二乗法で解かれます。
多項式の次数はどう選べばいいですか?
まずは低い次数(1 または 2)から始め、当てはまりが悪い場合だけ上げてください。高い次数はデータに過剰適合しやすく、すべての点を通るのに新しい値の予測は悪い曲線になることがあります。R-squared は次数とともに改善しますが、その改善が意味のあるものか、過学習の兆候かを確認してください。
R-squared とは何を意味しますか?
R-squared(決定係数)は、回帰曲線がデータの変動をどれだけ説明できるかを表します。1.0 は完全一致、0.0 は分散をまったく説明できないことを意味します。0.9 以上なら一般に強い当てはまりですが、文脈とデータ点数も必ず考慮してください。
なぜ次数より多くの点が必要なのですか?
d 次多項式には、推定すべき係数が d+1 個あります。正規方程式を解くには少なくとも d+1 個のデータ点が必要です。ちょうど d+1 点の場合、曲線はそれらすべてを正確に通過します(R²=1)が、真の関係ではなく過学習を表している可能性があります。
時系列予測に使えますか?
時間を x 変数として扱えば、時系列データにも多項式回帰を適用できます。ただし、多項式モデルは観測範囲を超えた外挿が苦手で、特に高次多項式ではその傾向が強くなります。より堅牢な時系列予測には、多項式回帰に加えて指数平滑法や ARIMA モデルも検討してください。
多項式回帰と他の曲線フィッティング手法の違いは何ですか?
多項式回帰は、特定の代数形式(多項式)をデータに当てはめます。他の曲線フィッティングには、指数回帰(y = ae^bx)、対数回帰(y = a + b ln x)、べき乗回帰(y = ax^b)があります。データの根底にあるパターンと、その関係を説明する理論に基づいて方法を選んでください。