Калькулятор остатков - линейная регрессия
Проверка гипотез и статистический вывод
Этот инструмент вычисляет остатки простой линейной регрессионной модели. Введите данные X и Y, чтобы получить линию регрессии и проанализировать ошибки прогноза.
Калькулятор остатков - линейная регрессия
Проверка гипотез и статистический вывод
О калькуляторе остатков
Остаток — это разница между наблюдаемым значением и значением, предсказанным статистической моделью. В контексте простой линейной регрессии остаток для наблюдения i определяется как e_i = y_i − ŷ_i, где y_i — фактическое наблюдаемое значение, а ŷ_i — значение, предсказанное методом наименьших квадратов по линии ŷ = b₀ + b₁x.
Метод обычных наименьших квадратов (OLS) находит линию регрессии, минимизирующую сумму квадратов остатков (SSE = Σe_i²). Этот инструмент вычисляет наклон (b₁) и свободный член (b₀) по стандартным формулам: b₁ = Σ(xᵢ − x̄)(yᵢ − ȳ) / Σ(xᵢ − x̄)² и b₀ = ȳ − b₁x̄.
Анализ остатков — фундаментальный этап регрессионной диагностики. После подгонки модели следует изучить остатки, чтобы проверить ключевые предпосылки: линейность (при графике остатков по x не должно быть систематического рисунка), гомоскедастичность (дисперсия остатков должна быть примерно постоянной), независимость (остатки не должны быть автокоррелированы) и нормальность (остатки должны примерно подчиняться нормальному распределению).
График остатков — диаграмма рассеяния остатков по отношению к прогнозам или независимой переменной — является основным диагностическим инструментом. Случайно разбросанные вокруг нуля остатки без рисунка указывают, что линейная модель подходит. Систематические рисунки, такие как U-образная форма, говорят о нелинейности, воронкообразные формы — о гетероскедастичности, а кластеры — о наличии влиятельных наблюдений или выбросов.
Коэффициент детерминации R² показывает, какая часть дисперсии y объясняется x. R² принимает значения от 0 (модель не объясняет дисперсию) до 1 (идеальное соответствие). Он вычисляется как 1 − SSE/SST, где SST = Σ(yᵢ − ȳ)².
Этот калькулятор подходит студентам, изучающим регрессию, аналитикам для быстрой проверки качества данных и исследователям, которым нужно подтвердить качество подгонки модели перед переходом к более сложному моделированию. Результаты включают полное уравнение регрессии, таблицу остатков по точкам, общий SSE и значение R² для немедленной интерпретации.
Примеры расчёта остатков
Эти примеры показывают, как вычисляются остатки по парам данных X и Y.
| Данные X → Y | Линия регрессии | R² |
|---|---|---|
| X: 1,2,3,4,5 / Y: 2,4,5,4,5 | ŷ = 0.6x + 2.2 | R² = 0.60 |
| X: 1,2,3,4 / Y: 2,4,6,8 | ŷ = 2x + 0 | R² = 1.00 (идеальное соответствие) |
| X: 1,2,3,4,5 / Y: 5,3,4,2,1 | ŷ = -0.9x + 5.7 | R² = 0.81 |
Как пользоваться этим калькулятором
- Введите независимые значения (X) в первое текстовое поле, разделяя их запятыми или пробелами.
- Введите соответствующие наблюдаемые значения (Y) во второе поле в том же порядке, что и X.
- Нажмите «Вычислить», чтобы построить линию регрессии по методу наименьших квадратов и вычислить все остатки.
- Изучите таблицу остатков, чтобы найти наблюдения, сильно удалённые от линии регрессии.
- Проверьте R², чтобы оценить, насколько хорошо линейная модель описывает ваши данные.
Часто задаваемые вопросы
Что означает большой остаток?
Большой остаток означает, что наблюдаемое значение далеко от того, что предсказала регрессионная модель. Большие остатки могут указывать на выбросы, влиятельные наблюдения или на то, что линейная модель не является лучшим описанием ваших данных. Изучите такие точки, прежде чем делать выводы.
Почему остатки в OLS-регрессии суммируются в ноль?
Когда OLS-регрессия включает свободный член, сумма остатков всегда точно равна нулю. Это математическое свойство оценивателя наименьших квадратов: линия регрессии должна проходить через точку (x̄, ȳ), поэтому положительные и отрицательные отклонения взаимно компенсируются.
В чём разница между остатком и ошибкой?
Ошибка — это ненаблюдаемая разница между наблюдаемым значением и истинной регрессионной линией генеральной совокупности. Остаток — это наблюдаемая разница между наблюдаемым значением и оценённой линией регрессии. На практике остатки используют для оценки и анализа ошибок.
Что R² говорит мне об остатках?
R² (коэффициент детерминации) — это доля общей дисперсии Y, объясняемая линейной регрессионной моделью. Высокий R² означает хорошее соответствие модели данным и малые остатки по сравнению с общей изменчивостью Y. Однако высокий R² сам по себе не гарантирует, что предпосылки модели выполнены.
Как обнаружить гетероскедастичность в остатках?
Постройте график остатков по отношению к подогнанным значениям. Если разброс остатков систематически увеличивается или уменьшается с подогнанными значениями (воронкообразный рисунок), присутствует гетероскедастичность. Это можно статистически подтвердить тестами Бройша–Пагана или Уайта.
Поддерживает ли этот калькулятор множественную линейную регрессию?
Нет, этот калькулятор работает только с простой линейной регрессией с одной независимой переменной (X) и одной зависимой переменной (Y). Для множественной регрессии с двумя и более предикторами используйте статистическое ПО, такое как R, Python (statsmodels), Excel или SPSS.