Калькулятор диаграммы рассеяния - Корреляция и линейная регрессия
Вычисляйте коэффициент корреляции (r), R² и линию наилучшего соответствия для любых двух наборов данных — мгновенная статистика диаграммы рассеяния.
Введите значения X и Y через запятую, чтобы вычислить линейную регрессию, коэффициент корреляции Пирсона и ключевые описательные статистики.
Калькулятор диаграммы рассеяния - Корреляция и линейная регрессия
Вычисляйте коэффициент корреляции (r), R² и линию наилучшего соответствия для любых двух наборов данных — мгновенная статистика диаграммы рассеяния.
О калькуляторе диаграммы рассеяния
Диаграмма рассеяния — это тип визуализации данных, который отображает две числовые переменные в виде точек на декартовой плоскости. Каждая точка представляет одно наблюдение: её горизонтальное положение соответствует значению X, а вертикальное — значению Y. По рисунку распределения точек можно понять, существует ли связь между переменными, насколько она сильна и является ли она линейной или нелинейной.
Этот калькулятор диаграммы рассеяния вычисляет три группы статистик. Первая группа — описательная: количество точек n, среднее X (x̄) и среднее Y (ȳ). Вторая группа — линия линейной регрессии, то есть прямая, которая минимизирует сумму квадратов вертикальных расстояний от каждой точки до линии. Она задаётся уравнением y = mx + b, где m — наклон, а b — свободный член. Наклон m вычисляется как Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²], а свободный член b = ȳ − m·x̄.
Третья группа — статистики корреляции. Коэффициент корреляции Пирсона r = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²] измеряет силу и направление линейной связи между X и Y. Он принимает значения от −1 до +1. Значение, близкое к +1, указывает на сильную положительную связь (по мере роста X растёт и Y), близкое к −1 — на сильную отрицательную связь, а близкое к 0 — на слабую или отсутствующую линейную связь. R² (коэффициент детерминации) равно r² и показывает, какая доля дисперсии Y объясняется линейной регрессией по X. Например, R² = 0.90 означает, что 90% изменчивости Y объясняется линейной связью с X.
Типичные применения включают экономику (связь цены и спроса), биологию (изучение связи между ростом и весом), образование (корреляция времени обучения и результатов тестов), инженерное дело (прогноз выхода по входным переменным) и бизнес-аналитику (связь рекламных расходов и выручки).
При интерпретации помните, что корреляция не означает причинность. Высокое r лишь показывает, что две переменные линейно меняются вместе; оно не говорит, вызывает ли одна другую. Кроме того, линейная регрессия предполагает, что связь действительно линейна. Если диаграмма рассеяния указывает на кривую, линейная модель будет плохим приближением, сколько бы точек вы ни добавили. Всегда проверяйте остатки или стройте данные вместе с линией, чтобы валидировать модель.
Примеры калькулятора диаграммы рассеяния
Три показательных набора данных с вычисленными коэффициентами корреляции и линиями регрессии.
| Значения X, значения Y | Ключевые результаты | Интерпретация |
|---|---|---|
| X: 1,2,3,4,5 — Y: 2,4,5,4,5 | m≈0.7, b≈2.0, r≈0.8165, R²≈0.6667 | Умеренная положительная линейная связь. X объясняет 67% дисперсии Y. |
| X: 1,2,3,4,5 — Y: 5,4,3,2,1 | m=−1, b=6, r=−1, R²=1 | Идеальная отрицательная линейная связь. Каждый рост X на 1 уменьшает Y ровно на 1. |
| X: 2,4,6,8,10 — Y: 3,7,8,13,15 | m≈1.5, b≈−0.2, r≈0.9918, R²≈0.9837 | Очень сильная положительная связь. Линия y = 1.5x − 0.2 объясняет 98.4% изменчивости Y. |
Как пользоваться калькулятором диаграммы рассеяния
- Введите данные X в поле «Значения по оси X» как числа через запятую, например: 1, 2, 3, 4, 5.
- Введите соответствующие данные Y в поле «Значения по оси Y». Количество значений должно совпадать с полем X.
- Нажмите «Вычислить». Инструмент посчитает наклон регрессии m, свободный член b, коэффициент корреляции r и R².
- Прочитайте уравнение регрессии y = mx + b, чтобы прогнозировать Y для любого нового значения X.
- Интерпретируйте r: значения, близкие к ±1, указывают на сильную линейную связь; значения, близкие к 0, — на слабую или отсутствующую линейную корреляцию.
FAQ по калькулятору диаграммы рассеяния
Что такое коэффициент корреляции Пирсона r?
Коэффициент корреляции Пирсона r измеряет силу и направление линейной связи между двумя переменными. Он лежит в диапазоне от −1 (идеальная отрицательная линейная корреляция) до +1 (идеальная положительная линейная корреляция). Значение 0 означает отсутствие линейной связи, хотя нелинейная связь всё ещё может существовать.
Что такое R² и как его интерпретировать?
R² (коэффициент детерминации) равно r² и показывает, какую долю дисперсии Y объясняет линейная регрессия по X. R² = 0.85 означает, что 85% разброса значений Y объясняется линейной моделью. Оставшиеся 15% связаны с другими факторами или случайной вариацией.
Что означает наклон линии регрессии?
Наклон m в y = mx + b показывает среднее изменение Y при увеличении X на 1 единицу. Наклон 2 означает, что Y в среднем увеличивается на 2 единицы при каждом росте X на 1. Отрицательный наклон означает, что Y уменьшается по мере роста X.
Означает ли корреляция причинность?
Нет. Высокий коэффициент корреляции лишь говорит о том, что две переменные линейно меняются вместе, но не объясняет почему. Одна может вызывать другую, обе могут зависеть от третьей переменной (конфаундинг), либо корреляция может быть случайной. Установить причинность можно только с помощью контролируемых экспериментов или методов каузального вывода.
Сколько точек данных нужно для линейной регрессии?
Для построения прямой нужно как минимум 2 точки, но в этом случае по определению получится r = ±1, что не даёт полезной информации о реальной связи. На практике для осмысленной регрессии требуется хотя бы 10–20 точек, а чем больше данных, тем надёжнее оценки m, b и r.
Что делать, если коэффициент корреляции близок к нулю?
Значение, близкое к нулю, означает, что между X и Y почти нет линейной связи. Однако это не значит, что переменные не связаны — между ними может быть сильная нелинейная зависимость, например квадратичная или синусоидальная. Перед выводом о независимости постройте график и проверьте наличие нелинейных закономерностей.