Линейная регрессия

Коротко

Definition

Линейная регрессия — это модель обучения с учителем для задачи регрессии, которая предсказывает числовое значение как линейную комбинацию признаков.

Линейная регрессия предполагает, что целевая переменная приблизительно выражается через признаки так:

\overset{y}{^} = w_{1} x_{1} + w_{2} x_{2} + \dots + w_{m} x_{m} + b

где:

$x_{1}, \dots, x_{m}$ — признаки объекта;
$w_{1}, \dots, w_{m}$ — веса признаков;
$b$ — свободный член;
$\overset{y}{^}$ — предсказание модели.

Главная идея: подобрать такие коэффициенты, чтобы предсказания были как можно ближе к настоящим значениям.

Интуиция

В простейшем случае с одним признаком линейная регрессия ищет прямую линию, которая лучше всего проходит через облако точек.

Если есть один признак:

\overset{y}{^} = w x + b

то модель подбирает наклон $w$ и сдвиг $b$ .

Например:

если $x$ — площадь квартиры;
$y$ — цена квартиры;

то линейная регрессия пытается найти зависимость вида:

цена \approx w \cdot площадь + b

В многомерном случае вместо прямой получается гиперплоскость в пространстве признаков.

Формальное описание

Пусть есть обучающая выборка:

X \in R^{n \times m}, y \in R^{n}

где:

$n$ — количество объектов;
$m$ — количество признаков;
$X$ — матрица признаков;
$y$ — вектор целевых значений.

Линейная модель имеет вид:

\overset{y}{^} = Xw + b

Если добавить к матрице $X$ столбец из единиц, свободный член $b$ можно включить в общий вектор параметров. Тогда модель записывается компактно:

\overset{y}{^} = Xw

Задача обучения — найти такие параметры $w$ , при которых ошибка между $y$ и $\overset{y}{^}$ минимальна.

Входы и выходы

Компонент	Описание
Вход	Табличные признаки объекта
Выход	Числовое значение
Тип задачи	Регрессия
Тип обучения	Обучение с учителем
Целевая переменная	Непрерывная величина из $R$

Примеры задач:

предсказать цену квартиры;
оценить температуру плавления материала;
предсказать энергию образования кристалла;
оценить время выполнения алгоритма;
предсказать концентрацию вещества по измеренным признакам.

Как обучается

Чаще всего линейная регрессия обучается через минимизацию средней квадратичной ошибки.

Основная функция потерь:

MSE = \frac{1}{n} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

Модель ищет такие веса, при которых сумма квадратов ошибок минимальна.

Есть два основных способа обучения.

Закрытое решение

Для обычной линейной регрессии без регуляризации можно получить аналитическое решение методом наименьших квадратов:

\overset{w}{^} = (X^{T} X)^{- 1} X^{T} y

Это решение напрямую вычисляет оптимальные коэффициенты, если матрица $X^{T} X$ обратима.

На практике могут возникнуть проблемы:

признаков слишком много;
признаки сильно коррелируют;
матрица плохо обусловлена;
данных слишком много для прямого обращения матрицы.

Градиентная оптимизация

Другой вариант — обучать модель итеративно.

Инициализировать веса.
Вычислить предсказания.
Посчитать ошибку.
Посчитать градиент ошибки по весам.
Немного изменить веса в сторону уменьшения ошибки.
Повторять до сходимости.

Этот подход особенно полезен, когда данных много или модель обучается вместе с другими компонентами.

Функция потерь

Основная функция потерь для линейной регрессии — средняя квадратичная ошибка:

MSE = \frac{1}{n} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

Она штрафует большие ошибки сильнее, чем маленькие, потому что ошибка возводится в квадрат.

Иногда к MSE добавляют регуляризацию.

Вариант	Идея	Формула
Ordinary Least Squares	Минимизировать только ошибку прогноза	$MSE$
Ridge regression	Добавить L2-штраф за большие веса	$MSE + λ \sum_{j = 1}^{m} w_{j}^{2}$
Lasso regression	Добавить L1-штраф, который может занулять признаки	$MSE + λ \sum_{j = 1}^{m} ∣ w_{j} ∣$
Elastic Net	Совместить L1 и L2-регуляризацию	$MSE + λ_{1} \sum ∣ w_{j} ∣ + λ_{2} \sum w_{j}^{2}$

Гиперпараметры

У базовой линейной регрессии гиперпараметров мало.

Основные настройки:

добавлять ли свободный член $b$ ;
использовать ли нормализацию признаков;
какой способ решения использовать;
применять ли регуляризацию.

Для регуляризованных вариантов важны:

тип регуляризации: L1, L2 или Elastic Net;
коэффициент регуляризации $λ$ ;
соотношение L1 и L2 для Elastic Net;
максимальное число итераций при численной оптимизации;
критерий остановки.

Важно: сама обычная линейная регрессия часто не требует долгого подбора гиперпараметров, но сильно зависит от качества признаков.

Когда использовать

Линейную регрессию стоит использовать, когда:

нужно предсказать числовое значение;
нужна простая и интерпретируемая модель;
зависимость между признаками и целевой переменной примерно линейная;
важно понять вклад отдельных признаков;
нужен сильный baseline перед более сложными моделями;
данных немного, и сложные модели легко переобучаются.

Линейная регрессия особенно полезна как первая модель в задаче регрессии: она быстро обучается, легко проверяется и хорошо показывает, есть ли в признаках простой сигнал.

Когда не использовать

Линейная регрессия плохо подходит, если:

зависимость между признаками и целью сильно нелинейная;
есть сложные взаимодействия признаков;
много выбросов, а они не обработаны;
признаки сильно коррелируют, но регуляризация не используется;
требуется высокая точность на сложных данных;
целевая переменная не является числовой.

Если зависимость нелинейная, можно попробовать:

добавить нелинейные признаки;
использовать полиномиальную регрессию;
перейти к деревьям решений, случайному лесу или градиентному бустингу;
использовать нейросетевую модель.

Метрики оценки

Для оценки линейной регрессии используют стандартные метрики регрессии:

MAE — средняя абсолютная ошибка;
MSE — средняя квадратичная ошибка;
RMSE — корень из MSE;
$R^{2}$ — доля объяснённой дисперсии;
MAPE — средняя абсолютная процентная ошибка.

Подробнее: Метрики качества регрессоров.

Важно помнить:

MSE и RMSE сильнее штрафуют большие ошибки;
MAE устойчивее к выбросам;
$R^{2}$ удобно интерпретировать, но он может вводить в заблуждение;
MAPE плохо работает, если истинные значения близки к нулю.

Типичные ошибки понимания

Ошибка 1. Думать, что линейная регрессия умеет только прямые линии

Линейная регрессия линейна по параметрам, а не обязательно по исходным признакам.

Например, можно добавить признак $x^{2}$ и получить модель:

\overset{y}{^} = w_{1} x + w_{2} x^{2} + b

С точки зрения параметров это всё ещё линейная модель, хотя зависимость от $x$ уже нелинейная.

Ошибка 2. Игнорировать масштаб признаков

Если признаки имеют разные масштабы, это может мешать интерпретации коэффициентов и численной оптимизации. Особенно это важно для моделей с регуляризацией.

Ошибка 3. Считать коэффициенты причинными эффектами

Коэффициент показывает связь в рамках модели, но не доказывает причинность. Если признаки коррелируют между собой или есть скрытые факторы, интерпретация коэффициентов может быть неверной.

Ошибка 4. Оценивать модель только по train-ошибке

Низкая ошибка на обучающей выборке не означает, что модель хорошо работает на новых данных. Нужна проверка на validation или test-наборе.

Ошибка 5. Не проверять выбросы

MSE чувствительна к выбросам. Несколько необычных точек могут сильно изменить коэффициенты модели.

Минимальный пример

import numpy as np
from sklearn.linear_model import LinearRegression
 
X = np.array([  # один признак: площадь квартиры
    [30],
    [40],
    [50],
    [60],
    [70],
])
 
y = np.array([120, 150, 180, 210, 240])  # целевая переменная: цена
 
model = LinearRegression()
model.fit(X, y)
 
new_flat = np.array([ [55] ])
prediction = model.predict(new_flat)
 
print("weight:", model.coef_)
print("bias:", model.intercept_)
print("prediction:", prediction)

В этом примере модель учится предсказывать цену по площади. Если зависимость почти линейная, модель найдёт простое правило вида:

price \approx w \cdot area + b

Машинное обучение

Explorer

Линейная регрессия

Линейная регрессия

Коротко

Интуиция

Формальное описание

Входы и выходы

Как обучается

Закрытое решение

Градиентная оптимизация

Функция потерь

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Ошибка 1. Думать, что линейная регрессия умеет только прямые линии

Ошибка 2. Игнорировать масштаб признаков

Ошибка 3. Считать коэффициенты причинными эффектами

Ошибка 4. Оценивать модель только по train-ошибке

Ошибка 5. Не проверять выбросы

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks