Метрики качества регрессоров
Что измеряет
Definition
Метрики качества регрессоров измеряют, насколько близко численные предсказания модели находятся к истинным численным значениям целевой переменной.
Регрессионная модель предсказывает число: цену квартиры, температуру, энергию образования материала, концентрацию вещества, время до события или другой непрерывный показатель. Метрики качества регрессоров отвечают на вопрос: насколько сильно предсказанные числа отличаются от правильных.
В отличие от метрик классификации, здесь нет классов 0/1 или категориальных меток. Основной объект анализа — ошибка между истинным значением и предсказанием:
где:
- — истинное значение;
- — предсказание модели;
- — ошибка на объекте.
Формула
MAE
Mean Absolute Error, или средняя абсолютная ошибка:
MAE показывает средний размер ошибки в тех же единицах, что и целевая переменная.
Например, если модель предсказывает цену квартиры в тысячах евро, то MAE = 15 означает среднюю ошибку примерно 15 тысяч евро.
MSE
Mean Squared Error, или среднеквадратичная ошибка:
MSE сильнее штрафует большие ошибки, потому что ошибка возводится в квадрат.
RMSE
Root Mean Squared Error, или корень из среднеквадратичной ошибки:
RMSE, как и MAE, выражается в единицах целевой переменной, но сильнее реагирует на редкие крупные промахи.
R²
Коэффициент детерминации:
где — среднее истинных значений.
Интуитивно R² показывает, насколько модель лучше простого baseline, который всегда предсказывает среднее значение целевой переменной.
Обычно:
R² = 1— идеальные предсказания;R² = 0— модель не лучше предсказания среднего;R² < 0— модель хуже простого baseline.
MAPE
Mean Absolute Percentage Error:
MAPE показывает среднюю ошибку в процентах, но плохо работает, если истинные значения близки к нулю.
Интуиция
Разные регрессионные метрики подсвечивают разные свойства ошибки.
MAE отвечает на вопрос: на сколько в среднем ошибается модель.
RMSE отвечает на вопрос: есть ли у модели крупные промахи.
R² отвечает на вопрос: насколько модель объясняет разброс целевой переменной лучше, чем простое среднее.
MAPE отвечает на вопрос: какова средняя относительная ошибка в процентах.
Поэтому нельзя сказать, что одна метрика всегда лучше другой. Выбор зависит от задачи, масштаба целевой переменной и цены ошибки.
Как интерпретировать
MAE
MAE удобно интерпретировать, потому что она измеряется в тех же единицах, что и целевая переменная:
MAE = 2.5градуса;MAE = 1000рублей;MAE = 0.15eV.
Чем меньше MAE, тем лучше.
RMSE
RMSE тоже измеряется в единицах целевой переменной, но сильнее растёт из-за больших ошибок.
Если RMSE заметно больше MAE, это часто означает, что у модели есть отдельные крупные ошибки или выбросы.
R²
R² удобно использовать для общей оценки качества модели, но его нельзя интерпретировать как «процент правильных ответов».
Например, R² = 0.8 не значит, что модель ошибается только в 20% случаев. Лучше понимать это так: модель объясняет значительную часть вариации целевой переменной относительно baseline со средним значением.
MAPE
MAPE удобно объяснять бизнес-аудитории, потому что она выражается в процентах.
Но MAPE опасна, если:
- истинные значения могут быть равны нулю;
- истинные значения бывают очень маленькими;
- важны объекты с разным масштабом.
Когда использовать
MAE хорошо использовать, если:
- нужна понятная средняя ошибка;
- все ошибки примерно одинаково важны;
- выбросы не должны чрезмерно влиять на оценку.
RMSE хорошо использовать, если:
- крупные ошибки особенно нежелательны;
- нужно сильнее штрафовать большие промахи;
- модель сравнивается с другими моделями на одной и той же задаче.
R² хорошо использовать, если:
- нужно понять качество относительно простого baseline;
- целевая переменная имеет заметный разброс;
- сравниваются модели на одном и том же датасете.
MAPE хорошо использовать, если:
- важна относительная ошибка;
- целевая переменная строго положительная;
- значения не бывают близки к нулю;
- результат нужно объяснить в процентах.
Когда метрика обманывает
MAE скрывает крупные ошибки
Две модели могут иметь одинаковую MAE, но одна из них иногда делает очень большие промахи. Если такие промахи критичны, нужно смотреть RMSE или распределение ошибок.
RMSE слишком чувствительна к выбросам
Если в данных есть выбросы или ошибки разметки, RMSE может переоценивать проблему и делать модель хуже на бумаге, чем она полезна на практике.
R² зависит от разброса целевой переменной
На датасете с маленьким разбросом целевой переменной R² может выглядеть плохо даже при небольшой абсолютной ошибке.
На датасете с большим разбросом R² может выглядеть хорошо, хотя абсолютная ошибка всё ещё слишком велика для практического применения.
MAPE ломается около нуля
Если истинное значение близко к нулю, даже маленькая абсолютная ошибка может дать огромную процентную ошибку.
Например:
| Истинное значение | Предсказание | Абсолютная ошибка | Относительная ошибка |
|---|---|---|---|
| 0.01 | 0.02 | 0.01 | 100% |
Формально абсолютная ошибка маленькая, но относительная ошибка выглядит огромной.
Связанные метрики
Основные метрики регрессии:
- MAE — средняя абсолютная ошибка;
- MSE — среднеквадратичная ошибка;
- RMSE — корень из среднеквадратичной ошибки;
- R² — коэффициент детерминации;
- MAPE — средняя абсолютная процентная ошибка.
Дополнительные варианты:
- Median Absolute Error — медианная абсолютная ошибка;
- MSLE — среднеквадратичная логарифмическая ошибка;
- Explained Variance — объяснённая дисперсия;
- Quantile Loss — ошибка для квантильной регрессии.
Минимальный пример
Пусть есть четыре истинных значения и четыре предсказания:
| Объект | Истинное значение | Предсказание | Абсолютная ошибка | Квадрат ошибки |
|---|---|---|---|---|
| 1 | 3.0 | 2.5 | 0.5 | 0.25 |
| 2 | -0.5 | 0.0 | 0.5 | 0.25 |
| 3 | 2.0 | 2.0 | 0.0 | 0.00 |
| 4 | 7.0 | 8.0 | 1.0 | 1.00 |
Тогда:
Для этих же значений:
Интерпретация: модель в среднем ошибается на 0.5 единицы, крупных ошибок почти нет, а качество сильно лучше baseline, который всегда предсказывает среднее.
Практические замечания
Для нормальной оценки регрессора обычно недостаточно одной метрики.
Хорошая практика:
- Сравнить модель с простым baseline.
- Посчитать MAE и RMSE.
- Проверить R².
- Посмотреть распределение ошибок.
- Отдельно проверить ошибки на важных подгруппах данных.
Например, в Materials ML модель может хорошо предсказывать среднюю энергию образования, но сильно ошибаться на редких классах материалов. В таком случае средняя метрика будет выглядеть приемлемо, хотя модель плохо работает там, где она особенно нужна.