Максимальное правдоподобие

Коротко

Definition

Максимальное правдоподобие — это принцип оценки параметров модели, при котором выбираются такие параметры, которые делают наблюдаемые данные наиболее вероятными.

Метод максимального правдоподобия часто обозначают как MLE — maximum likelihood estimation.

Идея простая: если у нас есть данные, то хорошая модель должна считать именно эти данные вероятными.

Например, в классификации модель должна давать высокую вероятность правильным классам. В регрессии вероятностная модель должна давать высокую плотность вероятности рядом с наблюдаемыми значениями.

Интуиция

Представим, что модель объясняет данные через параметры $θ$ .

Разные значения $θ$ делают разные наблюдения более или менее вероятными. Метод максимального правдоподобия спрашивает:

При каких параметрах $θ$ наши реальные данные выглядели бы наиболее правдоподобно?

Например, если модель классифицирует изображения кошек и собак, то для каждого обучающего объекта она выдаёт вероятность правильного класса.

Если правильный класс — cat, хорошая модель должна дать ему высокую вероятность:

p_{θ} (y = c a t ∣ x)

Если для всех обучающих объектов модель даёт правильным ответам высокие вероятности, правдоподобие большое. Если хотя бы нескольким правильным ответам модель даёт почти нулевую вероятность, правдоподобие резко падает.

Основные идеи

Правдоподобие

Пусть есть обучающая выборка:

D = {(x_{i}, y_{i})}_{i = 1}^{n}

Модель с параметрами $θ$ задаёт вероятность правильного ответа:

p_{θ} (y_{i} ∣ x_{i})

Если считать объекты независимыми, правдоподобие всей выборки:

L (θ) = i = 1 \prod n p_{θ} (y_{i} ∣ x_{i})

Задача максимального правдоподобия:

\hat{θ} = argmax_{θ} L (θ)

То есть нужно найти параметры, при которых произведение вероятностей наблюдаемых ответов максимально.

Логарифм правдоподобия

На практике почти всегда используют не само правдоподобие, а логарифм правдоподобия:

lo g L (θ) = i = 1 \sum n lo g p_{θ} (y_{i} ∣ x_{i})

Причины:

произведение многих вероятностей быстро становится численно очень маленьким;
логарифм превращает произведение в сумму;
сумма удобнее для оптимизации;
максимум сохраняется, потому что логарифм монотонен.

Поэтому задача становится такой:

\hat{θ} = argmax_{θ} i = 1 \sum n lo g p_{θ} (y_{i} ∣ x_{i})

Отрицательное log-likelihood

Многие оптимизаторы минимизируют функцию потерь, а не максимизируют целевую функцию. Поэтому берут отрицательный log-likelihood:

N LL (θ) = - i = 1 \sum n lo g p_{θ} (y_{i} ∣ x_{i})

И минимизируют его:

\hat{θ} = argmin_{θ} N LL (θ)

Для классификации это напрямую приводит к кросс-энтропии.

Пример для классификации

Для классификации:

L (θ) = i = 1 \prod n p_{θ} (y_{i} ∣ x_{i})

Если модель для всех правильных классов выдаёт вероятность $0.7$ , то:

L (θ) = 0. 7^{n}

При росте $n$ это число быстро стремится к нулю. Поэтому напрямую работать с произведением неудобно.

Логарифм превращает это в сумму:

lo g L (θ) = n lo g (0.7)

А отрицательный средний log-likelihood:

- \frac{1}{n} lo g L (θ) = - lo g (0.7)

Именно это значение является cross-entropy loss, если вероятность правильного класса равна $0.7$ .

Крайние случаи

Идеальный случай:

p_{θ} (y_{i} ∣ x_{i}) = 1

для каждого объекта. Тогда:

L (θ) = 1

и:

- lo g L (θ) = 0

Худший случай:

p_{θ} (y_{i} ∣ x_{i}) = 0

хотя бы для одного правильного ответа. Тогда:

L (θ) = 0

а:

- lo g L (θ) \to + \infty

Поэтому метод максимального правдоподобия сильно штрафует модель за ситуации, где правильный ответ считается почти невозможным.

Когда использовать

Максимальное правдоподобие используют, когда:

модель задаёт вероятности или плотности вероятности;
нужно оценить параметры статистической модели;
обучается логистическая регрессия;
обучается вероятностный классификатор;
обучается языковая модель;
функция потерь выводится из предположений о распределении данных;
нужно связать обучение модели со статистической интерпретацией.

Примеры:

в логистической регрессии MLE приводит к cross-entropy loss;
в линейной регрессии с гауссовым шумом MLE приводит к MSE;
в языковом моделировании MLE соответствует максимизации вероятности правильных токенов;
в вероятностных моделях MLE используется для оценки параметров распределений.

Когда не использовать

MLE может быть не лучшим выбором, если:

вероятностная модель плохо описывает данные;
данные сильно зашумлены;
есть много выбросов;
выборка маленькая, и модель легко переобучается;
важна регуляризация или prior-знание;
нужна байесовская оценка неопределённости.

В таких случаях могут использовать:

MAP-оценку;
байесовский подход;
регуляризацию;
робастные функции потерь;
специальные objective-функции под задачу.

Минимальный пример

import math
 
probs = [0.8, 0.6, 0.9]
 
likelihood = math.prod(probs)
log_likelihood = sum(math.log(p) for p in probs)
negative_log_likelihood = -log_likelihood
 
print(likelihood)
print(log_likelihood)
print(negative_log_likelihood)

В этом примере probs — вероятности, которые модель присвоила правильным ответам. Чем выше эти вероятности, тем выше likelihood и тем ниже negative log-likelihood.

Машинное обучение

Explorer

Максимальное правдоподобие

Максимальное правдоподобие

Коротко

Интуиция

Основные идеи

Правдоподобие

Логарифм правдоподобия

Отрицательное log-likelihood

Пример для классификации

Крайние случаи

Когда использовать

Когда не использовать

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks