Кросс-энтропия

Коротко

Definition

Кросс-энтропия — это функция потерь, которая штрафует модель за низкую вероятность, присвоенную правильному классу.

В задачах классификации модель обычно выдаёт вероятности классов. Кросс-энтропия смотрит только на вероятность правильного класса и применяет к ней отрицательный логарифм:

L = - lo g p_{θ} (y ∣ x)

Если модель уверенно дала правильному классу высокую вероятность, loss маленький. Если правильному классу дана низкая вероятность, loss большой.

Кросс-энтропия тесно связана с максимальным правдоподобием: минимизация cross-entropy эквивалентна максимизации log-likelihood на обучающих данных.

Интуиция

Представим, что правильный класс — cat.

Модель может сказать:

Вероятность правильного класса	Loss
$p = 0.99$	Очень маленький
$p = 0.7$	Небольшой
$p = 0.1$	Большой
$p = 0.001$	Очень большой

Кросс-энтропия не просто проверяет, угадала модель класс или нет. Она учитывает уверенность модели.

Если модель дала правильный ответ, но была неуверенной, loss будет больше, чем у уверенной правильной модели.

Если модель уверенно ошиблась, loss будет очень большим.

Именно поэтому cross-entropy хорошо подходит для обучения классификаторов: она заставляет модель не только выбирать правильный класс, но и распределять вероятности разумно.

Основные идеи

Общая формула

Для независимых обучающих объектов:

(x_{i}, y_{i}), i = 1, \dots, n

общая cross-entropy записывается так:

CE = - \frac{1}{n} i = 1 \sum n lo g p_{θ} (y_{i} ∣ x_{i})

где:

$p_{θ} (y_{i} ∣ x_{i})$ — вероятность правильного класса по мнению модели;
$θ$ — параметры модели;
$n$ — количество объектов.

Бинарная кросс-энтропия

Для бинарной классификации:

y_{i} \in {0, 1}

модель обычно предсказывает вероятность положительного класса:

\overset{p}{^}_{i} = p_{θ} (y_{i} = 1 ∣ x_{i})

Тогда binary cross-entropy:

BCE = - \frac{1}{n} i = 1 \sum n [y_{i} lo g (\overset{p}{^}_{i}) + (1 - y_{i}) lo g (1 - \overset{p}{^}_{i})]

Эта формула просто записывает два случая без if.

Если $y_{i} = 1$ :

BC E_{i} = - lo g (\overset{p}{^}_{i})

Если $y_{i} = 0$ :

BC E_{i} = - lo g (1 - \overset{p}{^}_{i})

Многоклассовая кросс-энтропия

Для многоклассовой классификации с $K$ классами модель выдаёт распределение вероятностей:

\overset{p}{^}_{i 1}, \overset{p}{^}_{i 2}, \dots, \overset{p}{^}_{i K}

Если истинная метка записана в one-hot формате, то cross-entropy:

CE = - \frac{1}{n} i = 1 \sum n k = 1 \sum K y_{ik} lo g (\overset{p}{^}_{ik})

Так как в one-hot векторе только один элемент равен 1, сумма фактически выбирает вероятность правильного класса:

C E_{i} = - lo g (\overset{p}{^}_{i, k^{*}})

где $k^{*}$ — индекс правильного класса.

Связь с максимальным правдоподобием

Правдоподобие обучающей выборки:

L (θ) = i = 1 \prod n p_{θ} (y_{i} ∣ x_{i})

Логарифм правдоподобия:

lo g L (θ) = i = 1 \sum n lo g p_{θ} (y_{i} ∣ x_{i})

Максимизация log-likelihood эквивалентна минимизации отрицательного среднего log-likelihood:

- \frac{1}{n} lo g L (θ) = - \frac{1}{n} i = 1 \sum n lo g p_{θ} (y_{i} ∣ x_{i})

Это и есть cross-entropy loss для классификации.

Почему используют логарифм:

произведение многих вероятностей быстро становится численно очень маленьким;
логарифм превращает произведение в сумму;
отрицательный знак превращает задачу максимизации в задачу минимизации;
градиенты становятся удобнее для оптимизации.

Крайние случаи

Идеальный случай:

p_{θ} (y_{i} ∣ x_{i}) = 1

Тогда:

- lo g (1) = 0

Худший случай:

p_{θ} (y_{i} ∣ x_{i}) \to 0

Тогда:

- lo g (p_{θ} (y_{i} ∣ x_{i})) \to + \infty

Промежуточные примеры:

- lo g (0.7) \approx 0.36

- lo g (0.1) \approx 2.30

- lo g (0.01) \approx 4.61

Чем меньше вероятность правильного класса, тем сильнее штраф.

Когда использовать

Кросс-энтропию используют, когда:

задача является классификацией;
модель выдаёт вероятности классов или logits;
нужно обучить логистическую регрессию;
нужно обучить нейросетевой классификатор;
используется softmax для многоклассовой классификации;
используется sigmoid для бинарной или multilabel-классификации;
обучается языковая модель предсказывать следующий токен.

Типичные случаи:

Логистическая регрессия;
image classification;
text classification;
token classification;
language modeling;
transformer-based models;
multiclass и multilabel классификация.

Когда не использовать

Кросс-энтропия не подходит напрямую, если:

задача является обычной регрессией;
целевая переменная непрерывная;
модель не выдаёт вероятностную интерпретацию;
классы размечены очень шумно;
требуется оптимизировать не вероятность класса, а ranking-метрику;
важна специальная стоимость разных типов ошибок.

В регрессии обычно используют MSE, MAE, Huber loss или другие функции потерь.

При сильном дисбалансе классов обычная cross-entropy может быть недостаточной. Тогда используют:

class weights;
focal loss;
resampling;
threshold tuning;
специальные метрики вроде PR-AUC.

Минимальный пример

import math
 
prob_correct_class = 0.7
loss = -math.log(prob_correct_class)
 
print(loss)

Пример для PyTorch:

import torch
from torch import nn
 
logits = torch.tensor([
    [2.0, 0.5, 0.1],
    [0.2, 1.5, 0.3],
])
 
target = torch.tensor([0, 1])
 
loss_fn = nn.CrossEntropyLoss()
loss = loss_fn(logits, target)
 
print(loss.item())

Важно: в PyTorch CrossEntropyLoss ожидает logits, а не вероятности после softmax. Softmax уже встроен внутрь функции потерь в численно стабильном виде.

Машинное обучение

Explorer

Кросс-энтропия

Кросс-энтропия

Коротко

Интуиция

Основные идеи

Общая формула

Бинарная кросс-энтропия

Многоклассовая кросс-энтропия

Связь с максимальным правдоподобием

Крайние случаи

Когда использовать

Когда не использовать

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks