Обратное распространение ошибки

Коротко

Definition

Обратное распространение ошибки — это алгоритм вычисления градиентов функции потерь по параметрам нейронной сети с помощью последовательного применения правила цепочки от выхода модели к её ранним слоям.

Backpropagation не является отдельной моделью. Это способ эффективно посчитать, как каждый параметр сети влияет на итоговую ошибку.

Главная идея:

сначала выполнить прямой проход;
получить предсказание модели;
посчитать функцию потерь;
затем идти назад по вычислительному графу;
применять правило цепочки;
получить градиенты по всем параметрам;
передать эти градиенты оптимизатору для обновления весов.

Интуиция

Нейронная сеть — это большая композиция функций.

Например:

x \to f_{1} \to f_{2} \to f_{3} \to \overset{y}{^} \to L

Функция потерь $L$ зависит от выхода модели, выход зависит от последних слоёв, последние слои зависят от предыдущих и так далее.

Чтобы понять, как изменить вес в раннем слое, нужно ответить на вопрос:

Если немного изменить этот вес, как изменится итоговая ошибка?

Backpropagation отвечает на этот вопрос через производные.

Он распространяет информацию об ошибке назад:

L \to \overset{y}{^} \to f_{3} \to f_{2} \to f_{1}

Поэтому алгоритм называется обратным распространением ошибки.

Основные идеи

Правило цепочки

Основа backpropagation — правило цепочки для производных.

Если:

z = g (y)

и:

y = f (x)

то:

z = g (f (x))

и производная:

\frac{d z}{d x} = \frac{d z}{d y} \cdot \frac{d y}{d x}

То есть влияние $x$ на $z$ раскладывается на две части:

как $x$ влияет на промежуточную переменную $y$ ;
как $y$ влияет на итоговую переменную $z$ .

Если переменная влияет на результат через несколько путей, вклады суммируются:

\frac{d z}{d x _{j}} = i \sum \frac{d z}{d y _{i}} \frac{d y _{i}}{d x _{j}}

Это важно для нейросетей, потому что вычислительный граф часто имеет разветвления.

Прямой и обратный проход

Обучение нейросети обычно состоит из двух проходов.

Forward pass

На прямом проходе сеть вычисляет предсказание:

\overset{y}{^} = f (x; θ)

Затем считается ошибка:

L = L (\overset{y}{^}, y)

Во время forward pass сохраняются промежуточные значения: входы слоёв, активации и выходы операций. Они нужны для вычисления производных на обратном проходе.

Backward pass

На обратном проходе вычисляются градиенты:

\frac{\partial L}{\partial θ}

для всех обучаемых параметров $θ$ .

Градиенты показывают, как изменение каждого параметра повлияет на функцию потерь.

После этого оптимизатор обновляет параметры, например по правилу градиентного спуска:

θ \leftarrow θ - η \frac{\partial L}{\partial θ}

где $η$ — learning rate.

Пример для последовательности слоёв

Пусть модель — это композиция функций:

z = f_{4} (f_{3} (f_{2} (f_{1} (x; w_{1}); w_{2}); w_{3}); w_{4})

Функция потерь:

L = L (z, y)

Нужно найти производные:

\frac{\partial L}{\partial w _{1}}, \frac{\partial L}{\partial w _{2}}, \frac{\partial L}{\partial w _{3}}, \frac{\partial L}{\partial w _{4}}

Для последнего слоя цепочка короткая:

\frac{\partial L}{\partial w _{4}} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w _{4}}

Для более раннего слоя цепочка длиннее:

\frac{\partial L}{\partial w _{3}} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial x _{3}} \cdot \frac{\partial x _{3}}{\partial w _{3}}

Для самых ранних слоёв нужно пройти через ещё больше промежуточных операций.

Пример с активациями

Пусть есть простая сеть:

z_{1} = x w_{1} + b_{1}

a_{1} = σ (z_{1})

z_{2} = a_{1} w_{2} + b_{2}

a_{2} = σ (z_{2})

\overset{y}{^} = a_{2} w_{3} + b_{3}

Функция потерь:

L = L (\overset{y}{^}, y)

Градиент по последнему весу:

\frac{\partial L}{\partial w _{3}} = \frac{\partial L}{\partial y ^} \cdot \frac{\partial y ^}{\partial w _{3}}

Градиент по весу второго слоя:

\frac{\partial L}{\partial w _{2}} = \frac{\partial L}{\partial y ^} \cdot \frac{\partial y ^}{\partial a _{2}} \cdot \frac{\partial a _{2}}{\partial z _{2}} \cdot \frac{\partial z _{2}}{\partial w _{2}}

Градиент по весу первого слоя:

\frac{\partial L}{\partial w _{1}} = \frac{\partial L}{\partial y ^} \cdot \frac{\partial y ^}{\partial a _{2}} \cdot \frac{\partial a _{2}}{\partial z _{2}} \cdot \frac{\partial z _{2}}{\partial a _{1}} \cdot \frac{\partial a _{1}}{\partial z _{1}} \cdot \frac{\partial z _{1}}{\partial w _{1}}

Чем раньше слой, тем длиннее цепочка производных.

От чего зависит величина градиента

Градиент раннего слоя зависит от произведения многих множителей:

\frac{\partial L}{\partial w _{1}} = ошибка на выходе \frac{\partial L}{\partial y ^} \cdot всё, что выше данного слоя \frac{\partial y ^}{\partial a _{2}} \cdot \frac{\partial a _{2}}{\partial z _{2}} \cdot \frac{\partial z _{2}}{\partial a _{1}} \cdot \frac{\partial a _{1}}{\partial z _{1}} \cdot локальное влияние веса \frac{\partial z _{1}}{\partial w _{1}}

Поэтому градиент зависит от трёх групп факторов:

Конечная ошибка модели.
Производные всех операций выше данного слоя.
Вход и локальная операция данного слоя.

Отсюда возникает проблема затухающих и взрывающихся градиентов.

Если много производных меньше 1, их произведение может стать почти нулевым. Тогда ранние слои почти не обучаются.

Если много производных больше 1, их произведение может стать очень большим. Тогда обучение становится нестабильным.

Подробнее: Затухание градиента.

Когда использовать

Backpropagation используется почти всегда, когда обучается нейронная сеть через градиентную оптимизацию.

Типичные случаи:

полносвязные сети;
CNN;
LSTM;
трансформеры;
autoencoder;
GAN;
модели для классификации;
модели для регрессии;
языковые модели.

Backpropagation нужен, когда:

модель дифференцируема;
есть функция потерь;
параметры нужно обновлять по градиенту;
обучение выполняется через optimizer, например SGD, Adam или AdamW.

Когда не использовать

Backpropagation не подходит напрямую, если:

операции в модели недифференцируемы;
нет функции потерь;
параметры не обучаются градиентным методом;
задача решается алгоритмом без обучаемых весов;
требуется оптимизация дискретных решений без дифференцируемого приближения.

Например, классические деревья решений, случайный лес, k-means и DBSCAN не обучаются через backpropagation в обычном виде.

Если в модели есть недифференцируемые части, иногда используют:

surrogate loss;
reinforcement learning;
straight-through estimator;
эволюционные алгоритмы;
численную оптимизацию без градиентов.

Минимальный пример

import torch
from torch import nn
 
x = torch.tensor([ [1.0, 2.0] ])
y = torch.tensor([ [1.0] ])
 
model = nn.Sequential(
    nn.Linear(2, 4),
    nn.ReLU(),
    nn.Linear(4, 1),
)
 
loss_fn = nn.MSELoss()
 
prediction = model(x)
loss = loss_fn(prediction, y)
 
loss.backward()
 
for name, parameter in model.named_parameters():
    print(name, parameter.grad)

В этом примере:

prediction = model(x) выполняет forward pass;
loss_fn(prediction, y) считает ошибку;
loss.backward() запускает backpropagation;
parameter.grad содержит градиенты по параметрам.

После этого оптимизатор мог бы обновить параметры модели.

Связанные понятия

Что знать перед этим

Кросс-энтропия
Производная
Правило цепочки

Машинное обучение

Explorer

Обратное распространение ошибки

Обратное распространение ошибки

Коротко

Интуиция

Основные идеи

Правило цепочки

Прямой и обратный проход

Forward pass

Backward pass

Пример для последовательности слоёв

Пример с активациями

От чего зависит величина градиента

Когда использовать

Когда не использовать

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks