Рекуррентный слой

Коротко

Definition

Рекуррентный слой — это архитектурный блок нейронной сети для обработки последовательностей, в котором состояние на текущем шаге зависит от текущего входа и состояния на предыдущем шаге.

Рекуррентный слой нужен для данных, где важен порядок элементов: текстов, временных рядов, сигналов, событийных историй и других последовательностей.

Главная идея: слой обрабатывает последовательность шаг за шагом и переносит информацию из прошлого через скрытое состояние.

Зачем нужен

Обычный Полносвязный слой получает входной вектор и сразу строит выходной вектор. Он не хранит память о предыдущих шагах.

Рекуррентный слой добавляет память:

на шаге $t$ он получает текущий вход $x_{t}$ ;
берёт скрытое состояние с предыдущего шага $h_{t - 1}$ ;
строит новое скрытое состояние $h_{t}$ .

Это позволяет модели учитывать контекст.

Например:

в тексте значение слова зависит от предыдущих слов;
во временном ряду текущее значение зависит от прошлых значений;
в истории действий пользователя следующее действие зависит от предыдущих действий;
в сигнале важна динамика, а не только отдельное измерение.

Как работает

Базовая формула выхода рекуррентного слоя на шаге $t$ :

h_{t} = f (W_{hh} h_{t - 1} + W_{x h} x_{t} + b)

где:

$x_{t}$ — вход на текущем шаге;
$h_{t - 1}$ — скрытое состояние с предыдущего шага;
$h_{t}$ — новое скрытое состояние;
$W_{x h}$ — матрица весов для текущего входа;
$W_{hh}$ — матрица весов для предыдущего скрытого состояния;
$b$ — вектор смещений;
$f$ — функция активации.

Смысл двух частей:

$W_{x h} x_{t}$ обрабатывает текущий вход;
$W_{hh} h_{t - 1}$ переносит информацию из прошлого.

Итоговое состояние $h_{t}$ можно использовать двумя способами:

как выход на текущем шаге;
как память, которая передаётся на следующий шаг.

Разворачивание во времени

Рекуррентный слой можно представить как один и тот же блок, применяемый много раз к разным элементам последовательности.

Для последовательности:

x = (x_{1}, x_{2}, \dots, x_{T})

слой последовательно вычисляет:

h_{1} = f (W_{hh} h_{0} + W_{x h} x_{1} + b)

h_{2} = f (W_{hh} h_{1} + W_{x h} x_{2} + b)

h_{3} = f (W_{hh} h_{2} + W_{x h} x_{3} + b)

и так далее до $h_{T}$ .

Важно: веса $W_{x h}$ и $W_{hh}$ одни и те же на всех шагах. Это называется shared weights.

Обучаемые параметры

В процессе обучения изменяются:

матрица весов для входа $W_{x h}$ ;
матрица весов между шагами $W_{hh}$ ;
вектор смещений $b$ ;
дополнительные параметры, если используется более сложная рекуррентная ячейка.

Для базового RNN-слоя число параметров зависит от:

размерности входа;
размерности скрытого состояния;
наличия bias.

Если вход имеет размерность $d_{x}$ , а скрытое состояние — $d_{h}$ , то:

W_{x h} \in R^{d_{h} \times d_{x}}

W_{hh} \in R^{d_{h} \times d_{h}}

b \in R^{d_{h}}

Как обучается

Рекуррентные слои обучаются с помощью обратного распространения ошибки, но с учётом временной структуры. Такой вариант называется backpropagation through time.

Идея:

Модель проходит последовательность вперёд и сохраняет скрытые состояния.
Ошибка считается на одном или нескольких шагах.
Градиент распространяется назад через шаги последовательности.
Обновляются общие веса $W_{x h}$ , $W_{hh}$ и $b$ .

Проблема в том, что при длинных последовательностях градиент проходит через много шагов. Из-за этого могут возникать:

затухающие градиенты;
взрывающиеся градиенты;
трудности с обучением долгих зависимостей.

Именно поэтому на практике часто используют не простую RNN, а более устойчивые варианты, например LSTM.

Гиперпараметры

Основные гиперпараметры рекуррентного слоя:

размер скрытого состояния;
число рекуррентных слоёв;
тип рекуррентной ячейки;
направление обработки: однонаправленная или bidirectional;
dropout между слоями;
длина последовательности или максимальная длина;
способ использования выхода: последний шаг, все шаги или pooling по шагам.

Размер скрытого состояния определяет, сколько информации слой может хранить в памяти. Чем он больше, тем выразительнее модель, но тем выше риск переобучения и вычислительная стоимость.

Где используется

Рекуррентные слои используются для последовательных данных:

классификация текста;
прогнозирование временных рядов;
обработка сигналов;
распознавание речи;
sequence labeling;
машинный перевод;
генерация текста;
анализ истории действий пользователя.

Исторически рекуррентные слои были базовым инструментом для NLP и временных рядов. Сейчас во многих задачах их вытеснили трансформеры, но RNN и LSTM всё ещё полезны для небольших моделей, потоковых данных и задач с ограниченными ресурсами.

Связанные архитектуры

Рекуррентный слой связан с несколькими архитектурами:

LSTM — рекуррентная архитектура с механизмами управления памятью;
GRU — упрощённый вариант gated recurrent unit;
Seq2Seq — архитектура encoder-decoder для преобразования последовательностей;
Attention — механизм выбора важных элементов последовательности;
Трансформер — архитектура, которая во многих задачах заменила RNN за счёт self-attention.

В простых RNN память передаётся одним скрытым состоянием. В LSTM дополнительно используется cell state, который помогает хранить информацию на длинных интервалах.

Типичные ошибки понимания

Думать, что RNN хорошо помнит всё прошлое

Теоретически рекуррентная сеть может передавать информацию через много шагов. На практике простая RNN часто плохо обучается на длинных зависимостях из-за затухания градиента.

Путать скрытое состояние и выход

В простых RNN скрытое состояние часто одновременно является выходом слоя. Но в более сложных архитектурах выход и внутреннее состояние могут различаться.

Забывать, что веса общие для всех шагов

Рекуррентный слой не имеет отдельные веса для каждого шага последовательности. Один и тот же набор весов применяется повторно на всех шагах.

Использовать случайное train-test split для временных рядов

Если последовательность связана со временем, случайное перемешивание может привести к data leakage. Для временных рядов часто нужно обучаться на прошлом и проверяться на будущем.

Считать RNN всегда лучшим выбором для последовательностей

Рекуррентные слои хорошо подходят для некоторых последовательных задач, но не всегда являются оптимальными. Для длинных текстов и многих NLP-задач чаще используют трансформеры.

Минимальный пример

Пусть есть последовательность из трёх элементов:

x = (x_{1}, x_{2}, x_{3})

Рекуррентный слой обрабатывает её так:

h_{1} = f (W_{hh} h_{0} + W_{x h} x_{1} + b)

h_{2} = f (W_{hh} h_{1} + W_{x h} x_{2} + b)

h_{3} = f (W_{hh} h_{2} + W_{x h} x_{3} + b)

Если задача — классификация всей последовательности, можно взять последнее скрытое состояние $h_{3}$ и подать его в Полносвязный слой:

\overset{y}{^} = Linear (h_{3})

Например, для классификации отзыва модель читает слова по порядку, обновляет скрытое состояние и в конце решает, положительный отзыв или отрицательный.

Практические замечания

При работе с рекуррентными слоями важно учитывать:

Длины последовательностей.
Padding и masks.
Правильный порядок элементов.
Способ разделения train и test.
Риск затухания градиента.
Нужен ли bidirectional layer.
Использовать последний hidden state или все hidden states.
Достаточен ли простой RNN или лучше использовать LSTM.

В учебных задачах простой рекуррентный слой полезен для понимания идеи памяти в нейросетях. В реальных задачах часто стоит начинать с LSTM, GRU или transformer-based модели.

Машинное обучение

Explorer

Рекуррентный слой

Рекуррентный слой

Коротко

Зачем нужен

Как работает

Разворачивание во времени

Обучаемые параметры

Как обучается

Гиперпараметры

Где используется

Связанные архитектуры

Типичные ошибки понимания

Думать, что RNN хорошо помнит всё прошлое

Путать скрытое состояние и выход

Забывать, что веса общие для всех шагов

Использовать случайное train-test split для временных рядов

Считать RNN всегда лучшим выбором для последовательностей

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks