Автоэнкодер

Коротко

Definition

Автоэнкодер — это нейросетевая архитектура, которая учится сжимать входные данные в скрытое представление, а затем восстанавливать исходный объект из этого представления.

Автоэнкодер состоит из двух основных частей:

encoder — сжимает вход $x$ в латентный вектор $z$ ;
decoder — восстанавливает объект $\overset{x}{^}$ из латентного вектора $z$ .

Схематично:

x \to z \to \overset{x}{^}

где:

$x$ — исходный объект;
$z$ — скрытое, или латентное, представление;
$\overset{x}{^}$ — восстановленный объект.

Главная идея: если модель научилась хорошо восстанавливать объект через узкое скрытое представление, значит она выучила важные признаки данных.

Интуиция

Автоэнкодер можно представить как систему сжатия.

Encoder пытается сохранить в $z$ только самую важную информацию об объекте. Decoder пытается по этому сжатому описанию восстановить исходный объект.

Если скрытое пространство слишком маленькое или ограниченное, модель вынуждена учиться выделять существенные признаки, а не просто копировать вход.

Например:

для изображений latent vector может хранить форму, цвет, стиль и положение объектов;
для табличных данных — основные факторы вариации;
для сигналов — сжатое описание паттерна;
для молекул — признаки структуры, если модель построена под такие данные.

Формальное описание

Классический автоэнкодер можно записать как композицию двух функций.

Encoder:

z = e_{θ} (x)

Decoder:

\overset{x}{^} = d_{ϕ} (z)

Итоговое восстановление:

\overset{x}{^} = d_{ϕ} (e_{θ} (x))

где:

$e_{θ}$ — encoder с параметрами $θ$ ;
$d_{ϕ}$ — decoder с параметрами $ϕ$ ;
$z$ — латентное представление;
$\overset{x}{^}$ — реконструкция входа.

Автоэнкодер обычно относят к representation learning и unsupervised или self-supervised learning: модель учится по самим входным данным, используя $x$ как целевой ответ для восстановления.

Входы и выходы

Вход зависит от типа данных:

Изображения — tensor пикселей;
Табличные данные — вектор признаков;
Последовательности — токены, сигналы или временные ряды;
Графовые данные — графовые структуры, если используется графовый автоэнкодер.

Выход классического автоэнкодера имеет тот же тип и форму, что и вход:

x \approx \overset{x}{^}

Например:

вход — изображение 64 × 64 × 3;
выход — восстановленное изображение 64 × 64 × 3.

Латентный вектор $z$ обычно имеет меньшую размерность или более ограниченную структуру, чем исходный объект.

Устройство

Три основных компонента автоэнкодера:

Encoder.
Latent space.
Decoder.

Encoder

Encoder преобразует входные данные $x$ в скрытое представление $z$ :

z = e_{θ} (x)

Задача encoder — извлечь компактное представление объекта.

Для изображений encoder может быть CNN. Для последовательностей — LSTM, Трансформер или другая sequence-модель. Для табличных данных — полносвязная сеть.

Latent space

Latent space — это пространство скрытых представлений.

Вектор $z$ должен содержать информацию, достаточную для восстановления объекта, но желательно без лишнего шума.

Если latent space хорошо организован, похожие объекты получают похожие представления.

Decoder

Decoder восстанавливает объект из латентного вектора:

\overset{x}{^} = d_{ϕ} (z)

Задача decoder — по сжатому описанию построить объект, похожий на исходный.

В простом автоэнкодере decoder учится реконструировать вход. В генеративных вариантах decoder также может использоваться для создания новых объектов.

Как обучается

Классический автоэнкодер обучается минимизировать ошибку восстановления между входом и выходом.

Общий вид:

L (x, \overset{x}{^}) = L (x, d_{ϕ} (e_{θ} (x)))

Для числовых данных часто используют MSE:

L = ∥ x - \overset{x}{^} ∥_{2}^{2}

или:

L = ∥ x - d_{ϕ} (e_{θ} (x)) ∥_{2}^{2}

Для бинарных данных или нормализованных изображений могут использовать binary cross-entropy или другие reconstruction losses.

Обучение происходит через Обратное распространение ошибки и Обновление параметров.

Функция потерь

Для обычного автоэнкодера основная функция потерь — reconstruction loss.

Она измеряет, насколько хорошо модель восстановила вход.

Примеры:

Тип данных	Частая функция потерь
Непрерывные признаки	MSE
Бинарные признаки	Binary cross-entropy
Изображения	MSE, MAE, perceptual loss
Последовательности	Cross-entropy по токенам

Важно: низкая ошибка восстановления не всегда означает хорошее latent space. Модель может научиться копировать вход, особенно если latent dimension слишком большая.

Зачем нужен

Автоэнкодеры используют для разных задач:

сжатие данных;
извлечение признаков;
representation learning;
denoising;
anomaly detection;
предобучение;
генерация данных в специальных вариантах;
визуализация скрытых структур;
поиск похожих объектов в latent space.

Например, если автоэнкодер обучен восстанавливать нормальные объекты, то аномальные объекты могут восстанавливаться плохо. Тогда reconstruction error можно использовать как сигнал аномалии.

Проблема генерации в обычном автоэнкодере

Warning

У классического автоэнкодера скрытое пространство специально не регуляризуется. Поэтому decoder нельзя надёжно использовать для генерации новых валидных объектов из случайных latent vectors.

Проблема в том, что encoder может разложить объекты в latent space как угодно:

кластеры могут быть далеко друг от друга;
между кластерами могут быть пустые области;
случайная точка $z$ может не соответствовать ни одному осмысленному объекту;
интерполяция между объектами может давать бессмысленные результаты.

Обычный автоэнкодер хорошо восстанавливает объекты, которые прошли через encoder. Но если взять случайный latent vector и подать в decoder, результат может быть невалидным.

Именно поэтому для генерации используют специальные варианты, например VAE или VQ-VAE.

Вариационный автоэнкодер

Вариационный автоэнкодер, или VAE, — это генеративная модификация автоэнкодера.

Definition

VAE — это автоэнкодер, который кодирует объект не в одну точку latent space, а в параметры вероятностного распределения, из которого затем сэмплируется latent vector.

В обычном автоэнкодере:

x \to z

В VAE:

x \to μ, lo g σ^{2} \to z

Главная идея VAE: сделать latent space непрерывным, регуляризованным и пригодным для генерации.

Устройство VAE

VAE состоит из тех же крупных частей, что и автоэнкодер, но encoder работает иначе.

Encoder

Encoder преобразует вход $x$ не в один latent vector, а в параметры распределения:

μ (x), lo g σ^{2} (x)

Обычно предполагается нормальное распределение:

q_{ϕ} (z ∣ x) = N (μ (x), σ^{2} (x))

То есть encoder говорит не «этот объект находится строго в точке $z$ », а «этот объект соответствует облаку вероятных точек в latent space».

Пример из старой заметки:

входной объект — RGB-вектор фиолетового цвета $[0.8, 0.2, 0.9]$ ;
latent space — двумерный;
encoder выдаёт $μ = [2.5, - 1.0]$ ;
encoder выдаёт $lo g σ^{2} = [0.3, 0.8]$ .

Это можно понимать так: модель считает, что фиолетовый цвет находится где-то в правой нижней части latent map, но есть неопределённость.

Reparameterization trick

Чтобы обучать VAE через backpropagation, нужно сэмплировать $z$ так, чтобы случайность не ломала вычислительный граф.

Для этого используют reparameterization trick:

z = μ + σ ⊙ ϵ

где:

$ϵ \sim N (0, I)$ — случайный шум;
$μ$ и $σ$ — параметры, предсказанные encoder;
$⊙$ — поэлементное умножение.

Important

Случайность выносится в $ϵ$ , а $μ$ и $σ$ остаются дифференцируемыми. Поэтому через них можно передавать градиент.

Пример:

$μ = [2.5, - 1.0]$ ;
$σ = [0.3, 0.8]$ ;
$ϵ = [0.5, - 0.2]$ .

Тогда:

z_{1} = 2.5 + 0.3 \cdot 0.5 = 2.65

z_{2} = - 1.0 + 0.8 \cdot (- 0.2) = - 1.16

Получаем:

z = [2.65, - 1.16]

Decoder

Decoder получает сэмплированный latent vector $z$ и восстанавливает объект:

\overset{x}{^} = d_{θ} (z)

Например, если decoder получил $z = [2.65, - 1.16]$ , он может попытаться восстановить RGB-вектор фиолетового цвета:

\overset{x}{^} = [0.75, 0.3, 0.85]

Функция потерь VAE

VAE обучается через ELBO — evidence lower bound. На практике часто минимизируют отрицание ELBO.

Типичный loss VAE состоит из двух частей:

L_{θ, ϕ} (x) = - E_{q_{ϕ} (z ∣ x)} [lo g p_{θ} (x ∣ z)] + D_{K L} (q_{ϕ} (z ∣ x) ∥ p (z))

Первая часть — reconstruction loss. Она заставляет decoder хорошо восстанавливать объект.

Вторая часть — KL-divergence. Она заставляет распределение $q_{ϕ} (z ∣ x)$ быть близким к prior, обычно:

p (z) = N (0, I)

Интуитивно в VAE происходит «перетягивание каната»:

Reconstruction loss говорит: раздвинь разные объекты подальше, чтобы decoder не путался.
KL-divergence говорит: держи latent distributions ближе к нормальному prior и не создавай пустые разрывы.

Компромисс приводит к более гладкому latent space, где случайные точки чаще декодируются в осмысленные объекты.

KL-дивергенция в VAE

KL-дивергенция измеряет отличие предсказанного распределения latent vector от эталонного нормального распределения.

Для нормального prior $N (0, I)$ KL-часть штрафует:

слишком далёкие от нуля центры $μ$ ;
слишком маленькие или слишком большие дисперсии;
слишком нерегулярное latent space.

Для одного измерения часто используется выражение вида:

\frac{1}{2} (σ^{2} + μ^{2} - 1 - lo g σ^{2})

Пример из старой заметки:

исходный $x = [0.8, 0.2, 0.9]$ ;
восстановление $\overset{x}{^} = [0.75, 0.3, 0.85]$ ;
reconstruction loss маленький: примерно $0.015$ ;
но $μ = [2.5, - 1.0]$ далеко от нуля;
KL штрафует модель за то, что latent cloud ушёл далеко от prior.

Итог: модель может немного пожертвовать точностью восстановления, чтобы latent space стал более регулярным и пригодным для генерации.

Интерактивный пример для интуиции latent space: https://tayden.github.io/VAE-Latent-Space-Explorer/

Условный VAE

CVAE, или conditional variational autoencoder, — это управляемая версия VAE.

Definition

CVAE — это VAE, в котором генерация дополнительно зависит от условия $y$ : класса, свойства или другого контролируемого признака.

В обычном VAE мы сэмплируем случайную точку из latent space и заранее не знаем, что получится.

В CVAE decoder получает не только latent vector $z$ , но и условие $y$ :

\overset{x}{^} = d_{θ} (z, y)

Encoder тоже может получать условие:

q_{ϕ} (z ∣ x, y)

Условием может быть:

класс изображения;
желаемое свойство объекта;
метка стиля;
химическое свойство;
категория текста.

Пример: при генерации молекул можно задать условие «низкая токсичность» или «высокая растворимость». Шум $z$ отвечает за разнообразие, а условие $y$ направляет генерацию.

VQ-VAE

VQ-VAE, или Vector Quantized VAE, заменяет непрерывное latent space на дискретный словарь кодов.

Definition

VQ-VAE — это вариант автоэнкодера, в котором encoder выдаёт вектор, затем он заменяется ближайшим вектором из обучаемого codebook, а decoder восстанавливает объект по этому дискретному коду.

Главная идея:

x \to z_{e} (x) \to z_{q} (x) \to \overset{x}{^}

где:

$z_{e} (x)$ — выход encoder;
$z_{q} (x)$ — ближайший codebook vector;
codebook — набор обучаемых дискретных embedding-векторов.

VQ-VAE решает часть проблем обычных VAE:

уменьшает размытость реконструкций;
делает latent representation дискретным;
позволяет кодировать данные как последовательность дискретных токенов;
хорошо подходит для данных с дискретной структурой.

VQ-VAE полезен для:

изображений;
аудио;
речи;
дискретных последовательностей;
токенизации сложных объектов для последующей обработки трансформерами.

В старой заметке это было сформулировано так: VQ-VAE превращает сложные данные в последовательность кодов, которую затем можно эффективно обрабатывать трансформерами.

Гиперпараметры

Основные гиперпараметры автоэнкодеров:

размер latent space;
архитектура encoder;
архитектура decoder;
reconstruction loss;
learning rate;
batch size;
число эпох;
регуляризация;
уровень шума для denoising autoencoder;
вес KL-члена для VAE;
размер codebook для VQ-VAE;
размер embedding-векторов в VQ-VAE.

Для VAE часто вводят коэффициент при KL-члене:

L = L_{recon} + β D_{K L}

Такой вариант называют $β$ -VAE.

Большая $β$ сильнее регуляризует latent space, но может ухудшить качество реконструкции.

Когда использовать

Автоэнкодер стоит использовать, если:

нужно выучить скрытое представление данных;
нужно сжать данные;
нужно очистить данные от шума;
нужно искать аномалии по reconstruction error;
нужно предобучить representation;
нужно получить generative model через VAE/VQ-VAE;
нужно изучить latent space.

Классический автоэнкодер хорошо подходит для representation learning и reconstruction. VAE лучше подходит для генерации новых объектов. VQ-VAE полезен, когда нужно дискретное latent representation.

Когда не использовать

Автоэнкодер может быть плохим выбором, если:

нужна простая интерпретируемая модель;
данных мало, а модель большая;
reconstruction objective не связан с целевой задачей;
нужен гарантированно хороший генератор, но используется обычный AE;
latent space не анализируется и не используется;
задача лучше решается supervised-моделью.

Важно: хорошая reconstruction loss не всегда означает полезное представление для downstream-задачи.

Метрики оценки

Метрики зависят от цели.

Для reconstruction:

MSE;
MAE;
binary cross-entropy;
perceptual similarity для изображений.

Для anomaly detection:

ROC-AUC;
precision/recall;
threshold по reconstruction error.

Для генерации:

качество сэмплов;
diversity;
FID для изображений;
domain-specific metrics.

Для representation learning:

качество downstream-модели;
кластеризация в latent space;
визуализация через PCA, t-SNE или UMAP.

Типичные ошибки понимания

Думать, что любой автоэнкодер является хорошей генеративной моделью

Классический автоэнкодер не обязан иметь гладкое latent space. Случайные точки в latent space могут декодироваться в мусор.

Для генерации обычно используют VAE, VQ-VAE, GAN, диффузионные модели или другие специальные подходы.

Слишком большой latent space

Если latent space слишком большой, модель может просто научиться копировать вход, не выделяя полезные признаки.

Оценивать только reconstruction loss

Низкая ошибка восстановления не гарантирует, что latent representation полезен для классификации, кластеризации или генерации.

Путать VAE и обычный AE

Обычный AE кодирует объект в точку. VAE кодирует объект в распределение и добавляет KL-регуляризацию.

Забывать про reparameterization trick

Без reparameterization trick сэмплирование из распределения мешало бы обучению через backpropagation.

Считать, что KL-divergence просто ухудшает reconstruction

KL действительно может ухудшить точность восстановления, но он нужен, чтобы latent space был регулярным и пригодным для генерации.

Минимальный пример

Допустим, есть простой RGB-вектор:

x = [0.8, 0.2, 0.9]

Обычный автоэнкодер:

Encoder сжимает его в latent vector:

z = e_{θ} (x)

Decoder восстанавливает:

\overset{x}{^} = d_{ϕ} (z)

Reconstruction loss сравнивает:

x = [0.8, 0.2, 0.9]

\overset{x}{^} = [0.75, 0.3, 0.85]

Если использовать MSE, ошибка по каналам:

Канал	Исходное значение	Восстановление	Квадрат ошибки
R	0.8	0.75	0.0025
G	0.2	0.30	0.0100
B	0.9	0.85	0.0025

Суммарная ошибка:

0.0025 + 0.0100 + 0.0025 = 0.015

VAE добавил бы к такой ошибке ещё KL-штраф за устройство latent distribution.

Практические замечания

Хороший workflow:

Определить цель: reconstruction, anomaly detection, generation или representation learning.
Выбрать архитектуру encoder и decoder под тип данных.
Выбрать размер latent space.
Обучить простой автоэнкодер как baseline.
Проверить reconstruction examples, а не только loss.
Если нужна генерация, использовать VAE/VQ-VAE, а не обычный AE.
Анализировать latent space.
Проверить downstream-качество, если representation используется дальше.
Следить за переобучением.
Сравнить с альтернативами: PCA, supervised-модель, GAN, Диффузионная модель.

Для изображений важно смотреть восстановленные примеры визуально. Для табличных данных важно проверять, какие признаки восстанавливаются плохо.

Машинное обучение

Explorer

Автоэнкодер

Автоэнкодер

Коротко

Интуиция

Формальное описание

Входы и выходы

Устройство

Encoder

Latent space

Decoder

Как обучается

Функция потерь

Зачем нужен

Проблема генерации в обычном автоэнкодере

Вариационный автоэнкодер

Устройство VAE

Encoder

Reparameterization trick

Decoder

Функция потерь VAE

KL-дивергенция в VAE

Условный VAE

VQ-VAE

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Думать, что любой автоэнкодер является хорошей генеративной моделью

Слишком большой latent space

Оценивать только reconstruction loss

Путать VAE и обычный AE

Забывать про reparameterization trick

Считать, что KL-divergence просто ухудшает reconstruction

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks