Диффузионная модель

Коротко

Definition

Диффузионная модель — это генеративная модель, которая учится создавать данные, начиная с шума и постепенно удаляя из него шум до получения осмысленного объекта.

Диффузионные модели особенно известны в генерации изображений, но сама идея применима и к другим типам данных.

Модель состоит из двух процессов:

Прямой процесс — постепенно зашумляет реальные данные.
Обратный процесс — учится постепенно убирать шум и восстанавливать данные.

Интуитивно:

real data \to noise

а затем:

noise \to generated data

Интуиция

Диффузионную модель можно понимать как обучение «машины денойзинга».

Во время обучения мы берём реальный объект, добавляем к нему шум и просим нейросеть предсказать, какой шум был добавлен.

Если модель научилась хорошо предсказывать шум на разных уровнях зашумления, то во время генерации можно начать с чистого шума и много раз применять модель, постепенно очищая объект.

Пример для изображения:

Берём настоящее изображение.
Постепенно добавляем гауссовский шум, пока изображение не станет почти чистым шумом.
Обучаем нейросеть предсказывать добавленный шум.
Для генерации стартуем со случайного шума.
Пошагово удаляем шум.
Получаем новое изображение.

Формальное описание

Диффузионная модель задаёт последовательность скрытых состояний:

x_{0}, x_{1}, x_{2}, \dots, x_{T}

где:

$x_{0}$ — исходные реальные данные;
$x_{t}$ — данные после $t$ шагов зашумления;
$x_{T}$ — почти чистый гауссовский шум.

Прямой процесс обычно фиксирован и не обучается.

Обратный процесс параметризуется нейросетью, например U-Net:

ϵ_{θ} (x_{t}, t)

Эта сеть получает зашумленный объект $x_{t}$ и timestep $t$ , а затем предсказывает шум, который нужно убрать.

Входы и выходы

Во время обучения вход модели:

зашумленный объект $x_{t}$ ;
timestep $t$ ;
иногда условие $c$ , например текстовый prompt, класс или другой conditioning signal.

Выход модели чаще всего:

предсказанный шум $ϵ_{θ} (x_{t}, t)$ .

В conditional diffusion output может зависеть от условия:

ϵ_{θ} (x_{t}, t, c)

Например, в text-to-image модели условием является текстовое описание изображения.

Прямой процесс

Прямой процесс постепенно добавляет гауссовский шум к исходным данным.

На каждом шаге $t$ объект $x_{t - 1}$ превращается в более шумный объект $x_{t}$ :

x_{t} = 1 - β_{t} \cdot x_{t - 1} + β_{t} \cdot ϵ

где:

$ϵ \sim N (0, I)$ — случайный гауссовский шум;
$β_{t}$ — величина добавляемого шума на шаге $t$ ;
$x_{t}$ — объект после очередного шага зашумления.

Расписание $β_{t}$ называют noise schedule.

Note

В начале процесса важно не добавлять слишком много шума, чтобы информация не разрушилась сразу. На поздних этапах можно добавлять больше шума, чтобы окончательно стереть структуру данных.

Прыжок на произвольный timestep

Ключевое свойство прямого процесса: можно получить $x_{t}$ напрямую из $x_{0}$ , не вычисляя все промежуточные шаги.

Обозначим:

α_{t} = 1 - β_{t}

и:

\overset{α}{ˉ}_{t} = i = 1 \prod t α_{i}

Тогда:

x_{t} = \overset{α}{ˉ}_{t} \cdot x_{0} + 1 - \overset{α}{ˉ}_{t} \cdot ϵ

Это сильно ускоряет обучение: можно случайно выбрать timestep $t$ , сразу получить зашумленный объект $x_{t}$ и обучать модель предсказывать добавленный шум.

Пример прямого процесса

Пусть исходный объект — 2D-вектор:

x_{0} = [0.8, - 0.6]

Пусть для первого шага:

β_{1} = 0.1

Тогда:

α_{1} = 1 - 0.1 = 0.9

и:

\overset{α}{ˉ}_{1} = 0.9

Сэмплируем шум:

ϵ = [0.5, 1.2]

Используем формулу прыжка:

x_{1} = 0.9 \cdot [0.8, - 0.6] + 0.1 \cdot [0.5, 1.2]

Приближённо:

x_{1} = 0.95 \cdot [0.8, - 0.6] + 0.32 \cdot [0.5, 1.2]

x_{1} = [0.76, - 0.57] + [0.16, 0.38] = [0.92, - 0.19]

Вектор $x_{1}$ — это исходный объект с небольшим добавлением шума.

Непрерывное время и SDE

Дискретный процесс можно рассматривать как приближение непрерывного процесса.

Если число шагов $T$ стремится к бесконечности, а размер шага становится очень маленьким, процесс можно описывать стохастическим дифференциальным уравнением:

d x = f (x, t) d t + g (t) d w

где:

$f (x, t) d t$ — drift, детерминированная часть движения;
$g (t) d w$ — diffusion, стохастическая часть с гауссовским шумом;
$d w$ — винеровский процесс, или броуновское движение.

Это непрерывное описание полезно для связи diffusion models со score-based generative models и flow matching.

Для базового понимания достаточно помнить: дискретная диффузия — это пошаговое зашумление, а SDE — его непрерывный аналог.

Обратный процесс

Обратный процесс должен восстановить данные из шума:

x_{T} \to x_{T - 1} \to \dots \to x_{0}

Проблема: прямой процесс известен, а обратный нужно выучить.

Модель должна понять, как из зашумленного объекта $x_{t}$ получить менее зашумленный $x_{t - 1}$ .

На практике нейросеть часто учат предсказывать шум:

ϵ_{θ} (x_{t}, t)

После этого предсказанный шум используется, чтобы сделать шаг денойзинга.

Score function

Для обращения процесса полезна score function:

\nabla_{x} lo g p_{t} (x)

Это градиент логарифма плотности распределения данных на timestep $t$ .

Интуитивно score function показывает, в какую сторону нужно сдвинуть зашумленную точку, чтобы она стала более похожа на данные из текущего распределения.

Можно представить плотность данных как ландшафт. Score function указывает направление подъёма к областям с большей вероятностью.

Диффузионная модель может быть понята как модель, которая учится оценивать это направление.

Почему предсказание шума связано со score matching

В прямом процессе $x_{t}$ получается из $x_{0}$ добавлением гауссовского шума:

x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ

Для гауссовского распределения score имеет удобное выражение:

\nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) = - \frac{ϵ}{1 - α ˉ _{t}}

То есть score пропорционален добавленному шуму $ϵ$ .

Поэтому обучение модели предсказывать шум и обучение модели предсказывать score тесно связаны.

Практически это означает: вместо того чтобы напрямую оценивать сложную плотность данных, можно обучать нейросеть предсказывать известный добавленный шум.

Timestep embedding

Модель должна знать, на каком уровне шума находится объект.

Поэтому timestep $t$ подают в сеть как embedding.

Часто используют sinusoidal или harmonic embeddings, похожие на positional encodings в трансформерах.

Этот embedding затем добавляется или подмешивается в блоки нейросети, например в residual blocks внутри U-Net.

Иначе одна и та же сеть не сможет отличить слегка зашумленный объект от почти полного шума.

Как обучается

Типовой training loop:

Взять реальный объект $x_{0}$ .
Случайно выбрать timestep $t$ .
Сэмплировать шум $ϵ \sim N (0, I)$ .
Получить зашумленный объект:

x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ

Подать $x_{t}$ и $t$ в нейросеть.
Получить предсказание шума $ϵ_{θ} (x_{t}, t)$ .
Посчитать MSE между настоящим и предсказанным шумом.
Обновить параметры модели через Обратное распространение ошибки.

Функция потерь

Частая функция потерь в DDPM-подобных моделях — MSE между реальным шумом и предсказанным шумом:

L = E_{t, x_{0}, ϵ} [ϵ - ϵ_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ, t)^{2}]

Здесь:

$x_{0}$ — реальный объект;
$t$ — timestep;
$ϵ$ — настоящий добавленный шум;
$ϵ_{θ}$ — шум, предсказанный моделью.

Пример:

вход сети: $x_{1} = [0.92, - 0.19]$ и $t = 1$ ;
истинный шум: $ϵ = [0.5, 1.2]$ ;
предсказанный шум: $ϵ_{θ} = [0.2, 0.9]$ .

MSE:

(0.5 - 0.2)^{2} + (1.2 - 0.9)^{2} = 0.09 + 0.09 = 0.18

Этот loss используется для обновления весов нейросети.

Генерация

После обучения можно генерировать новые объекты.

Процедура sampling:

Сэмплировать чистый гауссовский шум:

x_{T} \sim N (0, I)

Для $t = T, T - 1, \dots, 1$ :
- подать $x_{t}$ и $t$ в модель;
- получить предсказанный шум $ϵ_{θ} (x_{t}, t)$ ;
- вычислить менее зашумленный $x_{t - 1}$ .
Получить финальный объект $x_{0}$ .

Один из вариантов обратного шага:

x_{t - 1} = \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ϵ_{θ} (x_{t}, t)) + σ_{t} z

где:

$z \sim N (0, I)$ — дополнительный шум;
$σ_{t}$ — уровень шума на обратном шаге.

В детерминированных сэмплерах дополнительный шум может быть равен нулю.

Пример генерации

Пусть модель уже обучена, и нужно сгенерировать новый 2D-вектор. Пусть $T = 2$ .

Старт:

x_{2} = [- 1.5, 0.8]

Шаг $t = 2$ :

модель предсказывает шум:

ϵ_{θ} (x_{2}, 2) = [- 1.3, 0.5]

по обратной формуле получаем менее зашумленный вектор:

x_{1} \approx [0.4, 0.7]

Шаг $t = 1$ :

модель предсказывает:

ϵ_{θ} (x_{1}, 1) = [0.2, 0.9]

получаем:

x_{0} \approx [0.85, - 0.55]

Итоговый $x_{0}$ — новый сгенерированный объект, похожий на данные из обучающего распределения.

Архитектура

В диффузионных моделях для изображений часто используют U-Net.

Почему U-Net удобен:

encoder постепенно сжимает spatial resolution;
decoder восстанавливает resolution;
skip connections сохраняют пространственные детали;
residual blocks помогают обучению;
timestep embedding подмешивается в блоки;
attention blocks помогают учитывать глобальный контекст.

Связанные блоки:

В современных text-to-image моделях U-Net или transformer-like denoiser часто получает не только $x_{t}$ и $t$ , но и conditioning, например текстовый embedding.

Conditional diffusion

Диффузионная модель может быть условной.

Тогда генерация зависит от условия $c$ :

ϵ_{θ} (x_{t}, t, c)

Условие может быть:

текстовым prompt;
классом;
изображением;
маской;
low-resolution изображением;
свойствами объекта.

Примеры:

text-to-image generation;
image inpainting;
super-resolution;
class-conditional generation;
генерация молекул или материалов с заданными свойствами.

Гиперпараметры

Основные гиперпараметры:

число diffusion steps $T$ ;
noise schedule $β_{t}$ ;
архитектура denoiser;
размер timestep embedding;
learning rate;
batch size;
optimizer;
способ conditioning;
sampling method;
classifier-free guidance scale;
число sampling steps;
loss weighting.

Количество sampling steps влияет на качество и скорость генерации. Больше шагов обычно даёт лучшее качество, но медленнее.

Когда использовать

Диффузионные модели стоит использовать, если:

нужна генерация сложных данных;
важны качество и разнообразие сэмплов;
есть достаточно данных и вычислений;
задача связана с изображениями, аудио, видео или structured generation;
требуется conditional generation;
нужна современная альтернатива GAN и VAE.

Диффузионные модели часто обучаются стабильнее, чем GAN, и лучше покрывают распределение данных.

Когда не использовать

Диффузионная модель может быть плохим выбором, если:

данных мало;
вычислительные ресурсы ограничены;
нужна очень быстрая генерация;
задача простая и решается классической моделью;
нет возможности долго обучать модель;
нет понятной метрики качества генерации.

Недостаток классических diffusion models — медленный sampling, потому что генерация требует многих последовательных шагов.

Метрики оценки

Для изображений часто используют:

FID;
Inception Score;
CLIP-based metrics для text-to-image;
human evaluation;
diversity metrics;
domain-specific metrics.

Также важно проверять:

разнообразие;
артефакты;
соответствие условию;
устойчивость генерации;
редкие случаи;
bias в данных.

Loss обучения не всегда напрямую соответствует субъективному качеству сгенерированных объектов.

Типичные ошибки понимания

Думать, что модель учится добавлять шум

Прямой процесс зашумления фиксирован и не обучается. Модель учится обратному процессу — удалять шум.

Путать $x_{t}$ и $ϵ$

$x_{t}$ — зашумленный объект. $ϵ$ — шум, который был добавлен к исходному объекту.

Модель часто предсказывает именно $ϵ$ , а не сразу чистый $x_{0}$ .

Думать, что все шаги прямого процесса нужно считать последовательно

Во время обучения можно напрямую получить $x_{t}$ из $x_{0}$ через формулу с $\overset{α}{ˉ}_{t}$ .

Считать diffusion тем же самым, что VAE

VAE учит latent distribution и decoder. Diffusion учит обратный процесс денойзинга из шума.

Игнорировать timestep embedding

Без timestep модель не знает, сколько шума в объекте, и не может корректно денойзить разные уровни шума.

Ожидать быструю генерацию без специальных методов

Классический sampling может быть медленным. Для ускорения используют DDIM, distillation, fewer-step samplers и другие методы.

Минимальный пример

Пусть объект — число $x_{0} = 1.0$ .

Добавляем шум на timestep $t$ :

x_{t} = 0.8 x_{0} + 0.6 ϵ

Если шум:

ϵ = - 0.5

то:

x_{t} = 0.8 \cdot 1.0 + 0.6 \cdot (- 0.5) = 0.5

Модель получает $x_{t} = 0.5$ и timestep $t$ .

Её задача — предсказать шум:

ϵ_{θ} (x_{t}, t) \approx - 0.5

Если модель правильно предсказывает шум, можно сделать шаг в сторону менее зашумленного объекта.

Практические замечания

Хороший workflow:

Начать с простой DDPM/DDIM реализации.
Проверить нормализацию данных.
Выбрать noise schedule.
Убедиться, что timestep embedding подаётся в модель.
Обучать модель предсказывать шум.
Визуально проверять samples во время обучения.
Сравнивать разные samplers.
Проверять diversity и mode coverage.
Для conditional generation проверять соответствие условию.
Не оценивать качество только по training loss.

Для изображений важно смотреть реальные сэмплы на разных этапах. Для научных объектов нужно дополнительно проверять валидность сгенерированных структур предметными метриками.

Машинное обучение

Explorer

Диффузионная модель

Диффузионная модель

Коротко

Интуиция

Формальное описание

Входы и выходы

Прямой процесс

Прыжок на произвольный timestep

Пример прямого процесса

Непрерывное время и SDE

Обратный процесс

Score function

Почему предсказание шума связано со score matching

Timestep embedding

Как обучается

Функция потерь

Генерация

Пример генерации

Архитектура

Conditional diffusion

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Думать, что модель учится добавлять шум

Путать $x_{t}$ и $ϵ$

Думать, что все шаги прямого процесса нужно считать последовательно

Считать diffusion тем же самым, что VAE

Игнорировать timestep embedding

Ожидать быструю генерацию без специальных методов

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks

Машинное обучение

Explorer

Диффузионная модель

Диффузионная модель

Коротко

Интуиция

Формальное описание

Входы и выходы

Прямой процесс

Прыжок на произвольный timestep

Пример прямого процесса

Непрерывное время и SDE

Обратный процесс

Score function

Почему предсказание шума связано со score matching

Timestep embedding

Как обучается

Функция потерь

Генерация

Пример генерации

Архитектура

Conditional diffusion

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Думать, что модель учится добавлять шум

Путать xt​ и ϵ

Думать, что все шаги прямого процесса нужно считать последовательно

Считать diffusion тем же самым, что VAE

Игнорировать timestep embedding

Ожидать быструю генерацию без специальных методов

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks

Путать $x_{t}$ и $ϵ$