Сопоставление потоков

Коротко

Definition

Сопоставление потоков, или Flow Matching, — это метод обучения генеративных моделей, при котором нейросеть учится векторному полю, переводящему точки из распределения шума в распределение данных.

Flow Matching, как и диффузионные модели, генерирует данные из шума. Но вместо обучения пошаговому удалению шума модель учится непрерывному направлению движения от шума к данным.

Интуитивно:

noise \to data

задаётся не через случайное блуждание, а через обучаемое векторное поле.

Интуиция

Представим две группы точек:

$p_{0}$ — распределение шума, например гауссовское;
$p_{1}$ — распределение реальных данных.

Нужно научиться превращать точки из $p_{0}$ в точки из $p_{1}$ .

Flow Matching делает это через поле стрелок. В каждой точке пространства и в каждый момент времени $t$ модель должна сказать, куда и с какой скоростью двигаться.

Если мы знаем правильное векторное поле, можно взять случайный шум и провести его по этому полю до состояния, похожего на реальные данные.

Формальное описание

Flow Matching задаёт непрерывный путь между двумя распределениями:

p_{t}, t \in [0, 1]

где:

$p_{0}$ — начальное распределение, обычно шум;
$p_{1}$ — целевое распределение данных;
$p_{t}$ — промежуточное распределение в момент времени $t$ .

Модель учится векторному полю:

v_{t} (x)

которое задаёт скорость движения точки $x$ в момент времени $t$ .

Движение точки описывается ODE:

\frac{d x}{d t} = v_{t} (x)

Если векторное поле известно, можно начать из точки шума $x_{0}$ и численно проинтегрировать ODE до $t = 1$ , получив сгенерированный объект.

Probability path

Probability path — это сценарий, по которому распределение шума постепенно превращается в распределение данных.

Можно понимать это как непрерывную последовательность распределений:

p_{0} \to p_{t} \to p_{1}

В отличие от классической диффузии, где путь связан с постепенным зашумлением и обратным денойзингом, во Flow Matching путь можно выбирать явно.

Один из простых вариантов — linear interpolation между шумом и объектом данных.

Vector field

Vector field — это функция, которая в каждой точке пространства и в каждый момент времени задаёт направление и скорость движения.

Формально:

v_{t} (x)

Интуитивно это поле стрелок:

где находится точка;
какой сейчас момент времени;
куда точке нужно двигаться дальше.

Нейросеть учится приближать это поле:

ψ_{θ} (x, t) \approx v_{t} (x)

где $ψ_{θ}$ — модель с параметрами $θ$ .

ODE

Если известно векторное поле, траектория точки задаётся обыкновенным дифференциальным уравнением:

\frac{d x}{d t} = v_{t} (x)

Это означает: изменение положения точки равно скорости, которую задаёт векторное поле.

Для генерации нужно решить это ODE от $t = 0$ до $t = 1$ :

x (0) \sim p_{0}

x (1) \sim p_{1}

На практике ODE решается численно, например методом Эйлера или более сложными ODE-solvers.

Conditional probability path

Простой вариант Flow Matching строит путь между конкретной точкой шума $x_{0}$ и конкретной точкой данных $x_{1}$ .

Линейная интерполяция:

x_{t} = (1 - t) x_{0} + t x_{1}

где:

при $t = 0$ : $x_{t} = x_{0}$ ;
при $t = 1$ : $x_{t} = x_{1}$ ;
при $t = 0.5$ : точка находится посередине между шумом и данными.

Для такого прямого пути скорость постоянна:

u_{t} (x ∣ x_{0}, x_{1}) = x_{1} - x_{0}

Это целевое направление, которое нейросеть должна научиться предсказывать.

Как обучается

Типовая процедура обучения:

Взять реальный объект $x_{1}$ из датасета.
Сэмплировать случайный шум $x_{0}$ .
Выбрать случайный момент времени $t \in [0, 1]$ .
Построить промежуточную точку:

x_{t} = (1 - t) x_{0} + t x_{1}

Вычислить целевую скорость:

u_{t} = x_{1} - x_{0}

Подать $x_{t}$ и $t$ в нейросеть.
Обучить сеть предсказывать $u_{t}$ .

То есть модель учится отвечать на вопрос: если точка сейчас находится в $x_{t}$ в момент времени $t$ , в какую сторону её нужно двигать, чтобы прийти к данным?

Функция потерь

Базовая функция потерь — MSE между предсказанной скоростью и целевой скоростью:

L = ∥ ψ_{θ} (x_{t}, t) - (x_{1} - x_{0}) ∥^{2}

где:

$ψ_{θ} (x_{t}, t)$ — предсказанное векторное поле;
$x_{1} - x_{0}$ — целевая скорость для прямого пути.

В более общих вариантах Flow Matching путь и целевой vector field могут быть устроены сложнее, но базовая идея остаётся той же: сеть обучается сопоставлять точкам правильные направления движения.

Генерация

После обучения генерация начинается с шума:

x_{0} \sim p_{0}

Затем модель последовательно двигает точку по learned vector field от $t = 0$ к $t = 1$ .

С помощью метода Эйлера:

x_{t + Δ t} = x_{t} + ψ_{θ} (x_{t}, t) Δ t

Алгоритм:

Сэмплировать шум $x_{0}$ .
Выбрать число шагов генерации.
Для каждого шага:
- подать текущую точку $x_{t}$ и время $t$ в модель;
- получить скорость $ψ_{θ} (x_{t}, t)$ ;
- сделать шаг по направлению скорости.
Получить финальный объект при $t = 1$ .

Чем больше шагов, тем точнее численное решение ODE, но тем медленнее генерация.

Сравнение с диффузионными моделями

Flow Matching и diffusion models похожи тем, что обе семьи методов учатся генерировать данные из шума.

Но есть важные различия.

Аспект	Diffusion models	Flow Matching
Основная идея	Учиться удалять шум по шагам	Учиться векторному полю от шума к данным
Математическая форма	Часто SDE или discrete Markov chain	Часто ODE / continuous normalizing flow perspective
Обучаемый таргет	Шум, score или velocity	Velocity / vector field
Sampling	Обычно много шагов денойзинга	Может требовать меньше ODE-шагов
Интуиция	Постепенно очистить шум	Провести точку по потоку

На практике современные методы могут сближаться: diffusion, score matching, flow matching и rectified flows связаны между собой математически.

Когда использовать

Flow Matching стоит изучать и использовать, если:

интересны современные генеративные модели;
нужно понимать альтернативы diffusion models;
важна быстрая генерация;
хочется работать с continuous-time generative modeling;
задача связана с изображениями, аудио, молекулами или другими сложными данными;
нужно понять связь между ODE, probability paths и generative modeling.

Flow Matching особенно важен как концептуальный мост между диффузионными моделями, score-based models и continuous normalizing flows.

Когда не использовать

Flow Matching может быть избыточен, если:

задача не требует генерации;
данных мало;
нужна простая интерпретируемая модель;
достаточно классической модели;
нет ресурсов на обучение генеративной нейросети;
проще использовать готовую diffusion-модель или VAE/GAN baseline.

Для учебных задач Flow Matching полезен, но в прикладном проекте важно сравнить его с более стандартными генеративными подходами.

Метрики оценки

Метрики зависят от типа данных.

Для изображений можно использовать:

FID;
Inception Score;
precision and recall for generative models;
human evaluation;
diversity metrics.

Для научных данных нужны domain-specific metrics:

валидность структуры;
соблюдение физических или химических ограничений;
разнообразие;
novelty;
соответствие заданным условиям.

Как и у других генеративных моделей, training loss не всегда полностью отражает качество сэмплов.

Типичные ошибки понимания

Думать, что Flow Matching просто «быстрая диффузия»

Flow Matching связан с diffusion models, но обучаемая цель формулируется иначе: модель учится векторному полю, а не обязательно пошаговому удалению шума.

Путать точки и распределения

$x_{t}$ — конкретная промежуточная точка. $p_{t}$ — распределение таких точек в момент времени $t$ .

Думать, что путь всегда обязан быть прямым

Линейный путь между $x_{0}$ и $x_{1}$ — удобный частный случай. В общем случае probability path может быть другим.

Игнорировать численное решение ODE

Даже если модель хорошо выучила vector field, качество генерации зависит от того, как решается ODE: методом Эйлера, Runge-Kutta или другим solver.

Считать, что меньше шагов всегда лучше

Flow Matching может позволять делать крупные шаги, но слишком грубое численное решение всё равно может ухудшить качество.

Минимальный пример

Пусть шумовая точка:

x_{0} = [0, 0]

а точка данных:

x_{1} = [2, 4]

Выберем:

t = 0.5

Промежуточная точка:

x_{t} = (1 - 0.5) [0, 0] + 0.5 [2, 4] = [1, 2]

Целевая скорость для прямого пути:

u_{t} = x_{1} - x_{0} = [2, 4]

Модель получает:

(x_{t}, t) = ([1, 2], 0.5)

и должна предсказать скорость:

ψ_{θ} (x_{t}, t) \approx [2, 4]

Во время генерации, начиная из шума, модель будет делать шаги по предсказанному векторному полю, пока не дойдёт до области данных.

Практические замечания

Хороший workflow:

Понять, какое распределение считается шумом $p_{0}$ .
Определить data distribution $p_{1}$ .
Выбрать probability path.
Сэмплировать пары шум–данные.
Обучить модель предсказывать velocity.
Проверить качество ODE sampling.
Сравнить разные solvers и число шагов.
Оценить diversity и качество сэмплов.
Сравнить с диффузионной моделью, GAN и VAE.
Проверить domain-specific constraints.

Для понимания Flow Matching особенно полезно держать в голове три объекта: probability path, vector field и ODE.

Машинное обучение

Explorer

Сопоставление потоков

Сопоставление потоков

Коротко

Интуиция

Формальное описание

Probability path

Vector field

ODE

Conditional probability path

Как обучается

Функция потерь

Генерация

Сравнение с диффузионными моделями

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Думать, что Flow Matching просто «быстрая диффузия»

Путать точки и распределения

Думать, что путь всегда обязан быть прямым

Игнорировать численное решение ODE

Считать, что меньше шагов всегда лучше

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks