Свёрточный слой

Коротко

Definition

Свёрточный слой — это слой нейронной сети, который применяет обучаемые фильтры к локальным участкам входного тензора, чтобы находить паттерны вроде границ, текстур, форм или локальных зависимостей.

Свёрточный слой особенно полезен для данных, где важна локальная структура:

изображения;
сигналы;
временные ряды;
текстовые последовательности;
объёмные данные;
некоторые научные и инженерные данные.

В отличие от полносвязного слоя, свёрточный слой не соединяет каждый входной элемент с каждым выходным. Он использует локальные фильтры и применяет одни и те же веса в разных местах входа.

Зачем нужен

Свёрточный слой нужен, чтобы эффективно находить локальные паттерны.

Например, в изображениях ранние свёрточные слои могут реагировать на:

границы;
углы;
простые текстуры;
цветовые переходы.

Более глубокие слои могут собирать эти простые признаки в более сложные:

части объектов;
формы;
повторяющиеся структуры;
целые объекты.

Главное преимущество свёртки — она использует два предположения:

Локальность: близкие элементы часто связаны сильнее, чем далёкие.
Разделение весов: один и тот же паттерн может встретиться в разных местах.

Поэтому свёрточные сети обычно требуют меньше параметров, чем полносвязные сети на изображениях.

Как работает

Свёртка — это преобразование тензора с помощью ядра, или фильтра.

Ядро — это небольшой тензор обучаемых весов. Его можно понимать как поисковый шаблон. Если паттерн, заложенный в ядре, присутствует во входном тензоре, соответствующая карта активации будет содержать большие по модулю значения.

Механизм свёртки:

Ядро скользит по входному тензору.
На каждом положении берётся локальный участок входа.
Значения участка поэлементно умножаются на значения ядра.
Произведения складываются в одно число.
Полученное число записывается в карту активации.

Выход свёртки — карта активации, показывающая, где фильтр нашёл нужный паттерн.

Пример вычисления одного элемента карты активации:

0 \cdot (- 1) + 0 \cdot (- 2) + 75 \cdot (- 1) + 0 \cdot 0 + 75 \cdot 0 + 80 \cdot 0 + 0 \cdot 1 + 75 \cdot 2 + 80 \cdot 1 = 155

К линейной комбинации также может добавляться смещение:

y = \sum x_{i} w_{i} + b

Размерности свёртки

В зависимости от входного тензора и направления скольжения ядра свёртка может иметь разную размерность.

Conv1D

Одномерная свёртка скользит вдоль одной оси.

Она часто используется для:

временных рядов;
аудио;
сигналов;
текстов;
последовательностей признаков.

Conv2D

Двумерная свёртка скользит вдоль двух пространственных осей.

Она часто используется для:

изображений;
карт признаков;
микроскопии;
медицинских снимков;
спутниковых изображений.

Для RGB-изображений фильтр обычно имеет глубину, соответствующую числу входных каналов.

Conv3D

Трёхмерная свёртка скользит вдоль трёх пространственных осей.

Она может использоваться для:

видео;
3D-медицинских снимков;
объёмных данных;
физических полей;
научных симуляций.

Depthwise convolution

В обычной свёртке фильтр смешивает информацию по пространственным осям и по каналам.

В depthwise convolution каждый канал обрабатывается отдельно своим двумерным фильтром. После этого карты активации собираются обратно в выходной тензор.

Идея:

обычная Conv2D смешивает каналы сразу;
depthwise convolution сначала обрабатывает каждый канал отдельно;
затем часто используется pointwise convolution 1×1, чтобы смешать каналы.

Такой подход уменьшает число параметров и вычислений. Он используется в лёгких архитектурах для компьютерного зрения.

Размер выхода

Ширина или высота выходной карты активации вычисляется по формуле:

W_{out} = ⌊ \frac{W _{in} - K + 2 P}{S} ⌋ + 1

где:

$W_{in}$ — ширина или высота входного тензора;
$K$ — размер ядра;
$P$ — padding;
$S$ — stride;
$W_{out}$ — размер выходной карты активации.

Эта же логика применяется отдельно к высоте и ширине.

Например, если:

$W_{in} = 32$ ;
$K = 3$ ;
$P = 1$ ;
$S = 1$ ;

то:

W_{out} = ⌊ \frac{32 - 3 + 2 \cdot 1}{1} ⌋ + 1 = 32

То есть при kernel_size = 3, padding = 1, stride = 1 размер изображения сохраняется.

Обучаемые параметры

У свёрточного слоя обучаются:

веса фильтров;
смещения, если bias=True.

Для двумерной свёртки число параметров можно записать так:

N_{params} = (K_{W} \times K_{H} \times C_{in} + 1) \times C_{out}

где:

$K_{W}$ — ширина ядра;
$K_{H}$ — высота ядра;
$C_{in}$ — число входных каналов;
$C_{out}$ — число выходных каналов, то есть число фильтров;
+1 соответствует bias для каждого фильтра.

Если bias=False, формула становится:

N_{params} = K_{W} \times K_{H} \times C_{in} \times C_{out}

Например, для Conv2D с ядром 3×3, C_in = 3, C_out = 16 и bias:

N_{params} = (3 \times 3 \times 3 + 1) \times 16 = 448

Гиперпараметры

Основные гиперпараметры свёрточного слоя:

размер ядра;
число фильтров;
stride;
padding;
dilation;
groups;
использовать ли bias;
функция активации после свёртки.

Kernel size

Размер ядра определяет, какой локальный участок входа видит фильтр.

Например:

3×3 — маленькое локальное окно;
5×5 — большее окно;
1×1 — смешивание каналов без пространственного окна.

Stride

Stride — шаг, с которым фильтр перемещается по входу.

Чем больше stride, тем меньше размер выходной карты активации.

Padding

Padding — добавление рамки вокруг входного тензора.

Padding позволяет:

сохранить размер выхода;
контролировать влияние краёв;
избежать слишком быстрого уменьшения пространственного размера.

Dilation

Dilation увеличивает расстояние между элементами ядра.

Это позволяет фильтру видеть более широкий контекст без увеличения числа параметров.

Пулинг

Pooling — это операция уменьшения размера карты активации.

Пулинг не является свёрткой в строгом смысле, но часто используется рядом со свёрточными слоями в CNN.

Зачем нужен pooling:

уменьшить пространственный размер;
снизить вычислительную стоимость;
сделать признаки менее чувствительными к небольшим сдвигам;
агрегировать локальную информацию.

Основные виды pooling:

max pooling;
average pooling;
sum pooling;
global average pooling.

Max pooling берёт максимальное значение в локальном окне. Average pooling берёт среднее значение.

Как обучается

Свёрточный слой обучается через обратное распространение ошибки.

Во время прямого прохода фильтр скользит по входу и создаёт выходную карту активации. Во время обратного прохода вычисляются градиенты по весам фильтра и по входу.

Рассмотрим простой пример.

Пусть есть вход $X$ размером 3×3:

X = x_{11} x_{21} x_{31} x_{12} x_{22} x_{32} x_{13} x_{23} x_{33}

И фильтр $W$ размером 2×2:

W = [w_{11} w_{21} w_{12} w_{22}]

Если stride равен 1 и padding не используется, выход $Y$ будет размером 2×2.

Элементы выхода:

y_{11} = x_{11} w_{11} + x_{12} w_{12} + x_{21} w_{21} + x_{22} w_{22}

y_{12} = x_{12} w_{11} + x_{13} w_{12} + x_{22} w_{21} + x_{23} w_{22}

y_{21} = x_{21} w_{11} + x_{22} w_{12} + x_{31} w_{21} + x_{32} w_{22}

y_{22} = x_{22} w_{11} + x_{23} w_{12} + x_{32} w_{21} + x_{33} w_{22}

Вес $w_{11}$ участвует в вычислении всех четырёх выходов. Поэтому по цепному правилу градиент loss по $w_{11}$ получает вклад от всех четырёх позиций:

\frac{\partial L oss}{\partial w _{11}} = d y_{11} \cdot \frac{\partial y _{11}}{\partial w _{11}} + d y_{12} \cdot \frac{\partial y _{12}}{\partial w _{11}} + d y_{21} \cdot \frac{\partial y _{21}}{\partial w _{11}} + d y_{22} \cdot \frac{\partial y _{22}}{\partial w _{11}}

Так как:

\frac{\partial y _{11}}{\partial w _{11}} = x_{11}

\frac{\partial y _{12}}{\partial w _{11}} = x_{12}

\frac{\partial y _{21}}{\partial w _{11}} = x_{21}

\frac{\partial y _{22}}{\partial w _{11}} = x_{22}

получаем:

\frac{\partial L oss}{\partial w _{11}} = d y_{11} x_{11} + d y_{12} x_{12} + d y_{21} x_{21} + d y_{22} x_{22}

Главный смысл: при обратном проходе градиент по весам фильтра тоже вычисляется через операцию, похожую на свёртку. Вход $X$ сопоставляется с пришедшими градиентами $d Y$ .

Упрощённо:

forward: вход $X$ сворачивается с весами $W$ , получается выход $Y$ ;
backward для весов: вход $X$ сопоставляется с градиентом ошибки $d Y$ , получается градиент весов $d W$ ;
backward для входа: градиент ошибки $d Y$ сопоставляется с фильтром $W$ , получается градиент по входу $d X$ .

Технически во многих библиотеках используется кросс-корреляция, а не математическая свёртка с переворотом ядра. Но в deep learning это обычно всё равно называют convolution.

Где используется

Свёрточные слои используются:

в CNN;
в классификации изображений;
в object detection;
в segmentation;
в обработке медицинских снимков;
в анализе микроскопии;
в обработке сигналов;
в некоторых моделях для последовательностей;
в генеративных моделях изображений.

Свёртки особенно полезны, когда важны локальные паттерны и их положение может немного меняться.

Связанные архитектуры

Свёрточный слой — базовый блок CNN.

В типичной CNN рядом со свёртками могут использоваться:

функции активации;
Батч-нормализация;
pooling;
Skip connection;
dropout;
полносвязные слои в классификационной голове.

Свёрточные идеи также используются в:

автоэнкодерах для изображений;
GAN;
диффузионных моделях;
segmentation-моделях;
lightweight vision architectures.

Типичные ошибки понимания

Путать свёртку и полносвязный слой

Полносвязный слой соединяет каждый входной признак с каждым выходным. Свёрточный слой смотрит на локальные участки и переиспользует один и тот же фильтр в разных местах.

Думать, что фильтр задаётся вручную

В классической обработке изображений фильтры могли задаваться вручную. В нейросетях фильтры обычно обучаются из данных.

Забывать про каналы

Для RGB-изображения вход имеет несколько каналов. Фильтр учитывает не только высоту и ширину, но и глубину входа.

Путать число фильтров и размер фильтра

Размер фильтра определяет локальное окно, например 3×3.

Число фильтров определяет количество выходных каналов.

Считать pooling частью свёртки

Pooling часто используется рядом со свёрткой, но это отдельная операция. У max pooling обычно нет обучаемых параметров.

Игнорировать padding и stride

Padding и stride сильно влияют на размер выхода. Ошибка в этих параметрах может привести к несовместимым формам тензоров.

Минимальный пример

Пусть есть grayscale-изображение 3×3 и фильтр 2×2.

Вход:

X = 147258369

Фильтр:

W = [10 0 - 1]

Первый элемент выхода:

y_{11} = 1 \cdot 1 + 2 \cdot 0 + 4 \cdot 0 + 5 \cdot (- 1) = - 4

Следующие элементы получаются тем же фильтром, сдвинутым вправо и вниз.

Именно поэтому свёртка может найти один и тот же паттерн в разных частях изображения.

Машинное обучение

Explorer

Свёрточный слой

Свёрточный слой

Коротко

Зачем нужен

Как работает

Размерности свёртки

Conv1D

Conv2D

Conv3D

Depthwise convolution

Размер выхода

Обучаемые параметры

Гиперпараметры

Kernel size

Stride

Padding

Dilation

Пулинг

Как обучается

Где используется

Связанные архитектуры

Типичные ошибки понимания

Путать свёртку и полносвязный слой

Думать, что фильтр задаётся вручную

Забывать про каналы

Путать число фильтров и размер фильтра

Считать pooling частью свёртки

Игнорировать padding и stride

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks