Полносвязный слой

Коротко

Definition

Полносвязный слой — это слой нейронной сети, который выполняет линейное преобразование признаков: каждый выходной нейрон зависит от всех входных признаков.

Полносвязный слой также называют dense layer, fully connected layer или linear layer.

Главная идея: если на вход подаётся вектор признаков, слой строит новый вектор признаков как набор линейных комбинаций входных значений.

В математическом виде:

Y = X W^{T} + b

где:

$X$ — матрица входных признаков;
$W$ — матрица весов;
$b$ — вектор смещений;
$Y$ — выход слоя.

Зачем нужен

Полносвязный слой нужен, чтобы смешивать признаки между собой.

Если предыдущий слой выделил признаки объекта, полносвязный слой может:

объединить эти признаки;
изменить размерность представления;
подготовить признаки к классификации или регрессии;
построить финальный выход модели.

Например, в классификаторе изображений CNN часто сначала извлекает пространственные признаки, а затем один или несколько полносвязных слоёв превращают эти признаки в вероятности классов.

Как работает

Пусть есть batch из $n_{samples}$ объектов. Каждый объект имеет $n_{features}$ входных признаков.

Тогда вход можно записать как матрицу:

X \in R^{n_{samples} \times n_{in}}

где:

$n_{samples}$ — число объектов в batch;
$n_{in}$ — число входных признаков.

Если слой имеет $n_{out}$ выходных нейронов, то матрица весов имеет форму:

W \in R^{n_{out} \times n_{in}}

Вектор смещений имеет форму:

b \in R^{n_{out}}

Выход слоя:

Y = X W^{T} + b

и его форма:

Y \in R^{n_{samples} \times n_{out}}

То есть полносвязный слой превращает каждый входной вектор длины $n_{in}$ в выходной вектор длины $n_{out}$ .

Устройство

На схеме показаны два полносвязных слоя:

Первый слой получает 5 входных признаков и выдаёт 3 выходных признака.
Второй слой получает 3 входных признака и выдаёт 3 выходных признака.

Разберём первый слой.

Есть $n_{samples}$ объектов. Каждый имеет $n_{features} = 5$ признаков:

X_{(n_{samples}, 5)}

Есть $n_{out} = 3$ нейрона. Каждый нейрон принимает все 5 входных признаков со своими весами. Поэтому матрица весов имеет форму:

W_{(3, 5)}

Чтобы умножить входную матрицу на матрицу весов, в обычной записи используют транспонирование весов:

Y_{(n_{samples}, 3)} = X_{(n_{samples}, 5)} \cdot W_{(5, 3)}^{T} + b

Выход $Y$ становится матрицей признаков для следующего слоя.

Обучаемые параметры

У полносвязного слоя обычно есть два типа обучаемых параметров:

матрица весов $W$ ;
вектор смещений $b$ .

Во время обучения эти параметры изменяются с помощью обратного распространения ошибки и обновления параметров.

Если bias=False, смещение $b$ не используется, и слой выполняет только линейное преобразование:

Y = X W^{T}

Гиперпараметры

При создании полносвязного слоя задают:

число входных признаков in_features;
число выходных признаков out_features;
использовать ли смещение bias.

Например, слой с 5 входными признаками и 3 выходными нейронами имеет:

in_features = 5;
out_features = 3;
bias = True или False.

Количество обучаемых параметров при bias=True:

n_{params} = n_{out} \cdot n_{in} + n_{out}

Для слоя 5 → 3:

n_{params} = 3 \cdot 5 + 3 = 18

Где используется

Полносвязные слои используются:

в классических multilayer perceptron;
в головах классификации после CNN;
в финальных слоях регрессионных моделей;
в feed-forward блоках трансформеров;
в bottleneck-представлениях автоэнкодеров;
в небольших нейросетях для табличных данных.

Полносвязный слой особенно удобен, когда вход уже представлен как вектор фиксированной длины.

Связь с функцией активации

Строго математически полносвязный слой обычно означает только affine-преобразование:

Y = X W^{T} + b

Но в архитектурном смысле часто говорят о блоке:

H = σ (X W^{T} + b)

где $σ$ — функция активации.

Поэтому важно различать:

линейный слой сам по себе;
полносвязный блок как сочетание linear layer + activation.

Без нелинейных функций активации несколько полносвязных слоёв подряд всё равно сводятся к одному линейному преобразованию. Поэтому в нейросетях между полносвязными слоями обычно добавляют нелинейность.

Связанные архитектуры

Полносвязные слои встречаются в разных архитектурах:

CNN — часто в классификационной голове;
Трансформер — в feed-forward network внутри transformer block;
Автоэнкодер — в encoder и decoder для векторных данных;
GAN — в генераторе и дискриминаторе;
Дискретный персептрон — исторически связан с идеей линейного преобразования признаков.

Полносвязные слои также часто сравнивают со свёрточными слоями. Свёрточный слой использует локальные связи и разделяемые веса, а полносвязный слой соединяет каждый входной признак с каждым выходным нейроном.

Типичные ошибки понимания

Считать полносвязный слой самостоятельной моделью

Полносвязный слой — это строительный блок. Сам по себе он обычно является частью более крупной архитектуры.

Забывать про форму матриц

Одна из частых ошибок — перепутать форму весов.

В PyTorch слой Linear(in_features, out_features) хранит веса формы:

(o u t_f e a t u res, in_f e a t u res)

А вычисление концептуально соответствует:

Y = X W^{T} + b

Думать, что больше нейронов всегда лучше

Увеличение out_features повышает число параметров и выразительность слоя, но также увеличивает риск переобучения и вычислительную стоимость.

Забывать про функцию активации

Один полносвязный слой без активации выполняет линейное преобразование. Несколько таких слоёв подряд без нелинейности всё равно эквивалентны одному линейному слою.

Использовать полносвязный слой там, где важна структура

Если вход — изображение, граф или длинная последовательность, простое распрямление вектора и применение полносвязного слоя может потерять важную структуру данных.

Для таких данных часто лучше использовать специальные архитектурные блоки: Свёрточный слой, Рекуррентный слой, Attention или графовые слои.

Минимальный пример

Пусть на вход подаётся один объект с 5 признаками:

x = [x_{1}, x_{2}, x_{3}, x_{4}, x_{5}]

Полносвязный слой должен получить 3 выходных значения:

y = [y_{1}, y_{2}, y_{3}]

Каждое выходное значение зависит от всех входных признаков:

y_{1} = w_{11} x_{1} + w_{12} x_{2} + w_{13} x_{3} + w_{14} x_{4} + w_{15} x_{5} + b_{1}

y_{2} = w_{21} x_{1} + w_{22} x_{2} + w_{23} x_{3} + w_{24} x_{4} + w_{25} x_{5} + b_{2}

y_{3} = w_{31} x_{1} + w_{32} x_{2} + w_{33} x_{3} + w_{34} x_{4} + w_{35} x_{5} + b_{3}

Именно поэтому слой называется полносвязным: каждый выходной нейрон связан со всеми входными признаками.

Машинное обучение

Explorer

Полносвязный слой

Полносвязный слой

Коротко

Зачем нужен

Как работает

Устройство

Обучаемые параметры

Гиперпараметры

Где используется

Связь с функцией активации

Связанные архитектуры

Типичные ошибки понимания

Считать полносвязный слой самостоятельной моделью

Забывать про форму матриц

Думать, что больше нейронов всегда лучше

Забывать про функцию активации

Использовать полносвязный слой там, где важна структура

Минимальный пример

Связанные понятия

Graph View

Table of Contents

Backlinks