Дискретный персептрон

Коротко

Definition

Дискретный персептрон — это простой линейный классификатор, который вычисляет взвешенную сумму входных признаков и применяет пороговую функцию для выбора класса.

Персептрон — одна из ранних моделей машинного обучения и исторически важный предшественник нейронных сетей.

Он решает задачу бинарной классификации:

y \in {0, 1}

Модель строит линейную границу между классами. Если данные линейно разделимы, персептрон может найти разделяющую гиперплоскость.

Интуиция

Персептрон можно понимать как искусственный нейрон.

Он делает три шага:

Умножает каждый признак на свой вес.
Складывает взвешенные признаки и смещение.
Применяет пороговую функцию.

Если сумма больше порога, модель выдаёт класс 1. Если нет — класс 0.

Формально:

z = w^{T} x + b

\overset{y}{^} = s t e p (z)

где:

s t e p (z) = {1, 0, z > 0 z \leq 0

Формальное описание

Характеристика	Значение
Тип модели	Линейный классификатор
Тип обучения	Обучение с учителем
Задача	Задачи классификации
Тип данных	Чаще всего Табличные данные
Целевая переменная	${0, 1}$

Персептрон строит линейную разделяющую границу:

w^{T} x + b = 0

По одну сторону границы модель предсказывает класс 1, по другую — класс 0.

Для многоклассовой классификации можно использовать несколько бинарных персептронов, например через подход one-vs-rest.

Входы и выходы

Вход:

x = (x_{1}, x_{2}, \dots, x_{n})

где $x_{i}$ — признаки объекта.

Параметры модели:

$w = (w_{1}, w_{2}, \dots, w_{n})$ — веса;
$b$ — смещение.

Отклик модели:

z = w_{1} x_{1} + w_{2} x_{2} + \dots + w_{n} x_{n} + b

Предсказание:

\overset{y}{^} = {1, 0, z > 0 z \leq 0

Как обучается

Обучение персептрона основано на простом правиле: если объект классифицирован правильно, веса не меняются. Если объект классифицирован неправильно, веса сдвигаются в сторону правильного ответа.

Алгоритм обучения бинарного персептрона:

Инициализировать веса $w$ и смещение $b$ .
Взять обучающий объект $(x_{i}, y_{i})$ .
Вычислить предсказание $\overset{y}{^}_{i}$ .
Если предсказание неверное, обновить веса и смещение.
Повторять по объектам и эпохам до выполнения условия остановки.

Правило обновления:

w \leftarrow w + η (y_{i} - \overset{y}{^}_{i}) x_{i}

b \leftarrow b + η (y_{i} - \overset{y}{^}_{i})

где:

$η$ — скорость обучения;
$y_{i}$ — истинный класс;
$\overset{y}{^}_{i}$ — предсказанный класс.

Если модель должна была предсказать 1, но предсказала 0, то веса сдвигаются в сторону объекта.

Если модель должна была предсказать 0, но предсказала 1, то веса сдвигаются от объекта.

Функция потерь

У классического дискретного персептрона нет гладкой дифференцируемой функции потерь в таком же смысле, как у логистической регрессии или нейронных сетей.

Для анализа можно использовать perceptron criterion: штрафовать только неправильно классифицированные объекты.

Если метки заданы как $y_{i} \in {- 1, + 1}$ , а модель использует отклик $w^{T} x_{i} + b$ , то ошибка для неверно классифицированных точек связана с величиной:

- y_{i} (w^{T} x_{i} + b)

Для правильно классифицированных точек штраф равен нулю.

В старой учебной записи это можно понимать как среднюю ошибку персептрона:

MPE = \frac{1}{n} \sum PE

где:

если точка классифицирована правильно, вклад равен 0;
если точка классифицирована неправильно, вклад связан с модулем отклика $∣ w^{T} x + b ∣$ .

Важно: из-за пороговой функции классический персептрон не выдаёт хорошо откалиброванные вероятности.

Гиперпараметры

Основные гиперпараметры:

скорость обучения $η$ ;
стратегия изменения скорости обучения;
использовать ли смещение;
перемешивать ли данные перед каждой эпохой;
максимальное число эпох;
критерий остановки;
число эпох без улучшения;
тип регуляризации;
коэффициент регуляризации.

Скорость обучения влияет на размер обновления весов.

Если $η$ слишком большая, обучение может быть нестабильным. Если слишком маленькая — обучение будет медленным.

Подробнее см. Изменение скорости обучения и Обновление параметров.

Когда использовать

Дискретный персептрон полезен:

как учебная модель для понимания линейной классификации;
как историческая основа нейронных сетей;
как простой baseline;
когда данные примерно линейно разделимы;
когда важна простота и скорость.

Он хорошо показывает базовую идею обучения весов по ошибкам классификации.

Когда не использовать

Дискретный персептрон плохо подходит, если:

данные не линейно разделимы;
нужны вероятности классов;
важна высокая точность;
признаки сильно нелинейно взаимодействуют;
классы сильно пересекаются;
требуется устойчивая современная модель.

В прикладных задачах чаще используют:

Предсказание

Для бинарной классификации:

\overset{y}{^} = s t e p (w^{T} x + b)

Для многоклассовой классификации можно обучить несколько бинарных персептронов через one-vs-rest.

Тогда каждый персептрон отвечает за один класс, а итоговый класс выбирается по максимальному отклику:

\overset{y}{^} = ar g k max (w_{k}^{T} x + b_{k})

Метрики оценки

Персептрон оценивают как обычный классификатор.

Основные метрики:

accuracy;
precision;
recall;
F1-score;
confusion matrix;
ROC-AUC, если есть подходящий score.

Подробнее см. Метрики качества классификаторов и ROC-кривая.

При дисбалансе классов accuracy может быть обманчивой, поэтому важно смотреть precision и recall.

Типичные ошибки понимания

Путать персептрон и многослойную нейросеть

Один дискретный персептрон — это линейный классификатор. Многослойная нейронная сеть строится из многих блоков и нелинейностей.

Думать, что персептрон решает любую классификацию

Один персептрон может разделять только линейно разделимые классы. Например, XOR-задачу один персептрон решить не может.

Ожидать вероятности классов

Классический дискретный персептрон выдаёт класс через пороговую функцию, а не вероятность.

Если нужны вероятности, чаще используют логистическую регрессию.

Игнорировать масштаб признаков

Как и другие линейные модели, персептрон может быть чувствителен к масштабу признаков. Часто нужна стандартизация.

Считать правило обновления обычным градиентным спуском

Правило персептрона похоже на шаг оптимизации, но классическая пороговая функция не является гладкой дифференцируемой функцией. Поэтому это не тот же самый градиентный спуск, что в современных нейросетях.

Минимальный пример

Пусть объект описан двумя признаками:

Объект	$x_{1}$	$x_{2}$	Класс
1	1	1	0
2	2	1	0
3	4	5	1
4	5	4	1

Персептрон ищет прямую:

w_{1} x_{1} + w_{2} x_{2} + b = 0

которая разделит объекты класса 0 и класса 1.

Если новый объект имеет признаки:

x = (4, 4)

и отклик модели положительный:

w^{T} x + b > 0

модель предскажет класс 1.

Практические замечания

Хороший workflow:

Масштабировать признаки.
Разделить данные на train, validation и test.
Обучить персептрон как простой baseline.
Проверить, обучается ли модель на train.
Оценить качество через Метрики качества классификаторов.
Сравнить с логистической регрессией и SVM.
Если данные нелинейные, перейти к более гибким моделям.

Персептрон особенно полезен для понимания того, как веса линейной модели меняются при ошибках классификации.

Машинное обучение

Explorer

Дискретный персептрон

Дискретный персептрон

Коротко

Интуиция

Формальное описание

Входы и выходы

Как обучается

Функция потерь

Гиперпараметры

Когда использовать

Когда не использовать

Предсказание

Метрики оценки

Типичные ошибки понимания

Путать персептрон и многослойную нейросеть

Думать, что персептрон решает любую классификацию

Ожидать вероятности классов

Игнорировать масштаб признаков

Считать правило обновления обычным градиентным спуском

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks