SVM

Коротко

Definition

SVM, или метод опорных векторов, — это модель обучения с учителем, которая строит разделяющую границу между классами так, чтобы зазор между границей и ближайшими обучающими объектами был максимальным.

SVM чаще всего используют для классификации. В базовом случае модель ищет гиперплоскость, которая разделяет два класса:

f (x) = w^{T} x + b

Предсказание делается по знаку функции:

\overset{y}{^} = sign (w^{T} x + b)

Ближайшие к границе объекты называются опорными векторами. Именно они сильнее всего определяют положение разделяющей границы.

Интуиция

Представим, что есть точки двух классов на плоскости. Через них можно провести много разделяющих прямых, но SVM выбирает не любую прямую, а ту, которая оставляет максимальный зазор до ближайших точек каждого класса.

Этот зазор называется margin.

Идея SVM:

не просто разделить классы;
а разделить их с максимально возможным запасом;
чтобы новая точка, немного отличающаяся от обучающих данных, всё ещё классифицировалась устойчиво.

Если данные нельзя хорошо разделить прямой линией, SVM может использовать ядра. Ядро позволяет сравнивать объекты так, как будто они были перенесены в более сложное пространство признаков.

Формальное описание

Для бинарной классификации обычно используют метки:

y_{i} \in {- 1, 1}

Линейный SVM строит функцию:

f (x) = w^{T} x + b

Класс определяется знаком этой функции:

\overset{y}{^} = {1, - 1, f (x) \geq 0 f (x) < 0

Для идеально разделимых данных SVM ищет такую гиперплоскость, чтобы выполнялось условие:

y_{i} (w^{T} x_{i} + b) \geq 1

Ширина зазора обратно пропорциональна норме весов:

margin = \frac{2}{∥ w ∥}

Поэтому максимизация зазора эквивалентна минимизации $∥ w ∥$ .

В реальных данных классы часто пересекаются. Поэтому используется soft-margin SVM со slack-переменными $ξ_{i}$ :

w, b, ξ min [\frac{1}{2} ∥ w ∥^{2} + C i = 1 \sum n ξ_{i}]

при ограничениях:

y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}

ξ_{i} \geq 0

Параметр $C$ задаёт баланс между шириной зазора и штрафом за ошибки.

Входы и выходы

Компонент	Описание
Вход	Вектор признаков объекта
Выход	Класс объекта
Основная задача	Бинарная классификация
Расширение	Многоклассовая классификация через схемы one-vs-rest или one-vs-one
Тип обучения	Обучение с учителем
Целевая переменная	Категориальная метка класса

Примеры задач:

классификация медицинских измерений;
разделение материалов на устойчивые и неустойчивые;
классификация текстов по признакам;
распознавание простых паттернов в табличных данных;
бинарная классификация объектов при небольшом или среднем размере выборки.

Как обучается

SVM обучается как оптимизационная задача.

Для линейного SVM модель подбирает $w$ и $b$ так, чтобы:

зазор между классами был большим;
ошибки классификации были ограничены;
итоговая граница была устойчивой.

Для нелинейных задач используется ядровой вариант SVM. Вместо явного преобразования признаков модель использует функцию похожести:

K (x_{i}, x_{j})

Ядро позволяет работать так, будто данные были перенесены в пространство большей размерности, но без явного вычисления координат в этом пространстве.

Типичные ядра:

Ядро	Идея
Linear	Обычная линейная граница
Polynomial	Полиномиальные зависимости между признаками
RBF	Локальная похожесть объектов; часто используется по умолчанию
Sigmoid	Похоже на старые нейросетевые активации, сейчас используется реже

Для обучения часто решают двойственную задачу оптимизации. В ней итоговое решение выражается через обучающие объекты и коэффициенты $α_{i}$ :

f (x) = i : α_{i} > 0 \sum α_{i} y_{i} K (x_{i}, x) + b

Объекты с $α_{i} > 0$ становятся опорными векторами.

Функция потерь

SVM можно понимать через hinge loss:

L (y, f (x)) = max (0, 1 - y f (x))

Если объект классифицирован правильно и находится достаточно далеко от границы, loss равен нулю.

Если объект:

классифицирован неправильно;
или находится слишком близко к границе;

то он получает штраф.

С регуляризацией задача записывается так:

w min [\frac{1}{2} ∥ w ∥^{2} + C i = 1 \sum n max (0, 1 - y_{i} f (x_{i}))]

Первый член контролирует сложность модели, второй — ошибки и нарушения margin.

Гиперпараметры

Главные гиперпараметры SVM:

Гиперпараметр	Что контролирует
`C`	Баланс между широким margin и ошибками на train-данных
`kernel`	Тип разделяющей границы
`gamma`	Радиус влияния отдельного объекта для RBF/poly/sigmoid-ядер
`degree`	Степень полинома для polynomial kernel
`coef0`	Свободный член для polynomial и sigmoid kernel
`class_weight`	Вес классов при дисбалансе
`tol`	Критерий остановки оптимизатора

Интерпретация $C$ :

маленький $C$ — шире margin, больше регуляризация, больше допускаемых ошибок;
большой $C$ — сильнее попытка правильно классифицировать train-данные, выше риск переобучения.

Интерпретация gamma для RBF:

маленькая gamma — гладкая, более простая граница;
большая gamma — более извилистая граница, выше риск переобучения.

Когда использовать

SVM стоит использовать, когда:

задача — классификация;
данных не слишком много;
число признаков среднее или большое;
нужна сильная классическая модель;
классы можно разделить с хорошим margin;
важна устойчивость на небольших выборках;
хочется попробовать нелинейную границу через RBF-ядро.

SVM часто хорошо работает на табличных данных малого и среднего размера, особенно если признаки нормализованы.

Когда не использовать

SVM может быть неудобен, если:

данных очень много;
нужна быстрая online-инференс-система;
требуется хорошо откалиброванная вероятность класса;
много категориальных признаков без аккуратной предобработки;
данные очень шумные;
подбор C, gamma и kernel становится слишком дорогим;
нужна простая интерпретация коэффициентов для нелинейного случая.

Для очень больших датасетов часто удобнее использовать линейные модели, деревья, градиентный бустинг или нейросети.

Метрики оценки

Для SVM-классификатора используют обычные метрики классификации:

accuracy;
precision;
recall;
F1-score;
ROC-AUC;
PR-AUC;
confusion matrix.

Подробнее: Метрики качества классификаторов.

Важно: SVM изначально выдаёт не вероятность, а значение decision function — расстояние до разделяющей границы с учётом знака. Вероятности обычно получают дополнительной калибровкой.

Типичные ошибки понимания

Ошибка 1. Думать, что SVM всегда линейный

Базовая идея SVM — линейная разделяющая гиперплоскость, но ядра позволяют строить нелинейные границы.

Ошибка 2. Не нормализовать признаки

SVM чувствителен к масштабу признаков. Если один признак измеряется в тысячах, а другой в долях единицы, модель может дать неадекватный результат.

Перед SVM обычно нужны стандартизация или нормализация.

Ошибка 3. Считать `C` точностью модели

$C$ не является метрикой качества. Это параметр регуляризации, который управляет компромиссом между margin и ошибками.

Ошибка 4. Слепо использовать RBF kernel

RBF часто работает хорошо, но требует аккуратного подбора C и gamma. Без настройки он может переобучиться или недообучиться.

Ошибка 5. Интерпретировать SVM как вероятностную модель

SVM не моделирует вероятность класса напрямую. Его базовый выход — расстояние до границы, а не вероятность.

Минимальный пример

import numpy as np
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
 
X = np.array([
    [0.0, 0.1],
    [0.2, 0.3],
    [1.0, 1.1],
    [1.2, 1.0],
])
 
y = np.array([0, 0, 1, 1])
 
model = make_pipeline(
    StandardScaler(),
    SVC(kernel="linear", C=1.0),
)
 
model.fit(X, y)
 
sample = np.array([ [0.9, 1.0] ])
prediction = model.predict(sample)
 
print(prediction)

В этом примере SVM строит линейную границу между двумя классами. StandardScaler добавлен потому, что SVM чувствителен к масштабу признаков.

Машинное обучение

Explorer

SVM

SVM

Коротко

Интуиция

Формальное описание

Входы и выходы

Как обучается

Функция потерь

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Ошибка 1. Думать, что SVM всегда линейный

Ошибка 2. Не нормализовать признаки

Ошибка 3. Считать `C` точностью модели

Ошибка 4. Слепо использовать RBF kernel

Ошибка 5. Интерпретировать SVM как вероятностную модель

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks

Машинное обучение

Explorer

SVM

SVM

Коротко

Интуиция

Формальное описание

Входы и выходы

Как обучается

Функция потерь

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Ошибка 1. Думать, что SVM всегда линейный

Ошибка 2. Не нормализовать признаки

Ошибка 3. Считать C точностью модели

Ошибка 4. Слепо использовать RBF kernel

Ошибка 5. Интерпретировать SVM как вероятностную модель

Минимальный пример

Связанные понятия

Что знать перед этим

Связанные заметки

Graph View

Table of Contents

Backlinks

Ошибка 3. Считать `C` точностью модели