Наивный Байес

Коротко

Definition

Наивный Байес — это вероятностный классификатор, который применяет теорему Байеса и делает «наивное» предположение, что признаки независимы друг от друга при известном классе.

Наивный байесовский классификатор оценивает вероятность каждого класса для объекта и выбирает класс с максимальной апостериорной вероятностью.

Идея:

\overset{y}{^} = ar g k max P (y = k ∣ x)

Несмотря на сильное предположение независимости признаков, наивный Байес часто хорошо работает на текстах, простых табличных данных и задачах, где нужно быстро получить baseline.

Интуиция

Модель отвечает на вопрос:

Какой класс наиболее вероятен, если мы увидели такие признаки?

Например, если письмо содержит слова free, winner, click, модель может оценить:

вероятность класса spam;
вероятность класса not spam.

Затем выбирается класс с большей вероятностью.

Слово «наивный» означает, что модель упрощает задачу: она считает, что признаки независимы друг от друга внутри каждого класса.

Это предположение почти никогда не выполняется идеально, но сильно упрощает оценку вероятностей.

Формальное описание

Наивный Байес решает задачи классификации.

Свойство	Значение
Тип модели	Вероятностный классификатор
Тип обучения	Обучение с учителем
Задача	Классификация
Тип данных	Часто Табличные данные или текстовые признаки
Целевая переменная	$y \in {0, \dots, K - 1}$

Основная формула Байеса:

P (y = k ∣ X) = \frac{P ( X ∣ y = k ) P ( y = k )}{P ( X )}

где:

$P (y = k ∣ X)$ — апостериорная вероятность класса после наблюдения признаков;
$P (X ∣ y = k)$ — likelihood, вероятность признаков при данном классе;
$P (y = k)$ — априорная вероятность класса;
$P (X)$ — полная вероятность признаков.

Знаменатель одинаков для всех классов, поэтому для выбора класса его можно не считать явно:

\overset{y}{^} = ar g k max P (X ∣ y = k) P (y = k)

Наивное предположение независимости

Главное упрощение модели:

P (X_{1}, X_{2}, \dots, X_{n} ∣ y = k) = i = 1 \prod n P (X_{i} ∣ y = k)

То есть при известном классе признаки считаются условно независимыми.

Тогда:

P (y = k ∣ X) \propto P (y = k) i = 1 \prod n P (x_{i} ∣ y = k)

На практике обычно используют логарифмы, чтобы избежать численного underflow при перемножении маленьких вероятностей:

\overset{y}{^} = ar g k max [lo g P (y = k) + i = 1 \sum n lo g P (x_{i} ∣ y = k)]

Входы и выходы

Вход модели:

X \in R^{n \times d}

где:

$n$ — число объектов;
$d$ — число признаков.

Выход:

предсказанный класс;
вероятности классов, если модель умеет их возвращать.

Для текстов входом часто является не исходный текст, а вектор признаков:

частоты слов;
bag-of-words;
TF-IDF;
бинарные признаки наличия слов.

Для числовых табличных признаков часто используют Gaussian Naive Bayes.

Как обучается

Обучение наивного Байеса состоит в оценке вероятностей по обучающим данным.

Типовой алгоритм:

Посчитать априорную вероятность каждого класса $P (y = k)$ .
Для каждого класса оценить распределение признаков.
Для нового объекта посчитать score каждого класса.
Выбрать класс с максимальным score.

Априорная вероятность класса:

P (y = k) = \frac{N _{k}}{N}

где:

$N_{k}$ — число объектов класса $k$ ;
$N$ — общее число объектов.

Для Gaussian Naive Bayes для каждого класса $k$ и признака $i$ оценивают:

среднее $μ_{k, i}$ ;
дисперсию $σ_{k, i}^{2}$ .

Затем вероятность признака считается через нормальное распределение:

P (x_{i} ∣ y = k) = \frac{1}{2 π σ _{k, i}^{2}} exp (- \frac{( x _{i} - μ _{k, i} ) ^{2}}{2 σ _{k, i}^{2}})

Функция потерь

У наивного Байеса нет функции потерь в привычном оптимизационном смысле, как у логистической регрессии или нейронных сетей.

Модель не обучается через обратное распространение ошибки и градиентное обновление параметров.

Вместо этого она оценивает вероятности из данных:

частоты классов;
частоты признаков внутри классов;
параметры распределений признаков.

Для предсказания используется правило максимума апостериорной вероятности:

\overset{y}{^} = ar g k max P (y = k ∣ X)

Варианты модели

Gaussian Naive Bayes

Используется для непрерывных числовых признаков.

Предполагает, что каждый признак внутри класса распределён нормально:

x_{i} ∣ y = k \sim N (μ_{k, i}, σ_{k, i}^{2})

Хорошо подходит как простой baseline для числовых табличных данных.

Multinomial Naive Bayes

Используется для счётчиков и частот.

Часто применяется в классификации текстов:

bag-of-words;
частоты слов;
count vectors.

Bernoulli Naive Bayes

Используется для бинарных признаков.

Например, в тексте:

слово встречается;
слово не встречается.

Complement Naive Bayes

Вариант для несбалансированных текстовых задач. Часто может работать лучше MultinomialNB при дисбалансе классов.

Гиперпараметры

Гиперпараметры зависят от варианта наивного Байеса.

Для Gaussian Naive Bayes:

var_smoothing — доля наибольшей дисперсии, добавляемая к дисперсиям для стабильности вычислений.

Это нужно, чтобы избежать деления на слишком маленькую дисперсию.

Для Multinomial и Bernoulli Naive Bayes:

alpha — параметр сглаживания;
fit_prior — учитывать ли априорные вероятности классов;
class_prior — заданные вручную априорные вероятности.

Сглаживание важно, потому что без него неизвестный или редкий признак может дать нулевую вероятность и обнулить всё произведение вероятностей.

Когда использовать

Наивный Байес хорошо использовать, если:

нужен быстрый baseline;
задача является классификацией;
данных не очень много;
признаков много, но модель должна быть простой;
признаки являются частотами или бинарными индикаторами;
задача связана с текстом;
важна скорость обучения и предсказания.

Наивный Байес особенно известен как простой и сильный baseline для текстовой классификации.

Когда не использовать

Наивный Байес может быть плохим выбором, если:

признаки сильно зависимы друг от друга;
важны сложные взаимодействия признаков;
нужна высокая точность на сложной задаче;
вероятности должны быть хорошо откалиброваны;
распределение признаков плохо соответствует выбранному варианту модели;
данных достаточно для более гибких моделей.

Для сложных табличных задач часто лучше работают:

Метрики оценки

Наивный Байес оценивают как обычный классификатор.

Основные метрики:

accuracy;
precision;
recall;
F1-score;
ROC-AUC;
confusion matrix.

Подробнее см. Метрики качества классификаторов и ROC-кривая.

Если классы несбалансированы, accuracy может быть обманчивой. В таком случае особенно важно смотреть precision, recall и F1-score.

Типичные ошибки понимания

Думать, что признаки действительно должны быть независимыми

Наивное предположение независимости редко выполняется идеально. Но модель может хорошо работать, даже если признаки зависимы.

Это практическая модель, а не утверждение, что реальные данные устроены независимо.

Путать априорную и апостериорную вероятность

$P (y = k)$ — априорная вероятность класса до наблюдения признаков.

$P (y = k ∣ X)$ — апостериорная вероятность после наблюдения признаков.

Не использовать сглаживание

Без сглаживания редкий признак может получить нулевую вероятность. Тогда произведение вероятностей для класса станет нулевым.

Использовать GaussianNB для неподходящих признаков

Если признаки являются счётчиками слов, MultinomialNB часто подходит лучше, чем GaussianNB.

Слишком доверять вероятностям

Наивный Байес может хорошо ранжировать классы, но его вероятности не всегда хорошо откалиброваны.

Минимальный пример

Пусть нужно классифицировать письмо как spam или not spam.

Есть признаки:

слово free встречается;
слово winner встречается;
слово meeting встречается.

Модель оценивает:

P (s p am ∣ X) \propto P (s p am) P (f ree ∣ s p am) P (w inn er ∣ s p am) P (m ee t in g ∣ s p am)

P (n o t s p am ∣ X) \propto P (n o t s p am) P (f ree ∣ n o t s p am) P (w inn er ∣ n o t s p am) P (m ee t in g ∣ n o t s p am)

Если первая величина больше второй, модель предсказывает spam.

Даже если слова не являются полностью независимыми, такое приближение может работать хорошо.

Практические замечания

Хороший workflow:

Определить тип признаков.
Выбрать вариант Naive Bayes: Gaussian, Multinomial или Bernoulli.
Разделить данные на train, validation и test.
Проверить баланс классов.
Обучить модель как baseline.
Оценить качество через Метрики качества классификаторов.
Сравнить с логистической регрессией и другими моделями.
Проверить ошибки на редких классах.

В текстовых задачах наивный Байес часто полезен как первая простая модель, с которой сравнивают более сложные подходы.

Машинное обучение

Explorer

Наивный Байес

Наивный Байес

Коротко

Интуиция

Формальное описание

Наивное предположение независимости

Входы и выходы

Как обучается

Функция потерь

Варианты модели

Gaussian Naive Bayes

Multinomial Naive Bayes

Bernoulli Naive Bayes

Complement Naive Bayes

Гиперпараметры

Когда использовать

Когда не использовать

Метрики оценки

Типичные ошибки понимания

Думать, что признаки действительно должны быть независимыми

Путать априорную и апостериорную вероятность

Не использовать сглаживание

Использовать GaussianNB для неподходящих признаков

Слишком доверять вероятностям

Минимальный пример

Практические замечания

Связанные понятия

Graph View

Table of Contents

Backlinks