Наивный байесовский классификатор: плюсы и минусы, объяснение приложений и типов
Опубликовано: 2020-12-11Когда вам нужен быстрый алгоритм решения проблем, куда вы идете? Вы переходите к наивному байесовскому классификатору. Это быстрый и простой алгоритм, который может решать различные задачи классификации. В этой статье мы поймем, что это за алгоритм, как он работает и каковы его качества. Давайте начнем.
Оглавление
Что такое наивный байесовский классификатор?
Наивный байесовский классификатор разделяет данные на разные классы в соответствии с теоремой Байеса, а также предполагает, что все предикторы независимы друг от друга. Предполагается, что конкретная функция в классе не связана с наличием других функций.
Например, арбузом можно считать фрукт, если он зеленый, круглый и имеет диаметр 10 дюймов. Эти признаки могут зависеть друг от друга в своем существовании, но каждый из них независимо влияет на вероятность того, что рассматриваемый фрукт является арбузом. Вот почему в названии этого классификатора есть термин «Наивный».
Этот алгоритм довольно популярен, потому что он может даже превзойти самые передовые методы классификации. К тому же он довольно простой, и построить его можно быстро.
Вот теорема Байеса, которая лежит в основе этого алгоритма:
Р(с | х) = Р(х | с) Р(с)/ Р(х)

В этом уравнении «с» означает класс, а «х» — атрибуты. P(c/x) обозначает апостериорную вероятность класса в соответствии с предиктором. P(x) — априорная вероятность предиктора, а P(c) — априорная вероятность класса. P(x/c) показывает вероятность предиктора в соответствии с классом.
Читайте: Объяснение наивного Байеса
Преимущества наивного Байеса
- Этот алгоритм работает очень быстро и может легко предсказать класс тестового набора данных.
- Вы можете использовать его для решения задач прогнозирования нескольких классов, так как он весьма полезен для них.
- Наивный байесовский классификатор работает лучше, чем другие модели с меньшим количеством обучающих данных, если выполняется предположение о независимости признаков.
- Если у вас есть категориальные входные переменные, алгоритм наивного Байеса работает исключительно хорошо по сравнению с числовыми переменными.
Недостатки наивного байесовского метода
- Если в вашем наборе тестовых данных есть категориальная переменная категории, которой не было в наборе обучающих данных, наивная байесовская модель присвоит ей нулевую вероятность и не сможет делать какие-либо прогнозы в этом отношении. Это явление называется «нулевой частотой», и вам придется использовать метод сглаживания, чтобы решить эту проблему.
- Этот алгоритм также известен своей паршивой оценкой. Таким образом, вы не должны слишком серьезно относиться к вероятностным выводам «predict_proba».
- Предполагается, что все признаки независимы. Хотя в теории это может звучать великолепно, в реальной жизни вы вряд ли найдете набор независимых функций.
Приложения наивного байесовского алгоритма
Как вы, должно быть, заметили, этот алгоритм предлагает своим пользователям множество преимуществ. Вот почему он также имеет множество применений в различных секторах. Вот некоторые приложения наивного байесовского алгоритма:
- Поскольку этот алгоритм быстрый и эффективный, вы можете использовать его для прогнозирования в реальном времени.
- Этот алгоритм популярен для мультиклассовых предсказаний. Вы можете легко найти вероятность нескольких целевых классов, используя этот алгоритм.
- Службы электронной почты (например, Gmail) используют этот алгоритм, чтобы определить, является ли электронное письмо спамом или нет. Этот алгоритм отлично подходит для фильтрации спама.
- Его предположение о независимости функций и его эффективность в решении проблем с несколькими классами делает его идеальным для выполнения анализа настроений. Анализ настроений относится к выявлению положительных или отрицательных настроений целевой группы (клиентов, аудитории и т. д.)
- Совместная фильтрация и алгоритм наивного Байеса работают вместе для создания систем рекомендаций. Эти системы используют интеллектуальный анализ данных и машинное обучение, чтобы предсказать, понравится ли пользователю конкретный ресурс или нет.
Читайте также: Объяснение моделей машинного обучения

Типы наивного байесовского классификатора
Этот алгоритм имеет несколько видов. Вот основные из них:

Бернулли Наивный Байес
Здесь предикторы являются булевыми переменными. Таким образом, единственными значениями, которые у вас есть, являются «Истина» и «Ложь» (вы также можете иметь «Да» или «Нет»). Мы используем его, когда данные соответствуют многомерному распределению Бернулли.
Полиномиальный наивный байесовский алгоритм
Люди используют этот алгоритм для решения задач классификации документов. Например, если вы хотите определить, относится ли документ к категории «Юридическая» или «Кадровая», вы должны использовать этот алгоритм для его сортировки. Он использует частоту существующих слов в качестве признаков.
Гауссовский наивный байесовский метод
Если предикторы не дискретны, а имеют непрерывное значение, мы предполагаем, что они являются выборкой из гауссовского распределения.
Заключение
Мы надеемся, что вы нашли эту статью полезной. Если у вас есть какие-либо вопросы, связанные с алгоритмом наивного Байеса, не стесняйтесь поделиться ими в разделе комментариев. Мы хотели бы услышать от вас.
Если вам интересно узнать больше об искусственном интеллекте и машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, Статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Каковы ограничения Наивного Байеса?
Наивный байесовский классификатор — это алгоритм, используемый для классификации новых экземпляров данных с использованием набора известных обучающих данных. Это хороший алгоритм классификации; однако количество объектов должно быть равно количеству атрибутов в данных. Это требует больших вычислительных ресурсов, когда используется для классификации большого количества элементов. Он не подходит для числовых данных. Это может работать только тогда, когда функции независимы друг от друга. Это не подходит, когда значения характеристик являются номинальными. Это требует, чтобы значения признаков были взаимоисключающими. Он требует, чтобы частота значений характеристик была пропорциональна вероятности того, что они верны.
Каковы самые большие преимущества и недостатки наивных байесовских классификаторов?
Самым большим преимуществом Наивного Байеса является то, что он может работать с очень небольшими наборами данных. Это один из самых популярных алгоритмов фильтрации спама. Кроме того, он относительно прост в реализации. Он почти всегда используется в качестве классификатора. Если набор данных недоступен, его все равно можно использовать в качестве алгоритма классификации. Этот алгоритм используется для фильтрации спама в электронной почте, он также используется Google для классификации веб-страниц. Однако это может быть не так эффективно в более сложных задачах классификации. Это может работать только тогда, когда функции независимы друг от друга.
Как остановить переоснащение в наивном байесовском методе?
Одной из причин переобучения являются неправильные обучающие данные. Если у вас есть набор обучающих данных с большим количеством шума и много обучающих примеров, классификатор будет рассматривать шум в обучающих данных, а не базовый шаблон, для которого вы пытаетесь построить модель. Другая причина в том, что ваша модель слишком сложна. Если у вас есть модель, в которой небольшое изменение на входе может вызвать большое изменение на выходе, вы можете получить переобучение. Другим решением является использование регуляризации. Регуляризация сократит длинные ветви в вашей модели. Это сглаживает вашу модель и предотвращает переоснащение.
