Объяснение полиномиального наивного Байеса: функции, преимущества и недостатки, приложения в 2022 г.

Опубликовано: 2021-01-03

Оглавление

Введение

Существуют тысячи программ или инструментов для анализа числовых данных, но очень мало для анализа текстов. Полиномиальная наивная байесовская классификация — одна из самых популярных классификаций обучения с учителем, которая используется для анализа категориальных текстовых данных.

Классификация текстовых данных становится все более популярной, поскольку в электронной почте, документах, веб-сайтах и ​​т. д. содержится огромное количество информации, которую необходимо проанализировать. Знание контекста определенного типа текста помогает определить восприятие программного обеспечения или продукта пользователями, которые собираются его использовать.

Эта статья даст вам глубокое понимание полиномиального алгоритма наивного Байеса и всех связанных с ним концепций. Мы рассмотрим краткий обзор алгоритма, как он работает, его преимущества и приложения.

Что такое полиномиальный наивный алгоритм Байеса?

Алгоритм полиномиального наивного Байеса — это вероятностный метод обучения, который в основном используется в обработке естественного языка (NLP). Алгоритм основан на теореме Байеса и предсказывает тег текста, такого как фрагмент электронной почты или газетная статья. Он вычисляет вероятность каждого тега для данной выборки, а затем выдает тег с наибольшей вероятностью в качестве выходных данных.

Наивный байесовский классификатор представляет собой набор множества алгоритмов, в которых все алгоритмы имеют один общий принцип: каждая классифицируемая функция не связана ни с какой другой функцией. Наличие или отсутствие признака не влияет на наличие или отсутствие другого признака.

Присоединяйтесь к онлайн-обучению по машинному обучению в ведущих университетах мира — магистерским программам, программам последипломного образования для руководителей и продвинутой сертификационной программе в области машинного обучения и искусственного интеллекта, чтобы ускорить свою карьеру.

Как работает полиномиальный наивный байесовский метод?

Наивный байесовский алгоритм — это мощный алгоритм, который используется для анализа текстовых данных и задач с несколькими классами. Чтобы понять работу наивной теоремы Байеса, важно сначала понять концепцию теоремы Байеса, поскольку она основана на последней.

Теорема Байеса, сформулированная Томасом Байесом, вычисляет вероятность события на основе предварительного знания условий, связанных с событием. Он основан на следующей формуле:

Р(А|В) = Р(А) * Р(В|А)/Р(В)

Где мы вычисляем вероятность класса A, когда предиктор B уже предоставлен.

P(B) = априорная вероятность B

P(A) = априорная вероятность класса A

P (B | A) = появление предиктора B с учетом вероятности класса A

Эта формула помогает в расчете вероятности тегов в тексте.

Давайте разберемся с алгоритмом наивного Байеса на примере. В приведенной ниже таблице мы взяли набор данных о погодных условиях: солнечно, пасмурно и дождливо. Теперь нам нужно предсказать вероятность того, будут ли игроки играть, исходя из погодных условий.

Обязательно прочтите: Введение в наивный байесовский подход

Набор обучающих данных

Погода Солнечно Пасмурная погода Дождливый Солнечно Солнечно Пасмурная погода Дождливый Дождливый Солнечно Дождливый Солнечно Пасмурная погода Пасмурная погода Дождливый
Играть Нет да да да да да Нет Нет да да Нет да да Нет

Это можно легко рассчитать, выполнив следующие шаги:

Создайте таблицу частот обучающего набора данных, указанного в приведенной выше постановке задачи. Перечислите количество всех погодных условий по отношению к соответствующему погодному условию.

Погода да Нет
Солнечно 3 2
Пасмурная погода 4 0
Дождливый 2 3
Всего 9 5

Найдите вероятности каждого погодного условия и составьте таблицу правдоподобия.

Погода да Нет
Солнечно 3 2 =5/14(0,36)
Пасмурная погода 4 0 =4/14(0,29)
Дождливый 2 3 =5/14(0,36)
Всего 9 5
=9/14 (0,64) =5/14 (0,36)

Рассчитайте апостериорную вероятность для каждого погодного условия, используя наивную теорему Байеса. Погодные условия с наибольшей вероятностью будут зависеть от того, будут игроки играть или нет.

Используйте следующее уравнение для расчета апостериорной вероятности всех погодных условий:

Р(А|В) = Р(А) * Р(В|А)/Р(В)

После замены переменных в приведенной выше формуле получаем:

P(Да|Солнечно) = P(Да) * P(Солнечно|Да) / P(Солнечно)

Возьмите значения из приведенной выше таблицы правдоподобия и поместите их в приведенную выше формулу.

P(Солнечно|Да) = 3/9 = 0,33, P(Да) = 0,64 и P(Солнечно) = 0,36

Следовательно, P(Да|Солнечно) = (0,64*0,33)/0,36 = 0,60

P(Нет|Солнечно) = P(Нет) * P(Солнечно|Нет) / P(Солнечно)

Возьмите значения из приведенной выше таблицы правдоподобия и поместите их в приведенную выше формулу.

P(Солнечно|Нет) = 2/5 = 0,40, P(Нет) = 0,36 и P(Солнечно) = 0,36.

P(Нет|Солнечно) = (0,36*0,40)/0,36 = 0,6 = 0,40

Вероятность игры в солнечную погоду выше. Следовательно, игрок будет играть, если будет солнечная погода.

Точно так же мы можем рассчитать апостериорную вероятность дождливых и пасмурных условий и на основе наибольшей вероятности; мы можем предсказать, будет ли игрок играть.

Оформление заказа: объяснение моделей машинного обучения

Преимущества

Алгоритм Наивного Байеса имеет следующие преимущества:

  • Это легко реализовать, так как вам нужно только рассчитать вероятность.
  • Вы можете использовать этот алгоритм как для непрерывных, так и для дискретных данных.
  • Он прост и может использоваться для прогнозирования приложений в реальном времени.
  • Он легко масштабируется и может легко обрабатывать большие наборы данных.

Недостатки

Алгоритм наивного Байеса имеет следующие недостатки:

  • Точность предсказания этого алгоритма ниже, чем у других вероятностных алгоритмов.
  • Он не подходит для регресса. Алгоритм наивного Байеса используется только для классификации текстовых данных и не может использоваться для прогнозирования числовых значений.

Приложения

Алгоритм наивного Байеса используется в следующих местах:

  • Распознавание лица
  • Прогноз погоды
  • Медицинский диагноз
  • Обнаружение спама
  • Идентификация возраста/пола
  • Идентификация языка
  • Сентиментальный анализ
  • Идентификация авторства
  • Классификация новостей

Заключение

Стоит изучить алгоритм мультиномиального наивного Байеса, так как он имеет очень много приложений в нескольких отраслях, а прогнозы, сделанные этим алгоритмом, очень быстрые. Классификация новостей — один из самых популярных вариантов использования наивного байесовского алгоритма. Он широко используется для классификации новостей по различным разделам, таким как политические, региональные, глобальные и так далее.

В этой статье рассматривается все, что вы должны знать, чтобы начать работу с многочленным наивным байесовским алгоритмом и пошаговой работой с наивным байесовским классификатором.

Если вам интересно узнать больше об искусственном интеллекте и машинном обучении, ознакомьтесь с программой Executive PG IIIT-B и upGrad по машинному обучению и искусственному интеллекту , которая предназначена для работающих профессионалов и предлагает более 450 часов интенсивного обучения, более 30 тематических исследований и заданий. , статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Что вы подразумеваете под полиномиальным наивным алгоритмом Байеса?

Алгоритм мультиномиального наивного Байеса — это байесовский подход к обучению, популярный в области обработки естественного языка (NLP). Программа угадывает тег текста, например электронного письма или статьи в газете, используя теорему Байеса. Он вычисляет вероятность каждого тега для данной выборки и выводит тег с наибольшей вероятностью. Наивный байесовский классификатор состоит из ряда алгоритмов, которые имеют одну общую черту: каждая классифицируемая функция не связана ни с какой другой функцией. Существование или отсутствие признака не влияет на включение или исключение другого признака.

Как работает полиномиальный наивный алгоритм Байеса?

Наивный байесовский метод — это мощный инструмент для анализа ввода текста и решения задач с многочисленными классами. Поскольку наивная теорема Байеса основана на теореме Байеса, необходимо сначала понять понятие теоремы Байеса. Теорема Байеса, разработанная Томасом Байесом, оценивает вероятность возникновения на основе предварительного знания условий события. Когда доступен сам предиктор B, мы вычисляем вероятность класса A. Он основан на приведенной ниже формуле: P(A|B) = P(A) * P(B|A)/P(B).

Каковы преимущества и недостатки полиномиального наивного байесовского алгоритма?

Это просто реализовать, потому что все, что вам нужно сделать, это рассчитать вероятность. Этот подход работает как с непрерывными, так и с дискретными данными. Это просто и может использоваться для прогнозирования приложений в реальном времени. Он очень масштабируемый и может легко обрабатывать огромные наборы данных.

Точность предсказания этого алгоритма ниже, чем у других вероятностных алгоритмов. Это не подходит для регрессии. Метод наивного Байеса можно использовать только для классификации текстового ввода и нельзя использовать для оценки числовых значений.