Explicación de Naive Bayes multinomial: función, ventajas y desventajas, aplicaciones en 2022

Publicado: 2021-01-03

Tabla de contenido

Introducción

Hay miles de softwares o herramientas para el análisis de datos numéricos pero hay muy pocos para textos. Multinomial Naive Bayes es una de las clasificaciones de aprendizaje supervisado más populares que se utiliza para el análisis de datos categóricos de texto.

La clasificación de datos de texto está ganando popularidad porque hay una enorme cantidad de información disponible en correos electrónicos, documentos, sitios web, etc. que necesita ser analizada. Conocer el contexto en torno a un determinado tipo de texto ayuda a encontrar la percepción de un software o producto por parte de los usuarios que lo van a utilizar.

Este artículo le brindará una comprensión profunda del algoritmo Naive Bayes multinomial y todos los conceptos relacionados con él. Pasamos por una breve descripción del algoritmo, cómo funciona, sus beneficios y sus aplicaciones.

¿Qué es el algoritmo Multinomial Naive Bayes?

El algoritmo Multinomial Naive Bayes es un método de aprendizaje probabilístico que se utiliza principalmente en el procesamiento del lenguaje natural (NLP). El algoritmo se basa en el teorema de Bayes y predice la etiqueta de un texto, como un correo electrónico o un artículo de periódico. Calcula la probabilidad de cada etiqueta para una muestra dada y luego da como resultado la etiqueta con la probabilidad más alta.

El clasificador Naive Bayes es una colección de muchos algoritmos donde todos los algoritmos comparten un principio común, y es que cada característica que se clasifica no está relacionada con ninguna otra característica. La presencia o ausencia de una característica no afecta la presencia o ausencia de la otra característica.

Únase a la capacitación de aprendizaje automático en línea de las mejores universidades del mundo: maestrías, programas ejecutivos de posgrado y programa de certificado avanzado en ML e IA para acelerar su carrera.

¿Cómo funciona Multinomial Naive Bayes?

Naive Bayes es un poderoso algoritmo que se utiliza para el análisis de datos de texto y con problemas con múltiples clases. Para comprender el funcionamiento del teorema de Naive Bayes, es importante comprender primero el concepto del teorema de Bayes, ya que se basa en este último.

El teorema de Bayes, formulado por Thomas Bayes, calcula la probabilidad de que ocurra un evento en función del conocimiento previo de las condiciones relacionadas con un evento. Se basa en la siguiente fórmula:

P(A|B) = P(A) * P(B|A)/P(B)

Donde estamos calculando la probabilidad de la clase A cuando ya se proporciona el predictor B.

P(B) = probabilidad previa de B

P(A) = probabilidad previa de clase A

P(B|A) = ocurrencia del predictor B dada la probabilidad de clase A

Esta fórmula ayuda a calcular la probabilidad de las etiquetas en el texto.

Entendamos el algoritmo Naive Bayes con un ejemplo. En la siguiente tabla, hemos tomado un conjunto de datos de condiciones meteorológicas soleadas, nubladas y lluviosas. Ahora, necesitamos predecir la probabilidad de que los jugadores jueguen según las condiciones climáticas.

Debe leer: Introducción a Naive Bayes

Conjunto de datos de entrenamiento

Tiempo

Soleado

Nublado

Lluvioso

Soleado

Nublado

Lluvioso

Soleado

Lluvioso

Soleado

Nublado

Lluvioso

Jugar

sí

Esto se puede calcular fácilmente siguiendo los pasos a continuación:

Cree una tabla de frecuencia del conjunto de datos de entrenamiento dado en el enunciado del problema anterior. Enumere el recuento de todas las condiciones climáticas contra la condición climática respectiva.

Tiempo	sí	No
Soleado	3	2
Nublado	4	0
Lluvioso	2	3
Total	9	5

Encuentre las probabilidades de cada condición climática y cree una tabla de probabilidad.

Tiempo	sí	No
Soleado	3	2	=5/14(0.36)
Nublado	4	0	=4/14(0.29)
Lluvioso	2	3	=5/14(0.36)
Total	9	5
	=9/14 (0,64)	=5/14 (0,36)

Calcule la probabilidad posterior para cada condición climática utilizando el teorema de Naive Bayes. La condición climática con mayor probabilidad será el resultado de si los jugadores van a jugar o no.

Utilice la siguiente ecuación para calcular la probabilidad posterior de todas las condiciones meteorológicas:

P(A|B) = P(A) * P(B|A)/P(B)

Después de reemplazar las variables en la fórmula anterior, obtenemos:

P(Sí|Soleado) = P(Sí) * P(Soleado|Sí) / P(Soleado)

Tome los valores de la tabla de probabilidad anterior y colóquelos en la fórmula anterior.

P(Soleado|Sí) = 3/9 = 0,33, P(Sí) = 0,64 y P(Soleado) = 0,36

Por lo tanto, P(Sí|Soleado) = (0,64*0,33)/0,36 = 0,60

P(No|Soleado) = P(No) * P(Soleado|No) / P(Soleado)

Tome los valores de la tabla de probabilidad anterior y colóquelos en la fórmula anterior.

P(Soleado|No) = 2/5 = 0,40, P(No) = 0,36 y P(Soleado) = 0,36

P(No|Soleado) = (0,36*0,40)/0,36 = 0,6 = 0,40

La probabilidad de jugar en condiciones de tiempo soleado es mayor. Por lo tanto, el jugador jugará si hace buen tiempo.

De manera similar, podemos calcular la probabilidad posterior de condiciones lluviosas y nubladas, y en base a la probabilidad más alta; podemos predecir si el jugador jugará.

Pago: Explicación de los modelos de aprendizaje automático

ventajas

El algoritmo Naive Bayes tiene las siguientes ventajas:

Es fácil de implementar ya que solo tiene que calcular la probabilidad.
Puede utilizar este algoritmo tanto en datos continuos como discretos.
Es simple y puede usarse para predecir aplicaciones en tiempo real.
Es altamente escalable y puede manejar fácilmente grandes conjuntos de datos.

Desventajas

El algoritmo Naive Bayes tiene las siguientes desventajas:

La precisión de predicción de este algoritmo es menor que la de otros algoritmos de probabilidad.
No es adecuado para la regresión. El algoritmo Naive Bayes solo se usa para la clasificación de datos textuales y no se puede usar para predecir valores numéricos.

Aplicaciones

El algoritmo Naive Bayes se utiliza en los siguientes lugares:

Reconocimiento facial
Predicción del tiempo
Diagnostico medico
Detección de correo no deseado
Identificación de edad/género
Identificación de idioma
Análisis sentimental
Identificación de autoría
Clasificación de noticias

Conclusión

Vale la pena aprender el algoritmo Multinomial Naive Bayes, ya que tiene muchas aplicaciones en varias industrias, y las predicciones hechas por este algoritmo son muy rápidas. La clasificación de noticias es uno de los casos de uso más populares del algoritmo Naive Bayes. Es muy utilizado para clasificar las noticias en diferentes secciones, como políticas, regionales, globales, etc.

Este artículo cubre todo lo que debe saber para comenzar con el algoritmo Multinomial Naive Bayes y el funcionamiento del clasificador Naive Bayes paso a paso.

Si está interesado en obtener más información sobre IA, aprendizaje automático, consulte el Programa Executive PG de IIIT-B y upGrad en Aprendizaje automático e IA, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones. , estado de exalumno de IIIT-B, más de 5 proyectos prácticos finales y asistencia laboral con las mejores empresas.

¿Qué quiere decir con algoritmo bayesiano ingenuo multinomial?

El algoritmo Multinomial Naive Bayes es un enfoque de aprendizaje bayesiano popular en el procesamiento del lenguaje natural (NLP). El programa adivina la etiqueta de un texto, como un correo electrónico o un artículo periodístico, utilizando el teorema de Bayes. Calcula la probabilidad de cada etiqueta para una muestra determinada y genera la etiqueta con la mayor probabilidad. El clasificador Naive Bayes se compone de una serie de algoritmos que tienen una cosa en común: cada característica que se clasifica no está relacionada con ninguna otra característica. La existencia o ausencia de una característica no influye en la inclusión o exclusión de otra característica.

¿Cómo funciona el algoritmo bayesiano ingenuo multinomial?

El método Naive Bayes es una herramienta sólida para analizar la entrada de texto y resolver problemas con numerosas clases. Debido a que el teorema de Naive Bayes se basa en el teorema de Bayes, es necesario comprender primero la noción del teorema de Bayes. El teorema de Bayes, que fue desarrollado por Thomas Bayes, estima la probabilidad de ocurrencia en base al conocimiento previo de las condiciones del evento. Cuando el propio predictor B está disponible, calculamos la probabilidad de la clase A. Se basa en la siguiente fórmula: P(A|B) = P(A) * P(B|A)/P(B).

¿Cuáles son las ventajas y desventajas del algoritmo bayesiano ingenuo multinomial?

Es simple de implementar porque todo lo que tienes que hacer es calcular la probabilidad. Este enfoque funciona tanto con datos continuos como discretos. Es sencillo y se puede utilizar para pronosticar aplicaciones en tiempo real. Es muy escalable y puede manejar enormes conjuntos de datos con facilidad.

La precisión de predicción de este algoritmo es menor que la de otros algoritmos de probabilidad. No es apropiado para la regresión. La técnica Naive Bayes solo se puede usar para clasificar entradas de texto y no se puede usar para estimar valores numéricos.