Multinomial Naive Bayes explicat: funcție, avantaje și dezavantaje, aplicații în 2022

Publicat: 2021-01-03

Cuprins

Introducere

Există mii de software-uri sau instrumente pentru analiza datelor numerice, dar sunt foarte puține pentru texte. Multinomial Naive Bayes este una dintre cele mai populare clasificări de învățare supravegheată care este utilizată pentru analiza datelor din text categoriale.

Clasificarea datelor text câștigă popularitate deoarece există o cantitate enormă de informații disponibile în e-mail, documente, site-uri web etc. care trebuie analizate. Cunoașterea contextului în jurul unui anumit tip de text ajută la găsirea percepției unui software sau produs pentru utilizatorii care îl vor folosi.

Acest articol vă va oferi o înțelegere profundă a algoritmului multinomial Naive Bayes și a tuturor conceptelor care sunt legate de acesta. Trecem printr-o scurtă prezentare generală a algoritmului, cum funcționează, beneficiile și aplicațiile sale.

Ce este algoritmul Multinomial Naive Bayes?

Algoritmul multinomial Naive Bayes este o metodă de învățare probabilistică care este utilizată în principal în procesarea limbajului natural (NLP). Algoritmul se bazează pe teorema Bayes și prezice eticheta unui text, cum ar fi un e-mail sau un articol de ziar. Acesta calculează probabilitatea fiecărei etichete pentru un eșantion dat și apoi dă eticheta cu cea mai mare probabilitate ca rezultat.

Clasificatorul Naive Bayes este o colecție de mai mulți algoritmi în care toți algoritmii împărtășesc un principiu comun și că fiecare caracteristică clasificată nu are legătură cu nicio altă caracteristică. Prezența sau absența unei caracteristici nu afectează prezența sau absența celeilalte caracteristici.

Alăturați-vă cursului de învățare automată online de la cele mai bune universități din lume – masterat, programe executive postuniversitare și program de certificat avansat în ML și AI pentru a vă accelera cariera.

Cum funcționează Multinomial Naive Bayes?

Naive Bayes este un algoritm puternic care este folosit pentru analiza datelor text și cu probleme cu mai multe clase. Pentru a înțelege funcționarea teoremei Naive Bayes, este important să înțelegem mai întâi conceptul teoremei Bayes, deoarece se bazează pe acesta din urmă.

Teorema Bayes, formulată de Thomas Bayes, calculează probabilitatea ca un eveniment să se producă pe baza cunoștințelor anterioare a condițiilor legate de un eveniment. Se bazează pe următoarea formulă:

P(A|B) = P(A) * P(B|A)/P(B)

Unde calculăm probabilitatea clasei A când predictorul B este deja furnizat.

P(B) = probabilitatea anterioară a lui B

P(A) = probabilitatea anterioară a clasei A

P(B|A) = apariția predictorului B dată de probabilitatea de clasa A

Această formulă ajută la calcularea probabilității etichetelor din text.

Să înțelegem algoritmul Naive Bayes cu un exemplu. În tabelul de mai jos, am luat un set de date despre condițiile meteorologice însorite, înnorate și ploioase. Acum, trebuie să anticipăm probabilitatea dacă jucătorii vor juca în funcție de condițiile meteorologice.

Trebuie citit: Introducere în Naive Bayes

Set de date de antrenament

Vreme

însorit

Acoperit de nori

Ploios

însorit

Acoperit de nori

Ploios

însorit

Ploios

însorit

Acoperit de nori

Ploios

Joaca

Acest lucru poate fi calculat cu ușurință urmând pașii de mai jos:

Creați un tabel de frecvență al setului de date de antrenament prezentat în enunțul problemei de mai sus. Listați numărul tuturor condițiilor meteo în raport cu condiția meteo respectivă.

Vreme	da	Nu
însorit	3	2
Acoperit de nori	4	0
Ploios	2	3
Total	9	5

Găsiți probabilitățile fiecărei condiții meteorologice și creați un tabel de probabilitate.

Vreme	da	Nu
însorit	3	2	=5/14(0,36)
Acoperit de nori	4	0	=4/14(0,29)
Ploios	2	3	=5/14(0,36)
Total	9	5
	=9/14 (0,64)	=5/14 (0,36)

Calculați probabilitatea posterioară pentru fiecare condiție meteorologică folosind teorema Naive Bayes. Condiția meteo cu cea mai mare probabilitate va fi rezultatul dacă jucătorii vor juca sau nu.

Utilizați următoarea ecuație pentru a calcula probabilitatea posterioară a tuturor condițiilor meteorologice:

P(A|B) = P(A) * P(B|A)/P(B)

După înlocuirea variabilelor în formula de mai sus, obținem:

P(Da|Insorit) = P(Da) * P(Insorit|Da) / P(Insorit)

Luați valorile din tabelul de probabilitate de mai sus și puneți-le în formula de mai sus.

P(Însorit|Da) = 3/9 = 0,33, P(Da) = 0,64 și P(Însorit) = 0,36

Prin urmare, P(Da | Însorit) = (0,64*0,33)/0,36 = 0,60

P(Nu|Insorit) = P(Nu) * P(Insorit|Nu) / P(Insorit)

Luați valorile din tabelul de probabilitate de mai sus și puneți-le în formula de mai sus.

P(Insorit|Nu) = 2/5 = 0,40, P(Nu) = 0,36 si P(Insorit) = 0,36

P(Nu|Soare) = (0,36*0,40)/0,36 = 0,6 = 0,40

Probabilitatea de a juca în condiții de vreme însorită este mai mare. Prin urmare, jucătorul va juca dacă vremea este însorită.

În mod similar, putem calcula probabilitatea posterioară a condițiilor ploioase și înnorate și pe baza celei mai mari probabilități; putem prezice dacă jucătorul va juca.

Checkout: Modelele de învățare automată explicate

Avantaje

Algoritmul Naive Bayes are următoarele avantaje:

Este ușor de implementat, deoarece trebuie doar să calculați probabilitatea.
Puteți utiliza acest algoritm atât pentru date continue, cât și pentru date discrete.
Este simplu și poate fi folosit pentru prezicerea aplicațiilor în timp real.
Este foarte scalabil și poate gestiona cu ușurință seturi mari de date.

Dezavantaje

Algoritmul Naive Bayes are următoarele dezavantaje:

Precizia de predicție a acestui algoritm este mai mică decât a celorlalți algoritmi de probabilitate.
Nu este potrivit pentru regresie. Algoritmul naiv Bayes este folosit doar pentru clasificarea datelor textuale și nu poate fi folosit pentru a prezice valori numerice.

Aplicații

Algoritmul naiv Bayes este utilizat în următoarele locuri:

Recunoaștere facială
Prognoza meteo
Diagnostic medical
Detectare spam
Identificarea vârstei/genului
Identificarea limbii
Analiza sentimentală
Identificarea autorului
Clasificarea știrilor

Concluzie

Merită să învățați algoritmul Multinomial Naive Bayes, deoarece are atât de multe aplicații în mai multe industrii, iar predicțiile făcute de acest algoritm sunt foarte rapide. Clasificarea știrilor este unul dintre cele mai populare cazuri de utilizare a algoritmului Naive Bayes. Este foarte folosit pentru a clasifica știrile în diferite secțiuni, cum ar fi politice, regionale, globale și așa mai departe.

Acest articol acoperă tot ce ar trebui să știți pentru a începe cu algoritmul Multinomial Naive Bayes și funcționarea pas cu pas a clasificatorului Naive Bayes.

Dacă sunteți interesat să aflați mai multe despre AI, învățarea automată, consultați Programul Executive PG de la IIIT-B și upGrad în Învățare automată și AI, care este conceput pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini. , statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce vrei să spui prin algoritm bayes naiv multinomial?

Algoritmul Multinomial Naive Bayes este o abordare de învățare bayesiană populară în procesarea limbajului natural (NLP). Programul ghicește eticheta unui text, cum ar fi un e-mail sau o poveste din ziar, folosind teorema Bayes. Acesta calculează probabilitatea fiecărei etichete pentru un eșantion dat și scoate eticheta cu cea mai mare șansă. Clasificatorul Naive Bayes este alcătuit dintr-un număr de algoritmi care au toți un lucru în comun: fiecare caracteristică clasificată nu are legătură cu nicio altă caracteristică. Existența sau absența unei caracteristici nu are nicio legătură cu includerea sau excluderea unei alte caracteristici.

Cum funcționează algoritmul bayes naiv multinomial?

Metoda Naive Bayes este un instrument puternic pentru analizarea textului introdus și rezolvarea problemelor cu numeroase clase. Deoarece teorema Naive Bayes se bazează pe teorema Bayes, este necesar să înțelegem mai întâi noțiunea de teoremă Bayes. Teorema Bayes, care a fost dezvoltată de Thomas Bayes, estimează probabilitatea de apariție pe baza cunoștințelor anterioare despre condițiile evenimentului. Când predictorul B însuși este disponibil, calculăm probabilitatea clasei A. Se bazează pe formula de mai jos: P(A|B) = P(A) * P(B|A)/P(B).

Care sunt avantajele și dezavantajele algoritmului bayes naiv multinomial?

Este simplu de implementat deoarece tot ce trebuie să faci este să calculezi probabilitatea. Această abordare funcționează atât cu date continue, cât și cu date discrete. Este simplu și poate fi folosit pentru a prognoza aplicații în timp real. Este foarte scalabil și poate gestiona cu ușurință seturi de date enorme.

Precizia de predicție a acestui algoritm este mai mică decât cea a altor algoritmi de probabilitate. Nu este potrivit pentru regresie. Tehnica Naive Bayes poate fi folosită doar pentru a clasifica introducerea textului și nu poate fi folosită pentru a estima valori numerice.