Clasificator naiv Bayes: argumente pro și contra, aplicații și tipuri explicate

Publicat: 2020-12-11

Când aveți nevoie de un algoritm rapid de rezolvare a problemelor, unde mergeți? Te duci la clasificatorul Naive Bayes. Este un algoritm rapid și simplu care poate rezolva diverse probleme de clasificare. În acest articol, vom înțelege ce este acest algoritm, cum funcționează și care sunt calitățile acestuia. Să începem.

Cuprins

Ce este clasificatorul naiv Bayes?

Clasificatorul Naive Bayes separă datele în diferite clase conform teoremei lui Bayes, împreună cu presupunerea că toți predictorii sunt independenți unul de celălalt. Se presupune că o anumită caracteristică dintr-o clasă nu este legată de prezența altor caracteristici.

De exemplu, puteți considera un fruct ca fiind un pepene verde dacă este verde, rotund și are un diametru de 10 inci. Aceste caracteristici ar putea depinde unele de altele pentru existența lor, dar fiecare dintre ele contribuie în mod independent la probabilitatea ca fructul luat în considerare să fie un pepene verde. De aceea, acest clasificator are termenul „Naiv” în numele său.

Acest algoritm este destul de popular deoarece poate chiar depăși tehnicile de clasificare foarte avansate. În plus, este destul de simplu și îl poți construi rapid.

Iată teorema Bayes, care stă la baza acestui algoritm:

P(c | x) = P(x | c) P(c)/ P(x)

În această ecuație, „c” înseamnă clasă, iar „x” reprezintă atribute. P(c/x) reprezintă probabilitatea posterioară a clasei conform predictorului. P(x) este probabilitatea anterioară a predictorului, iar P(c) este probabilitatea anterioară a clasei. P(x/c) arată probabilitatea predictorului în funcție de clasă.

Citește: Bayes naiv explicat

Avantajele Naive Bayes

Acest algoritm funcționează foarte rapid și poate prezice cu ușurință clasa unui set de date de testare.
Îl puteți folosi pentru a rezolva probleme de predicție cu mai multe clase, deoarece este destul de util cu ele.
Clasificatorul Naive Bayes are performanțe mai bune decât alte modele cu mai puține date de antrenament dacă este valabilă ipoteza independenței caracteristicilor.
Dacă aveți variabile de intrare categoriale, algoritmul Naive Bayes funcționează excepțional de bine în comparație cu variabilele numerice.

Dezavantajele lui Naive Bayes

Dacă setul dvs. de date de testare are o variabilă categorială a unei categorii care nu a fost prezentă în setul de date de antrenament, modelul Naive Bayes îi va atribui probabilitate zero și nu va putea face nicio predicție în acest sens. Acest fenomen se numește „Frecvență zero” și va trebui să utilizați o tehnică de netezire pentru a rezolva această problemă.
Acest algoritm este, de asemenea, notoriu ca un estimator prost. Deci, nu ar trebui să luați prea în serios rezultatele probabilității lui „predict_proba”.
Se presupune că toate caracteristicile sunt independente. Deși ar putea suna grozav în teorie, în viața reală, cu greu vei găsi un set de caracteristici independente.

Aplicații ale algoritmului naiv Bayes

După cum trebuie să fi observat, acest algoritm oferă o mulțime de avantaje utilizatorilor săi. De aceea are o mulțime de aplicații și în diverse sectoare. Iată câteva aplicații ale algoritmului Naive Bayes:

Deoarece acest algoritm este rapid și eficient, îl puteți folosi pentru a face predicții în timp real.
Acest algoritm este popular pentru predicțiile cu mai multe clase. Puteți găsi cu ușurință probabilitatea mai multor clase țintă folosind acest algoritm.
Serviciile de e-mail (cum ar fi Gmail) folosesc acest algoritm pentru a afla dacă un e-mail este sau nu spam. Acest algoritm este excelent pentru filtrarea spam-ului.
Presupunerea sa de independență a caracteristicilor și eficiența sa în rezolvarea problemelor cu mai multe clase, îl face perfect pentru efectuarea analizei sentimentelor. Analiza sentimentelor se referă la identificarea sentimentelor pozitive sau negative ale unui grup țintă (clienți, public etc.)
Filtrarea colaborativă și algoritmul Naive Bayes lucrează împreună pentru a construi sisteme de recomandare. Aceste sisteme folosesc data mining și machine learning pentru a prezice dacă utilizatorul ar dori sau nu o anumită resursă.

Citiți și: Modelele de învățare automată explicate

Tipuri de clasificator Bayes naiv

Acest algoritm are mai multe tipuri. Iată pe cele principale:

Bernoulli naiv Bayes

Aici, predictorii sunt variabile booleene. Deci, singurele valori pe care le aveți sunt „Adevărat” și „Fals” (puteți avea și „Da” sau „Nu”). Îl folosim atunci când datele sunt conform distribuției Bernoulli multivariate.

Bayes naiv multinomial

Oamenii folosesc acest algoritm pentru a rezolva problemele de clasificare a documentelor. De exemplu, dacă doriți să determinați dacă un document aparține categoriei „Legal” sau categoriei „Resurse umane”, veți folosi acest algoritm pentru a-l rezolva. Folosește frecvența cuvintelor prezente ca caracteristici.

Bayes naiv gaussian

Dacă predictorii nu sunt discreti, dar au o valoare continuă, presupunem că sunt un eșantion dintr-o distribuție gaussiană.

Concluzie

Sperăm că ați găsit acest articol util. Dacă aveți întrebări legate de algoritmul Naive Bayes, nu ezitați să le împărtășiți în secțiunea de comentarii. Ne-am bucura sa primim vesti de la tine.

Dacă sunteți interesat să aflați mai multe despre AI, învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini, Statut de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Care sunt limitările Naive Bayes?

Clasificatorul naiv Bayes este un algoritm folosit pentru a clasifica noi instanțe de date folosind un set de date de antrenament cunoscute. Este un algoritm bun pentru clasificare; cu toate acestea, numărul de caracteristici trebuie să fie egal cu numărul de atribute din date. Este costisitor din punct de vedere computațional atunci când este utilizat pentru a clasifica un număr mare de articole. Nu este potrivit pentru date numerice. Poate funcționa numai atunci când caracteristicile sunt independente unele de altele. Nu este potrivit când valorile caracteristicilor sunt nominale. Necesită ca valorile caracteristicilor să se excludă reciproc. Necesită ca frecvența valorilor caracteristice să fie proporțională cu probabilitatea ca acestea să fie corecte.

Care este cel mai mare avantaj și dezavantaj al clasificatoarelor Naive Bayes?

Cel mai mare avantaj al Naive Bayes este că poate funcționa cu seturi de date foarte mici. Este unul dintre cei mai populari algoritmi pentru filtrarea spam-ului. De asemenea, este relativ simplu de implementat. Este aproape întotdeauna folosit ca clasificator. Dacă un set de date nu este disponibil, se poate folosi în continuare ca algoritm de clasificare. Acest algoritm este folosit în filtrarea spam-ului e-mailului, este folosit și de Google pentru a clasifica paginile web. Cu toate acestea, s-ar putea să nu fie la fel de eficient în probleme de clasificare mai complexe. Poate funcționa numai atunci când caracteristicile sunt independente unele de altele.

Cum opresc suprainstalarea în Naive Bayes?

Un motiv pentru supraadaptare este faptul că aveți date de antrenament greșite. Dacă aveți un set de date de antrenament cu mult zgomot și aveți o mulțime de exemple de antrenament, clasificatorul va analiza zgomotul din datele de antrenament și nu modelul de bază pentru care încercați să construiți un model. Un alt motiv este că modelul tău este prea complex. Dacă aveți un model în care o mică modificare a intrării poate provoca o modificare mare a ieșirii, puteți obține o supraadaptare. O altă soluție este folosirea regularizării. Regularizarea va micșora ramurile lungi în modelul dvs. Îți netezește modelul și previne supraadaptarea.