Wyjaśnienie wielomianowych Bayesów naiwnych: funkcja, zalety i wady, zastosowania w 2022 r.

Opublikowany: 2021-01-03

Spis treści

Wstęp

Istnieją tysiące programów lub narzędzi do analizy danych liczbowych, ale bardzo niewiele tekstów. Multinomial Naive Bayes to jedna z najpopularniejszych klasyfikacji nadzorowanego uczenia się, która jest używana do analizy danych tekstowych kategorycznych.

Klasyfikacja danych tekstowych zyskuje na popularności, ponieważ w wiadomościach e-mail, dokumentach, stronach internetowych itp. znajduje się ogromna ilość informacji, które należy przeanalizować. Znajomość kontekstu wokół określonego rodzaju tekstu pomaga w odnalezieniu sposobu postrzegania oprogramowania lub produktu przez użytkowników, którzy będą z niego korzystać.

Ten artykuł da ci dogłębne zrozumienie wielomianowego algorytmu Naive Bayesa i wszystkich pojęć z nim związanych. Przechodzimy przez krótki przegląd algorytmu, sposobu jego działania, jego zalet i zastosowań.

Co to jest wielomianowy algorytm Bayesa naiwnego?

Algorytm wielomianowego naiwnego Bayesa to probabilistyczna metoda uczenia się, która jest najczęściej stosowana w przetwarzaniu języka naturalnego (NLP). Algorytm opiera się na twierdzeniu Bayesa i przewiduje znacznik tekstu, takiego jak wiadomość e-mail lub artykuł w gazecie. Oblicza prawdopodobieństwo każdego znacznika dla danej próbki, a następnie jako wynik podaje znacznik o największym prawdopodobieństwie.

Klasyfikator Naive Bayes to zbiór wielu algorytmów, w których wszystkie algorytmy mają jedną wspólną zasadę, a to oznacza, że ​​każda klasyfikowana cecha nie jest powiązana z żadną inną cechą. Obecność lub brak funkcji nie wpływa na obecność lub brak innej funkcji.

Dołącz do szkolenia w zakresie uczenia maszynowego online z najlepszych światowych uniwersytetów — studiów magisterskich, programów podyplomowych dla kadry kierowniczej i zaawansowanego programu certyfikacji w zakresie uczenia maszynowego i sztucznej inteligencji, aby przyspieszyć swoją karierę.

Jak działa wielomianowa naiwna Bayes?

Naive Bayes to potężny algorytm, który służy do analizy danych tekstowych i rozwiązywania problemów z wieloma klasami. Aby zrozumieć działanie naiwnego twierdzenia Bayesa, ważne jest, aby najpierw zrozumieć koncepcję twierdzenia Bayesa, ponieważ jest ono oparte na tym drugim.

Twierdzenie Bayesa, sformułowane przez Thomasa Bayesa, oblicza prawdopodobieństwo wystąpienia zdarzenia na podstawie wcześniejszej wiedzy o warunkach związanych ze zdarzeniem. Opiera się na następującej formule:

P(A|B) = P(A) * P(B|A)/P(B)

Gdzie obliczamy prawdopodobieństwo klasy A, gdy predyktor B jest już podany.

P(B) = prawdopodobieństwo a priori B

P(A) = prawdopodobieństwo a priori klasy A

P(B|A) = występowanie predyktora B dla prawdopodobieństwa klasy A

Ta formuła pomaga w obliczeniu prawdopodobieństwa tagów w tekście.

Przyjrzyjmy się algorytmowi Naive Bayesa na przykładzie. W poniższej tabeli wzięliśmy zestaw danych o warunkach pogodowych, które są słoneczne, zachmurzone i deszczowe. Teraz musimy przewidzieć prawdopodobieństwo tego, czy gracze będą grać w oparciu o warunki pogodowe.

Trzeba przeczytać: Wprowadzenie do naiwnego Bayesa

Zestaw danych treningowych

Pogoda Słoneczny Pochmurny Deszczowy Słoneczny Słoneczny Pochmurny Deszczowy Deszczowy Słoneczny Deszczowy Słoneczny Pochmurny Pochmurny Deszczowy
Grać Nie TAk TAk TAk TAk TAk Nie Nie TAk TAk Nie TAk TAk Nie

Można to łatwo obliczyć, wykonując poniższe kroki:

Utwórz tabelę częstotliwości zbioru danych uczących podanego w powyższym opisie problemu. Lista wszystkich warunków pogodowych w stosunku do odpowiednich warunków pogodowych.

Pogoda TAk Nie
Słoneczny 3 2
Pochmurny 4 0
Deszczowy 2 3
Całkowity 9 5

Znajdź prawdopodobieństwa poszczególnych warunków pogodowych i utwórz tabelę prawdopodobieństwa.

Pogoda TAk Nie
Słoneczny 3 2 =5/14(0,36)
Pochmurny 4 0 =4/14(0,29)
Deszczowy 2 3 =5/14(0,36)
Całkowity 9 5
=9/14 (0,64) =5/14 (0,36)

Oblicz prawdopodobieństwo a posteriori dla każdego warunku pogodowego, korzystając z twierdzenia Naive Bayesa. Warunki pogodowe z największym prawdopodobieństwem będą wynikiem tego, czy gracze będą grać, czy nie.

Użyj następującego równania, aby obliczyć prawdopodobieństwo a posteriori wszystkich warunków pogodowych:

P(A|B) = P(A) * P(B|A)/P(B)

Po zamianie zmiennych w powyższym wzorze otrzymujemy:

P(tak|słonecznie) = P(tak) * P(słonecznie|tak) / P(słonecznie)

Weź wartości z powyższej tabeli prawdopodobieństwa i umieść je w powyższym wzorze.

P(Słonecznie|Tak) = 3/9 = 0,33, P(Tak) = 0,64 i P(Słonecznie) = 0,36

Stąd P(Tak|Słonecznie) = (0,64*0,33)/0,36 = 0,60

P(nie|słonecznie) = P(nie) * P(słonecznie|nie) / P(słonecznie)

Weź wartości z powyższej tabeli prawdopodobieństwa i umieść je w powyższym wzorze.

P(Słonecznie|Nie) = 2/5 = 0,40, P(Nie) = 0,36 i P(Słonecznie) = 0,36

P(brak|słonecznie) = (0,36*0,40)/0,36 = 0,6 = 0,40

Prawdopodobieństwo grania w słoneczne warunki pogodowe jest większe. Dlatego gracz zagra, jeśli pogoda będzie słoneczna.

Podobnie, możemy obliczyć prawdopodobieństwo a posteriori warunków deszczowych i pochmurnych, w oparciu o najwyższe prawdopodobieństwo; możemy przewidzieć, czy gracz zagra.

Zamówienie: Wyjaśnienie modeli uczenia maszynowego

Zalety

Algorytm Naive Bayes ma następujące zalety:

  • Jest to łatwe do wdrożenia, ponieważ wystarczy obliczyć prawdopodobieństwo.
  • Możesz użyć tego algorytmu zarówno do danych ciągłych, jak i dyskretnych.
  • Jest prosty i może być używany do przewidywania aplikacji w czasie rzeczywistym.
  • Jest wysoce skalowalny i może z łatwością obsługiwać duże zestawy danych.

Niedogodności

Algorytm Naive Bayes ma następujące wady:

  • Dokładność predykcji tego algorytmu jest niższa niż innych algorytmów prawdopodobieństwa.
  • Nie nadaje się do regresji. Algorytm naiwnego Bayesa jest używany tylko do klasyfikacji danych tekstowych i nie może być używany do przewidywania wartości liczbowych.

Aplikacje

Algorytm Naive Bayes jest używany w następujących miejscach:

  • Rozpoznawanie twarzy
  • Prognoza pogody
  • Diagnoza medyczna
  • Wykrywanie spamu
  • Identyfikacja wieku/płci
  • Identyfikacja języka
  • Analiza sentymentalna
  • Identyfikacja autorstwa
  • Klasyfikacja wiadomości

Wniosek

Warto nauczyć się algorytmu Multinomial Naive Bayes, ponieważ ma on tak wiele zastosowań w kilku branżach, a predykcje dokonywane przez ten algorytm są naprawdę szybkie. Klasyfikacja wiadomości jest jednym z najpopularniejszych przypadków użycia algorytmu Naive Bayes. Jest on często używany do klasyfikowania wiadomości na różne sekcje, takie jak polityczne, regionalne, globalne i tak dalej.

W tym artykule opisano wszystko, co powinieneś wiedzieć, aby rozpocząć pracę z algorytmem Multinomial Naive Bayes i działaniem klasyfikatora Naive Bayes krok po kroku.

Jeśli chcesz dowiedzieć się więcej o sztucznej inteligencji i uczeniu maszynowym, zapoznaj się z programem Executive PG w zakresie uczenia maszynowego i sztucznej inteligencji IIIT-B i upGrad, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadań , status absolwentów IIIT-B, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Co rozumiesz przez wielomianowy naiwny algorytm Bayesa?

Algorytm wielomianowego naiwnego Bayesa to podejście bayesowskie do uczenia się popularne w przetwarzaniu języka naturalnego (NLP). Program odgaduje znacznik tekstu, takiego jak e-mail lub artykuł w gazecie, korzystając z twierdzenia Bayesa. Oblicza prawdopodobieństwo każdego znacznika dla danej próbki i wyprowadza znacznik z największą szansą. Klasyfikator Naive Bayes składa się z wielu algorytmów, które mają jedną wspólną cechę: każda klasyfikowana cecha nie jest powiązana z żadną inną cechą. Istnienie lub brak funkcji nie ma wpływu na włączenie lub wyłączenie innej funkcji.

Jak działa wielomianowy algorytm Bayesa?

Metoda Naive Bayes to mocne narzędzie do analizy wprowadzania tekstu i rozwiązywania problemów z wieloma klasami. Ponieważ naiwne twierdzenie Bayesa opiera się na twierdzeniu Bayesa, konieczne jest najpierw zrozumienie pojęcia twierdzenia Bayesa. Twierdzenie Bayesa, które zostało opracowane przez Thomasa Bayesa, szacuje prawdopodobieństwo wystąpienia na podstawie wcześniejszej wiedzy o warunkach zdarzenia. Gdy dostępny jest sam predyktor B, obliczamy prawdopodobieństwo klasy A. Jest to oparte na poniższym wzorze: P(A|B) = P(A) * P(B|A)/P(B).

Jakie są zalety i wady wielomianowego algorytmu Bayesa?

Jest prosty do wdrożenia, ponieważ wszystko, co musisz zrobić, to obliczyć prawdopodobieństwo. To podejście działa zarówno z danymi ciągłymi, jak i dyskretnymi. Jest to proste i może być używane do prognozowania aplikacji w czasie rzeczywistym. Jest bardzo skalowalny i z łatwością radzi sobie z ogromnymi zestawami danych.

Dokładność przewidywania tego algorytmu jest niższa niż innych algorytmów prawdopodobieństwa. Nie nadaje się do regresji. Techniki Naive Bayes można używać tylko do klasyfikowania danych tekstowych i nie można jej używać do szacowania wartości liczbowych.