다항식 나이브 베이즈 설명: 2022년의 기능, 장점 및 단점, 응용 프로그램

게시 됨: 2021-01-03

소개

수치 데이터 분석을 위한 수천 개의 소프트웨어나 도구가 있지만 텍스트를 위한 것은 거의 없습니다. Multinomial Naive Bayes는 범주형 텍스트 데이터 분석에 사용되는 가장 널리 사용되는 지도 학습 분류 중 하나입니다.

텍스트 데이터 분류는 이메일, 문서, 웹사이트 등에서 사용할 수 있는 분석해야 할 정보가 엄청나게 많기 때문에 인기를 얻고 있습니다. 특정 유형의 텍스트에 대한 컨텍스트를 알면 사용하려는 사용자가 소프트웨어나 제품에 대한 인식을 찾는 데 도움이 됩니다.

이 기사는 다항식 Naive Bayes 알고리즘과 이와 관련된 모든 개념에 대한 깊은 이해를 제공합니다. 알고리즘, 작동 방식, 이점 및 응용 프로그램에 대한 간략한 개요를 살펴봅니다.

다항식 나이브 베이즈 알고리즘이란 무엇입니까?

Multinomial Naive Bayes 알고리즘은 NLP(자연어 처리)에서 주로 사용되는 확률적 학습 방법입니다. 알고리즘은 베이즈 정리를 기반으로 하며 이메일이나 신문 기사와 같은 텍스트의 태그를 예측합니다. 주어진 샘플에 대한 각 태그의 확률을 계산한 다음 가장 높은 확률을 가진 태그를 출력으로 제공합니다.

Naive Bayes 분류기는 모든 알고리즘이 하나의 공통 원칙을 공유하고 분류되는 각 기능이 다른 기능과 관련이 없는 많은 알고리즘의 모음입니다. 특징의 유무는 다른 특징의 유무에 영향을 미치지 않습니다.

세계 최고의 대학(석사, 대학원 대학원 과정, ML 및 AI 고급 인증 프로그램) 의 기계 학습 교육 에 온라인으로 참여 하여 경력을 빠르게 추적하십시오.

다항식 나이브 베이즈는 어떻게 작동합니까?

Naive Bayes는 텍스트 데이터 분석 및 여러 클래스의 문제에 사용되는 강력한 알고리즘입니다. 나이브 베이즈 정리의 작동 원리를 이해하기 위해서는 베이즈 정리 개념이 후자를 기반으로 하고 있기 때문에 먼저 이해하는 것이 중요합니다.

Thomas Bayes가 공식화한 Bayes 정리는 이벤트와 관련된 조건에 대한 사전 지식을 기반으로 이벤트가 발생할 확률을 계산합니다. 다음 공식을 기반으로 합니다.

P(A|B) = P(A) * P(B|A)/P(B)

예측자 B가 이미 제공된 경우 클래스 A의 확률을 계산하는 곳입니다.

P(B) = B의 사전 확률

P(A) = 클래스 A의 사전 확률

P(B|A) = 클래스 A 확률이 주어진 경우 예측 변수 B의 발생

이 공식은 텍스트에서 태그의 확률을 계산하는 데 도움이 됩니다.

Naive Bayes 알고리즘을 예를 들어 이해해 보겠습니다. 아래의 주어진 표에서 우리는 화창하고, 흐리고, 비가 오는 기상 조건의 데이터 세트를 취했습니다. 이제 기상 조건을 기반으로 플레이어가 플레이할지 여부를 예측해야 합니다.

필독: 나이브 베이즈 소개

훈련 데이터 세트

날씨

햇볕이 잘 드는

흐린

비오는 날

햇볕이 잘 드는

흐린

비오는 날

햇볕이 잘 드는

비오는 날

햇볕이 잘 드는

흐린

비오는 날

놀다

아니요

네

아니요

네

아니요

네

아니요

이것은 아래 주어진 단계에 따라 쉽게 계산할 수 있습니다.

위의 문제 설명에서 주어진 훈련 데이터 세트의 빈도 테이블을 만듭니다. 각 기상 조건에 대한 모든 기상 조건의 수를 나열하십시오.

날씨	네	아니요
햇볕이 잘 드는	삼	2
흐린	4	0
비오는 날	2	삼
총	9	5

각 기상 조건의 확률을 찾고 우도 테이블을 만듭니다.

날씨	네	아니요
햇볕이 잘 드는	삼	2	=5/14(0.36)
흐린	4	0	=4/14(0.29)
비오는 날	2	삼	=5/14(0.36)
총	9	5
	=9/14 (0.64)	=5/14 (0.36)

나이브 베이즈 정리를 사용하여 각 기상 조건에 대한 사후 확률을 계산합니다. 가장 확률이 높은 기상 조건은 플레이어가 플레이할지 여부의 결과가 될 것입니다.

다음 방정식을 사용하여 모든 기상 조건의 사후 확률을 계산합니다.

P(A|B) = P(A) * P(B|A)/P(B)

위 공식에서 변수를 교체하면 다음을 얻습니다.

P(예|맑음) = P(예) * P(맑음|예) / P(맑음)

위의 가능성 테이블에서 값을 가져와 위의 공식에 대입합니다.

P(맑음|예) = 3/9 = 0.33, P(예) = 0.64 및 P(맑음) = 0.36

따라서 P(Yes|Sunny) = (0.64*0.33)/0.36 = 0.60

P(아니요|써니) = P(아니요) * P(써니|아니요) / P(써니)

위의 가능성 테이블에서 값을 가져와 위의 공식에 대입합니다.

P(맑음|아니요) = 2/5 = 0.40, P(아니요) = 0.36 및 P(맑음) = 0.36

P(아니오|맑음) = (0.36*0.40)/0.36 = 0.6 = 0.40

화창한 날씨 조건에서 게임을 할 확률이 더 높습니다. 따라서 날씨가 화창하면 플레이어가 플레이합니다.

유사하게, 우리는 가장 높은 확률에 기초하여 비와 흐린 상태의 사후 확률을 계산할 수 있습니다. 플레이어가 플레이할지 여부를 예측할 수 있습니다.

체크아웃: 기계 학습 모델 설명

장점

나이브 베이즈 알고리즘은 다음과 같은 장점이 있습니다.

확률만 계산하면 되므로 구현하기 쉽습니다.
연속 데이터와 이산 데이터 모두에 이 알고리즘을 사용할 수 있습니다.
간단하고 실시간 응용 프로그램을 예측하는 데 사용할 수 있습니다.
확장성이 뛰어나고 대규모 데이터 세트를 쉽게 처리할 수 있습니다.

단점

나이브 베이즈 알고리즘에는 다음과 같은 단점이 있습니다.

이 알고리즘의 예측 정확도는 다른 확률 알고리즘보다 낮습니다.
회귀에 적합하지 않습니다. Naive Bayes 알고리즘은 텍스트 데이터 분류에만 사용되며 숫자 값을 예측하는 데 사용할 수 없습니다.

애플리케이션

Naive Bayes 알고리즘은 다음과 같은 위치에서 사용됩니다.

얼굴 인식
일기예보
의료 진단
스팸 감지
연령/성별 식별
언어 식별
감성 분석
저자 식별
뉴스 분류

결론

Multinomial Naive Bayes 알고리즘은 여러 산업 분야에 많은 응용 프로그램이 있고 이 알고리즘으로 만든 예측이 정말 빠르기 때문에 학습할 가치가 있습니다. 뉴스 분류는 나이브 베이즈 알고리즘의 가장 인기 있는 사용 사례 중 하나입니다. 뉴스를 정치, 지역, 글로벌 등과 같은 다양한 섹션으로 분류하는 데 많이 사용됩니다.

이 기사에서는 다항식 나이브 베이즈 알고리즘과 나이브 베이즈 분류기의 작동을 단계별로 시작하기 위해 알아야 할 모든 것을 다룹니다.

AI, 기계 학습에 대해 자세히 알아보려면 작업 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제를 제공하는 IIIT-B & upGrad의 기계 학습 및 AI 경영자 PG 프로그램을 확인하십시오. , IIIT-B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

다항 순진한 베이즈 알고리즘이란 무엇을 의미합니까?

Multinomial Naive Bayes 알고리즘은 NLP(자연어 처리)에서 널리 사용되는 베이지안 학습 접근 방식입니다. 이 프로그램은 Bayes 정리를 사용하여 이메일이나 신문 기사와 같은 텍스트의 태그를 추측합니다. 주어진 샘플에 대한 각 태그의 가능성을 계산하고 가장 가능성이 높은 태그를 출력합니다. Naive Bayes 분류기는 모두 한 가지 공통점이 있는 여러 알고리즘으로 구성되어 있습니다. 분류되는 각 기능은 다른 기능과 관련이 없습니다. 기능의 존재 여부는 다른 기능의 포함 또는 제외와 관련이 없습니다.

다항식 나이브 베이즈 알고리즘은 어떻게 작동합니까?

Naive Bayes 방법은 텍스트 입력을 분석하고 수많은 클래스의 문제를 해결하기 위한 강력한 도구입니다. 나이브 베이즈 정리는 베이즈 정리에 기반을 두고 있기 때문에 먼저 베이즈 정리의 개념을 이해하는 것이 필요합니다. Thomas Bayes가 개발한 Bayes 정리는 이벤트 조건에 대한 사전 지식을 기반으로 발생 가능성을 추정합니다. 예측자 B 자체를 사용할 수 있는 경우 클래스 A의 가능성을 계산합니다. 아래 공식을 기반으로 합니다. P(A|B) = P(A) * P(B|A)/P(B).

다항식 나이브 베이즈 알고리즘의 장점과 단점은 무엇입니까?

확률을 계산하기만 하면 되므로 구현이 간단합니다. 이 접근 방식은 연속 데이터와 이산 데이터 모두에서 작동합니다. 간단하며 실시간 애플리케이션을 예측하는 데 사용할 수 있습니다. 확장성이 뛰어나고 방대한 데이터 세트를 쉽게 처리할 수 있습니다.

이 알고리즘의 예측 정확도는 다른 확률 알고리즘보다 낮습니다. 회귀에 적합하지 않습니다. Naive Bayes 기법은 텍스트 입력을 분류하는 데만 사용할 수 있으며 숫자 값을 추정하는 데 사용할 수 없습니다.