多項ナイーブベイの説明:機能、長所と短所、2022年のアプリケーション

公開: 2021-01-03

目次

序章

数値データを分析するためのソフトウェアやツールは数千ありますが、テキスト用のソフトウェアやツールはほとんどありません。 多項ナイーブベイズは、カテゴリテキストデータの分析に使用される最も人気のある教師あり学習分類の1つです。

電子メール、ドキュメント、Webサイトなどで分析する必要のある膨大な量の情報が利用できるため、テキストデータの分類が人気を集めています。 特定の種類のテキストのコンテキストを知ることは、それを使用しようとしているユーザーにとってのソフトウェアまたは製品の認識を見つけるのに役立ちます。

この記事では、多項ナイーブベイズアルゴリズムとそれに関連するすべての概念について深く理解します。 アルゴリズムの概要、その仕組み、利点、およびアプリケーションについて説明します。

多項ナイーブベイズアルゴリズムとは何ですか?

多項ナイーブベイズアルゴリズムは、自然言語処理(NLP)で主に使用される確率的学習方法です。 このアルゴリズムはベイズの定理に基づいており、電子メールや新聞記事などのテキストのタグを予測します。 特定のサンプルの各タグの確率を計算し、最も確率の高いタグを出力として提供します。

単純ベイズ分類器は、すべてのアルゴリズムが1つの共通の原則を共有する多くのアルゴリズムのコレクションであり、分類される各機能は他の機能とは関係ありません。 機能の有無は、他の機能の有無には影響しません。

世界のトップ大学であるマスター、エグゼクティブポストグラデュエイトプログラム、ML&AIの高度な証明書プログラムからオンラインで機械学習トレーニングに参加して、キャリアを早めましょう。

多項ナイーブベイズはどのように機能しますか?

Naive Bayesは、テキストデータ分析や複数のクラスの問題に使用される強力なアルゴリズムです。 ナイーブベイズの定理の働きを理解するには、ベイズの定理の概念が後者に基づいているため、最初に理解することが重要です。

トーマスベイズによって定式化されたベイズの定理は、イベントに関連する条件の事前知識に基づいて、イベントが発生する確率を計算します。 これは、次の式に基づいています。

P(A | B)= P(A)* P(B | A)/ P(B)

予測子Bがすでに提供されている場合に、クラスAの確率を計算しているところ。

P(B)=Bの事前確率

P(A)=クラスAの事前確率

P(B | A)=クラスAの確率が与えられた場合の予測子Bの発生

この式は、テキスト内のタグの確率を計算するのに役立ちます。

例を挙げて、ナイーブベイズアルゴリズムを理解しましょう。 以下の表では、晴れ、曇り、雨の気象条件のデータセットを取得しています。 ここで、気象条件に基づいてプレーヤーがプレーするかどうかの確率を予測する必要があります。

必読:ナイーブベイズ入門

トレーニングデータセット

天気サニー曇り雨のサニーサニー曇り雨の雨のサニー雨のサニー曇り曇り雨の
遊ぶ番号はいはいはいはいはい番号番号はいはい番号はいはい番号

これは、以下の手順に従って簡単に計算できます。

上記の問題ステートメントで指定されたトレーニングデータセットの度数分布表を作成します。 それぞれの気象条件に対するすべての気象条件のカウントをリストします。

天気はい番号
サニー3 2
曇り4 0
雨の2 3
合計9 5

各気象条件の確率を見つけて、尤度テーブルを作成します。

天気はい番号
サニー3 2 = 5/14(0.36)
曇り4 0 = 4/14(0.29)
雨の2 3 = 5/14(0.36)
合計9 5
= 9/14(0.64) = 5/14(0.36)

ナイーブベイズ定理を使用して、各気象条件の事後確率を計算します。 最も確率の高い気象条件は、プレイヤーがプレーするかどうかの結果になります。

次の方程式を使用して、すべての気象条件の事後確率を計算します。

P(A | B)= P(A)* P(B | A)/ P(B)

上記の式の変数を置き換えると、次のようになります。

P(はい|晴れ)= P(はい)* P(晴れ|はい)/ P(晴れ)

上記の尤度表から値を取得し、上記の式に入れます。

P(Sunny | Yes)= 3/9 = 0.33、P(Yes)= 0.64、P(Sunny)= 0.36

したがって、P(はい|晴れ)=(0.64 * 0.33)/0.36 = 0.60

P(No | Sunny)= P(No)* P(Sunny | No)/ P(Sunny)

上記の尤度表から値を取得し、上記の式に入れます。

P(Sunny | No)= 2/5 = 0.40、P(No)= 0.36、P(Sunny)= 0.36

P(いいえ|晴れ)=(0.36 * 0.40)/0.36 = 0.6 = 0.40

晴天時にプレーする可能性が高くなります。 したがって、天気が晴れている場合、プレーヤーはプレイします。

同様に、雨や曇りの状態の事後確率を、最も高い確率に基づいて計算できます。 プレイヤーがプレイするかどうかを予測できます。

チェックアウト:機械学習モデルの説明

利点

ナイーブベイズアルゴリズムには、次の利点があります。

  • 確率を計算するだけなので、実装は簡単です。
  • このアルゴリズムは、連続データと離散データの両方で使用できます。
  • シンプルで、リアルタイムアプリケーションの予測に使用できます。
  • 非常にスケーラブルで、大規模なデータセットを簡単に処理できます。

短所

Naive Bayesアルゴリズムには、次の欠点があります。

  • このアルゴリズムの予測精度は、他の確率アルゴリズムよりも低くなります。
  • 回帰には適していません。 ナイーブベイズアルゴリズムは、テキストデータの分類にのみ使用され、数値の予測には使用できません。

アプリケーション

ナイーブベイズアルゴリズムは、次の場所で使用されます。

  • 顔認識
  • 天気予報
  • 医療診断
  • スパム検出
  • 年齢/性同一性
  • 言語識別
  • 感情分析
  • 著者の識別
  • ニュース分類

結論

多項ナイーブベイズアルゴリズムは、いくつかの業界で非常に多くのアプリケーションがあり、このアルゴリズムによって行われる予測は非常に迅速であるため、学ぶ価値があります。 ニュース分類は、ナイーブベイズアルゴリズムの最も一般的なユースケースの1つです。 ニュースを政治、地域、グローバルなどのさまざまなセクションに分類するためによく使用されます。

この記事では、多項ナイーブベイズアルゴリズムとナイーブベイズ分類器の動作を段階的に開始するために知っておくべきすべてのことを説明します。

AI、機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのエグゼクティブPGプログラムをご覧ください。このプログラムは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題を提供しています。 、IIIT-B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との雇用支援。

多項単純ベイズアルゴリズムとはどういう意味ですか?

多項ナイーブベイズアルゴリズムは、自然言語処理(NLP)で一般的なベイズ学習アプローチです。 プログラムは、ベイズの定理を使用して、電子メールや新聞記事などのテキストのタグを推測します。 特定のサンプルに対する各タグの可能性を計算し、最も可能性の高いタグを出力します。 単純ベイズ分類器は、いくつかのアルゴリズムで構成されており、すべてに1つの共通点があります。つまり、分類される各機能は、他の機能とは無関係です。 機能の存在または不在は、別の機能の包含または除外とは関係ありません。

多項単純ベイズアルゴリズムはどのように機能しますか?

Naive Bayesメソッドは、テキスト入力を分析し、多数のクラスの問題を解決するための強力なツールです。 ナイーブベイズの定理はベイズの定理に基づいているため、最初にベイズの定理の概念を理解する必要があります。 トーマスベイズによって開発されたベイズの定理は、イベントの状態に関する事前の知識に基づいて発生の可能性を推定します。 予測子B自体が使用可能な場合、クラスAの尤度を計算します。これは次の式に基づいています:P(A | B)= P(A)* P(B | A)/ P(B)。

多項単純ベイズアルゴリズムの長所と短所は何ですか?

あなたがしなければならないのは確率を計算することだけなので、実装は簡単です。 このアプローチは、連続データと離散データの両方で機能します。 これは簡単で、リアルタイムアプリケーションの予測に使用できます。 非常にスケーラブルで、膨大なデータセットを簡単に処理できます。

このアルゴリズムの予測精度は、他の確率アルゴリズムよりも低くなります。 回帰には適していません。 ナイーブベイズ手法は、テキスト入力の分類にのみ使用でき、数値の推定には使用できません。