単純ベイズ分類器:長所と短所、アプリケーションとタイプの説明

公開: 2020-12-11

高速な問題解決アルゴリズムが必要な場合、どこに行きますか? 単純ベイズ分類器に移動します。 これは、さまざまな分類問題を解決できる迅速でシンプルなアルゴリズムです。 この記事では、このアルゴリズムとは何か、どのように機能するか、そしてその品質は何かを理解します。 始めましょう。

目次

単純ベイズ分類器とは何ですか?

単純ベイズ分類器は、すべての予測子が互いに独立しているという仮定とともに、ベイズの定理に従ってデータを異なるクラスに分類します。 クラス内の特定の機能が他の機能の存在に関連していないことを前提としています。

たとえば、緑色で丸く、直径が10インチの果物は、スイカと見なすことができます。 これらの特徴は、それらの存在を互いに依存している可能性がありますが、それぞれが独立して、検討中の果物がスイカである確率に寄与しています。 そのため、この分類子の名前には「ナイーブ」という用語が含まれています。

このアルゴリズムは、高度な分類手法よりも優れているため、非常に人気があります。 さらに、それは非常に単純であり、あなたはそれを素早く構築することができます。

このアルゴリズムの基礎となるベイズの定理は次のとおりです。

P(c | x)= P(x | c)P(c)/ P(x)

この式で、「c」はクラスを表し、「x」は属性を表します。 P(c / x)は、予測子によるクラスの事後確率を表します。 P(x)は予測子の事前確率であり、P(c)はクラスの事前確率です。 P(x / c)は、クラスに応じた予測子の確率を示します。

読む:ナイーブベイズの説明

ナイーブベイズの利点

  • このアルゴリズムは非常に高速に動作し、テストデータセットのクラスを簡単に予測できます。
  • マルチクラス予測の問題を解決するために使用できます。これは、マルチクラス予測の問題に非常に役立つためです。
  • 単純ベイズ分類器は、機能の独立性の仮定が成り立つ場合、トレーニングデータが少ない他のモデルよりも優れたパフォーマンスを発揮します。
  • カテゴリ型の入力変数がある場合、ナイーブベイズアルゴリズムは数値変数と比較して非常に優れたパフォーマンスを発揮します。

ナイーブベイズのデメリット

  • テストデータセットに、トレーニングデータセットに存在しなかったカテゴリのカテゴリ変数が含まれている場合、ナイーブベイズモデルはそれにゼロの確率を割り当て、この点に関して予測を行うことはできません。 この現象は「ゼロ周波数」と呼ばれ、この問題を解決するには平滑化手法を使用する必要があります。
  • このアルゴリズムは、お粗末な推定量としても有名です。 したがって、「predict_proba」の確率出力をあまり真剣に受け止めるべきではありません。
  • すべての機能が独立していることを前提としています。 理論的には素晴らしいように聞こえるかもしれませんが、実際には、独立した機能のセットを見つけることはほとんどありません。

ナイーブベイズアルゴリズムの応用

お気づきのとおり、このアルゴリズムはユーザーに多くの利点を提供します。 そのため、さまざまな分野でも多くの用途があります。 ナイーブベイズアルゴリズムのいくつかのアプリケーションは次のとおりです。

  • このアルゴリズムは高速で効率的であるため、リアルタイムの予測に使用できます。
  • このアルゴリズムは、マルチクラス予測でよく使用されます。 このアルゴリズムを使用すると、複数のターゲットクラスの確率を簡単に見つけることができます。
  • メールサービス(Gmailなど)は、このアルゴリズムを使用して、メールがスパムであるかどうかを判断します。 このアルゴリズムは、スパムフィルタリングに最適です。
  • 機能の独立性を前提としており、マルチクラスの問題を解決する効果があるため、感情分析を実行するのに最適です。 感情分析とは、ターゲットグループ(顧客、オーディエンスなど)のポジティブまたはネガティブな感情を特定することです。
  • 協調フィルタリングとナイーブベイズアルゴリズムが連携して、レコメンデーションシステムを構築します。 これらのシステムは、データマイニングと機械学習を使用して、ユーザーが特定のリソースを希望するかどうかを予測します。

また読む:機械学習モデルの説明

単純ベイズ分類器の種類

このアルゴリズムには複数の種類があります。 主なものは次のとおりです。

ベルヌーイナイーブベイズ

ここで、予測変数はブール変数です。 したがって、「True」と「False」の値のみがあります(「Yes」または「No」の値を指定することもできます)。 データが多変量ベルヌーイ分布に従っている場合に使用します。

多項ナイーブベイズ

人々はこのアルゴリズムを使用して、ドキュメント分類の問題を解決します。 たとえば、ドキュメントが「法務」カテゴリと「人材」カテゴリのどちらに属しているかを判断する場合は、このアルゴリズムを使用してドキュメントを分類します。 現在の単語の頻度を特徴として使用します。

ガウスナイーブベイズ

予測子が離散的ではなく連続値を持っている場合、それらはガウス分布からのサンプルであると想定します。

結論

この記事がお役に立てば幸いです。 ナイーブベイズアルゴリズムに関連する質問がある場合は、コメントセクションで自由に共有してください。 あなたからの御一報をお待ちしています。

AI、機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題を提供します。 IIIT-B卒業生のステータス、5つ以上の実践的な実践的なキャップストーンプロジェクト、トップ企業との雇用支援。

ナイーブベイズの制限は何ですか?

単純ベイズ分類器は、既知のトレーニングデータのセットを使用して新しいデータインスタンスを分類するために使用されるアルゴリズムです。 これは分類に適したアルゴリズムです。 ただし、フィーチャの数はデータ内の属性の数と同じである必要があります。 多数のアイテムを分類するために使用すると、計算コストが高くなります。 数値データには適していません。 機能が互いに独立している場合にのみ機能します。 特徴値が名目上の場合は適切ではありません。 機能値は相互に排他的である必要があります。 特徴値の頻度は、それらが正しい確率に比例する必要があります。

単純ベイズ分類器の最大の長所と短所は何ですか?

Naive Bayesの最大の利点は、非常に小さなデータセットで機能できることです。 これは、スパムフィルタリングで最も人気のあるアルゴリズムの1つです。 また、実装は比較的簡単です。 ほとんどの場合、分類子として使用されます。 データセットが利用できない場合でも、分類アルゴリズムとして使用できます。 このアルゴリズムは、電子メールスパムフィルタリングで使用され、GoogleがWebページを分類するためにも使用されます。 ただし、より複雑な分類問題ではそれほど効果的ではない場合があります。 機能が互いに独立している場合にのみ機能します。

ナイーブベイズでの過剰適合を止めるにはどうすればよいですか?

過剰適合の理由の1つは、トレーニングデータが間違っていることです。 ノイズの多いトレーニングデータセットがあり、トレーニングの例が多い場合、分類器は、モデルを構築しようとしている基になるパターンではなく、トレーニングデータのノイズを調べます。 もう1つの理由は、モデルが複雑すぎることです。 入力の小さな変化が出力の大きな変化を引き起こす可能性があるモデルがある場合、過剰適合になる可能性があります。 別の解決策は、正則化を使用することです。 正則化により、モデルの長いブランチが縮小されます。 モデルを滑らかにし、過剰適合を防ぎます。