単純ベイズ分類器とは何ですか? 【例で説明】

公開: 2020-12-28

機械学習(ML)、深層学習(DL)、一連のデータからのデータのマイニング、Pythonでのプログラミング、または自然言語処理(NLP)を実行しているときに、個別に区別する必要がある場合が非常に多くあります。特定の属性に基づくオブジェクト。 分類器は、この目的で使用される機械学習モデルです。 単純ベイズ分類器は、このブログ投稿の核心であり、これについてはさらに詳しく説明します。

ベイズの定理

英国の数学者トーマスベイズ牧師、ベイズの定理は、条件付き確率を決定するために使用される数式です。条件付き確率は、以前の結果に基づいて発生する結果の可能性です。

ソース

この式を使用して、Bが発生したときのAの確率を見つけることができます。

ここ、

Aは命題です。

Bは証拠です。

P(A)は、命題の事前確率です。

P(B)は証拠の事前確率です。

P(A / B)は後部と呼ばれ、

P(B / A)は尤度と呼ばれます。

したがって、

P osterior =(尤度)(事前確率での命題)

_________________________________

証拠事前確率

この式は、予測子または機能が独立しており、ある人の存在が別の人の機能に影響を与えないことを前提としています。 したがって、それは「ナイーブ」と呼ばれます。

単純ベイズ分類器の表示例

このトピックをよりよく理解する例を取り上げています。

問題文:

テキストがスポーツに関するものかどうかを示す分類子を作成しています。

トレーニングデータには5つの文があります。

ラベル
「素晴らしいゲーム」 スポーツ
「選挙は終わった」 スポーツではありません
「とてもきれいな試合」 スポーツ
「それは緊密な選挙でした」 スポーツではありません
「クリーンだが忘れられないゲーム」 スポーツ

ここで、「非常に近いゲーム」という文を見つける必要があります。どのラベルのものですか?

ナイーブベイズは、分類器として、「非常に近いゲーム」という文の確率を「スポーツではない」という確率で計算します。

数学的には、P(スポーツ|非常に近いゲーム)、 「非常に近いゲーム」という文のラベルSportsの確率を知りたいと思います。

次のステップは、確率を計算することです。

しかしその前に、いくつかの概念を見てみましょう。

特徴工学

まず、機械学習モデルの作成中に使用する機能を決定する必要があります。 機能は、アルゴリズムに与えられたテキストからの情報のチャンクです。

上記の例では、テキストとしてデータがあります。 したがって、テキストを数値に変換して計算を実行する必要があります。

したがって、テキストの代わりに、テキストに出現する単語の頻度を使用します。 特徴はこれらの単語の数になります。

ベイズの定理の適用

単語の頻度のカウントを使用して計算される確率を変換します。 このために、ベイズの定理と確率のいくつかの基本的な概念を使用します。

P(A / B)= P(B / A)x P(A)

______________

P(B)

P(スポーツ|非常に近いゲーム)があり、ベイズの定理を使用して、条件付き確率を打ち消します。

P(スポーツ/非常に近いゲーム)= P(非常に近いゲーム/スポーツ)x P(スポーツ)

____________________________

P(非常に近いゲーム)

両方のラベルで同じ除数を放棄して比較します

P(非常に近いゲーム/スポーツ)x P(スポーツ)

P(非常に近いゲーム/スポーツではない)x P(スポーツではない)

「スポーツ」というラベルに「非常に近いゲーム」という文が出現する回数を計算することで、確率を計算できますP(非常に近いゲーム|スポーツ)を決定するには、それを合計で割ります。

しかし、トレーニングデータでは、「非常に近いゲーム」はどこにも表示されないため、この確率はゼロです。

分類したいすべての文がトレーニングデータに存在しない限り、このモデルはあまり役に立ちません。

単純ベイズ分類器

ここでコア部分である「ナイーブ」が登場します。 文中のすべての単語は他の単語から独立しています。私たちは文全体ではなく、単一の単語を調べています。 単純ベイズ分類器の詳細をご覧ください。

P(非常に近いゲーム)= P(a)x P(非常に)x P(近い)x P(ゲーム)

この推定は強力で有用でもあります。 次のステップは適用することです:

P(非常に近いゲーム/スポーツ)= P(a /スポーツ)x P(非常に/スポーツ)x P(近い/スポーツ)x P(ゲーム/スポーツ)

これらの個々の単語は、計算可能なトレーニングデータに何度も表示されます。

確率の計算

最後のステップは、確率を計算し、どちらが大きいかを確認することです。
最初に、ラベルの事前確率を計算します。指定されたトレーニングデータの文について。 スポーツP(スポーツ)である確率は⅗、P(スポーツではない)は⅖になります。

P(ゲーム/スポーツ)を計算する際に、スポーツテキスト(ここでは2)に「ゲーム」という単語が表示される回数をスポーツ(11)の単語で割った回数をカウントします。

P(ゲーム/スポーツ)= 2/11

しかし、「閉じる」という言葉はどのスポーツテキストにも含まれていません。

これは、P(close | Sports)= 0を意味し、他の確率と乗算するため、不便です。

P(a / Sports)x P(very / Sports)x 0 x P(game / Sports)

最終結果は0になり、計算全体が無効になります。 しかし、これは私たちが望んでいることではないので、私たちは別の方法を模索しています。

ラプラススムージング

Laplace平滑化を使用すると、上記の問題を解消できます。ここでは、すべてのカウントに1を合計します。 ゼロになることはありません。

除数に可能な数の単語を追加し、除数は1を超えないようにします。

この場合、可能な単語のセットは次のとおりです。

['a'、'great'、'very'、'over'、'it'、'but'、'game'、'match'、'clean'、'election'、'close'、'the'、 'だった'、'忘れられない']

可能な単語数は14です。 ラプラススムージングを適用することにより、

P(ゲーム/スポーツ)= 2 + 1

___________

11 + 14

最終結果:

P(単語|スポーツ) P(単語|スポーツではない)
a (2 + 1)÷(11 + 14) (1 + 1)÷(9 + 14)
とても(1 + 1)÷(11 + 14) (0 + 1)÷(9 + 14)
選ぶ(0 + 1)÷(11 + 14) (1 + 1)÷(9 + 14)
ゲーム(2 + 1)÷(11 + 14) (0 + 1)÷(9 + 14)

ここで、すべての確率を乗算して、どちらが大きいかを見つけます。

P(a / Sports)x P(very / Sports)x P(game / Sports)x P(game / Sports)x P(Sports)

= 2.76 x 10 ^ -5

= 0.0000276

P(a /非スポーツ)x P(非常に/非スポーツ)x P(ゲーム/非スポーツ)x P(ゲーム/非スポーツ)x P(非スポーツ)

= 0.572 x 10 ^ -5

= 0.00000572

したがって、確率が高いため、「非常に近いゲーム」にスポーツというラベルを付ける分類子がついに得られ、その文はスポーツカテゴリに属していると推測されます。

チェックアウト:機械学習モデルの説明

単純ベイズ分類器の種類

単純ベイズ分類器とは何かを理解し、例も見てきたので、そのタイプを見てみましょう。

1.多項単純ベイズ分類器

これは主に、ドキュメントが政治、スポーツ、テクノロジーなどのカテゴリに属しているかどうかに関係なく、ドキュメント分類の問題に使用されます。この分類子で使用される予測子は、ドキュメント内の単語の頻度です。

2.ベルヌーイナイーブベイズ分類器

これは多項単純ベイズ分類器に似ていますが、その予測子はブール変数です。 クラス変数を予測するために使用するパラメーターは、yesまたはnoの値のみを取ります。 たとえば、単語がテキストに含まれるかどうか。

3.ガウスナイーブベイズ分類器

予測子が一定の値をとる場合、これらの値はガウス分布からサンプリングされたものと見なされます。

ソース

データセットに存在する値が変化するため、条件付き確率の式は次のように変化します。

ソース

結論

単純ベイズ分類器とは何か、およびテキストの分類にどのように使用されるかについてご案内できることを願っています。 この単純な方法は、分類問題で驚異的に機能します。 機械学習の専門家であるかどうかに関係なく、コーディングに何時間も費やすことなく、独自の単純ベイズ分類器を構築できます。

詳細については、Upgradの機械学習専用プログラムをご覧ください。 upGradで分類子を学習する:機械学習の知識と深層学習のスキルでキャリアを後押しします。 upGradEducationPvtで Ltd.は、業界の専門家によって慎重に設計および指導された認定プログラムを提供しています。

  • この集中的な240時間以上のコースは、働く専門家のために特別に設計されています。
  • 5つ以上の業界プロジェクトとケーススタディに取り組みます。
  • 専任の学生サクセスメンターとキャリアメンターによる360度のキャリアサポートを受けられます。
  • あなたはあなたの配置のための援助を得て、強力な履歴書を作ることを学びます。

今すぐお申し込みください!

AI主導の技術革命をリードする

機械学習と人工知能におけるPGディプロマ
今すぐ申し込む