機械学習のディシジョンツリーの説明[例付き]

公開: 2020-12-21

序章

デシジョンツリー学習は、主流のデータマイニング手法であり、教師あり機械学習の一形態です。 デシジョンツリーは、人々が統計的確率を表すか、発生の過程、行動、または結果を見つけるために使用する図のようなものです。 デシジョンツリーの例を使用すると、概念をより明確に理解できます。

デシジョンツリーの図のブランチは、予想される結果、考えられる決定、または反応を示しています。 デシジョンツリーの最後にあるブランチには、予測または結果が表示されます。 決定木は通常、手動で解決するのが複雑になる問題の解決策を見つけるために使用されます。 いくつかの決定木の例を使用して、これを詳細に理解しましょう。

デシジョンツリーは、データまたはイベントの予測と分類に使用される、人気のある強力なツールの1つです。 フローチャートのようなものですが、ツリーの構造になっています。 ツリーの内部ノードは、属性に関するテストまたは質問を表します。 各ブランチは、尋ねられた質問の可能な結果であり、リーフノードとも呼ばれるターミナルノードは、クラスラベルを示します。

決定木には、いくつかの予測変数があります。 これらの予測変数に応じて、いわゆる応答変数を予測してみてください。

関連記事:ディシジョンツリーの分類:知っておくべきことすべて

MLのディシジョンツリー

シーケンスの形式でいくつかのステップを表すことにより、決定木は、可能な決定オプションと範囲からの潜在的な結果を理解および視覚化するための簡単で効果的な方法になります。 デシジョンツリーは、可能なオプションを特定し、得られる可能性のある各アクションコースに対する報酬とリスクを比較検討するのにも役立ちます。

意思決定ツリーは、意思決定を行う際の一種のサポートシステムとして、大規模な組織だけでなく多くの小規模な組織にも展開されます。 デシジョンツリーの例は構造化されたモデルであるため、読者はチャートを理解し、特定のオプションが対応する決定につながる可能性がある方法と理由を分析できます。 デシジョンツリーの例は、読者が1つの問題に対して考えられる複数の解決策を予測して取得し、形式、および決定とのさまざまなイベントとデータの関係を理解することもできます。

ツリーの各結果には、報酬とリスクの番号または重みが割り当てられています。 デシジョンツリーを使用する場合は、すべての最終結果が得られ、欠点と利点が生じる可能性があります。 ツリーを適切に結論付けるために、イベントとデータの量に応じて、ツリーを必要なだけ短くまたは長くスパンすることができます。 それをよりよく理解するために、簡単な決定木の例を見てみましょう

飲酒者、喫煙者、体重、およびこれらの人々が死亡した年齢などの人々の詳細で構成される特定のデータを検討してください。

名前酒飲み喫煙者重さ年齢(死亡)
サムはいはい120 44
メアリー番号番号70 96
ジョナスはい番号72 88
テイラーはいはい55 52
ジョー番号はい94 56
ハリー番号番号62 93

人々が若い年齢で死ぬのか、それとも高齢で死ぬのかを予測してみましょう。 飲酒者、喫煙者、体重などの特性が予測値として機能します。 これらを使用して、年齢を応答変数と見なします。

70歳より前に亡くなった人は「若く」、70歳以降に亡くなった人は「老人」とラベルを付けましょう。 ここで、予測変数に基づいて応答変数を予測しましょう。 以下に示すのは、データを学習した後に作成された決定木です。

上記の決定木は、人が喫煙者である場合、彼らは若くして死ぬことを説明しています。 人が喫煙者でない場合、考慮される次の要因は、その人が飲酒者であるかどうかです。 人が喫煙者でも飲酒者でもない場合、その人は年をとって死にます。

人が喫煙者ではなく飲酒者である場合、その人の体重が考慮されます。 人が喫煙者ではなく、飲酒者であり、体重が90 kg未満の場合、その人は年をとって死亡します。 そして最後に、人が喫煙者ではなく、飲酒者であり、体重が90 kgを超える場合、彼らは若くして死亡します。

与えられたデータから、Jonasの例を見て、決定木が正しく分類されているかどうか、および応答変数が正しく予測されているかどうかを確認しましょう。 ジョナスは喫煙者ではなく、飲酒者であり、体重は90kg未満です。 デシジョンツリーによると、彼は年をとって死ぬでしょう(彼が死ぬ年齢> 70)。 また、データによると、彼は88歳のときに亡くなりました。これは、決定木の例が正しく分類され、完全に機能していることを意味します。

しかし、意思決定ツリーの動作の背後にある基本的な考え方について疑問に思ったことはありますか? デシジョンツリーでは、インスタンスのセットは、各サブセットの変動が小さくなるようにサブセットに分割されます。 つまり、エントロピーを減らしたいので、変動を減らし、イベントまたはインスタンスを純粋にしようとします。

同様の決定木の例を考えてみましょう まず、その人が喫煙者であるかどうかを検討します。

ここでは、非喫煙者については不明です。 それで、私たちはそれを飲酒者と非飲酒者に分けました。

下の図から、変動の大きい高いエントロピーから、より確実な小さなクラスに縮小することがわかります。 このようにして、任意の決定木の例を段階的に作成できます

ID3アルゴリズムを使用して決定木を構築しましょう。 デシジョンツリーでより重要なのは、エントロピーを深く理解していることです。 エントロピーは不確実性の程度に他なりません。 それはによって与えられます:

(時々、それは「E」によっても示されます)

上記の例に適用すると、次のようになります。

人々をどのカテゴリーにも分けていない場合を考えてみてください。 両方のタイプの人々が同じ量を持っている場合、これは最悪のシナリオ(高エントロピー)です。 ここでの比率は3:3です。

同様に、飲まない人の場合、比率は1:1で、エントロピーは1になります。したがって、不確実性のためにさらに分割する必要があります。 飲まない人の場合、比率は2:0です。 したがって、エントロピーは0です。

ここで、さまざまなケースのエントロピーを計算したので、同じものの加重平均を計算できます。

最初のブランチの場合、 E = 6 6 1 = 1

喫煙者クラスの場合、 E = 2 6 0+ 4 6 0.811 = 0.54

喫煙者と飲酒者のクラスの場合、 E = 2 6 0+ 2 6 1+ 2 6 0 = 0.33

次の図は、上記の計算をすばやく理解するのに役立ちます。

最後に、情報が得られます。

クラスエントロピ情報獲得(E2-E1)
人々 1 0.46
喫煙者0.54 0.21
喫煙者+飲酒者0.33

また読む:ディシジョンツリーインタビューの質問と回答

結論

私たちは、理論から実際の決定木の例に至るまで、決定木の詳細な研究に成功しました また、ID3アルゴリズムを使用して決定木を構築しました。 これがおもしろいと思ったら、データサイエンスを詳しく調べてみてください。

意思決定ツリー、機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題を提供します。 、IIIT-B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との雇用支援。

デシジョンツリーとは何ですか?

デシジョンツリーは、意思決定情報を視覚的に整理および整理するために使用されます。 木は、根が上になり、葉が下になるように描かれます。 決定木は、左から右に移動しながら、下から上に読み取られます。 ツリーの各レベルは、さらにテストするためのベースであり、各レベルでの決定により、質問に回答するまで範囲が狭まります。 デシジョンツリーは、問題または決定を複数のサブデシジョンに分割し、ルートへの論理パスをたどります。これが主な目標です。 デシジョンツリーは、ビジネス環境を分析し、優先順位を付けて洞察を提供し、どの方向に進むべきかを決定するために使用されます。

機械学習における決定木学習の問題は何ですか?

デシジョンツリーは、新しい戦略をテストしたり、他の人に戦略を説明したりするための基礎として使用できます。 決定木は、与えられた一連の仮定の下で何が起こるかを説明します。 また、過去に使用された戦略のパフォーマンスを評価するために使用することもできます。 決定木は、すべての分岐があるため、エラーの影響を受けやすいことが知られています。 決定木は、考えられるすべての変数を考慮に入れていない場合があり、決定木を分析する人が特定の状況のすべての側面を経験していない可能性があるため、常に正確であるとは限りません。

デシジョンツリーにはどのようなデータが最適ですか?

デシジョンツリーは、構造のようなフローチャートを使用してデータのパターンを見つけるのに役立ちます。 最良のタイプのデータは、定性的、カテゴリー的、および数値的です。 デシジョンツリーはすべてのタイプのデータで機能しますが、数値データで最適に機能します。 それらは数値である値を持つことができなければなりません、さもなければそれらを数値に変換する方法がなければなりません。 デシジョンツリーは、データの種類と量に大きく依存します。 データポイントの数が100を超える場合は、ディシジョンツリーが適切なモデルになります。