デシジョンツリーの分類：知っておくべきことすべて

公開: 2020-05-29

序章
決定木は何でできていますか？
デシジョンツリー分類
- 1.分類木
- 2.回帰ツリー
デシジョンツリーはどのように作成されますか？
分割統治
デシジョンツリー分類子はどのように機能しますか？
デシジョンツリー分類を使用する利点
デシジョンツリー分類子を使用するデメリット
結論
デシジョンツリーは過剰適合する傾向がありますか？
デシジョンツリーには正規化が必要ですか？
デシジョンツリーをスプライスする方法は？

序章

多くのアナロジーは、自然から私たちの現実の生活へと駆り立てられる可能性があります。木はたまたまそれらの中で最も影響力のあるものの1つです。木は、機械学習のかなりの領域に影響を与えてきました。それらは、本質的な分類と回帰の両方をカバーしています。意思決定を分析する場合、意思決定のプロセスを表すために意思決定ツリー分類子を使用できます。

したがって、基本的に、決定木は教師あり機械学習の一部であり、データの処理は、特定のパラメーターを念頭に置いて、データを継続的に分割することによって行われます。

決定木は何でできていますか？

質問への答えは簡単です。デシジョンツリーは3つの重要な要素で構成されており、それぞれに類似したものを実際のツリーに引き寄せることができます。 3つすべてを以下に示します。

ノード：これは、値のテストが行われる場所です。ノードでは、特定の属性の値が渡され、値に対してチェックおよびテストされて決定が行われます。
エッジ/ブランチ：この部分は、任意のテスト結果の結果に対応します。エッジ/ブランチは、2つの異なるノードまたはリーフをリンクする役割も果たします。
リーフノード：これらは、通常、ターミナルにあるノードです。リーフノードは、結果を予測する責任があります。

デシジョンツリー分類

決定木は、分類木と回帰木という2つのカテゴリに大きく分類できます。

1.分類木

分類ツリーは、「はい」または「いいえ」の質問に回答し、この情報を使用して決定を下すことに基づくタイプの決定木です。したがって、関連する質問をたくさん行い、その答えを使用して実行可能な解決策を見つけることによって、人が適切かどうかを判断するツリーは、一種の分類ツリーです。

これらのタイプのツリーは通常、バイナリ再帰パーティショニングと呼ばれるプロセスを使用して構築されます。バイナリ再帰パーティショニングの方法では、データを個別のモジュールまたはパーティションに分割し、これらのパーティションを決定木分類器のすべてのブランチにさらにスプライスします。

2.回帰ツリー

さて、決定木の回帰タイプは、一面で決定木の分類タイプとは異なります。 2つのツリーに入力されたデータは大きく異なります。分類ツリーは目立たないデータを処理し、回帰決定木は連続データ型を処理します。回帰ツリーの良い例は、住宅価格または患者が通常入院する期間です。

詳細：機械学習における線形回帰

デシジョンツリーはどのように作成されますか？

デシジョンツリーは、モデルのトレーニングが必要なデータセットを使用して作成されます（デシジョンツリーは教師あり機械学習の一部です）。このトレーニングデータセットは、より小さなデータサブセットに継続的に接続されます。このプロセスは、データを分解するプロセスで段階的に並べて作成される関連付けツリーの作成によって補完されます。マシンが学習を終了した後、提供されたトレーニングデータセットに基づく決定木の作成が終了し、このツリーがユーザーに返されます。

デシジョンツリーの使用の背後にある中心的な考え方は、データを2つの主要な領域、つまり人口密度の高い領域（クラスター）または空の（または疎な）領域である領域に分割することです。

デシジョンツリー分類は、分割の基本原則に基づいて機能します。一連のテストを経た後、ツリーに入力された新しい例が整理され、クラスラベルが付けられる場所を征服します。分割統治のアルゴリズムについては、以下で詳しく説明します。

分割統治

デシジョンツリー分類子は、分割統治アルゴリズムとも呼ばれる再帰的パーティショニングと呼ばれるヒューリスティックを利用して構築されていることは明らかです。データをより小さなセットに分割し、それを継続します。各サブセット内のデータが同種であると判断されるまで、またはユーザーが別の停止基準を定義した場合は、このアルゴリズムが停止します。

デシジョンツリー分類子はどのように機能しますか？

分割統治アルゴリズムは、決定木分類器を作成するために使用されます。アルゴリズムを使用することにより、常にツリーのルートから開始し、データセットを分割して最終決定の不確実性を減らします。
それはたまたま反復的なプロセスです。したがって、すべてのノードでこのプロセスを繰り返します。このプロセスは、必要な純度のノードがなくなるまで繰り返されます。
一般に、過剰適合を回避するために、達成する純度の限界を設定します。これは、最終結果が100％純粋ではない可能性があることを意味します。

分割統治アルゴリズムの基本：

まず、ルートノードのテストを選択または選択します。次に、ブランチを作成するプロセスを開始します。ブランチは、定義されたトライアルのそれぞれの可能な結果を念頭に置いて設計されています。
次に、データのインスタンスをより小さなサブセットに分割します。各ブランチには、ノードに接続された独自のスプライスがあります。
次に、問題のブランチに到達するインスタンスのみを使用して、ブランチごとにこのプロセスを繰り返す必要があります。
すべてのインスタンスが同じクラスに属している場合は、この再帰プロセスを停止する必要があります。

デシジョンツリー分類を使用する利点

それは構築するのに莫大な金額を必要としません。
これは、新規または不明なレコードを分類する迅速なプロセスです。
特にツリーのサイズが小さい場合は、非常に簡単に解釈できます。
デシジョンツリー分類器を使用した予測の精度は、他の予測または分類の方法に匹敵します。
また、重要でない機能を除外する機能もあります。無関係な機能を削除するこのプロセスは自動的に実行されます。

読む：完璧な決定木を作成する方法は？

デシジョンツリー分類子を使用するデメリット

この場合、データセットの過剰適合は非常に簡単です。
決定の境界には制限があります。属性を含む軸にのみ平行にすることができます。
デシジョンツリーに基づくモデルには、多くの場合、膨大な数のレベルを持つバイアスオンスプリットがあります。
データセットに加えられた小さな変更は、決定を管理するロジックに大きな影響を与える可能性があります。
ラガーの木は、非常に直感に反する場合があるため、理解するのが困難です。

また読む：機械学習の決定木

世界のトップ大学からデータサイエンスコースを学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

結論

線形ソリューションでは処理できない問題に直面しているときに、決定木が役立ちます。観察から、ツリーベースのモデルは入力の非線形性を簡単にマッピングし、目前の問題を効果的に排除できることが注目されています。ランダムフォレストの生成や勾配ブースティングなどの高度な方法はすべて、決定木分類器自体に基づいています。

デシジョンツリーは、生物医学工学、天文学、システム制御、医学、物理学など、実生活の多くの分野で使用できる強力なツールです。これにより、デシジョンツリーの分類が機械学習の重要かつ不可欠なツールになります。

デシジョンツリーは過剰適合する傾向がありますか？

デシジョンツリーは、複雑なデータをより単純な形式に断片化します。デシジョンツリー分類は、データをさらに分割できなくなるまでデータを分割しようとします。次に、考えられるすべての内容の明確なチャートが作成され、さらに分析するのに役立ちます。多数のスプライスを含む広大なツリーは直線的なパスを提供しますが、データをテストするときに問題が発生する可能性もあります。この過度のスプライシングは過剰適合につながり、多くの分割によって木が途方もなく成長します。このような場合、ディシジョンツリーの予測能力が損なわれるため、不健全になります。剪定は、過剰適合に対処するために使用される手法であり、過剰なサブセットが削除されます。

デシジョンツリーには正規化が必要ですか？

デシジョンツリーは、データの分類と回帰に使用される最も一般的な機械学習アルゴリズムです。この監視されたメカニズムは、サブセットごとのデータを、それ以上分割できないリーフノードに到達するまでさまざまなグループにスプライスします。このデータは、提供された属性に基づいてカテゴリに分割されるため、均等に分割されます。これは、正規化を行ったデータと行わなかったデータの両方が同じ数の分割を持つことを示しています。したがって、正規化は意思決定ベースのツリーモデルの前提条件ではありません。

デシジョンツリーをスプライスする方法は？

デシジョンツリーは、データを分類してソリューションを予測するための信頼できるメカニズムです。デシジョンツリーでのスプライシングには精度が必要です。わずかなミスが1つあると、ディシジョンツリーの整合性が損なわれる可能性があります。デシジョンツリーでのスプライシングは、再帰的パーティショニングを使用して行われます。データの分割は、割り当てられた属性を使用してデータのサブセットを作成することから始まります。各ノードでスプライスされたデータがソリューションの予測で廃止されたと見なされるまで、データは再帰的に繰り返し分割されます。サブセットは、ターゲット変数の値にも類似している可能性があります。スプライシングは、精度を高めるために系統的かつ反復的である必要があります。