機械学習におけるディシジョンツリー回帰の長所と短所

公開: 2020-12-24

最も人気のある機械学習アルゴリズムの1つであるディシジョンツリー回帰は、競合他社とデータサイエンスの専門家の両方で使用されています。 これらは、一連のバイナリルールに基づいてターゲット値を計算する予測モデルです。

これは、ツリー構造の形式で回帰モデルと分類モデルの両方を構築するために使用されます。データセットはデシジョンツリーで小さなサブセットに分割され、関連するデシジョンツリーは同時に段階的に構築されます。

決定木は、データセットに対して一連の質問を実行することに基づいて見積もりに到達するために使用されます。これらの真/偽の質問をすることにより、モデルは可能な値を絞り込み、予測を行うことができます。質問の順序と内容は、モデル自体によって決定されます。

デシジョンツリーの用語とは何ですか？

デシジョンツリーには、ブランチ、ノード、リーフなどがあります。ルートノードは、サンプル全体または母集団を表す初期ノードであり、他のノードまたは同種のセットにさらに分割できます。決定ノードは、テストされた属性の個別の値を表す2つ以上のノードで構成されます。

リーフ/ターミナルノードはそれ以上のノードに分割されず、決定を表します。ブランチまたはサブツリーは、ツリー全体のサブセクションです。分割は、ノードを2つ以上のサブノードに分割するプロセスです。分割の反対は、プルーニングと呼ばれます。つまり、決定ノードのサブノードを削除します。親ノードはサブノードに分割されるノードであり、サブノードは子ノードです。

関連：ディシジョンツリーアルゴリズムのガイド

それはどのように機能しますか？

デシジョンツリーアルゴリズムはデータポイントを使用し、真/偽の質問をすることでツリー全体を実行します。ルートノードから始めて、質問が行われ、回答ごとに個別のブランチが作成されます。これは、リーフノードに到達するまで続きます。再帰的パーティショニングは、ツリーを構築するために使用されます。

デシジョンツリーは教師あり機械学習モデルであるため、モデル構築のトレーニングフェーズでデータを出力にマッピングすることを学習します。これは、モデルが正確に予測するために学習する必要がある真の値とともに、問題に関連する必要がある履歴データをモデルに適合させることによって行われます。これは、モデルがデータとターゲット変数の間の関係を学習するのに役立ちます。

このフェーズの後、意思決定ツリーは、質問とその順序を計算することによって同様のツリーを構築できます。これは、最も正確な見積もりを行うのに役立ちます。したがって、予測はモデルに入力されるトレーニングデータに依存します。

分割はどのように決定されますか？

分割の決定は、分類ツリーと回帰ツリーで異なり、ツリーの予測の精度はそれに大きく依存します。平均二乗誤差（MSE）は通常、決定木回帰でノードを2つ以上のサブノードに分割するかどうかを決定するために使用されます。 二分木の場合、アルゴリズムは値を選択し、データを2つのサブセットに分割し、サブセットごとにMSEを計算し、結果として最小のMSE値を選択します。

デシジョンツリー回帰の実装

デシジョンツリー回帰アルゴリズムを実装するための基本構造は、次の手順で提供されます。

ライブラリのインポート

機械学習モデルを開発するための最初のステップは、開発に必要なすべてのライブラリをインポートすることです。

データの読み込み

ライブラリをインポートした後、次のステップはデータセットをロードすることです。データは、ユーザーのローカルフォルダーからダウンロードまたは使用できます。

データセットの分割

データがロードされたら、トレーニングセットとテストセットに分割し、x変数とy変数を作成する必要があります。データを必要な形式にするには、値の形状も変更する必要があります。

モデルのトレーニング

ここで、データツリー回帰モデルは、前の手順で作成したトレーニングセットを使用してトレーニングされます。

結果の予測

ここで、テストセットの結果は、トレーニングセットでトレーニングされたモデルを使用して予測されます。

モデル評価

モデルのパフォーマンスは、最終ステップで実際の値と予測値を比較することによってチェックされます。モデルの精度は、これらの値を比較することで推測できます。値のグラフを作成して結果を視覚化することも、モデルの精度を測定するのに役立ちます。

読む：完璧な決定木を作成する方法は？

利点

デシジョンツリーモデルは、分類と回帰の両方の問題に使用でき、解釈、理解、および視覚化が容易です。
デシジョンツリーの出力も簡単に理解できます。
他のアルゴリズムと比較して、決定木の前処理中のデータ準備は、より少ない労力で済み、データの正規化も必要ありません。
実装は、データをスケーリングせずに実行することもできます。
デシジョンツリーは、変数と最も重要な変数の間の関係を識別する最も簡単な方法の1つです。
ターゲット変数の予測を改善するために、新しい機能を作成することもできます。
デシジョンツリーは、外れ値や欠落値の影響をほとんど受けず、数値変数とカテゴリ変数の両方を処理できます。
ノンパラメトリック手法であるため、空間分布や分類器の構造についての仮定はありません。

短所

過剰適合は、デシジョンツリーモデルの実際的な問題の1つです。これは、学習アルゴリズムがトレーニングセットのエラーを減らすが、テストセットのエラーを増やすという犠牲を払って仮説を立て続けるときに発生します。ただし、この問題は、モデルパラメーターのプルーニングと制約の設定によって解決できます。
決定木は、連続数値変数ではうまく使用できません。
データの小さな変更は、ツリー構造に大きな違いをもたらす傾向があり、それが不安定性を引き起こします。
関連する計算も他のアルゴリズムと比較して複雑になる可能性があり、モデルのトレーニングに時間がかかります。
また、時間がかかり、複雑さのレベルが高くなるため、比較的費用がかかります。

結論

決定木回帰アルゴリズムは、ツリーがどのように構築されるかを説明するとともに、ツリーに関するさまざまな用語の簡単な定義とともに、この記事を通じて説明されました。デシジョンツリーがどのように機能し、ノードの分割に関する決定がどのように行われるかについての簡単な説明も含まれています。

基本的なデシジョンツリー回帰を実装する方法についても、一連の手順で説明しました。最後に、決定木アルゴリズムの長所と短所が提供されました。

意思決定ツリー、機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題を提供します。、IIIT-B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との雇用支援。

機械学習の回帰とは何ですか？

回帰は、連続変数を予測するために使用されます。それは私たちが数を予測しなければならないときです。たとえば、家のサイズや都市の面積などの特徴に基づいて、都市の家の価格を予測する場合は、回帰が使用されます。回帰問題は、線形回帰を使用して非常に簡単に解決できます。一言で言えば、回帰は、入力値に基づいて未知の出力値を推定する行為です。

デシジョンツリーとは何ですか？

デシジョンツリーは、考えられるすべての決定と考えられる結果を示す図です。決定木は、決定が将来の結果にどのように影響するかを調べるためによく使用されます。たとえば、意思決定ツリーは、企業が追加の倉庫を購入するか、新しい配送センターを建設するかを分析するのに役立ちます。一般に、意思決定ツリーは、オペレーションズリサーチおよび経営科学で使用されます。デシジョンツリーは、意思決定とプログラム計画において一般的で人気のある概念です。これらは、可能なコースの一部が相互に排他的である場合、および各アクションコースの結果が世界の状態に依存する場合に、アクションコースを選択する際に使用できます。

デシジョンツリーの長所と短所は何ですか？

デシジョンツリーモデルは、分類または数値予測のいずれかで、あらゆるクラスの問題に使用できます。これは、あらゆるクラスの問題に拡張できます。教師あり分類と教師なし分類の両方に使用できます。数値機能とカテゴリ機能の混合を処理できます。安定した結果が得られます。しかし、予測の背後にある理由を理解することは困難です。モデルは、ツリーの各ノードで最良の分割を学習しているのではなく、各ノード内のクラスの確率分布を学習していることを理解する必要があります。この要件により、モデルは計算量が多くなり、大量のデータを処理できなくなります。