デシジョンツリーインタビューの質問と回答[初心者と経験者向け]

公開: 2020-09-22

機械学習の世界では、決定木は、最も立派なアルゴリズムではないにしても、そのうちの1つによるものです。決定木も強力です。決定木は、アルゴリズムに提供されたインスタンスの連続値の予測（回帰）またはクラスの予測（分類の実行または分類）の両方に使用されます。

デシジョンツリーは、その構造がフローチャートに似ています。デシジョンツリーのノードは、属性に対して実行されたテストを表します。決定ツリーのすべてのブランチは、各ノードで実行された検査の結果を表しています。すべてのリーフのノード（ターミナルノードとも呼ばれます）は、クラスのラベルを保持します。

それは木の構造についてでした。ただし、決定木の人気の急上昇は、決定木の作成方法によるものではありません。木の透明性は、強力で有用なアルゴリズムで支配されている世界でそれ自身の地位を与えます。小さなデシジョンツリーに対して実際にすべてを手作業で行うことができ、デシジョンツリーがどのように形成されるかを予測できます。サイズが大きい木では、この演習は非常に面倒になります。

ただし、それは、ツリーが各ノードで何をしているのかを理解できないという意味ではありません。舞台裏や内部で何が起こっているかを把握する機能は、他の機械学習アルゴリズムと意思決定ツリーを実際に区別します。

決定木がいかに重要であるかを見てきたように、決定木は機械学習の専門家やデータサイエンティストにとっても重要であることが本質的です。この概念を理解し、同時に面接の才能をさらに高めるために、デシジョンツリーの面接の質問とデシジョンツリーの面接の質問と回答の包括的なリストを作成しました。これらの質問は、面接のエースに役立つはずです。これらの質問を最大限に活用するための解決策を読む前に、まずこれらの質問のそれぞれを解決してみてください。

デシジョンツリーインタビューの質問と回答

Q1。 以下にリストされている2つのステートメントが表示されます。 両方を注意深く読んでから、2つのステートメントのオプションからいずれかのオプションを選択する必要があります。 文脈上の質問は、木を袋詰めすることについて正しいステートメントを選択することです。

個々のツリーは、バギングツリーを相互に依存しているわけではありません。
モデルの全体的なパフォーマンスを向上させるために、弱い学習者から集計が取得されます。この方法は、バギングツリーとして知られています。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
上記のオプションはありません。

回答この質問に対する正解はCです。これは、バギングツリーの場合、これらのステートメントの両方が当てはまるためです。バギングツリーまたはブートストラップ集約では、このアルゴリズムを適用する主な目的は、決定木に存在する分散の量を減らすことです。バギングツリーを作成するメカニズムは、置換により、データをトレーニングするために存在するサンプルからいくつかのサブセットが取得されることです。

現在、これらのデータの小さなサブセットのそれぞれは、個別の決定木をトレーニングするために使用されます。各ツリーに入力される情報は一意であることが判明するため、ツリーが他のツリーに影響を与える可能性は非常に低くなります。これらすべてのツリーが提供する最終結果が収集され、処理されて出力が提供されます。したがって、2番目のステートメントも真であることがわかります。

Q2。 以下にリストされている2つのステートメントが表示されます。 両方を注意深く読んでから、2つのステートメントのオプションからいずれかのオプションを選択する必要があります。 コンテキストの質問は、ツリーのブースティングについて正しいステートメントを選択することです。

ブースティングツリーの弱い学習者は互いに独立しています。
弱い学習者のパフォーマンスはすべて収集および集約されて、ブーストされたツリーの全体的なパフォーマンスが向上します。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
上記のオプションはありません。

回答木のブーストがどのように行われるかを理解すれば、正しいステートメントと間違っているステートメントを理解し、区別できるようになります。したがって、多くの弱い学習者が直列に接続されている場合、ブーストされたツリーが作成されます。このシーケンスに存在する各ツリーには、前のツリーで発生したエラーを減らすという1つの唯一の目的があります。

ツリーがこのように接続されている場合、すべてのツリーを互いに独立させることはできないため、最初のステートメントはfalseになります。 2番目のステートメントに来るとき、それは主に、ブーストされたツリーで、モデルの全体的なパフォーマンスを改善するために適用される方法であるために当てはまります。正しいオプションはBです。つまり、ステートメント番号2のみがTRUEであり、ステートメント番号1はFALSEです。

Q3。 以下にリストされている4つのステートメントが表示されます。 それらすべてを注意深く読み、4つのステートメントに続くオプションからオプションの1つを選択する必要があります。 文脈上の問題は、ラドムの森と勾配ブースティングアンサンブル法について正しいステートメントを選択することです。

ランダムフォレスト法と勾配ブースティングアンサンブル法の両方を使用して、分類を実行できます。
ランダムフォレストは分類タスクの実行に使用できますが、勾配ブースティング法は回帰のみを実行できます。
勾配ブースティングは分類タスクの実行に使用できますが、ランダムフォレスト法は回帰のみを実行できます。
ランダムフォレスト法と勾配ブースティングアンサンブル法の両方を使用して、回帰を実行できます。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
ステートメント番号3のみがTRUEです
ステートメント番号4のみがTRUEです
ステートメント番号1と4のみがTRUEです

回答この質問への答えは簡単です。これらのアンサンブル手法はどちらも、実際には分類タスクと回帰タスクの両方を実行する能力が非常に高いです。したがって、ステートメント番号1と4のみが真であるため、この質問に対する答えはFになります。

Q4以下の4つのステートメントが表示されます。 それらすべてを注意深く読み、4つのステートメントに続くオプションからオプションの1つを選択する必要があります。 文脈上の問題は、ランダムな木の森を考えてみることです。 では、ランダムフォレスト内の各ツリーまたはいずれかのツリーについてはどうなるでしょうか。

ランダムフォレストを構成する各ツリーは、すべての機能のサブセットに基づいています。
ランダムフォレスト内のそれぞれは、すべての機能に基づいて構築されています。
ランダムフォレスト内の各ツリーは、存在するすべての観測値のサブセットに基づいて構築されています。
ランダムフォレスト内の各ツリーは、完全な観測セットに基づいて構築されています。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
ステートメント番号3のみがTRUEです
ステートメント番号4のみがTRUEです
1番目と4番目のステートメントは両方ともTRUEです。
1番目と3番目のステートメントは両方ともTRUEです。
2番目と3番目のステートメントはどちらもTRUEです。
2番目と4番目のステートメントはどちらもTRUEです。

回答ランダムフォレストの生成は、バギングの概念に基づいています。ランダムフォレストを構築するために、観測値と特徴の両方から小さなサブセットが取得されます。サブセットを取り出した後に取得された値は、単一の決定木に送られます。次に、そのようなすべての決定木のすべての値が収集され、最終的な決定が行われます。つまり、正しいステートメントは1つと3つだけです。したがって、正しいオプションはGです。

Q5以下の4つのステートメントが表示されます。 それらすべてを注意深く読み、4つのステートメントに続くオプションからオプションの1つを選択する必要があります。 コンテキストの問題は、勾配ブースティングアルゴリズムの「max_depth」として知られるハイパーパラメータに関する正しいステートメントを選択することです。

検証セットの精度が類似している場合は、このハイパーパラメータの値を低くする方が適切です。
検証セットの精度が類似している場合は、このハイパーパラメータの値を高く選択する方が適切です。
このハイパーパラメータの値を増やす場合、このモデルが実際にデータを過剰適合させる可能性が高くなります。
このハイパーパラメータの値を増やすと、このモデルが実際にデータを過小評価する可能性が高くなります。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
ステートメント番号3のみがTRUEです
ステートメント番号4のみがTRUEです
1番目と4番目のステートメントは両方ともTRUEです。
1番目と3番目のステートメントは両方ともTRUEです。
2番目と3番目のステートメントはどちらもTRUEです。
2番目と4番目のステートメントはどちらもTRUEです。

回答ハイパーパラメータmax_depthは、勾配ブースティングがその前に提示されたデータをモデル化するまで、深さを制御します。このハイパーパラメータの値を増やし続けると、モデルは過剰適合になります。したがって、ステートメント番号3は正しいです。検証データのスコアが同じである場合は、通常、深度が浅いモデルを使用します。したがって、ステートメント番号1と3は正しいので、この決定木のインタビューの質問に対する答えはgです。

Q6。 以下にリストされている4つのステートメントが表示されます。 それらすべてを注意深く読み、4つのステートメントに続くオプションからオプションの1つを選択する必要があります。 コンテキストの問題は、次の方法のどれが、調整可能なハイパーパラメータの1つとして学習率を持たないかということです。

余分な木。
AdaBoost
ランダムフォレスト
勾配ブースティング。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
ステートメント番号3のみがTRUEです
ステートメント番号4のみがTRUEです
1番目と4番目のステートメントは両方ともTRUEです。
1番目と3番目のステートメントは両方ともTRUEです。
2番目と3番目のステートメントはどちらもTRUEです。
2番目と4番目のステートメントはどちらもTRUEです。

回答エクストラツリーとランダムフォレストのみが、調整可能なハイパーパラメーターの1つとして学習率を持っていません。したがって、ステートメント番号1と3がTRUEであるため、答えはgになります。

Q7。 正しいオプションを選択してください。

ランダムフォレストのアルゴリズムでのみ、実際の値を離散化することで処理できます。
勾配ブースティングのアルゴリズムでのみ、実際の値を離散化することで処理できます。
ランダムフォレストと勾配ブースティングの両方で、実際の値を離散化することで処理できます。
上記のオプションはありません。

回答どちらのアルゴリズムも有能なものです。どちらも、実際の値を持つ機能を簡単に処理できます。したがって、このデシジョンツリーインタビューの質問と回答に対する答えはCです。

Q8。 以下のリストから1つのオプションを選択してください。 問題は、アンサンブル学習アルゴリズムではないアルゴリズムを選択することです。

勾配ブースティング
AdaBoost
余分な木
ランダムフォレスト
デシジョンツリー

回答この質問は簡単です。これらのアルゴリズムの1つだけが、アンサンブル学習アルゴリズムではありません。覚えておくべき経験則の1つは、アンサンブル学習方法には複数の決定木を使用する必要があるということです。オプションEには、特異な決定木しかないため、それはアンサンブル学習アルゴリズムではありません。したがって、この質問に対する答えはE（決定木）になります。

Q9。 以下にリストされている2つのステートメントが表示されます。 両方を注意深く読んでから、2つのステートメントのオプションからいずれかのオプションを選択する必要があります。 文脈上の問題は、アンサンブル学習のパラダイムで正しいのは次のうちどれかということです。

アンサンブルのツリー数はできるだけ多くする必要があります。
ランダムフォレストのアルゴリズムを実装した後でも、何が起こっているのかを解釈することができます。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
上記のオプションはありません。

回答アンサンブル学習方法は、膨大な数の決定木（それ自体は非常に弱い学習者です）を結合することに基づいているため、アンサンブル方法を作成するには、より多くのツリーを使用することが常に有益です。ただし、ランダムフォレストのアルゴリズムはブラックボックスのようなものです。モデル内で何が起こっているのかわかりません。したがって、ランダムフォレストアルゴリズムを適用すると、すべての解釈可能性が失われることになります。したがって、この質問に対する正解はAになります。これは、真のステートメントのみがステートメント番号1であるためです。

Q10。 TRUEまたはFALSEでのみ回答してください。 バギングのアルゴリズムは、分散が大きくバイアスが小さいモデルに最適ですか？

回答本当です。バギングは確かに、高分散および低バイアスモデルに使用するのに最も適しています。

Q11。 。 以下にリストされている2つのステートメントが表示されます。 両方を注意深く読んでから、2つのステートメントのオプションからいずれかのオプションを選択する必要があります。 コンテキストの問題は、勾配ブースティングツリーの適切なアイデアを選択することです。

ブーストのすべての段階で、アルゴリズムは別のツリーを導入して、現在のすべてのモデルの問題が確実に補正されるようにします。
損失関数を最小化するために最急降下アルゴリズムを適用できます。
ステートメント番号1のみがTRUEです。
ステートメント番号2のみがTRUEです。
ステートメント1と2はどちらもTRUEです。
上記のオプションはありません。

回答この質問に対する答えはCであり、2つのオプションの両方がTRUEであることを意味します。最初のステートメントでは、それがブースティングアルゴリズムの仕組みです。モデルに導入された新しいツリーは、既存のアルゴリズムのパフォーマンスを強化するためのものです。はい、勾配降下アルゴリズムは、損失関数を減らすために適用される関数です。

Q12。 勾配ブースティングアルゴリズムで、学習率について正しい説明は次のうちどれですか？

設定する学習率はできるだけ高くする必要があります。
設定する学習率は、できるだけ高くするのではなく、できるだけ低くする必要があります。
学習率は低くする必要がありますが、それほど低くはありません。
あなたが設定している学習率は高くなければなりませんが、超高くてはいけません。

回答学習率は低くする必要がありますが、それほど低くはないため、このデシジョンツリーインタビューの質問と回答に対する回答はオプションCになります。

チェックアウト：機械学習のインタビューの質問

次は何？

デシジョンツリー、機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディを提供しています。課題、IIIT-B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

決定木をどのように改善できますか？

決定木は、条件付きの自律点または決定点がノードとして表され、さまざまな可能な結果が葉として表される単純な視覚的支援を作成するためのツールです。簡単に言えば、意思決定ツリーは意思決定プロセスのモデルです。停止基準が常に明示的であることを確認することにより、決定木を改善できます。停止基準が明確でない場合、さらなる調査が必要かどうか疑問に思うだけでなく、停止すべきかどうかについても疑問が残ります。デシジョンツリーは、読者を混乱させずに理解しやすいように構築する必要もあります。

決定木の精度が非常に低いのはなぜですか？

デシジョンツリーの精度は、予想よりも低くなります。これは、次の理由で発生する可能性があります。不良データ-機械学習アルゴリズムに正しいデータを使用することが非常に重要です。悪いデータは間違った結果につながる可能性があります。ランダム性-システムが非常に複雑で、将来何が起こるかを予測できない場合があります。この場合、決定木の精度も低下します。過剰適合-決定木はデータの一意性をキャプチャできない可能性があるため、一般化と見なすことができます。同じデータを使用してツリーを調整すると、データがオーバーフィットする可能性があります。

デシジョンツリーはどのように剪定されますか？

決定木は、分枝限定アルゴリズムを使用して枝刈りされます。分枝限定アルゴリズムは、ツリーのノードを反復処理し、各反復で目的関数の値を制限することにより、決定木の最適解を見つけます。目的関数は、ビジネスにとっての意思決定ツリーの価値です。各ノードで、アルゴリズムはツリーのブランチを削除するか、新しいノードへのブランチを削除します。最良の部分は、最適でないソリューションにつながる場合でも、ブランチを枝刈りできることです。