決策樹面試問題和答案 [適用於初學者和有經驗者]

已發表: 2020-09-22

在機器學習的世界中，決策樹是其中之一，如果不是最受人尊敬的算法。決策樹也很強大。決策樹用於預測提供給算法的實例的連續值（回歸）或預測類別（執行分類或分類）。

決策樹的結構類似於流程圖。任何決策樹的節點都代表對屬性進行的測試。決策樹的每個分支都代表在每個節點上進行的檢查結果。每個葉子的節點（也稱為終端節點）保存類的標籤。

那是關於樹的結構；然而，決策樹的流行並不是因為它們的創建方式。這棵樹的透明性使其在以強大而有用的算法為主導的世界中獨樹一幟。實際上，您可以為一個小型決策樹手動完成所有操作，並且您可以預測決策樹將如何形成。對於較大的樹，這個練習變得相當乏味。

但是，這並不意味著您將無法理解樹在每個節點上所做的事情。掌握幕後或幕後發生的事情的能力確實將決策樹與任何其他機器學習算法區分開來。

正如我們已經看到決策樹的重要性一樣，決策樹對於任何機器學習專業人士或數據科學家來說都是至關重要的。為了幫助您理解這個概念，同時幫助您在面試中獲得額外的活力，我們製作了一份決策樹面試問題和決策樹面試問題和答案的綜合列表。這些問題應該可以幫助您在任何面試中脫穎而出。在閱讀解決方案以充分利用這些問題之前，請先嘗試解決每個問題。

決策樹面試問答

Q1。 您將看到下面列出的兩個語句。 您必須仔細閱讀它們，然後從兩個語句的選項中選擇一個選項。 上下文問題是，選擇關於裝袋樹的正確陳述。

對於裝袋樹，各個樹根本不相互依賴。
為了提高模型的整體性能，聚合取自弱學習器。這種方法稱為裝袋樹。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
沒有上面提到的選項。

答。這個問題的正確答案是 C，因為對於 bagging 樹，這兩個陳述都是正確的。在 bagging 樹或 bootstrap 聚合中，應用此算法的主要目標是減少決策樹中存在的方差量。創建 bagging 樹的機制是通過替換，從存在的樣本中獲取一些子集來訓練數據。

現在，這些較小的數據子集中的每一個都用於訓練單獨的決策樹。由於輸入每棵樹的信息都是獨一無二的，因此任何一棵樹對另一棵樹有任何影響的可能性變得非常低。收集所有這些樹給出的最終結果，然後進行處理以提供輸出。因此，第二個陳述也是正確的。

Q2。 您將看到下面列出的兩個語句。 您必須仔細閱讀它們，然後從兩個語句的選項中選擇一個選項。 上下文問題是，選擇關於提升樹的正確陳述。

提升樹中的弱學習器是相互獨立的。
弱學習者的表現全部被收集和聚合，以提高提升樹的整體表現。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
沒有上面提到的選項。

答。如果您要了解樹的提升是如何完成的，您將理解並能夠區分正確的陳述和錯誤的陳述。因此，當許多弱學習器串聯連接時，就會創建一個提升樹。此序列中出現的每棵樹都有一個唯一目標：減少其前任所犯的錯誤。

如果樹以這種方式連接，則所有樹不能相互獨立，從而使第一個語句為假。當談到第二個陳述時，這主要是因為在提升樹中，這是用於提高模型整體性能的方法。正確的選項是 B，即只有第 2 條語句為 TRUE，第 1 條語句為 FALSE。

Q3。 您將看到下面列出的四個語句。 您必須仔細閱讀所有內容，然後從四個陳述後面的選項中選擇一個選項。 上下文問題是，選擇關於隨機森林和梯度提升集成方法的正確陳述。

隨機森林和梯度提升集成方法都可以用於執行分類。
隨機森林可用於執行分類任務，而梯度提升方法只能執行回歸。
梯度提升可用於執行分類任務，而隨機森林方法只能執行回歸。
隨機森林和梯度提升集成方法都可用於執行回歸。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
只有第三個陳述是 TRUE
只有第四條語句是 TRUE
只有第 1 和第 4 條語句為 TRUE

答。這個問題的答案很簡單。這兩種集成方法實際上都非常有能力完成分類和回歸任務。所以，這個問題的答案是 F，因為只有第 1 和第 4 個陳述是正確的。

Q4 您將看到下面列出的四個語句。 您必須仔細閱讀所有內容，然後從四個陳述後面的選項中選擇一個選項。 上下文問題是，考慮一個隨機的樹木森林。 那麼隨機森林中的每棵或任何一棵樹的真實情況是什麼？

構成隨機森林的每棵樹都基於所有特徵的子集。
隨機森林中的每一個都建立在所有特徵之上。
隨機森林中的每棵樹都建立在所有觀測值的子集上。
隨機森林中的每棵樹都建立在完整的觀察集上。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
只有第三個陳述是 TRUE
只有第四條語句是 TRUE
第一個和第四個陳述都是正確的
第一個和第三個陳述都是正確的
第二和第三個陳述都是正確的
第二和第四個陳述都是正確的

答。隨機森林的生成是基於 bagging 的概念。為了建立一個隨機森林，從觀察和特徵中提取一個小子集。然後將取出子集後獲得的值輸入奇異決策樹。然後收集所有此類決策樹的所有值以做出最終決策。這意味著唯一正確的陳述是一和三。所以，正確的選擇是 G。

Q5 您將看到下面列出的四個語句。 您必須仔細閱讀所有內容，然後從四個陳述後面的選項中選擇一個選項。 上下文問題是，選擇關於梯度提升算法的“max_depth”超參數的正確陳述。

如果驗證集的準確性相似，則選擇此超參數的較低值會更好。
如果驗證集的準確性相似，則選擇該超參數的更高值會更好。
如果我們要增加這個超參數的值，那麼這個模型實際上過度擬合數據的機會就會增加。
如果我們要增加這個超參數的值，那麼這個模型實際上欠擬合數據的機會就會增加。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
只有第三個陳述是 TRUE
只有第四條語句是 TRUE
第一個和第四個陳述都是正確的
第一個和第三個陳述都是正確的
第二和第三個陳述都是正確的
第二和第四個陳述都是正確的

答。超參數 max_depth 控制深度，直到梯度提升將在其前面對呈現的數據進行建模。如果你繼續增加這個超參數的值，那麼模型必然會過擬合。所以，第三個說法是正確的。如果我們在驗證數據上的分數相同，我們通常更喜歡深度較低的模型。所以，第一和第三個陳述是正確的，因此這個決策樹面試問題的答案是 g。

Q6。 您將看到下面列出的四個語句。 您必須仔細閱讀所有內容，然後從四個陳述後面的選項中選擇一個選項。 上下文問題是以下哪種方法沒有學習率作為其可調超參數之一。

額外的樹木。
AdaBoost
隨機森林
梯度提升。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
只有第三個陳述是 TRUE
只有第四條語句是 TRUE
第一個和第四個陳述都是正確的
第一個和第三個陳述都是正確的
第二和第三個陳述都是正確的
第二和第四個陳述都是正確的

答。只有額外的樹和隨機森林沒有學習率作為它們的可調超參數之一。因此，答案將是 g，因為第 1 和第 3 個陳述是 TRUE。

問題 7。 選擇正確的選項。

只有在隨機森林算法中，真實值才能通過離散化來處理。
只有在梯度提升算法中，才能通過使它們離散化來處理實數值。
在隨機森林和梯度提升中，可以通過使它們離散來處理實際值。
沒有上面提到的選項。

答。這兩種算法都是有能力的。他們都可以輕鬆處理具有實際價值的特徵。所以，這個決策樹面試問題和答案的答案是 C。

Q8。 從下面的列表中選擇一個選項。 問題是，選擇不是集成學習算法的算法。

梯度提升
AdaBoost
額外的樹
隨機森林
決策樹

答。這個問題很簡單。這些算法中只有一個不是集成學習算法。要記住的一條經驗法則是，任何集成學習方法都將涉及使用多個決策樹。由於在選項 E 中，只有奇異決策樹，因此這不是一個集成學習算法。所以，這個問題的答案是 E（決策樹）。

問題 9。 您將看到下面列出的兩個語句。 您必須仔細閱讀它們，然後從兩個語句的選項中選擇一個選項。 上下文問題是，以下哪項在集成學習範式中是正確的。

集成中的樹數應盡可能高。
即使您實現了隨機森林算法，您仍然可以解釋正在發生的事情。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
沒有上面提到的選項。

答。由於任何集成學習方法都是基於將大量決策樹（其本身是一個非常弱的學習器）耦合在一起，因此擁有更多數量的樹來構建集成方法總是有益的。然而，隨機森林的算法就像一個黑匣子。您將不知道模型內部發生了什麼。因此，在應用隨機森林算法後，您必然會失去所有的可解釋性。所以，這個問題的正確答案是 A，因為只有正確的陳述才是第一個陳述。

問題 10。 僅以 TRUE 或 FALSE 回答。 bagging 算法最適合具有高方差和低偏差的模型？

答。真的。 Bagging 確實最適合用於高方差和低偏差模型。

問題 11。 . 您將看到下面列出的兩個語句。 您必須仔細閱讀它們，然後從兩個語句的選項中選擇一個選項。 上下文問題是，為梯度提升樹選擇正確的想法。

在提升的每個階段，該算法都會引入另一棵樹，以確保補償所有當前模型問題。
我們可以應用梯度下降算法來最小化損失函數。
只有第一個陳述是正確的。
只有第二個陳述是正確的。
陳述一和二都是正確的。
沒有上面提到的選項。

答。這個問題的答案是 C，這意味著這兩個選項都是 TRUE。對於第一個語句，這就是提升算法的工作原理。模型中引入的新樹只是為了增強現有算法的性能。是的，梯度下降算法是用於減少損失函數的函數。

問題 12。 在梯度提升算法中，以下關於學習率的說法正確的是？

您設置的學習率應該盡可能高。
您設置的學習率不應盡可能高，而應盡可能低。
學習率應該很低但不是很低。
您設置的學習率應該很高，但不能超高。

答。學習率應該很低，但不是很低，所以這個決策樹面試問題和答案的答案是選項 C。

查看：機器學習面試問題

接下來是什麼？

如果您有興趣了解有關決策樹、機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑，該文憑專為在職專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和任務、IIIT-B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

如何改進決策樹？

決策樹是一種創建簡單視覺輔助的工具，其中條件自治或決策點表示為節點，各種可能的結果表示為葉子。簡而言之，決策樹是決策過程的模型。您可以通過確保停止條件始終明確來改進決策樹。當停止標準不明確時，它會讓人懷疑是否需要進一步探索，也會讓人懷疑是否應該停止。決策樹也應該以易於理解且不會混淆讀者的方式構建。

為什麼決策樹的準確率這麼低？

決策樹的準確性低於我們的預期。這可能是由於以下原因造成的：錯誤數據 - 使用正確的數據進行機器學習算法非常重要。錯誤的數據會導致錯誤的結果。隨機性——有時，系統非常複雜，以至於無法預測未來會發生什麼。在這種情況下，決策樹的準確性也會下降。過擬合——決策樹可能無法捕捉數據的唯一性，因此可以認為是一種泛化。如果使用相同的數據來調整樹，它可能會過度擬合數據。

如何修剪決策樹？

使用分支定界算法修剪決策樹。分支定界算法通過遍歷樹的節點並在每次迭代中限定目標函數的值來找到決策樹的最優解。目標函數是決策樹對業務的價值。在每個節點，算法要么刪除樹的一個分支，要么將一個分支修剪到一個新節點。最好的部分是可以修剪分支，即使它導致非最佳解決方案。