機器學習中決策樹回歸的優缺點

已發表: 2020-12-24

最流行的機器學習算法之一,決策樹回歸,被競爭對手和數據科學專業人士使用。 這些是基於一組二進制規則計算目標值的預測模型。

它用於以樹結構的形式構建回歸和分類模型。 數據集在決策樹中被分解為更小的子集,而相關的決策樹是同時增量構建的。

決策樹用於根據對數據集執行一系列問題得出估計值。 通過詢問這些真/假問題,模型能夠縮小可能的值並做出預測。 問題的順序和內容由模型本身決定。

目錄

什麼是決策樹術語?

決策樹有分支、節點、葉子等。根節點是代表整個樣本或總體的初始節點,它可以進一步劃分為其他節點或同質集。 決策節點由兩個或多個節點組成,這些節點代表測試屬性的單獨值。

葉/終端節點不會分裂成更多的節點,它代表一個決定。 分支或子樹是整個樹的子部分。 分裂是將一個節點劃分為兩個或多個子節點的過程。 分裂的反面稱為剪枝,即去除決策節點的子節點。 父節點是劃分為子節點的節點,子節點是子節點。

相關:決策樹算法指南

它是如何工作的?

決策樹算法使用一個數據點並通過詢問真/假問題來遍歷整個樹。 從根節點開始,提出問題,並為每個答案創建單獨的分支,並一直持續到到達葉節點。 遞歸分區用於構造樹。

決策樹是一種有監督的機器學習模型,因此它在模型構建的訓練階段學習將數據映射到輸出。 這是通過將模型與需要與問題相關的歷史數據以及模型應該學會準確預測的真實值擬合來完成的。 這有助於模型學習數據和目標變量之間的關係。

在這個階段之後,決策樹能夠通過計算問題及其順序來構建類似的樹,這將有助於它做出最準確的估計。 因此,預測取決於輸入模型的訓練數據。

拆分是如何決定的?

分類樹和回歸樹的分裂決策不同,樹預測的準確性高度依賴於它。 均方誤差(MSE)通常用於在決策樹回歸中決定是否將一個節點拆分為兩個或多個子節點 在二叉樹的情況下,算法選擇一個值並將數據分成兩個子集,計算每個子集的 MSE,並選擇最小的 MSE 值作為結果。

實施決策樹回歸

以下步驟提供了實現決策樹回歸算法的基本結構

導入庫

開發任何機器學習模型的第一步是導入開發所需的所有庫。

加載數據

導入庫後,下一步是加載數據集。 可以從用戶的本地文件夾下載或使用數據。

拆分數據集

加載數據後,需要將其拆分為訓練集和測試集,並創建 x 和 y 變量。 還需要重新調整這些值以使數據成為所需的格式。

訓練模型

這裡使用上一步創建的訓練集訓練數據樹回歸模型。

預測結果

這裡使用在訓練集上訓練的模型來預測測試集的結果。

模型評估

通過在最後一步中比較真實值和預測值來檢查模型的性能。 通過比較這些值可以推斷模型的準確性。 通過創建值圖來可視化結果也有助於衡量模型的準確性。

閱讀:如何創建完美的決策樹?

優點

  • 決策樹模型可用於分類和回歸問題,並且易於解釋、理解和可視化。
  • 決策樹的輸出也很容易理解。
  • 與其他算法相比,決策樹預處理過程中的數據準備工作量較小,並且不需要對數據進行規範化。
  • 也可以在不縮放數據的情況下完成實施。
  • 決策樹是識別變量和最重要變量之間關係的最快方法之一。
  • 還可以創建新特徵以更好地預測目標變量。
  • 決策樹在很大程度上不受異常值或缺失值的影響,它可以處理數值變量和分類變量。
  • 由於它是一種非參數方法,它沒有關於空間分佈和分類器結構的假設。

缺點

  • 過擬合是決策樹模型的實際困難之一。 當學習算法繼續開發減少訓練集錯誤但以增加測試集錯誤為代價的假設時,就會發生這種情況。 但是這個問題可以通過對模型參數進行修剪和設置約束來解決。
  • 決策樹不能很好地與連續數值變量一起使用。
  • 數據的微小變化往往會導致樹結構的巨大差異,從而導致不穩定。
  • 與其他算法相比,所涉及的計算也可能變得複雜,並且需要更長的時間來訓練模型。
  • 它也相對昂貴,因為花費的時間量和復雜程度更高。

結論

本文通過描述樹的構造方式以及有關它的各種術語的簡要定義來解釋決策樹回歸算法 還包括對決策樹如何工作以及如何做出拆分任何節點的決策的簡要描述。

還通過一系列步驟解釋瞭如何實現基本的決策樹回歸。 最後,給出了決策樹算法的優缺點。

如果您有興趣了解有關決策樹、機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為在職專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業,IIIT-B 校友身份,5 個以上實用的實踐頂點項目和頂級公司的工作協助。

什麼是機器學習中的回歸?

回歸用於預測連續變量。 這是我們必須預測一個數字的時候。 例如,如果您想根據房屋大小和城市面積等特徵來預測城市中的房屋價格,則將使用回歸。 使用線性回歸很容易解決回歸問題。 簡而言之,回歸是根據輸入值估計未知輸出值的行為。

什麼是決策樹?

決策樹是一個圖表,顯示了所有可能的決策和可能的結果。 決策樹通常用於檢查決策如何影響未來的結果。 例如,決策樹可以幫助公司分析是否應該購買額外的倉庫或建立新的配送中心。 通常,決策樹用於運籌學和管理科學。 決策樹是決策制定和項目規劃中常見且流行的概念。 當一些可能的路線是相互排斥的,並且當每個行動路線的結果取決於世界的狀態時,它們可以用於在行動路線之間進行選擇。

決策樹的優缺點是什麼?

決策樹模型可用於任何類別的問題,無論是分類還是數值預測。 它可以擴展到任何類別的問題。 它可以用於有監督和無監督分類。 它可以處理數字和分類特徵的混合。 它給出了穩定的結果。 但是,很難理解預測背後的原因。 應該理解,該模型不是在學習樹的每個節點中的最佳分割,而是在學習每個節點內類的概率分佈。 這一要求使模型計算密集,並阻止它處理大量數據。