決策樹分類：您需要知道的一切

已發表: 2020-05-29

介紹

許多類比可以從自然引入我們的現實生活。樹恰好是其中最有影響力的一種。樹已經對機器學習的一個相當大的領域產生了影響。它們涵蓋了基本的分類和回歸。在分析任何決策時，可以使用決策樹分類器來表示決策過程。

因此，基本上，決策樹恰好是監督機器學習的一部分，其中數據處理是通過連續拆分數據來進行的，同時始終牢記特定參數。

決策樹是由什麼組成的？

這個問題的答案很簡單。決策樹由三個基本要素組成，每個要素都可以類比為現實生活中的樹。下面列出了所有三個：

節點：這是對值進行測試的地方。在節點中，特定屬性的值被傳遞，並根據這些值進行檢查和測試以做出決定。
邊緣/分支：這部分對應於任何測試結果的結果。邊緣/分支還負責鏈接兩個不同的節點或葉子。
葉節點：這些是通常在終端上找到的節點。葉節點負責預測結果。

決策樹分類

決策樹可以大致分為兩類，即分類樹和回歸樹。

1.分類樹

分類樹是基於回答“是”或“否”問題並使用此信息做出決策的決策樹類型。因此，通過詢問一堆相關問題並使用答案得出可行解決方案來確定一個人是否適合或不適合的樹是一種分類樹。

這些類型的樹通常是通過採用稱為二元遞歸分區的過程來構建的。二元遞歸分區的方法是將數據拆分為單獨的模塊或分區，然後將這些分區進一步拼接到決策樹分類器的每個分支中。

2.回歸樹

現在，回歸類型的決策樹與決策樹的分類類型在一個方面有所不同。輸入兩棵樹的數據非常不同。分類樹處理離散的數據，而回歸決策樹處理連續數據類型。回歸樹的一個很好的例子是房價或患者通常會在醫院停留多長時間。

了解更多：機器學習中的線性回歸

決策樹是如何創建的？

決策樹是通過獲取模型必須訓練的數據集來創建的（決策樹是監督機器學習的一部分）。該訓練數據集將被不斷拼接成更小的數據子集。該過程通過創建關聯樹來補充，該關聯樹在分解數據的過程中逐漸並排創建。機器學習完成後，根據提供的訓練數據集創建決策樹結束，然後將決策樹返回給用戶。

使用決策樹的核心思想是將數據分成兩個主要區域，即人口密集（集群）的區域或空（或稀疏）區域的區域。

決策樹分類的工作原理是劃分的基本原則。它征服了在經過一系列測試後，任何已輸入樹的新示例將被組織並賦予類別標籤。下面詳細討論分治算法：

分而治之

很明顯，決策樹分類器是通過使用稱為遞歸分區的啟發式算法（也稱為分治算法）構建的。它將數據分解成更小的集合併繼續這樣做。直到它確定每個子集中的數據是同質的，或者如果用戶定義了另一個停止標準，這將停止該算法。

決策樹分類器是如何工作的？

分治算法用於創建決策樹分類器。通過使用該算法，我們總是從樹的根開始，我們還拆分數據集以減少最終決策的不確定性。
它恰好是一個迭代過程。所以，我們在每個節點重複這個過程。重複這個過程，直到我們沒有我們想要的純度節點。
通常，為了避免過度擬合，我們設置了要達到的純度限制。這意味著最終結果可能不是 100% 純的。

分治算法的基礎知識：

首先是為根節點選擇或選擇測試。然後開始創建分支的過程。設計分支時要牢記已定義的試驗的每個可能結果。
接下來是將數據實例拆分為更小的子集。每個分支都有自己的接頭，連接到節點。
然後必須通過僅使用到達相關分支的實例來為每個分支重複此過程。
如果所有實例都屬於同一個類，則應停止此遞歸過程。

使用決策樹分類的優點

它不需要大量的資金來建造。
這是對新的或未知的記錄進行分類的快速過程。
它可以很容易地解釋，特別是如果樹的大小很小。
使用決策樹分類器進行預測的準確性與其他預測或分類方法相當。
它還具有排除不重要的功能的能力。這個消除不相關特徵的過程是自動完成的。

閱讀：如何創建完美的決策樹？

使用決策樹分類器的缺點

在這種情況下，過擬合數據集非常容易。
決策的邊界是有限制的。它只能與包含屬性的軸平行。
基於決策樹的模型通常具有大量級別的偏向拆分。
對數據集所做的任何微小更改都會對控制決策的邏輯產生重大影響。
較大的樹很難理解，因為有時它們可能會感覺非常違反直覺。

另請閱讀：機器學習中的決策樹

學習世界頂尖大學的數據科學課程。 獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

結論

當我們面臨線性解決方案無法處理的問題時，決策樹會派上用場。從觀察中可以看出，基於樹的模型可以輕鬆映射輸入的非線性並有效地消除手頭的問題。隨機森林生成和梯度提升等複雜方法都是基於決策樹分類器本身。

決策樹是一種強大的工具，可用於現實生活的許多領域，如生物醫學工程、天文學、系統控制、醫學、物理學等。這有效地使決策樹分類成為機器學習的關鍵和不可或缺的工具。

決策樹是否傾向於過度擬合？

決策樹將復雜的數據分割成更簡單的形式。決策樹分類嘗試劃分數據，直到無法進一步劃分。然後創建所有可能內容的清晰圖表，這有助於進一步分析。雖然具有大量拼接的巨大樹為我們提供了一條筆直的路徑，但它在測試數據時也會產生問題。這種過度拼接會導致過度擬合，其中許多分割導致樹極大地增長。在這種情況下，決策樹的預測能力會受到影響，因此變得不健全。修剪是一種用於處理過度擬合的技術，其中過多的子集被刪除。

決策樹需要規範化嗎？

決策樹是用於數據分類和回歸的最常見的機器學習算法。這種監督機制將每個子集的數據拼接成不同的組，直到它到達葉節點，在那裡它不能被進一步劃分。由於此數據將根據提供的屬性進行分類，因此將平均分割。它傳達了經過規範化的數據和未經過規範化的數據都將具有相同數量的拆分。因此，歸一化不是基於決策的樹模型的先決條件。

如何拼接決策樹？

決策樹是對數據進行分類和預測解決方案的可靠機制。決策樹中的拼接需要精確；一個小錯誤可能會損害決策樹的完整性。決策樹中的拼接使用遞歸分區進行。拆分數據從通過分配給它的屬性生成數據子集開始。數據在重複中遞歸地拆分，直到每個節點處的拼接數據在預測解決方案中被認為是過時的。子集也可以類似於目標變量的值。為了獲得良好的準確性，拼接必須有條不紊和重複。