機器學習中的決策樹解釋[帶示例]

已發表: 2020-12-21

介紹

決策樹學習是一種主流的數據挖掘技術,是監督機器學習的一種形式。 決策樹就像一個圖表,人們使用它來表示統計概率或找到發生的過程、行動或結果。 決策樹示例可以更清楚地理解這個概念。

決策樹圖中的分支顯示了可能的結果、可能的決策或反應。 決策樹末端的分支顯示預測或結果。 決策樹通常用於為手動解決的複雜問題找到解決方案。 讓我們藉助一些決策樹示例詳細了解這一點。

決策樹是一種流行且功能強大的工具,用於對數據或事件進行預測和分類。 它類似於流程圖,但具有樹結構。 樹的內部節點代表一個屬性的測試或問題; 每個分支都是所問問題的可能結果,終端節點也稱為葉節點,表示一個類標籤。

在決策樹中,我們有幾個預測變量。 根據這些預測變量,嘗試預測所謂的響應變量。

相關閱讀:決策樹分類:您需要知道的一切

ML 中的決策樹

通過以序列的形式表示幾個步驟,決策樹成為一種簡單而有效的方式來理解和可視化可能的決策選項和範圍內的潛在結果。 決策樹還有助於識別可能的選項,並根據可以產生的每個行動方案權衡回報和風險。

決策樹部署在許多小型和大型組織中,作為一種決策支持系統。 由於決策樹示例是結構化模型,因此讀者可以理解圖表並分析特定選項如何以及為什麼會導致相應的決策。 決策樹示例還允許讀者預測並獲得單個問題的多種可能解決方案,了解格式以及不同事件和數據與決策之間的關係

樹中的每個結果都有一個獎勵和風險編號或分配的權重。 如果您曾經使用過決策樹,那麼您將獲得每一個最終結果,可能會有缺點和好處。 為了正確地結束您的樹,您可以根據事件和數據量的需要將其跨度盡可能短或長。 讓我們舉一個簡單的決策樹示例來更好地理解它。

考慮給定的數據,其中包含以下人員的詳細信息:他們是否飲酒、吸煙、體重以及這些人的死亡年齡。

姓名飲酒者吸煙者重量年齡(死亡)
山姆是的是的120 44
瑪麗70 96
喬納斯是的72 88
泰勒是的是的55 52
是的94 56
哈利62 93

讓我們嘗試預測人們會在更年輕還是更年長時死亡。 飲酒者、吸煙者和體重等特徵將作為預測值。 使用這些,我們將年齡視為響應變量。

讓我們將70歲之前去世的人稱為“年輕”,將70歲之後死亡的人稱為“老”。 現在讓我們根據預測變量預測響應變量。 下面給出的是學習數據後做出的決策樹。

上面的決策樹解釋說,如果一個人是吸煙者,他們會英年早逝。 如果一個人不是吸煙者,那麼考慮的下一個因素是這個人是否飲酒。 如果一個人不吸煙也不喝酒,這個人就會老死。

如果一個人不是吸煙者並且是飲酒者,則考慮該人的體重。 如果一個人不吸煙,飲酒,並且體重低於 90 公斤,那麼這個人就會老死。 最後,如果一個人不吸煙,飲酒,體重超過 90 公斤,那麼他們就會英年早逝。

從給定的數據中,讓我們以 Jonas 的例子來檢查決策樹是否分類正確以及它是否正確預測了響應變量。 喬納斯不吸煙,酗酒,體重不到 90 公斤。 根據決策樹,他會老死(他去世的年齡>70)。 此外,根據數據,他在 88 歲時去世,這意味著決策樹示例已正確分類並且運行良好。

但是你有沒有想過決策樹工作背後的基本思想? 在決策樹中,實例集以每個子集的變化變小的方式分成子集。 也就是說,我們想要減少熵,因此減少了變化,並且試圖使事件或實例變得純粹。

讓我們考慮一個類似的決策樹示例 首先,我們考慮這個人是否吸煙。

在這裡,我們不確定非吸煙者。 因此,我們將其分為飲酒者和非飲酒者。

從下面給出的圖表中我們可以看到,我們從具有大變化的高熵到將其減少到我們更確定的更小的類。 通過這種方式,您可以增量構建任何決策樹示例

讓我們使用 ID3 算法構建決策樹。 在決策樹中更重要的是對熵的深刻理解。 熵只不過是不確定性的程度。 它由以下給出:

(有時也用“E”表示)

如果我們將它應用於上面的示例,它將如下所示:

考慮我們沒有將人分成任何類別的情況。 當兩種類型的人數量相同時,這是最壞的情況(高熵)。 這裡的比例是 3:3。

同樣,對於不喝酒的人,比例為 1:1,熵為 1。因此,由於不確定性,需要進一步拆分。 對於不喝酒的人來說,這個比例是2:0。 因此,熵為 0。

現在,我們已經計算了不同情況的熵,因此我們可以計算相同情況的加權平均值。

對於第一個分支, E= 6 6 1=1

對於吸煙者類別, E= 2 6 0+ 4 6 0.811=0.54

對於吸煙者和飲酒者類別, E= 2 6 0+ 2 6 1+ 2 6 0=0.33

下圖將幫助您快速理解上述計算。

最後,信息增益:

班級信息增益(E2-E1)
人們1 0.46
吸煙者0.54 0.21
吸煙者+飲酒者0.33

另請閱讀:決策樹面試問答

結論

我們已經成功地從理論到實際決策樹示例深入研究了決策樹 我們還使用 ID3 算法構建了決策樹。 如果您覺得這很有趣,您可能會喜歡詳細探索數據科學。

如果您有興趣了解有關決策樹、機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為在職專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業,IIIT-B 校友身份,5 個以上實用的實踐頂點項目和頂級公司的工作協助。

什麼是決策樹?

決策樹用於直觀地組織和組織決策信息。 繪製樹木,使根在頂部,葉子在底部。 決策樹從下往上讀取,從左到右移動。 樹的每一層都是進一步測試的基礎,每一層的決定都會縮小範圍,直到問題得到回答。 決策樹將一個問題或決策分解為多個子決策,並遵循通往根的邏輯路徑,這是主要目標。 決策樹用於分析業務環境、確定優先級並提供洞察力,以決定採取什麼方向。

機器學習中的決策樹學習存在哪些問題?

決策樹可用作測試新策略或向他人解釋策略的基礎。 決策樹解釋了在給定的一組假設下會發生什麼。 它們還可用於評估過去使用的策略的性能。 眾所周知,決策樹因其所有分支而太容易出錯。 決策樹並不總是準確的,因為有時它們沒有考慮所有可能的變量,並且分析決策樹的人可能不會在特定情況的所有方面都有經驗。

什麼樣的數據最適合決策樹?

決策樹可幫助您使用類似結構的流程圖來查找數據中的模式。 最好的數據類型是定性的、分類的和數字的。 儘管決策樹適用於所有類型的數據,但它們最適用於數字數據。 它們必須能夠具有數字值,或者應該有辦法將它們轉換為數字。 決策樹在很大程度上取決於數據的類型和數量。 如果數據點的數量超過 100,決策樹將是一個很好的模型。