R 中的決策樹:組件、類型、構建步驟、挑戰
已發表: 2020-04-02“R 中的決策樹”是可以做出的選擇及其結果的圖形表示。 它以圖形樹的形式表示。 樹的不同部分代表決策者的各種活動。 這是一種直觀地列出特定行動的不同可能性和結果的有效方式。
目錄
為什麼我應該在 R 中使用決策樹?
您可能會質疑決策樹在 R 中的重要性。 決策樹不僅列出了問題和不同的解決方案,還列出了所有可能的選項。 這些選項可能是決策者在提出更廣泛的解決方案時面臨的挑戰。
它還有助於分析問題的不同可能後果並提前計劃。 它提供了一個全面的框架,因此您也可以輕鬆量化不同結果的價值。 當條件概率出現時,這一點尤其重要。
R中決策樹的不同部分是什麼?
要理解和解釋決策樹的含義,您必須了解決策樹的不同部分是什麼。 當您查看決策樹時,您可能會經常遇到這些術語。
- 節點:樹的節點代表已經發生的事件或決策者必須做出的選擇。
- 邊緣:這些是設置的不同條件或規則。
- 根節點:在樣本可視化的情況下,這顯示了整個總體或樣本。
- 拆分:這是將節點劃分為子節點的時候。
- 決策節點:這些是進一步分裂的特定子節點。
- 葉:這些是結束詞或不分裂的節點。
- 修剪:這是刪除決策節點的子節點。
- 分支:這些是整個決策樹的子部分。
閱讀:數據科學與決策科學
如何在 R 中使用決策樹?
由於決策樹只能在 R 中製作,因此您需要先安裝 R。 這可以在網上很快完成。 下載 R 後,您必須創建和可視化包以使用決策樹。 一個允許這樣做的包是“party”。 當您輸入命令install.package(“party”)時,您可以使用決策樹表示。 決策樹也被認為是複雜的監督算法。
決策樹如何在 R 中工作?
當您使用 R 時,決策樹更常用於機器學習和數據挖掘。在這種情況下使用的基本元素是觀察數據或訓練數據。 在此之後,創建一個綜合模型。 一組驗證數據也用於升級和改進決策樹。
了解更多: R 編程中的數據可視化
決策樹有哪些不同類型?
最重要的決策樹類型是分類樹和回歸樹。 這些通常在輸入和輸出是分類的情況下使用。

分類樹:這些是樹模型,其中變量可以採用一組特定的值。 在這些情況下,葉子代表類標籤,而分支代表不同特徵的連接。 它通常是“是”或“否”類型的樹。
回歸樹:有些決策樹有一個可以取連續值的變量。
當您結合上述兩種類型的決策樹時,您將獲得 CART 或分類和回歸樹。 這是一個總稱,您可能會遇到好幾次。 這些是指上述程序。 這兩者的唯一區別是因變量的類型——分類的或數字的。
在 R 上構建決策樹涉及哪些步驟?
第 1 步:導入 - 導入您要分析的數據集。
第 2 步:清理- 必須清理數據集。
第 3 步:創建訓練集或測試集——這意味著必須訓練算法來預測標籤,然後用於推理。
第 4 步:構建模型- 語法 rpart() 用於此目的。 這意味著節點會繼續分裂,直到達到無法進一步分裂的點。
第 5 步:預測您的數據集- 在此步驟中使用語法 predict()。
第 6 步:測量性能 -此步驟顯示矩陣的準確性。
第 7 步:調整超參數——為了控制擬合的各個方面,決策樹具有各種參數。 可以使用 rpart.control() 函數控制參數。
另請閱讀: R 初學者教程
在 R 中使用決策樹有哪些挑戰?
修剪可能是一個乏味的過程,需要仔細進行以獲得準確的表示。 即使是很小的變化,也可能存在高度的不穩定性。 因此,它的波動性很大,這對用戶來說可能很麻煩,尤其是初學者。 此外,在少數情況下,它可能無法產生理想的結果和結果。
學習世界頂尖大學的數據科學課程。 獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
包起來
如果您想在了解後果的同時做出最佳選擇,請確保您知道如何使用 R 中的決策樹。它是可能發生和可能不會發生的情況的示意圖。 決策樹有幾個不同的組件,如上所述。 它是一種流行且功能強大的機器學習算法。
什麼是決策樹及其類別?
決策樹是一種支持工具,具有樹狀結構,用於對可能的結果、可能的後果、效用以及資源成本進行建模。 借助條件控制語句,決策樹可以輕鬆顯示不同的算法。 決策樹包括用於表示最終導致有利結果的不同決策步驟的分支。
基於目標變量,有兩種主要類型的決策樹。
1. 分類變量決策樹——在這個決策樹中,目標變量被分為不同的類別。 這些類別將決定每個決策過程都屬於哪一個類別,並且在任何情況下都沒有中間的機會。
2. 連續變量決策樹——這個決策樹中有一個連續的目標變量。 例如,如果任何人的收入未知,那麼可以藉助可用的信息(如年齡、職業和任何其他連續變量)來知道它。
決策樹有哪些應用?
決策樹有兩個主要應用。
1. 使用人口統計數據尋找潛在客戶 - 任何組織都可以簡化其營銷預算以做出明智的決策,以便將資金花在正確的地方,並牢記適當的人口統計數據。
2. 評估潛在增長機會——決策樹有助於評估歷史數據,以評估任何業務的潛在增長機會並幫助擴張。
決策樹的優缺點是什麼?
優點-
1. 易於閱讀和解釋 - 即使沒有任何統計知識,您也可以輕鬆閱讀和解釋決策樹的輸出。
2.易於準備 - 與任何其他決策技術相比,決策樹在數據準備方面需要很少的努力。
3. 對數據清理的要求更少——決策樹需要很少的數據清理,因為已經創建了變量。
缺點——
1. 不穩定的性質——最大的限制是決策樹與其他決策技術相比是高度不穩定的。 即使數據有微小的變化,也會反映出決策結構的巨大變化。
2. 預測連續變量的結果效率較低 - 當變量必須分為幾類時,決策樹往往會丟失信息。