Leitfaden zum Entscheidungsbaumalgorithmus: Anwendungen, Vor- und Nachteile und Beispiele
Veröffentlicht: 2020-12-10Es gibt verschiedene Arten von Algorithmen für maschinelles Lernen, und jeder von ihnen hat einzigartige Anwendungen. In diesem Artikel werfen wir einen Blick auf einen der beliebtesten und nützlichsten ML-Algorithmen, den Entscheidungsbaum-Algorithmus. Wir haben ein Beispiel für den Entscheidungsbaum in R besprochen, damit Sie sich mit seiner Verwendung vertraut machen können. Lass uns anfangen.
Inhaltsverzeichnis
Was ist ein Entscheidungsbaumalgorithmus?
Ein Entscheidungsbaum ist eine Art überwachter Algorithmus für maschinelles Lernen, der einen Wurzelknoten und Blattknoten hat. Jeder Knoten stellt ein Merkmal dar, und die Verbindungen zwischen den Knoten zeigen die Entscheidung. Jedes Blatt repräsentiert ein Ergebnis.
Angenommen, Sie möchten auf den Markt gehen, um Gemüse zu kaufen. Du hast zwei Möglichkeiten: Entweder du gehst oder du tust es nicht. Wenn du nicht gehst, bekommst du das Gemüse nicht, aber wenn du es tust, musst du zum Markt gehen, was zu einem anderen Bereich der Wahl führt. Ein Entscheidungsbaum funktioniert genau so.
Anwendungen für Entscheidungsbäume
Hier sind einige Anwendungen von Entscheidungsbäumen:
Marketing:
Unternehmen können Entscheidungsbäume verwenden, um die Genauigkeit ihrer Werbekampagnen zu verbessern, indem sie die Leistung der Produkte und Dienstleistungen ihrer Mitbewerber beobachten. Entscheidungsbäume können bei der Zielgruppensegmentierung helfen und Unternehmen dabei unterstützen, gezieltere Werbung mit höheren Konversionsraten zu produzieren.
Kundenbindung:
Unternehmen nutzen Entscheidungsbäume zur Kundenbindung, indem sie ihr Verhalten analysieren und neue Angebote oder Produkte veröffentlichen, die diesem Verhalten entsprechen. Durch die Verwendung von Entscheidungsbaummodellen können Unternehmen auch die Zufriedenheit ihrer Kunden ermitteln.
Diagnose von Krankheiten und Beschwerden:
Entscheidungsbäume können Ärzten und medizinischem Fachpersonal dabei helfen, Patienten zu identifizieren, die einem höheren Risiko ausgesetzt sind, schwere (oder vermeidbare) Erkrankungen wie Diabetes oder Demenz zu entwickeln. Die Fähigkeit von Entscheidungsbäumen, Möglichkeiten nach bestimmten Variablen einzugrenzen, ist in solchen Fällen sehr hilfreich.
Erkennung von Betrug:
Unternehmen können Betrug verhindern, indem sie mithilfe von Entscheidungsbäumen betrügerisches Verhalten im Voraus erkennen. Es kann Unternehmen viele Ressourcen sparen, einschließlich Zeit und Geld.
Vor- und Nachteile von Entscheidungsbäumen
Vorteile des Entscheidungsbaumalgorithmus:
Im Folgenden sind die Hauptvorteile der Verwendung eines Entscheidungsbaums in R aufgeführt:
- Das Verständnis der Ergebnisse ist einfacher als bei anderen Modellen. Sie können Ihr Entscheidungsbaummodell vom technischen Team programmieren lassen, damit es schneller funktioniert, und Sie können es auf neue Instanzen anwenden. Seine Berechnungen haben Einschlusstests nach einer Instanz, die ein qualitatives oder ein quantitatives Modell ist.
- Es ist nichtparametrisch. Aus diesem Grund müssen die in unserem Problem vorhandenen unabhängigen Variablen keinen bestimmten Wahrscheinlichkeitsverteilungen folgen. Sie können kollineare Variablen haben. Unabhängig davon, ob sie diskriminierend sind oder nicht, hat dies keine Auswirkungen auf Ihren Entscheidungsbaum, da er diese Variablen nicht auswählen muss.
- Sie sind in der Lage, mit fehlenden Werten zu arbeiten. CHAID fügt alle fehlenden Werte in eine Kategorie ein, die Sie mit einer anderen zusammenführen oder von anderen getrennt halten können.
- Extreme Einzelwerte (z. B. Ausreißer) haben keinen großen Einfluss auf die Entscheidungsbäume. Sie können sie in kleinen Knoten isolieren, sodass sie die gesamte Klassifizierung nicht beeinflussen.
- Es gibt Ihnen eine großartige visuelle Darstellung eines Entscheidungsprozesses. Jeder Zweig eines Entscheidungsbaums steht für die Faktoren, die Ihre Entscheidungen beeinflussen können, und Sie erhalten ein größeres Bild. Sie können Entscheidungsbäume verwenden, um die Kommunikation in Ihrem Team zu verbessern.
- CART-Bäume können alle Variablentypen direkt verarbeiten, einschließlich qualitativer, kontinuierlicher und diskreter Variablen.
Nachteile des Entscheidungsbaumalgorithmus
- Es analysiert nicht alle unabhängigen Variablen gleichzeitig. Stattdessen wertet es sie nacheinander aus. Aus diesem Grund überarbeitet der Baum niemals die Aufteilung eines Knotens auf irgendeiner Ebene, was zu Verzerrungen bei den Entscheidungen des Baums führen kann.
- Das Ändern auch nur einer einzelnen Variable kann sich auf den gesamten Baum auswirken, wenn er sich in der Nähe der Spitze befindet. Es gibt Möglichkeiten, dieses Problem zu lösen. Beispielsweise können Sie den Baum anhand mehrerer Stichproben erstellen und sie gemäß einem Mittelwert (oder einer Abstimmung) aggregieren. Dies wird als Resampling bezeichnet. Es führt jedoch zu einer anderen Reihe von Problemen, da es die Lesbarkeit des Modells verringert, indem es komplexer wird. Durch Resampling können Sie also die besten Qualitäten von Entscheidungsbäumen loswerden. Warum ist das ein Problem? Angenommen, eine Variable hat alle Qualitäten einer bestimmten Gruppe, aber sie hat auch die Qualität, nach der sich der Baum aufteilt. In diesem Fall würde der Baum es in die falsche Klasse einordnen, nur weil es diese wichtige Eigenschaft hat.
- Alle Knoten einer bestimmten Ebene in einem Entscheidungsbaum hängen von den Knoten in ihren vorherigen Ebenen ab. Mit anderen Worten, wie Sie die Knoten auf Ebene 'n +1' definieren, hängt vollständig von Ihrer Definition für die Knoten auf Ebene 'n' ab. Wenn Ihre Definition auf Ebene 'n' falsch ist, wären alle nachfolgenden Ebenen und die in diesen Ebenen vorhandenen Knoten ebenfalls falsch.
Lernen: Lineare Regression beim maschinellen Lernen

Entscheidungsbaum in R (Beispiel)
Sie benötigen rpart, um einen Entscheidungsbaum in R zu erstellen. Wir verwenden rpart für die Klassifizierung. In R bauen Sie einen Entscheidungsbaum auf der Grundlage eines rekursiven Partitionierungsalgorithmus auf, der eine Entscheidung und damit auch Regressionsbäume generiert. Es hat zwei Schritte:
- Zunächst wird eine Variable identifiziert, die die Daten bestmöglich in zwei getrennte Gruppen aufteilt.
- Zweitens wiederholt es den Vorgang im vorherigen Schritt für jede Untergruppe, bis diese Gruppen eine bestimmte Größe erreichen oder wenn es in diesen Untergruppen keine Verbesserungen mehr vornehmen kann.
Als Beispiel haben wir folgende Daten:
In den obigen Daten haben Sie die Zeit und Beschleunigung eines Fahrrads. Wir müssen seine Beschleunigung entsprechend der Zeit vorhersagen. Wir tun dies, indem wir Folgendes tun:
1Bibliothek (rTeil)
Laden Sie dann die Daten:
1 Daten (Fahrrad)
Jetzt erstellen wir ein Streudiagramm:
1plot(Beschleunigung~Zeiten,Daten=Fahrrad)
Sobald wir das getan haben, erstellen wir den Baum:
1 mct <- rpart (Beschleunigung ~ Zeiten, Daten = Fahrrad)
Unser letzter Schritt ist das Zeichnen des Diagramms:
1 Grundstück (mct)
Lesen Sie: Wie erstelle ich einen perfekten Entscheidungsbaum?
Abschließende Gedanken
Wir haben jetzt ein perfekt funktionierendes Modell des Entscheidungsbaums in R. Weitere ähnliche Tutorials finden Sie in unserem Blog.
Wenn Sie mehr über Entscheidungsbäume und maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet , IIIT-B-Alumni-Status, mehr als 5 praktische Schlusssteinprojekte und Arbeitsunterstützung bei Top-Unternehmen.
Was ist das wichtigste Merkmal in einem Entscheidungsbaumalgorithmus?
Entscheidungsbaumalgorithmen sind ein wertvolles Werkzeug für die Entschlossenheits- und Risikoanalyse und werden oft als Diagramm oder Liste von Regeln ausgedrückt. Die Einfachheit der Verwendung von Entscheidungsbaumalgorithmen ist eines ihrer wichtigsten Merkmale. Sie sind leicht verständlich und relevant, da sie visuell sind. Auch wenn Anwender mit der Konstruktion von Entscheidungsbaumalgorithmen nicht vertraut sind, können sie diese erfolgreich anwenden. Entscheidungsbaumalgorithmen werden am häufigsten verwendet, um zukünftige Ereignisse auf der Grundlage früherer Erfahrungen zu antizipieren und bei der rationalen Entscheidungsfindung zu helfen. Ein weiteres bedeutendes Gebiet von Entscheidungsbaumalgorithmen ist Data Mining, wo Entscheidungsbäume als Klassifizierungs- und Modellierungswerkzeug verwendet werden, wie weiter unten näher erläutert wird.
Wie wichtig ist ein Entscheidungsbaumalgorithmus?
Ein Entscheidungsbaumalgorithmus hat den wichtigen Vorteil, dass er die Analyse aller denkbaren Ergebnisse einer Entscheidung erzwingt und jeden Weg zu einer Schlussfolgerung verfolgt. Es erstellt eine detaillierte Studie der Auswirkungen entlang der einzelnen Zweige und zeigt Entscheidungsknoten auf, die einer genaueren Untersuchung bedürfen. Außerdem wird jeder Schwierigkeit, jedem Entscheidungsweg und dem Ergebnis durch Entscheidungsbaumalgorithmen ein eindeutiger Wert zugewiesen. Diese Methode hebt die wichtigen Entscheidungswege hervor, verringert die Unsicherheit, beseitigt Unklarheiten und verdeutlicht die finanziellen Auswirkungen alternativer Handlungsoptionen. Wenn Sachinformationen nicht verfügbar sind, können Benutzer Entscheidungsbaumalgorithmen verwenden, um Optionen für einfache Vergleiche miteinander in Beziehung zu setzen, indem sie Wahrscheinlichkeiten für Umstände verwenden.
Auf welcher Technik basiert der Entscheidungsbaumalgorithmus?
Der Entscheidungsbaumalgorithmus basiert auf der Entscheidungsbaumtechnik, die für Klassifizierungs- und Regressionsfragen verwendet werden kann. Der Name impliziert die Verwendung einer Flussdiagramm-ähnlichen Baumstruktur, um die Vorhersagen anzuzeigen, die sich aus einer Folge von Feature-basierten Teilungen ergeben. Es beginnt mit einem Wurzelknoten und endet mit einer Blattentscheidung. Ein Entscheidungsbaum besteht aus drei Arten von Knoten, dh Quadraten, die üblicherweise Entscheidungsknoten darstellen, Zufallsknoten, die normalerweise in Kreisen dargestellt werden, und Dreiecken, die Endknoten symbolisieren.