Vor- und Nachteile der Entscheidungsbaumregression beim maschinellen Lernen

Veröffentlicht: 2020-12-24

Einer der beliebtesten Algorithmen für maschinelles Lernen, die Entscheidungsbaum-Regression, wird sowohl von Wettbewerbern als auch von Data-Science-Experten verwendet. Dies sind Vorhersagemodelle, die einen Zielwert auf der Grundlage eines Satzes binärer Regeln berechnen.

Es wird verwendet, um sowohl Regressions- als auch Klassifikationsmodelle in Form einer Baumstruktur aufzubauen. Datensätze werden in einem Entscheidungsbaum in kleinere Teilmengen zerlegt, während gleichzeitig ein zugehöriger Entscheidungsbaum inkrementell aufgebaut wird.

Ein Entscheidungsbaum wird verwendet, um eine Schätzung zu erreichen, die auf der Durchführung einer Reihe von Fragen zum Datensatz basiert. Durch das Stellen dieser Wahr/Falsch-Fragen ist das Modell in der Lage, die möglichen Werte einzugrenzen und eine Vorhersage zu treffen. Die Reihenfolge und der Inhalt der Frage werden vom Modell selbst bestimmt.

Inhaltsverzeichnis

Was sind die Begriffe des Entscheidungsbaums?

Ein Entscheidungsbaum hat Zweige, Knoten, Blätter usw. Ein Wurzelknoten ist ein Anfangsknoten, der die gesamte Stichprobe oder Grundgesamtheit darstellt, und kann weiter in andere Knoten oder homogene Sätze unterteilt werden. Ein Entscheidungsknoten besteht aus zwei oder mehr Knoten, die getrennte Werte des getesteten Attributs darstellen.

Ein Blatt/Endknoten zerfällt nicht in weitere Knoten und stellt eine Entscheidung dar. Ein Zweig oder Unterbaum ist ein Unterabschnitt eines gesamten Baums. Splitting ist der Prozess der Aufteilung eines Knotens in zwei oder mehr Unterknoten. Das Gegenteil von Splitting wird Pruning genannt, dh das Entfernen von Unterknoten eines Entscheidungsknotens. Ein übergeordneter Knoten ist ein Knoten, der in Unterknoten unterteilt wird, und der Unterknoten ist der untergeordnete Knoten.

Siehe auch: Leitfaden zum Entscheidungsbaumalgorithmus

Wie funktioniert es?

Der Entscheidungsbaumalgorithmus verwendet einen Datenpunkt und durchläuft den gesamten Baum, indem er Wahr/Falsch-Fragen stellt. Ausgehend vom Wurzelknoten werden Fragen gestellt und für jede Antwort separate Zweige erstellt, und dies wird fortgesetzt, bis der Blattknoten erreicht ist. Rekursive Partitionierung wird verwendet, um den Baum zu konstruieren.

Ein Entscheidungsbaum ist ein überwachtes maschinelles Lernmodell und lernt daher, Daten den Ausgaben in der Trainingsphase der Modellerstellung zuzuordnen. Dazu wird das Modell mit historischen Daten angepasst, die für das Problem relevant sein müssen, zusammen mit ihrem wahren Wert, den das Modell genau vorhersagen lernen sollte. Dies hilft dem Modell, die Beziehungen zwischen den Daten und der Zielvariablen zu lernen.

Nach dieser Phase ist der Entscheidungsbaum in der Lage, einen ähnlichen Baum aufzubauen, indem er die Fragen und ihre Reihenfolge berechnet, was ihm hilft, die genaueste Schätzung vorzunehmen. Somit hängt die Vorhersage von den Trainingsdaten ab, die in das Modell eingespeist werden.

Wie wird die Aufteilung entschieden?

Die Entscheidung zur Teilung ist für Klassifikations- und Regressionsbäume unterschiedlich, und die Genauigkeit der Vorhersage des Baums hängt stark davon ab. Der mittlere quadratische Fehler (MSE) wird normalerweise verwendet, um zu entscheiden, ob ein Knoten in einer Entscheidungsbaumregression in zwei oder mehr Unterknoten aufgeteilt werden soll . Im Fall eines Binärbaums wählt der Algorithmus einen Wert aus und teilt die Daten in zwei Teilmengen auf, berechnet MSE für jede Teilmenge und wählt als Ergebnis den kleinsten MSE-Wert aus.

Implementieren der Entscheidungsbaumregression

Die grundlegende Struktur zum Implementieren eines Entscheidungsbaum-Regressionsalgorithmus wird in den folgenden Schritten bereitgestellt.

Bibliotheken importieren

Der erste Schritt zur Entwicklung eines Modells für maschinelles Lernen besteht darin, alle für die Entwicklung erforderlichen Bibliotheken zu importieren.

Laden der Daten

Nach dem Importieren von Bibliotheken besteht der nächste Schritt darin, den Datensatz zu laden. Die Daten können aus den lokalen Ordnern des Benutzers heruntergeladen oder verwendet werden.

Aufteilen des Datensatzes

Sobald die Daten geladen sind, müssen sie in einen Trainingssatz und einen Testsatz aufgeteilt und die x- und y-Variablen erstellt werden. Die Werte müssen auch umgeformt werden, um die Daten in das erforderliche Format zu bringen.

Trainieren des Modells

Hier wird das Datenbaum-Regressionsmodell mithilfe des im vorherigen Schritt erstellten Trainingssatzes trainiert.

Vorhersage der Ergebnisse

Hier werden die Ergebnisse des Testsatzes unter Verwendung des auf dem Trainingssatz trainierten Modells vorhergesagt.

Modellbewertung

Die Leistungsfähigkeit des Modells wird überprüft, indem im letzten Schritt die tatsächlichen Werte und die vorhergesagten Werte verglichen werden. Aus dem Vergleich dieser Werte kann auf die Genauigkeit des Modells geschlossen werden. Die Visualisierung der Ergebnisse durch Erstellen eines Diagramms der Werte hilft auch bei der Einschätzung der Genauigkeit des Modells.

Lesen Sie: Wie erstelle ich einen perfekten Entscheidungsbaum?

Vorteile

Das Entscheidungsbaummodell kann sowohl für Klassifizierungs- als auch für Regressionsprobleme verwendet werden und ist einfach zu interpretieren, zu verstehen und zu visualisieren.
Auch die Ausgabe eines Entscheidungsbaums ist leicht nachvollziehbar.
Im Vergleich zu anderen Algorithmen erfordert die Datenaufbereitung während der Vorverarbeitung in einem Entscheidungsbaum weniger Aufwand und erfordert keine Normalisierung der Daten.
Die Implementierung kann auch ohne Skalierung der Daten erfolgen.
Ein Entscheidungsbaum ist eine der schnellsten Methoden, um Beziehungen zwischen Variablen und der wichtigsten Variablen zu identifizieren.
Es können auch neue Funktionen für eine bessere Zielvariablenvorhersage erstellt werden.
Entscheidungsbäume werden nicht stark von Ausreißern oder fehlenden Werten beeinflusst und können sowohl numerische als auch kategoriale Variablen verarbeiten.
Da es sich um eine nichtparametrische Methode handelt, enthält sie keine Annahmen über Raumverteilungen und Klassifiziererstrukturen.

Nachteile

Overfitting ist eine der praktischen Schwierigkeiten für Entscheidungsbaummodelle. Dies geschieht, wenn der Lernalgorithmus weiterhin Hypothesen entwickelt, die den Trainingssatzfehler reduzieren, jedoch auf Kosten eines zunehmenden Testsatzfehlers. Dieses Problem kann jedoch durch Beschneiden und Festlegen von Einschränkungen für die Modellparameter behoben werden.
Entscheidungsbäume können nicht gut mit kontinuierlichen numerischen Variablen verwendet werden.
Eine kleine Änderung in den Daten führt tendenziell zu einem großen Unterschied in der Baumstruktur, was zu Instabilität führt.
Die beteiligten Berechnungen können im Vergleich zu anderen Algorithmen auch komplex werden, und das Trainieren des Modells dauert länger.
Es ist auch relativ teuer, da der Zeitaufwand und die Komplexität größer sind.

Fazit

Der Entscheidungsbaum-Regressionsalgorithmus wurde in diesem Artikel erklärt, indem beschrieben wurde, wie der Baum aufgebaut wird, zusammen mit kurzen Definitionen verschiedener Begriffe, die ihn betreffen. Eine kurze Beschreibung, wie der Entscheidungsbaum funktioniert und wie die Entscheidung über das Teilen eines beliebigen Knotens getroffen wird, ist ebenfalls enthalten.

Wie eine grundlegende Entscheidungsbaum-Regression implementiert werden kann, wurde auch durch eine Abfolge von Schritten erklärt. Abschließend wurden die Vor- und Nachteile eines Entscheidungsbaumalgorithmus aufgezeigt.

Wenn Sie mehr über Entscheidungsbäume und maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet , IIIT-B-Alumni-Status, mehr als 5 praktische Schlusssteinprojekte und Arbeitsunterstützung bei Top-Unternehmen.

Was ist Regression beim maschinellen Lernen?

Regression wird verwendet, um kontinuierliche Variablen vorherzusagen. Es ist, wenn wir eine Zahl vorhersagen müssen. Wenn Sie beispielsweise die Preise von Häusern in einer Stadt basierend auf Merkmalen wie Größe des Hauses und Fläche der Stadt vorhersagen möchten, würde die Regression verwendet. Regressionsprobleme lassen sich sehr einfach mit der linearen Regression lösen. Kurz gesagt, Regression ist das Schätzen eines unbekannten Ausgabewerts basierend auf einem Eingabewert.

Was sind Entscheidungsbäume?

Ein Entscheidungsbaum ist ein Diagramm, das alle möglichen Entscheidungen und die möglichen Ergebnisse zeigt. Entscheidungsbäume werden häufig verwendet, um zu untersuchen, wie Entscheidungen zukünftige Ergebnisse beeinflussen. Beispielsweise kann ein Entscheidungsbaum einem Unternehmen bei der Analyse helfen, ob es zusätzliche Lager kaufen oder ein neues Distributionszentrum bauen sollte. Im Allgemeinen werden Entscheidungsbäume in Operations Research und Management Science verwendet. Entscheidungsbäume sind ein weit verbreitetes und beliebtes Konzept bei der Entscheidungsfindung und Programmplanung. Sie können bei der Wahl zwischen Handlungsoptionen verwendet werden, wenn sich einige der möglichen Vorgehensweisen gegenseitig ausschließen und wenn das Ergebnis jeder Vorgehensweise vom Zustand der Welt abhängt.

Welche Vor- und Nachteile haben Entscheidungsbäume?

Das Entscheidungsbaummodell kann für jede Klasse von Problemen verwendet werden, entweder zur Klassifizierung oder zur numerischen Vorhersage. Es kann auf jede Klasse von Problemen erweitert werden. Es kann sowohl für die überwachte als auch für die unüberwachte Klassifizierung verwendet werden. Es kann eine Mischung aus numerischen und kategorialen Merkmalen verarbeiten. Es liefert stabile Ergebnisse. Es ist jedoch schwierig, den Grund für die Vorhersage zu verstehen. Es versteht sich, dass das Modell nicht die beste Teilung in jedem Knoten des Baums lernt, sondern die Wahrscheinlichkeitsverteilung der Klasse innerhalb jedes Knotens lernt. Diese Anforderung macht das Modell rechenintensiv und hindert es daran, große Datenmengen zu verarbeiten.