Entscheidungsbaumklassifizierung: Alles, was Sie wissen müssen

Veröffentlicht: 2020-05-29

Inhaltsverzeichnis

Einführung
Woraus bestehen Entscheidungsbäume?
Entscheidungsbaumklassifizierung
- 1. Klassifikationsbäume
- 2. Regressionsbäume
Wie werden die Entscheidungsbäume erstellt?
Teile und herrsche
Wie funktioniert der Entscheidungsbaum-Klassifikator?
Vorteile der Verwendung der Entscheidungsbaumklassifizierung
Nachteile der Verwendung des Entscheidungsbaumklassifizierers
Fazit
Neigen Entscheidungsbäume zur Überanpassung?
Brauchen Entscheidungsbäume eine Normalisierung?
Wie spleißt man Entscheidungsbäume?

Einführung

Viele Analogien könnten aus der Natur in unser wirkliches Leben getrieben werden; Bäume sind zufällig einer der einflussreichsten von ihnen. Bäume haben ihren Einfluss auf einen beträchtlichen Bereich des maschinellen Lernens ausgeübt. Sie decken sowohl die grundlegende Klassifikation als auch die Regression ab. Bei der Analyse einer beliebigen Entscheidung könnte ein Entscheidungsbaum-Klassifikator verwendet werden, um den Prozess der Entscheidungsfindung darzustellen.

Im Grunde genommen ist ein Entscheidungsbaum also Teil des überwachten maschinellen Lernens, bei dem die Verarbeitung von Daten durch kontinuierliche Aufteilung der Daten erfolgt, wobei ein bestimmter Parameter berücksichtigt wird.

Woraus bestehen Entscheidungsbäume?

Die Antwort auf die Frage ist einfach. Entscheidungsbäume bestehen aus drei wesentlichen Dingen, die Analogie zu jedem von ihnen könnte zu einem realen Baum gezogen werden. Alle drei sind unten aufgeführt:

Knoten: Dies ist der Ort, an dem der Test auf den Wert stattfindet. In einem Knoten wird der Wert eines bestimmten Attributs übergeben und anhand der Werte überprüft und getestet, um eine Entscheidung zu treffen.
Kanten/Zweige: Dieser Teil entspricht dem Ergebnis eines beliebigen Testergebnisses. Kanten/Zweige sind auch dafür verantwortlich, zwei verschiedene Knoten oder Blätter zu verbinden.
Blattknoten: Dies sind die Knoten, die normalerweise an den Terminals zu finden sind. Blattknoten sind für die Vorhersage des Ergebnisses verantwortlich.

Entscheidungsbaumklassifizierung

Die Entscheidungsbäume können grob in zwei Kategorien eingeteilt werden, nämlich Klassifikationsbäume und Regressionsbäume.

1. Klassifikationsbäume

Klassifikationsbäume sind jene Arten von Entscheidungsbäumen, die auf der Beantwortung der „Ja“- oder „Nein“-Fragen basieren und diese Informationen verwenden, um zu einer Entscheidung zu kommen. Ein Baum, der bestimmt, ob eine Person fit oder unfit ist, indem er eine Reihe verwandter Fragen stellt und die Antworten verwendet, um zu einer tragfähigen Lösung zu kommen, ist eine Art Klassifizierungsbaum.

Diese Arten von Bäumen werden normalerweise konstruiert, indem ein Prozess verwendet wird, der als binäre rekursive Partitionierung bezeichnet wird. Das Verfahren der binären rekursiven Partitionierung umfasst das Aufteilen der Daten in separate Module oder Partitionen, und diese Partitionen werden dann weiter in jeden Zweig des Entscheidungsbaum-Klassifizierers eingefügt .

2. Regressionsbäume

Nun unterscheidet sich ein Entscheidungsbaum vom Regressionstyp von dem Entscheidungsbaum vom Klassifikationstyp in einem Aspekt. Die Daten, die in die beiden Bäume eingespeist wurden, sind sehr unterschiedlich. Die Klassifikationsbäume handhaben die diskreten Daten, während die Regressionsentscheidungsbäume den kontinuierlichen Datentyp handhaben. Ein gutes Beispiel für Regressionsbäume wäre der Hauspreis oder wie lange ein Patient normalerweise im Krankenhaus bleibt.

Erfahren Sie mehr: Lineare Regression beim maschinellen Lernen

Wie werden die Entscheidungsbäume erstellt?

Entscheidungsbäume werden erstellt, indem der Datensatz verwendet wird, mit dem das Modell trainiert werden muss (Entscheidungsbäume sind Teil des überwachten maschinellen Lernens). Dieser Trainingsdatensatz soll kontinuierlich in kleinere Teildatensätze gespleißt werden. Dieser Prozess wird durch die Erstellung eines Assoziationsbaums ergänzt, der beim Aufschlüsseln der Daten schrittweise nebeneinander erstellt wird. Nachdem die Maschine das Lernen beendet hat, wird die Erstellung eines Entscheidungsbaums basierend auf dem bereitgestellten Trainingsdatensatz abgeschlossen, und dieser Baum wird dann an den Benutzer zurückgegeben.

Die zentrale Idee hinter der Verwendung eines Entscheidungsbaums besteht darin, die Daten in zwei primäre Regionen zu unterteilen, die Region mit der dichten Bevölkerung (Cluster) oder die Fläche, die leere (oder spärliche) Regionen sind.

Die Klassifizierung von Entscheidungsbäumen funktioniert nach einem elementaren Prinzip der Teilung. Es erobert, wo jedes neue Beispiel, das in den Baum eingespeist wurde, nachdem es eine Reihe von Tests durchlaufen hat, organisiert und mit einer Klassenbezeichnung versehen würde. Der Algorithmus von Teile und Herrsche wird im Folgenden im Detail diskutiert:

Teile und herrsche

Es ist offensichtlich, dass der Entscheidungsbaum-Klassifizierer auf einer Heuristik basiert und aufgebaut ist, die als rekursive Partitionierung bekannt ist, die auch als Teile-und-Herrsche-Algorithmus bekannt ist. Es zerlegt die Daten in kleinere Sätze und tut dies auch weiterhin. Bis es festgestellt hat, dass die Daten innerhalb jeder Teilmenge homogen sind, oder wenn der Benutzer ein anderes Stoppkriterium definiert hat, das diesen Algorithmus stoppen würde.

Wie funktioniert der Entscheidungsbaum-Klassifikator ?

Der Teile-und-Herrsche-Algorithmus wird verwendet, um einen Entscheidungsbaum-Klassifikator zu erstellen . Durch die Verwendung des Algorithmus beginnen wir immer an der Wurzel des Baums und wir teilen auch den Datensatz auf, um die Unsicherheit bei der endgültigen Entscheidung zu verringern.
Es handelt sich um einen iterativen Prozess. Also wiederholen wir diesen Vorgang an jedem Knoten. Dieser Vorgang wiederholt sich bis zu dem Zeitpunkt, an dem wir die Knoten der gewünschten Reinheit nicht mehr haben.
Um eine Überanpassung zu vermeiden, legen wir im Allgemeinen eine zu erreichende Reinheitsgrenze fest. Dies bedeutet, dass das Endergebnis möglicherweise nicht 100 % rein ist.

Grundlagen des Teile-und-Herrsche-Algorithmus:

Zuerst kommt die Auswahl oder Auswahl eines Tests für den Wurzelknoten. Dann beginnt der Prozess zum Erstellen von Zweigen. Die Verzweigungen werden so gestaltet, dass jedes mögliche Ergebnis der definierten Studie berücksichtigt wird.
Als nächstes kommt die Aufteilung der Dateninstanzen in kleinere Teilmengen. Jeder Zweig hätte seinen eigenen Spleiß, der mit dem Knoten verbunden ist.
Dieser Vorgang muss dann für jede Verzweigung wiederholt werden, indem nur die Instanzen verwendet werden, die zu der betreffenden Verzweigung kommen.
Dieser rekursive Prozess sollte gestoppt werden, wenn alle Instanzen zur selben Klasse gehören.

Vorteile der Verwendung der Entscheidungsbaumklassifizierung

Für den Bau braucht man nicht viel Geld.
Es ist ein schneller Prozess der Klassifizierung von Aufzeichnungen, die neu oder unbekannt sind.
Es kann sehr einfach interpretiert werden, besonders wenn der Baum klein ist.
Die Genauigkeit der Vorhersage unter Verwendung des Entscheidungsbaum-Klassifikators ist vergleichbar mit anderen Methoden der Vorhersage oder Klassifizierung.
Es hat auch die Fähigkeit, unwichtige Merkmale auszuschließen. Dieser Vorgang des Eliminierens irrelevanter Merkmale erfolgt automatisch.

Lesen Sie: Wie erstelle ich einen perfekten Entscheidungsbaum?

Nachteile der Verwendung des Entscheidungsbaumklassifizierers

Eine Überanpassung des Datensatzes ist in diesem Fall sehr einfach.
Die Grenze der Entscheidung hat eine Einschränkung. Es kann nur parallel zu den Achsen sein, die die Attribute enthalten.
Modelle, die auf Entscheidungsbäumen basieren, haben oft voreingenommene Aufteilungen mit einer enormen Anzahl von Ebenen.
Alle kleinen Änderungen, die am Datensatz vorgenommen werden, können erhebliche Auswirkungen auf die Logik haben, die der Entscheidung zugrunde liegt.
Lagerbäume sind schwer zu verstehen, weil sie sich manchmal sehr kontraintuitiv anfühlen.

Lesen Sie auch: Entscheidungsbäume beim maschinellen Lernen

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Fazit

Entscheidungsbäume sind praktisch, wenn wir mit Problemen konfrontiert sind, die nicht mit linearen Lösungen behandelt werden können. Aus Beobachtungen wurde festgestellt, dass baumbasierte Modelle die Nichtlinearität der Eingaben leicht abbilden und das vorliegende Problem effektiv beseitigen können. Anspruchsvolle Methoden wie Random Forest Generation und Gradient Boosting basieren alle auf dem Entscheidungsbaum-Klassifikator selbst.

Entscheidungsbäume sind ein wirksames Werkzeug, das in vielen Bereichen des wirklichen Lebens eingesetzt werden kann, wie z. B. Biomedizintechnik, Astronomie, Systemsteuerung, Medizin, Physik usw. Dies macht die Klassifizierung von Entscheidungsbäumen effektiv zu einem kritischen und unverzichtbaren Werkzeug des maschinellen Lernens.

Neigen Entscheidungsbäume zur Überanpassung?

Entscheidungsbäume zerlegen die komplexen Daten in einfachere Formen. Eine Entscheidungsbaum-Klassifizierung versucht, Daten zu unterteilen, bis sie nicht weiter unterteilt werden können. Anschließend wird eine übersichtliche Tabelle aller möglichen Inhalte erstellt, die bei der weiteren Analyse hilft. Ein riesiger Baum mit zahlreichen Spleißen gibt uns zwar einen geraden Weg, kann aber auch zu Problemen beim Testen der Daten führen. Dieses übermäßige Spleißen führt zu einem Overfitting, bei dem viele Teilungen dazu führen, dass der Baum enorm wächst. In solchen Fällen wird die Vorhersagefähigkeit des Entscheidungsbaums beeinträchtigt und wird daher unzuverlässig. Pruning ist eine Technik zur Behandlung von Overfitting, bei der die übermäßigen Teilmengen entfernt werden.

Brauchen Entscheidungsbäume eine Normalisierung?

Entscheidungsbäume sind der am häufigsten verwendete Algorithmus für maschinelles Lernen, der für die Klassifizierung und Regression von Daten verwendet wird. Dieser überwachte Mechanismus teilt Daten pro Teilmenge in verschiedene Gruppen, bis sie den Blattknoten erreichen, wo sie nicht weiter unterteilt werden können. Da diese Daten basierend auf den bereitgestellten Attributen in Kategorien aufgeteilt werden, werden sie gleichmäßig aufgeteilt. Es vermittelt, dass sowohl Daten, die eine Normalisierung durchlaufen haben, als auch Daten, die dies nicht getan haben, die gleiche Anzahl von Teilungen aufweisen. Daher ist Normalisierung keine Voraussetzung für entscheidungsbasierte Baummodelle.

Wie spleißt man Entscheidungsbäume?

Entscheidungsbäume sind ein zuverlässiger Mechanismus, um Daten zu klassifizieren und Lösungen vorherzusagen. Das Spleißen in einem Entscheidungsbaum erfordert Präzision; Ein kleiner Fehler kann die Integrität des Entscheidungsbaums beeinträchtigen. Das Spleißen in einem Entscheidungsbaum erfolgt unter Verwendung einer rekursiven Partitionierung. Das Aufteilen von Daten beginnt mit dem Erstellen von Teilmengen von Daten durch die ihnen zugewiesenen Attribute. Die Daten werden rekursiv und wiederholt geteilt, bis die gespleißten Daten an jedem Knoten für die Vorhersage von Lösungen als obsolet angesehen werden. Die Teilmenge kann auch dem Wert der Zielvariablen ähnlich sein. Das Spleißen muss für eine gute Genauigkeit methodisch und wiederholt erfolgen.