Entscheidungsbaum in der KI: Einführung, Typen und Erstellung

Veröffentlicht: 2020-09-03

Ein Entscheidungsbaum ist die denotative Darstellung eines Entscheidungsprozesses. Entscheidungsbäume in der künstlichen Intelligenz werden verwendet, um auf der Grundlage der verfügbaren Daten aus in der Vergangenheit getroffenen Entscheidungen zu Schlussfolgerungen zu gelangen. Darüber hinaus werden diesen Schlussfolgerungen Werte zugewiesen, die verwendet werden, um die voraussichtliche Vorgehensweise in der Zukunft vorherzusagen.

Entscheidungsbäume sind statistische, algorithmische Modelle des maschinellen Lernens, die Antworten auf verschiedene Probleme und ihre möglichen Folgen interpretieren und lernen. Folglich kennen Entscheidungsbäume die Regeln der Entscheidungsfindung in bestimmten Kontexten auf der Grundlage der verfügbaren Daten. Der Lernprozess ist kontinuierlich und basiert auf Feedback. Dies verbessert den Lernerfolg im Laufe der Zeit. Diese Art des Lernens wird überwachtes Lernen genannt. Daher sind Entscheidungsbaummodelle unterstützende Werkzeuge für überwachtes Lernen.

Somit bieten Entscheidungsbäume einen wissenschaftlichen Entscheidungsprozess, der eher auf Fakten und Werten als auf Intuition basiert. In der Wirtschaft nutzen Organisationen diesen Prozess, um wichtige Geschäftsentscheidungen zu treffen.

Lernen Sie KI- und ML-Kurse von den besten Universitäten der Welt. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.

Inhaltsverzeichnis

Art der Entscheidungsbaummodelle

Diese Modelle können verwendet werden, um Probleme zu lösen, abhängig von der Art der Daten, die eine Vorhersage erfordern. Sie fallen in die folgenden Kategorien:

  1. Vorhersage kontinuierlicher Variablen
  2. Vorhersage kategorialer Variablen

1. Vorhersage kontinuierlicher Variablen

Die Vorhersage kontinuierlicher Variablen hängt von einem oder mehreren Prädiktoren ab. Beispielsweise können die Preise von Häusern in einem Gebiet von vielen Variablen abhängen, wie z. B. einer Adresse, der Verfügbarkeit von Annehmlichkeiten wie einem Swimmingpool, der Anzahl der Zimmer usw. In diesem Fall sagt der Entscheidungsbaum den Preis eines Hauses basierend auf verschiedenen Variablen voraus Werte. Der vorhergesagte Wert wird auch ein variabler Wert sein.

Das zur Angabe solcher Werte verwendete Entscheidungsbaummodell wird als Entscheidungsbaum mit kontinuierlichen Variablen bezeichnet. Kontinuierlich verschiedene Entscheidungsbäume lösen regressionsartige Probleme. In solchen Fällen werden beschriftete Datensätze verwendet, um eine kontinuierliche, variable und nummerierte Ausgabe vorherzusagen.

Muss gelesen werden: So erstellen Sie einen perfekten Entscheidungsbaum

2. Vorhersage kategorialer Variablen

Die Vorhersage kategorialer Variablen basiert auch auf anderen kategorialen oder kontinuierlichen Variablen. Anstatt einen Wert vorherzusagen, geht es bei diesem Problem jedoch darum, einen neuen Datensatz in die verfügbaren Klassen von Datensätzen zu klassifizieren. Beispielsweise die Analyse eines Kommentars auf Facebook, um den Text als negativ oder unterstützend zu klassifizieren. Das Durchführen einer Krankheitsdiagnose basierend auf den Symptomen eines Patienten ist ebenfalls ein Beispiel für ein Entscheidungsbaummodell mit kategorialen Variablen. Entscheidungsbäume mit kategorialen Variablen lösen Klassifikationsprobleme, bei denen die Ausgabe eine Klasse anstelle eines Werts ist.

Auschecken: Entscheidungsbaum in R

Wie Entscheidungsbäume in der Künstlichen Intelligenz entstehen

Wie der Name schon sagt, hat der Entscheidungsbaumalgorithmus die Form einer baumartigen Struktur. Es ist jedoch invertiert. Ein Entscheidungsbaum beginnt an der Wurzel oder dem obersten Entscheidungsknoten, der Datensätze basierend auf den Werten sorgfältig ausgewählter Attribute klassifiziert.

Der Wurzelknoten repräsentiert den gesamten Datensatz. Hier wählt der erste Schritt im Algorithmus die beste Prädiktorvariable aus. Es macht es zu einem Entscheidungsknoten. Es klassifiziert auch den gesamten Datensatz in verschiedene Klassen oder kleinere Datensätze.

Der Satz von Kriterien zur Auswahl von Attributen wird als Attribute Selection Measures (ASM) bezeichnet. ASM basiert auf Auswahlmaßen, einschließlich Informationsgewinn, Entropie, Gini-Index, Gewinnverhältnis und so weiter. Diese Attribute, auch Merkmale genannt, erstellen Entscheidungsregeln, die beim Verzweigen helfen. Der Verzweigungsprozess teilt den Wurzelknoten in Unterknoten und weiter in weitere Unterknoten auf, bis Blattknoten gebildet werden. Blattknoten können nicht weiter unterteilt werden.

Die Bestimmung, ob ein bestimmtes Bild das einer Katze oder eines Hundes ist, ist ein typisches Beispiel für eine Klassifizierung. Hier können die Merkmale oder Attribute das Vorhandensein von Krallen oder Pfoten, die Länge der Ohren, die Art der Zunge usw. sein. Der Datensatz wird basierend auf diesen Eingabevariablen weiter in kleinere Klassen aufgeteilt, bis das Ergebnis vorliegt.

Lesen Sie auch: Klassifizierung im Entscheidungsbaum

Fazit

Entscheidungsbäume sind klassische und natürliche Lernmodelle. Sie basieren auf dem grundlegenden Konzept von Teile und herrsche. In der Welt der künstlichen Intelligenz werden Entscheidungsbäume verwendet, um Lernmaschinen zu entwickeln, indem ihnen beigebracht wird, wie man Erfolg und Misserfolg bestimmt. Diese lernenden Maschinen analysieren dann eingehende Daten und speichern sie.

Dann treffen sie unzählige Entscheidungen auf der Grundlage vergangener Lernerfahrungen. Diese Entscheidungen bilden die Grundlage für die Vorhersagemodellierung, mit deren Hilfe Ergebnisse für Probleme vorhergesagt werden können. In der Wirtschaft verwenden Organisationen diese Techniken, um unzählige kleine und große Geschäftsentscheidungen zu treffen, die zu riesigen Gewinnen oder Verlusten führen.

Informieren Sie sich über das Advanced Certificate Program von upGrad in Machine Learning & NLP. Dieser Kurs wurde unter Berücksichtigung verschiedener Arten von Studenten entwickelt, die sich für maschinelles Lernen interessieren, und bietet 1-1-Mentoring und vieles mehr.

Was ist ein Entscheidungsbaummodell in der KI?

Entscheidungsbäume gibt es schon seit langem, aber in letzter Zeit gewinnen sie in der Community für maschinelles Lernen und Data Science an Bedeutung. Ein Entscheidungsbaum ist ein Modell, das aus Daten lernt und Ihnen hilft, die Klasse eines Objekts basierend auf einer Reihe von Merkmalen vorherzusagen. Ein Entscheidungsbaum ist ein azyklischer Graph, in dem jeder Knoten einen Test für ein Eingabemerkmal darstellt und jeder Zweig das Ergebnis eines Tests darstellt. Durch das Durchqueren des Baums enthält der Wurzelknoten die Vorhersage für den gesamten Baum

Was sind die Anwendungen von Entscheidungsbäumen?

Die Modelle werden in mehreren Bereichen eingesetzt. In der Computerbiologie werden sie häufig verwendet, um biologische Funktionen von Proteinen oder DNA-Sequenzen vorherzusagen. In der Epidemiologie werden sie verwendet, um das Risiko einer Krankheitsübertragung durch betroffene Personen zu bestimmen. Beim Data Mining werden sie verwendet, um zukünftige Ereignisse auf der Grundlage früherer Ereignisse vorherzusagen. Im Finanzbereich werden sie zur Bestimmung des Ausfallrisikos und im Software-Engineering zur Bestimmung der Priorität von Softwarefehlern verwendet.

Was sind die Probleme, mit denen Entscheidungsbaumalgorithmen konfrontiert sind?

Das größte Problem bei Entscheidungsbaummodellen besteht darin, dass in vielen Fällen nicht alle möglichen Bäume aufgezählt werden, selbst wenn die Anzahl möglicher Zustände (Knoten) unendlich ist, wie im Fall eines unbekannten BLEU-Scores. Wie wir wissen, ist ein Entscheidungsbaum ein maschineller Lernalgorithmus. Es ist ein binärer Entscheidungsbaum. Ein Baum, in dem jeder interne Knoten einen Test für eine Variable und jeder Blattknoten eine Klassenbezeichnung darstellt. Der Entscheidungsbaum muss Entscheidungen über ein bestimmtes Datentupel treffen. Diese Darstellung ist nicht sehr gut, wenn es darum geht, eine Entscheidung über eine stetige Variable zu treffen. Außerdem gibt es eine Einschränkung bei der Arbeit mit Daten, die als kategoriale Variable codiert werden können.