Entscheidungsbaum Interview Fragen & Antworten [Für Anfänger & Erfahrene]

Veröffentlicht: 2020-09-22

In der Welt des maschinellen Lernens werden Entscheidungsbäume von einem dieser, wenn nicht sogar dem respektabelsten Algorithmus erstellt. Entscheidungsbäume sind ebenfalls mächtig. Entscheidungsbäume werden verwendet, um sowohl die kontinuierlichen Werte (Regression) als auch die Klassen (Klassifizierung durchführen oder klassifizieren) der dem Algorithmus bereitgestellten Instanzen vorherzusagen.

Entscheidungsbäume ähneln in ihrer Struktur einem Flussdiagramm. Der Knoten eines beliebigen Entscheidungsbaums stellt einen Test dar, der für das Attribut durchgeführt wurde. Jeder Zweig des Entscheidungsbaums ist repräsentativ für die Ergebnisse der an jedem Knoten durchgeführten Prüfung. Der Knoten jedes Blattes (auch Endknoten genannt) enthält das Label der Klasse.

Das war ungefähr die Struktur des Baums; Der Anstieg der Popularität von Entscheidungsbäumen ist jedoch nicht auf die Art und Weise zurückzuführen, wie sie erstellt werden. Die Transparenz des Baums verleiht ihm ein eigenständiges Ansehen in der Welt, die von mächtigen und nützlichen Algorithmen beherrscht wird. Sie können für einen kleinen Entscheidungsbaum eigentlich alles von Hand machen und vorhersagen, wie der Entscheidungsbaum gebildet werden würde. Bei größeren Bäumen wird diese Übung ziemlich mühsam.

Das bedeutet jedoch nicht, dass Sie nicht verstehen können, was der Baum an jedem Knoten tut. Die Fähigkeit, zu erfassen, was hinter den Kulissen oder unter der Haube passiert, unterscheidet Entscheidungsbäume wirklich von jedem anderen maschinellen Lernalgorithmus da draußen.

Wie wir gesehen haben, wie wichtig Entscheidungsbäume sind, ist es inhärent, dass Entscheidungsbäume auch für jeden Fachmann für maschinelles Lernen oder Datenwissenschaftler von entscheidender Bedeutung sind. Um Ihnen zu helfen, dieses Konzept zu verstehen und Ihnen gleichzeitig dabei zu helfen, das gewisse Etwas in Ihr Vorstellungsgespräch zu bringen, haben wir eine umfassende Liste mit Entscheidungsbaum-Interviewfragen und Entscheidungsbaum-Interviewfragen und -antworten zusammengestellt. Diese Fragen sollten Ihnen helfen, jedes Vorstellungsgespräch zu bestehen. Versuchen Sie zuerst, jede dieser Fragen zu lösen, bevor Sie die Lösungen lesen, um das Beste aus diesen Fragen herauszuholen.

Inhaltsverzeichnis

Fragen und Antworten zum Entscheidungsbaum-Interview

Q1. Sie werden zwei unten aufgeführte Anweisungen sehen. Sie müssen beide sorgfältig lesen und dann eine der Optionen aus den Optionen der beiden Aussagen auswählen. Die Kontextfrage lautet: Wählen Sie die Aussagen aus, die über das Einsacken von Bäumen zutreffen.

Bei einem Absackbaum sind die einzelnen Bäume überhaupt nicht voneinander abhängig.
Um die Gesamtleistung des Modells zu verbessern, wird das Aggregat von schwachen Lernenden genommen. Diese Methode ist als Bagging Trees bekannt.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Keine der oben genannten Optionen.

Ans. Die richtige Antwort auf diese Frage ist C, weil beide Aussagen für einen Sackbaum wahr sind. Beim Bagging von Bäumen oder der Bootstrap-Aggregation besteht das Hauptziel der Anwendung dieses Algorithmus darin, die im Entscheidungsbaum vorhandene Varianz zu reduzieren. Der Mechanismus zum Erstellen eines Bagging-Baums besteht darin, dass beim Ersetzen eine Reihe von Teilmengen aus der vorhandenen Stichprobe zum Trainieren der Daten entnommen werden.

Nun wird jede dieser kleineren Teilmengen von Daten verwendet, um einen separaten Entscheidungsbaum zu trainieren. Da sich herausstellt, dass die Informationen, die in jeden Baum eingespeist werden, einzigartig sind, wird die Wahrscheinlichkeit, dass ein Baum irgendeinen Einfluss auf den anderen hat, sehr gering. Das Endergebnis, das alle diese Bäume liefern, wird gesammelt und dann verarbeitet, um die Ausgabe bereitzustellen. Damit trifft auch die zweite Aussage zu.

Q2. Sie werden zwei unten aufgeführte Anweisungen sehen. Sie müssen beide sorgfältig lesen und dann eine der Optionen aus den Optionen der beiden Aussagen auswählen. Die kontextbezogene Frage lautet: Wählen Sie die Aussagen aus, die über das Boosten von Bäumen zutreffen.

Die schwachen Lerner in einem Boosting-Baum sind voneinander unabhängig.
Die Leistung der schwachen Lernenden wird vollständig gesammelt und aggregiert, um die Gesamtleistung des verstärkten Baums zu verbessern.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Keine der oben genannten Optionen.

Ans. Wenn Sie verstehen, wie Bäume verstärkt werden, werden Sie verstehen und in der Lage sein, die richtige Aussage von der falschen Aussage zu unterscheiden. Ein verstärkter Baum entsteht also, wenn viele schwache Lernende in Reihe geschaltet werden. Jeder Baum, der in dieser Sequenz vorhanden ist, hat ein einziges Ziel: den Fehler zu reduzieren, den sein Vorgänger gemacht hat.

Wenn die Bäume auf diese Weise verbunden sind, können nicht alle Bäume voneinander unabhängig sein, wodurch die erste Aussage falsch wird. Wenn wir zur zweiten Aussage kommen, trifft sie hauptsächlich zu, weil dies in einem verstärkten Baum die Methode ist, die angewendet wird, um die Gesamtleistung des Modells zu verbessern. Die richtige Option ist B, dh nur die Aussage Nummer zwei ist WAHR und die Aussage Nummer eins ist FALSCH.

Q3. Sie werden unten vier Anweisungen sehen. Sie müssen sie alle sorgfältig lesen und dann eine der Optionen aus den Optionen auswählen, die den vier Aussagen folgt. Die Kontextfrage lautet: Wählen Sie die Aussagen aus, die über Radom-Wälder und die Gradientenverstärkungs-Ensemble-Methode zutreffen.

Sowohl Random-Forest- als auch Gradient-Boosting-Ensemble-Methoden können zur Durchführung der Klassifizierung verwendet werden.
Random Forests können zur Durchführung von Klassifizierungsaufgaben verwendet werden, während die Gradientenverstärkungsmethode nur Regression durchführen kann.
Gradient Boosting kann verwendet werden, um Klassifizierungsaufgaben durchzuführen, während das Random Forest-Verfahren nur Regression durchführen kann.
Sowohl Random-Forest- als auch Gradient-Boosting-Ensemble-Methoden können verwendet werden, um eine Regression durchzuführen.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Nur Aussage Nummer drei ist WAHR
Nur Aussage Nummer vier ist WAHR
Nur Aussage Nummer eins und vier ist WAHR

Ans. Die Antwort auf diese Frage ist einfach. Diese beiden Ensemble-Methoden sind tatsächlich sehr gut in der Lage, sowohl Klassifikations- als auch Regressionsaufgaben zu erledigen. Die Antwort auf diese Frage wäre also F, weil nur die Aussagen Nummer eins und vier WAHR sind.

Q4 Sie werden unten vier Aussagen sehen. Sie müssen sie alle sorgfältig lesen und dann eine der Optionen aus den Optionen auswählen, die den vier Aussagen folgt. Die kontextuelle Frage ist, stellen Sie sich einen zufälligen Wald von Bäumen vor. Was wird also über jeden oder einen der Bäume im zufälligen Wald wahr sein?

Jeder Baum, der den zufälligen Wald bildet, basiert auf der Teilmenge aller Merkmale.
Jeder der in einem zufälligen Wald ist auf allen Funktionen aufgebaut.
Jeder der Bäume in einem Random Forest basiert auf einer Teilmenge aller vorhandenen Beobachtungen.
Jeder der Bäume in einem zufälligen Wald ist auf dem vollständigen Beobachtungssatz aufgebaut.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Nur Aussage Nummer drei ist WAHR
Nur Aussage Nummer vier ist WAHR
Beide Aussagen Nummer eins und vier sind WAHR
Sowohl die Aussagen Nummer eins als auch drei sind WAHR
Beide Aussagen Nummer zwei und drei sind WAHR
Beide Aussagen Nummer zwei und vier sind WAHR

Ans. Die Generierung von Random Forests basiert auf dem Bagging-Konzept. Um einen zufälligen Wald aufzubauen, wird eine kleine Teilmenge sowohl aus den Beobachtungen als auch aus den Merkmalen genommen. Die nach Herausnahme der Teilmengen erhaltenen Werte werden dann in singuläre Entscheidungsbäume eingespeist. Dann werden alle Werte von all diesen Entscheidungsbäumen gesammelt, um die endgültige Entscheidung zu treffen. Das heißt, die einzigen korrekten Aussagen wären eins und drei. Die richtige Option wäre also G.

F5 Sie werden unten vier Aussagen sehen. Sie müssen sie alle sorgfältig lesen und dann eine der Optionen aus den Optionen auswählen, die den vier Aussagen folgt. Die kontextbezogene Frage lautet, wählen Sie die richtigen Aussagen über den als „max_depth“ bekannten Hyperparameter des Gradientenverstärkungsalgorithmus aus.

Die Auswahl eines niedrigeren Werts dieses Hyperparameters ist besser, wenn die Genauigkeit des Validierungssatzes ähnlich ist.
Die Auswahl eines höheren Werts dieses Hyperparameters ist besser, wenn die Genauigkeit des Validierungssatzes ähnlich ist.
Wenn wir den Wert dieses Hyperparameters erhöhen, steigt die Wahrscheinlichkeit, dass dieses Modell die Daten tatsächlich überanpasst.
Wenn wir den Wert dieses Hyperparameters erhöhen, steigt die Wahrscheinlichkeit, dass dieses Modell die Daten tatsächlich unzureichend anpasst.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Nur Aussage Nummer drei ist WAHR
Nur Aussage Nummer vier ist WAHR
Beide Aussagen Nummer eins und vier sind WAHR
Sowohl die Aussagen Nummer eins als auch drei sind WAHR
Beide Aussagen Nummer zwei und drei sind WAHR
Beide Aussagen Nummer zwei und vier sind WAHR

Ans. Der Hyperparameter max_depth steuert die Tiefe, bis die Gradientenverstärkung die präsentierten Daten davor modelliert. Wenn Sie den Wert dieses Hyperparameters weiter erhöhen, wird das Modell zwangsläufig überangepasst. Aussage Nummer drei ist also richtig. Wenn wir die gleichen Ergebnisse bei den Validierungsdaten haben, bevorzugen wir im Allgemeinen das Modell mit einer geringeren Tiefe. Die Aussagen Nummer eins und drei sind also richtig, und daher lautet die Antwort auf die Interviewfragen zu diesem Entscheidungsbaum g.

F6. Sie werden unten vier Anweisungen sehen. Sie müssen sie alle sorgfältig lesen und dann eine der Optionen aus den Optionen auswählen, die den vier Aussagen folgt. Die Kontextfrage ist, welche der folgenden Methoden keine Lernrate als einen ihrer abstimmbaren Hyperparameter hat.

Zusätzliche Bäume.
AdaBoost
Zufälliger Wald
Steigungsverstärkung.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Nur Aussage Nummer drei ist WAHR
Nur Aussage Nummer vier ist WAHR
Beide Aussagen Nummer eins und vier sind WAHR
Sowohl die Aussagen Nummer eins als auch drei sind WAHR
Beide Aussagen Nummer zwei und drei sind WAHR
Beide Aussagen Nummer zwei und vier sind WAHR

Ans. Nur Extra Trees und Random Forest haben keine Lernrate als einen ihrer einstellbaren Hyperparameter. Die Antwort wäre also g, weil die Aussagen Nummer eins und drei WAHR sind.

Q7. Wählen Sie die Option, die wahr ist.

Nur im Algorithmus des Random Forest können reale Werte behandelt werden, indem sie diskret gemacht werden.
Nur im Algorithmus der Gradientenverstärkung können reale Werte behandelt werden, indem sie diskret gemacht werden.
Sowohl beim Random-Forest- als auch beim Gradienten-Boosting können reale Werte gehandhabt werden, indem sie diskret gemacht werden.
Keine der oben genannten Optionen.

Ans. Beide Algorithmen sind fähig. Beide können problemlos mit den Funktionen umgehen, die echte Werte in sich haben. Die Antwort auf die Fragen und Antworten dieses Entscheidungsbaum-Interviews lautet also C.

Q8. Wählen Sie eine Option aus der Liste unten. Die Frage ist, wählen Sie den Algorithmus, der kein Ensemble-Lernalgorithmus ist.

Steigungsverstärkung
AdaBoost
Zusätzliche Bäume
Zufälliger Wald
Entscheidungsbäume

Ans. Diese Frage ist einfach. Nur einer dieser Algorithmen ist kein Ensemble-Lernalgorithmus. Eine zu beachtende Faustregel ist, dass jede Ensemble-Lernmethode die Verwendung von mehr als einem Entscheidungsbaum beinhalten würde. Da es in Option E nur den singulären Entscheidungsbaum gibt, handelt es sich nicht um einen Ensemble-Lernalgorithmus. Die Antwort auf diese Frage wäre also E (Entscheidungsbäume).

Q9. Sie werden zwei unten aufgeführte Anweisungen sehen. Sie müssen beide sorgfältig lesen und dann eine der Optionen aus den Optionen der beiden Aussagen auswählen. Die kontextuelle Frage ist, welche der folgenden Aussagen im Paradigma des Ensemblelernens zutreffen würden.

Der Baumbestand im Ensemble sollte möglichst hoch sein.
Sie werden immer noch in der Lage sein, zu interpretieren, was passiert, selbst nachdem Sie den Algorithmus von Random Forest implementiert haben.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Keine der oben genannten Optionen.

Ans. Da jede Ensemble-Lernmethode darauf basiert, eine kolossale Anzahl von Entscheidungsbäumen (die für sich genommen ein sehr schwacher Lerner sind) miteinander zu verbinden, ist es immer vorteilhaft, eine größere Anzahl von Bäumen zu haben, um Ihre Ensemble-Methode zu erstellen. Der Algorithmus von Random Forest ist jedoch wie eine Black Box. Sie werden nicht wissen, was im Inneren des Modells passiert. Sie verlieren also zwangsläufig die gesamte Interpretierbarkeit, nachdem Sie den Random-Forest-Algorithmus angewendet haben. Die richtige Antwort auf diese Frage wäre also A, denn nur die Aussage, die wahr ist, ist die Aussage Nummer eins.

Q10. Antworten Sie nur mit WAHR oder FALSCH. Der Bagging-Algorithmus funktioniert am besten für Modelle mit hoher Varianz und geringer Verzerrung?

Ans. Wahr. Bagging ist in der Tat am günstigsten, um für Modelle mit hoher Varianz und niedrigem Bias verwendet zu werden.

Q11. . Sie werden zwei unten aufgeführte Anweisungen sehen. Sie müssen beide sorgfältig lesen und dann eine der Optionen aus den Optionen der beiden Aussagen auswählen. Die kontextbezogene Frage ist, wählen Sie die richtigen Ideen für Bäume, die den Gradienten verstärken.

In jeder Boosting-Phase führt der Algorithmus einen weiteren Baum ein, um sicherzustellen, dass alle aktuellen Modellprobleme kompensiert werden.
Wir können einen Gradientenabstiegsalgorithmus anwenden, um die Verlustfunktion zu minimieren.
Nur Aussage Nummer eins ist WAHR.
Nur Aussage Nummer zwei ist WAHR.
Beide Aussagen eins und zwei sind WAHR.
Keine der oben genannten Optionen.

Ans. Die Antwort auf diese Frage ist C, was bedeutet, dass beide Optionen WAHR sind. Für die erste Anweisung funktioniert der Boosting-Algorithmus so. Die in das Modell eingeführten neuen Bäume dienen lediglich dazu, die Leistung des bestehenden Algorithmus zu steigern. Ja, der Gradientenabstiegsalgorithmus ist die Funktion, die angewendet wird, um die Verlustfunktion zu reduzieren.

Q12. Welche der folgenden Aussagen zur Lernrate im Gradienten-Boosting-Algorithmus sind richtig?

Die von Ihnen eingestellte Lernrate sollte möglichst hoch sein.
Die Lernrate, die Sie einstellen, sollte nicht so hoch wie möglich sein, sondern so niedrig wie möglich.
Die Lerngeschwindigkeit sollte niedrig, aber nicht sehr niedrig sein.
Die von Ihnen eingestellte Lernrate sollte hoch, aber nicht superhoch sein.

Ans. Die Lernrate sollte niedrig, aber nicht sehr niedrig sein, daher wäre die Antwort auf die Fragen und Antworten dieses Entscheidungsbaum-Interviews Option C.

Schauen Sie sich an: Interviewfragen für maschinelles Lernen

Was als nächstes?

Wenn Sie mehr über den Entscheidungsbaum Machine Learning erfahren möchten, sehen Sie sich das PG Diploma in Machine Learning & AI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben, IIIT-B-Alumni-Status, mehr als 5 praktische praktische Abschlussprojekte und Arbeitsunterstützung bei Top-Unternehmen.

Wie kann der Entscheidungsbaum verbessert werden?

Ein Entscheidungsbaum ist ein Werkzeug zum Erstellen einer einfachen visuellen Hilfe, in der bedingte autonome oder Entscheidungspunkte als Knoten und die verschiedenen möglichen Ergebnisse als Blätter dargestellt werden. Vereinfacht gesagt ist ein Entscheidungsbaum ein Modell des Entscheidungsprozesses. Sie können den Entscheidungsbaum verbessern, indem Sie sicherstellen, dass das Stoppkriterium immer explizit ist. Wenn das Stoppkriterium nicht explizit ist, fragt man sich, ob weitere Untersuchungen notwendig sind, und lässt auch Zweifel darüber aufkommen, ob man aufhören sollte oder nicht. Der Entscheidungsbaum sollte auch so aufgebaut sein, dass er leicht nachzuvollziehen ist und den Leser nicht verwirrt.

Warum ist die Genauigkeit des Entscheidungsbaums so gering?

Die Genauigkeit des Entscheidungsbaums ist geringer als erwartet. Dies kann aus folgenden Gründen geschehen: Schlechte Daten – Es ist sehr wichtig, die richtigen Daten für maschinelle Lernalgorithmen zu verwenden. Schlechte Daten können zu falschen Ergebnissen führen. Zufälligkeit – Manchmal ist das System so komplex, dass es unmöglich ist, vorherzusagen, was in der Zukunft passieren wird. In diesem Fall sinkt auch die Genauigkeit des Entscheidungsbaums. Overfitting – Der Entscheidungsbaum ist möglicherweise nicht in der Lage, die Eindeutigkeit der Daten zu erfassen, und kann daher als Verallgemeinerung betrachtet werden. Wenn die gleichen Daten zum Anpassen des Baums verwendet werden, kann es zu einer Überanpassung der Daten kommen.

Wie wird ein Entscheidungsbaum beschnitten?

Ein Entscheidungsbaum wird mit einem Branch-and-Bound-Algorithmus beschnitten. Ein Branch-and-Bound-Algorithmus findet die optimale Lösung für den Entscheidungsbaum, indem er durch die Knoten des Baums iteriert und den Wert der Zielfunktion bei jeder Iteration begrenzt. Die Zielfunktion ist der Wert des Entscheidungsbaums für das Unternehmen. An jedem Knoten entfernt der Algorithmus entweder einen Zweig des Baums oder beschneidet einen Zweig zu einem neuen Knoten. Das Beste daran ist, dass ein Zweig beschnitten werden kann, selbst wenn dies zu einer nicht optimalen Lösung führt.