Questions et réponses sur l'entretien de l'arbre de décision [Pour les débutants et les expérimentés]

Publié: 2020-09-22

Dans le monde de l'apprentissage automatique, les arbres de décision sont l'un d'entre eux, sinon le plus respectable, algorithme. Les arbres de décision sont également puissants. Les arbres de décision sont utilisés à la fois pour prédire les valeurs continues (régression) ou pour prédire les classes (effectuer une classification ou une classification) des instances fournies à l'algorithme.

Les arbres de décision sont similaires à un organigramme dans leur structure. Le nœud de tout arbre de décision représente un test effectué sur l'attribut. Chaque branche de l'arbre de décision est représentative des résultats de l'examen effectué sur chaque nœud. Le nœud de chaque feuille (également connu sous le nom de nœuds terminaux) contient l'étiquette de la classe.

C'était à propos de la structure de l'arbre; cependant, la montée en flèche de la popularité des arbres de décision n'est pas due à la façon dont ils sont créés. La transparence de l'arbre lui donne une place à part dans le monde dominé par des algorithmes puissants et utiles. Vous pouvez en fait tout faire à la main pour un petit arbre de décision, et vous pouvez prédire comment l'arbre de décision serait formé. Pour les arbres de plus grande taille, cet exercice devient assez fastidieux.

Cependant, cela ne signifie pas que vous ne pourrez pas comprendre ce que fait l'arbre à chaque nœud. La capacité de saisir ce qui se passe dans les coulisses ou sous le capot différencie vraiment les arbres de décision de tout autre algorithme d'apprentissage automatique.

Comme nous l'avons vu à quel point les arbres de décision sont vitaux, il est inhérent que les arbres de décision seraient également essentiels pour tout professionnel de l'apprentissage automatique ou scientifique des données. Pour vous aider à comprendre ce concept et en même temps pour vous aider à obtenir ce style d'entretien supplémentaire, nous avons dressé une liste complète de questions d'entretien d'arbre de décision et de questions et réponses d'entretien d'arbre de décision. Ces questions devraient vous aider à réussir n'importe quel entretien. Essayez de résoudre chacune de ces questions avant de lire les solutions pour tirer le meilleur parti de ces questions.

Table des matières

Questions et réponses de l'entrevue sur l'arbre de décision

Q1. Vous verrez deux déclarations énumérées ci-dessous. Vous devrez les lire attentivement, puis choisir l'une des options parmi les options des deux déclarations. La question contextuelle est, Choisissez les déclarations qui sont vraies sur l'ensachage des arbres.

Les arbres individuels ne dépendent pas du tout les uns des autres pour un arbre d'ensachage.
Pour améliorer les performances globales du modèle, l'agrégat est prélevé sur les apprenants faibles. Cette méthode est connue sous le nom d'arbres d'ensachage.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Aucune des options mentionnées ci-dessus.

Rép. La bonne réponse à cette question est C car, pour un arbre d'ensachage, ces deux affirmations sont vraies. Dans les arbres d'ensachage ou l'agrégation bootstrap, l'objectif principal de l'application de cet algorithme est de réduire la quantité de variance présente dans l'arbre de décision. Le mécanisme de création d'un arbre d'ensachage est qu'avec le remplacement, un certain nombre de sous-ensembles sont extraits de l'échantillon présent pour l'apprentissage des données.

Désormais, chacun de ces petits sous-ensembles de données est utilisé pour former un arbre de décision distinct. Étant donné que les informations qui sont introduites dans chaque arbre s'avèrent uniques, la probabilité qu'un arbre ait un impact sur l'autre devient très faible. Le résultat final que tous ces arbres donnent est collecté puis traité pour fournir la sortie. Ainsi, la deuxième affirmation s'avère également vraie.

Q2. Vous verrez deux déclarations énumérées ci-dessous. Vous devrez les lire attentivement, puis choisir l'une des options parmi les options des deux déclarations. La question contextuelle est, choisissez les déclarations qui sont vraies sur le renforcement des arbres.

Les apprenants faibles dans un arbre boostant sont indépendants les uns des autres.
Les performances des apprenants faibles sont toutes collectées et agrégées pour améliorer les performances globales de l'arbre boosté.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Aucune des options mentionnées ci-dessus.

Rép. Si vous deviez comprendre comment se fait le boosting des arbres, vous comprendrez et pourrez différencier l'énoncé correct de l'énoncé, qui est faux. Ainsi, un arbre boosté est créé lorsque de nombreux apprenants faibles sont connectés en série. Chaque arbre présent dans cette séquence n'a qu'un seul but : réduire l'erreur commise par son prédécesseur.

Si les arbres sont connectés de cette manière, tous les arbres ne peuvent pas être indépendants les uns des autres, rendant ainsi la première affirmation fausse. En ce qui concerne la deuxième affirmation, elle est vraie principalement parce que, dans un arbre boosté, c'est la méthode qui est appliquée pour améliorer les performances globales du modèle. L'option correcte sera B, c'est-à-dire que seule la déclaration numéro deux est VRAIE et la déclaration numéro un est FAUX.

Q3. Vous verrez quatre déclarations énumérées ci-dessous. Vous devrez tous les lire attentivement, puis choisir l'une des options parmi les options qui suivent les quatre déclarations. La question contextuelle est, Choisissez les déclarations qui sont vraies sur les forêts de Radom et la méthode d'ensemble Gradient boosting.

Les méthodes d'ensemble Random forest et Gradient boosting peuvent être utilisées pour effectuer la classification.
Les forêts aléatoires peuvent être utilisées pour effectuer des tâches de classification, tandis que la méthode de renforcement du gradient ne peut effectuer que la régression.
L'amplification de gradient peut être utilisée pour effectuer des tâches de classification, tandis que la méthode Random Forest ne peut effectuer que la régression.
Les méthodes d'ensemble Random forest et Gradient boosting peuvent être utilisées pour effectuer une régression.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Seul l'énoncé numéro trois est VRAI
Seule la déclaration numéro quatre est VRAIE
Seuls les énoncés numéro un et quatre sont VRAI

Rép. La réponse à cette question est simple. Ces deux méthodes d'ensemble sont en fait très capables d'effectuer à la fois des tâches de classification et de régression. Ainsi, la réponse à cette question serait F car seules les affirmations numéro un et quatre sont VRAIES.

Q4 Vous verrez quatre déclarations énumérées ci-dessous. Vous devrez tous les lire attentivement, puis choisir l'une des options parmi les options qui suivent les quatre déclarations. La question contextuelle est, considérons une forêt aléatoire d'arbres. Alors, qu'est-ce qui sera vrai à propos de chacun ou de l'un des arbres de la forêt aléatoire ?

Chaque arbre qui constitue la forêt aléatoire est basé sur le sous-ensemble de toutes les caractéristiques.
Chacun des éléments d'une forêt aléatoire est construit sur toutes les fonctionnalités.
Chacun des arbres d'une forêt aléatoire est construit sur un sous-ensemble de toutes les observations présentes.
Chacun des arbres d'une forêt aléatoire est construit sur l'ensemble d'observation complet.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Seul l'énoncé numéro trois est VRAI
Seule la déclaration numéro quatre est VRAIE
Les deux déclarations numéro un et quatre sont vraies
Les énoncés numéro un et trois sont VRAI
Les énoncés numéro deux et trois sont VRAI
Les énoncés numéro deux et quatre sont VRAI

Rép. La génération de forêts aléatoires est basée sur le concept de bagging. Pour construire une forêt aléatoire, un petit sous-ensemble est tiré à la fois des observations et des caractéristiques. Les valeurs obtenues après suppression des sous-ensembles sont ensuite introduites dans des arbres de décision singuliers. Ensuite, toutes les valeurs de tous ces arbres de décision sont collectées pour prendre la décision finale. Cela signifie que les seules déclarations correctes seraient un et trois. Donc, la bonne option serait G.

Q5 Vous verrez quatre déclarations énumérées ci-dessous. Vous devrez tous les lire attentivement, puis choisir l'une des options parmi les options qui suivent les quatre déclarations. La question contextuelle est de sélectionner les déclarations correctes concernant l'hyperparamètre connu sous le nom de "max_depth" de l'algorithme d'amplification du gradient.

Choisir une valeur inférieure de cet hyperparamètre est préférable si la précision de l'ensemble de validation est similaire.
Choisir une valeur plus élevée de cet hyperparamètre est préférable si la précision de l'ensemble de validation est similaire.
Si nous voulons augmenter la valeur de cet hyperparamètre, alors les chances que ce modèle surajuste réellement les données augmentent.
Si nous voulons augmenter la valeur de cet hyperparamètre, alors les chances que ce modèle sous-ajuste réellement les données augmentent.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Seul l'énoncé numéro trois est VRAI
Seule la déclaration numéro quatre est VRAIE
Les deux déclarations numéro un et quatre sont vraies
Les énoncés numéro un et trois sont VRAI
Les énoncés numéro deux et trois sont VRAI
Les énoncés numéro deux et quatre sont VRAI

Rép. L'hyperparamètre max_depth contrôle la profondeur jusqu'à ce que l'amplification du gradient modélise les données présentées devant lui. Si vous continuez à augmenter la valeur de cet hyperparamètre, le modèle est lié à un surajustement. Donc, la déclaration numéro trois est correcte. Si nous avons les mêmes scores sur les données de validation, nous préférons généralement le modèle avec une profondeur moindre. Ainsi, les déclarations numéro un et trois sont correctes, et donc la réponse à ces questions d'entretien sur l'arbre de décision est g.

Q6. Vous verrez quatre déclarations énumérées ci-dessous. Vous devrez tous les lire attentivement, puis choisir l'une des options parmi les options qui suivent les quatre déclarations. La question contextuelle est laquelle des méthodes suivantes n'a pas de taux d'apprentissage comme l'un de leurs hyperparamètres accordables.

Arbres supplémentaires.
AdaBoost
Forêt aléatoire
Amplification du dégradé.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Seul l'énoncé numéro trois est VRAI
Seule la déclaration numéro quatre est VRAIE
Les deux déclarations numéro un et quatre sont vraies
Les énoncés numéro un et trois sont VRAI
Les énoncés numéro deux et trois sont VRAI
Les énoncés numéro deux et quatre sont VRAI

Rép. Seuls les arbres supplémentaires et la forêt aléatoire n'ont pas de taux d'apprentissage parmi leurs hyperparamètres réglables. Ainsi, la réponse serait g parce que les affirmations numéro un et trois sont VRAIES.

Q7. Choisissez l'option, ce qui est vrai.

Ce n'est que dans l'algorithme de forêt aléatoire que les valeurs réelles peuvent être manipulées en les rendant discrètes.
Ce n'est que dans l'algorithme de gradient boosting que les valeurs réelles peuvent être manipulées en les rendant discrètes.
Dans les forêts aléatoires et les amplifications de gradient, les valeurs réelles peuvent être gérées en les rendant discrètes.
Aucune des options mentionnées ci-dessus.

Rép. Les deux algorithmes sont capables. Ils peuvent tous les deux facilement gérer les fonctionnalités qui ont des valeurs réelles en eux. Ainsi, la réponse à ces questions et réponses d'entretien sur l'arbre de décision est C.

Q8. Choisissez une option dans la liste ci-dessous. La question est de choisir l'algorithme qui n'est pas un algorithme d'apprentissage d'ensemble.

Amplification du dégradé
AdaBoost
Arbres supplémentaires
Forêt aléatoire
Arbres de décision

Rép. Cette question est simple. Un seul de ces algorithmes n'est pas un algorithme d'apprentissage d'ensemble. Une règle empirique à garder à l'esprit sera que toute méthode d'apprentissage d'ensemble impliquerait l'utilisation de plus d'un arbre de décision. Puisque dans l'option E, il n'y a que l'arbre de décision singulier, alors ce n'est pas un algorithme d'apprentissage d'ensemble. Ainsi, la réponse à cette question serait E (arbres de décision).

Q9. Vous verrez deux déclarations énumérées ci-dessous. Vous devrez les lire attentivement, puis choisir l'une des options parmi les options des deux déclarations. La question contextuelle est de savoir laquelle des propositions suivantes serait vraie dans le paradigme de l'apprentissage d'ensemble.

Le nombre d'arbres dans l'ensemble doit être aussi élevé que possible.
Vous pourrez toujours interpréter ce qui se passe même après avoir implémenté l'algorithme de Random Forest.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Aucune des options mentionnées ci-dessus.

Rép. Étant donné que toute méthode d'apprentissage d'ensemble est basée sur le couplage d'un nombre colossal d'arbres de décision (qui en soi est un apprenant très faible), il sera donc toujours avantageux d'avoir plus d'arbres pour créer votre méthode d'ensemble. Cependant, l'algorithme de la forêt aléatoire est comme une boîte noire. Vous ne saurez pas ce qui se passe à l'intérieur du modèle. Ainsi, vous risquez de perdre toute interprétabilité après avoir appliqué l'algorithme de forêt aléatoire. Ainsi, la bonne réponse à cette question serait A car seule la déclaration qui est vraie est la déclaration numéro un.

Q10. Répondez uniquement par VRAI ou FAUX. L'algorithme de bagging fonctionne mieux pour les modèles qui ont une variance élevée et un faible biais ?

Rép. Vrai. L'ensachage est en effet le plus favorable pour être utilisé pour un modèle à forte variance et à faible biais.

Q11. . Vous verrez deux déclarations énumérées ci-dessous. Vous devrez les lire attentivement, puis choisir l'une des options parmi les options des deux déclarations. La question contextuelle est de choisir les bonnes idées pour les arbres boostant le dégradé.

À chaque étape du boosting, l'algorithme introduit un autre arbre pour s'assurer que tous les problèmes actuels du modèle sont compensés.
Nous pouvons appliquer un algorithme de descente de gradient pour minimiser la fonction de perte.
Seule la déclaration numéro un est VRAI.
Seule la déclaration numéro deux est VRAI.
Les deux énoncés un et deux sont VRAI.
Aucune des options mentionnées ci-dessus.

Rép. La réponse à cette question est C, ce qui signifie que les deux options sont VRAIES. Pour la première instruction, c'est ainsi que fonctionne l'algorithme de boosting. Les nouveaux arbres introduits dans le modèle ne servent qu'à augmenter les performances de l'algorithme existant. Oui, l'algorithme de descente de gradient est la fonction qui est appliquée pour réduire la fonction de perte.

Q12. Dans l'algorithme de gradient boosting, lesquelles des affirmations ci-dessous sont correctes concernant le taux d'apprentissage ?

Le taux d'apprentissage que vous définissez doit être aussi élevé que possible.
Le taux d'apprentissage que vous définissez ne doit pas être aussi élevé que possible, mais aussi bas que possible.
Le taux d'apprentissage doit être faible mais pas très faible.
Le taux d'apprentissage que vous définissez doit être élevé mais pas très élevé.

Rép. Le taux d'apprentissage devrait être faible, mais pas très faible, donc la réponse aux questions et réponses de l'entretien de cet arbre de décision serait l'option C.

Découvrez : Questions d'entretien sur l'apprentissage automatique

Et ensuite ?

Si vous souhaitez en savoir plus sur l'arbre de décision, l'apprentissage automatique, consultez le diplôme PG d'IIIT-B et upGrad en apprentissage automatique et IA, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et affectations, statut IIIT-B Alumni, 5+ projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Comment améliorer l'arbre de décision ?

Un arbre de décision est un outil permettant de créer une aide visuelle simple dans laquelle les points autonomes conditionnels ou de décision sont représentés sous forme de nœuds et les différents résultats possibles sous forme de feuilles. En termes simples, un arbre de décision est un modèle du processus de prise de décision. Vous pouvez améliorer l'arbre de décision en vous assurant que les critères d'arrêt sont toujours explicites. Lorsque les critères d'arrêt ne sont pas explicites, cela laisse à se demander si une exploration plus approfondie est nécessaire, et laisse également des doutes quant à savoir s'il faut s'arrêter ou non. L'arbre de décision doit également être construit de manière à être facile à suivre et à ne pas embrouiller le lecteur.

Pourquoi la précision de l'arbre de décision est-elle si faible ?

La précision de l'arbre de décision est inférieure à ce à quoi nous nous attendions. Cela peut se produire pour les raisons suivantes : Mauvaises données - Il est très important d'utiliser les bonnes données pour les algorithmes d'apprentissage automatique. De mauvaises données peuvent conduire à des résultats erronés. Aléatoire - Parfois, le système est si complexe qu'il est impossible de prédire ce qui se passera à l'avenir. Dans ce cas, la précision de l'arbre de décision chutera également. Surajustement - L'arbre de décision peut ne pas être en mesure de capturer l'unicité des données, et il peut donc être considéré comme une généralisation. Si les mêmes données sont utilisées pour ajuster l'arbre, cela peut sur-ajuster les données.

Comment un arbre de décision est-il élagué ?

Un arbre de décision est élagué à l'aide d'un algorithme de branchement et de liaison. Un algorithme de branchement et de liaison trouve la solution optimale à l'arbre de décision en itérant à travers les nœuds de l'arbre et en bornant la valeur de la fonction objectif à chaque itération. La fonction objectif est la valeur de l'arbre de décision pour l'entreprise. À chaque nœud, l'algorithme supprime une branche de l'arbre ou taille une branche vers un nouveau nœud. La meilleure partie est qu'une branche peut être élaguée même si elle conduit à une solution non optimale.