Arbre de décision dans l'apprentissage automatique expliqué [avec exemples]
Publié: 2020-12-21introduction
L'apprentissage par arbre de décision est une technique d'exploration de données courante et une forme d'apprentissage automatique supervisé. Un arbre de décision est comme un diagramme à l'aide duquel les gens représentent une probabilité statistique ou trouvent le déroulement d'un événement, d'une action ou du résultat. Un exemple d'arbre de décision permet de mieux comprendre le concept.
Les branches du diagramme d'un arbre de décision montrent un résultat probable, une décision possible ou une réaction. La branche à la fin de l'arbre de décision affiche la prédiction ou un résultat. Les arbres de décision sont généralement utilisés pour trouver une solution à un problème qui devient compliqué à résoudre manuellement. Comprenons cela en détail à l'aide de quelques exemples d'arbres de décision.
Un arbre de décision est l'un des outils populaires et puissants utilisés pour la prédiction et la classification des données ou d'un événement. C'est comme un organigramme mais ayant une structure d'arbre. Les nœuds internes des arbres représentent un test ou une question sur un attribut ; chaque branche est le résultat possible de la question posée, et le nœud terminal, également appelé nœud feuille, désigne une étiquette de classe.
Dans un arbre de décision, nous avons plusieurs variables prédictives. En fonction de ces variables prédictives, essayez de prédire la variable dite de réponse.
Lecture connexe : Classification de l'arbre de décision : tout ce que vous devez savoir
Arbre de décision en ML
En représentant quelques étapes sous la forme d'une séquence, l'arbre de décision devient un moyen simple et efficace de comprendre et de visualiser les options de décision possibles et les résultats potentiels de la gamme. Les arbres de décision sont également utiles pour identifier les options possibles et peser les avantages et les risques par rapport à chaque plan d'action qui peut être obtenu.

Un arbre de décision est déployé dans de nombreuses organisations à petite et grande échelle comme une sorte de système d'aide à la prise de décision. Puisqu'un exemple d'arbre de décision est un modèle structuré, les lecteurs peuvent comprendre le graphique et analyser comment et pourquoi une option particulière peut conduire à une décision correspondante. L' exemple d'arbre de décision permet également au lecteur de prédire et d'obtenir plusieurs solutions possibles pour un seul problème, de comprendre le format et la relation entre différents événements et données avec la décision.
Chaque résultat dans l'arbre a un numéro ou un poids de récompense et de risque attribué. Si jamais vous utilisez un arbre de décision, vous aurez alors chaque résultat final avec un inconvénient et un avantage possibles. Pour conclure correctement votre arbre, vous pouvez l'étendre aussi court ou aussi long que nécessaire en fonction de l'événement et de la quantité de données. Prenons un exemple simple d'arbre de décision pour mieux le comprendre.
Considérez les données fournies qui consistent en des détails sur des personnes telles que : si elles sont buveuses, fumeuses, leur poids et l'âge auquel ces personnes sont décédées.
| Nom | Buveur | Fumeur | Poids | Âge (décédé) |
| Sam | Oui | Oui | 120 | 44 |
| Marie | Non | Non | 70 | 96 |
| Jonas | Oui | Non | 72 | 88 |
| Taylor | Oui | Oui | 55 | 52 |
| Jo | Non | Oui | 94 | 56 |
| Harry | Non | Non | 62 | 93 |
Essayons de prédire si les gens mourront à un âge plus jeune ou plus avancé. Les caractéristiques comme le buveur, le fumeur et le poids agiront comme une valeur prédictive. À l'aide de ceux-ci, nous considérerons l'âge comme une variable de réponse.
Indiquons que les personnes décédées avant l'âge de 70 ans sont décédées « jeunes » et les personnes décédées après l'âge de 70 ans sont décédées « âgées ». Prédisons maintenant la variable de réponse en fonction de la variable prédictive. Vous trouverez ci-dessous un arbre de décision réalisé après avoir appris les données.

L'arbre de décision ci-dessus explique que si une personne fume, elle meurt jeune. Si une personne n'est pas un fumeur, le facteur suivant pris en compte est de savoir si la personne est un buveur ou non. Si une personne ne fume pas et ne boit pas, elle meurt vieille.
Si une personne ne fume pas et boit, son poids est pris en compte. Si une personne ne fume pas, boit et pèse moins de 90 kg, elle meurt vieille. Et enfin, si une personne ne fume pas, boit et pèse plus de 90 kg, elle meurt jeune.

À partir des données fournies, prenons l'exemple de Jonas pour vérifier si l'arbre de décision est correctement classé et s'il prédit correctement la variable de réponse. Jonas ne fume pas, boit et pèse moins de 90 kg. Selon l'arbre de décision, il mourra vieux (âge auquel il meurt > 70 ans). De plus, selon les données, il est décédé à l'âge de 88 ans, cela signifie que l' exemple d'arbre de décision a été classé correctement et a parfaitement fonctionné.
Mais vous êtes-vous déjà interrogé sur l'idée de base derrière le fonctionnement d'un arbre de décision ? Dans un arbre de décision, l'ensemble d'instances est divisé en sous-ensembles de manière à réduire la variation dans chaque sous-ensemble. Autrement dit, nous voulons réduire l'entropie, et par conséquent, la variation est réduite et l'événement ou l'instance est essayé de devenir pur.


Considérons un exemple d'arbre de décision similaire . Tout d'abord, nous considérons si la personne est un fumeur ou non.

Ici, nous sommes incertains pour les non-fumeurs. Donc, nous l'avons divisé en buveur et non-buveur.

Nous pouvons voir sur le diagramme ci-dessous que nous sommes passés d'une entropie élevée ayant une grande variation à la réduire à une classe plus petite dans laquelle nous sommes plus sûrs. De cette manière, vous pouvez créer progressivement n'importe quel exemple d'arbre de décision .

Construisons un arbre de décision en utilisant l'algorithme ID3. Ce qui est plus important dans l'arbre de décision, c'est une solide compréhension de l'entropie. L'entropie n'est rien d'autre que le degré d'incertitude. Il est donné par :
![]()
(Parfois, il est également désigné par "E")
Si nous l'appliquons à l'exemple ci-dessus, cela se passera comme suit :
Considérez le cas où nous n'avons pas de personnes réparties dans une catégorie. C'est le pire des cas (entropie élevée) lorsque les deux types de personnes ont la même quantité. Le rapport ici est de 3:3.

De même, pour les personnes qui ne boivent pas, ayez un rapport de 1: 1 et l'entropie serait de 1. Ainsi, il faut une nouvelle division en raison de l'incertitude. Pour les personnes qui ne boivent pas, le ratio est de 2:0. L'entropie vaut donc 0.
Maintenant, nous avons calculé l'entropie pour les différents cas et nous pouvons donc calculer la moyenne pondérée pour le même.
Pour la première branche, E= 6 6 1=1
Pour la classe Fumeur, E= 2 6 0+ 4 6 0,811=0,54
Pour la classe fumeur et buveur, E= 2 6 0+ 2 6 1+ 2 6 0=0,33

Le schéma ci-dessous vous aidera à comprendre rapidement les calculs ci-dessus.

Enfin, le gain d'informations :
| Classer | Entropie | Gain d'informations (E2-E1) |
| Gens | 1 | 0,46 |
| Fumeur | 0,54 | 0,21 |
| Fumeur+buveur | 0,33 | – |
Lisez aussi: Questions et réponses de l'entretien sur l'arbre de décision
Conclusion
Nous avons étudié avec succès les arbres de décision en profondeur, de la théorie à un exemple pratique d'arbre de décision . Nous avons également construit un arbre de décision en utilisant l'algorithme ID3. Si vous avez trouvé cela intéressant, vous aimerez peut-être explorer la science des données en détail.
Si vous souhaitez en savoir plus sur les arbres de décision, l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions. , statut IIIT-B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.
Que sont les arbres de décision ?
Les arbres de décision sont utilisés pour organiser visuellement et organiser les informations de prise de décision. Les arbres sont dessinés de telle sorte que la racine soit en haut et les feuilles en bas. Les arbres de décision sont lus de bas en haut, en se déplaçant de gauche à droite. Chaque niveau de l'arbre est une base pour des tests supplémentaires et les décisions à chaque niveau réduiront la portée jusqu'à ce que la question soit résolue. Un arbre de décision décompose un problème ou une décision en plusieurs sous-décisions et suit le chemin logique vers la racine, qui est l'objectif principal. Les arbres de décision sont utilisés pour analyser l'environnement de l'entreprise, établir des priorités et fournir des informations, afin de prendre des décisions sur la direction à prendre.
Quels sont les enjeux de l'apprentissage par arbre de décision dans l'apprentissage automatique ?
Les arbres de décision peuvent être utilisés comme base pour tester de nouvelles stratégies ou pour expliquer des stratégies à d'autres. Un arbre de décision explique ce qui se passera sous un ensemble donné d'hypothèses. Ils peuvent également être utilisés pour évaluer la performance d'une stratégie qui a été utilisée dans le passé. Les arbres de décision sont connus pour être trop sensibles aux erreurs en raison de toutes leurs branches. Les arbres de décision ne sont pas toujours précis car, parfois, ils ne prennent pas en compte toutes les variables possibles, et la personne analysant l'arbre de décision peut ne pas être expérimentée dans tous les aspects de la situation particulière.
Quel type de données convient le mieux aux arbres de décision ?
Les arbres de décision vous aident à trouver des modèles dans les données à l'aide d'un organigramme comme une structure. Le meilleur type de données serait qualitatif, catégorique et numérique. Bien que les arbres de décision fonctionnent avec tous les types de données, ils fonctionnent mieux avec des données numériques. Ils doivent pouvoir avoir des valeurs qui sont des nombres ou il devrait y avoir un moyen de les traduire en nombres. Les arbres de décision dépendent fortement du type de données ainsi que de la quantité. Si le nombre de points de données est supérieur à 100, les arbres de décision seraient un bon modèle.
