Classification de l'arbre de décision : tout ce que vous devez savoir

Publié: 2020-05-29

Table des matières

introduction

De nombreuses analogies pourraient être introduites de la nature dans nos vies réelles ; les arbres se trouvent être l'un des plus influents d'entre eux. Les arbres ont eu un impact sur un domaine considérable de l'apprentissage automatique. Ils couvrent à la fois la classification essentielle et la régression. Lors de l'analyse de toute décision, un classificateur d'arbre de décision peut être utilisé pour représenter le processus de prise de décision.

Donc, fondamentalement, un arbre de décision fait partie de l'apprentissage automatique supervisé où le traitement des données se produit en divisant les données en continu, tout en gardant à l'esprit un paramètre particulier.

De quoi sont faits les arbres de décision ?

La réponse à la question est simple. Les arbres de décision sont constitués de trois éléments essentiels, l'analogie avec chacun d'eux pourrait être établie avec un arbre réel. Tous les trois sont listés ci-dessous :

  1. Nœuds : c'est l'endroit où le test de la valeur a lieu. Dans un nœud, la valeur d'un attribut spécifique est transmise, et il est vérifié et testé par rapport aux valeurs pour prendre une décision.
  2. Bords/branches : cette partie correspond au résultat de tout résultat de test. Les bords/branches sont également responsables de la liaison de deux nœuds ou feuilles différents.
  3. Nœuds feuilles : il s'agit des nœuds que l'on trouve généralement dans les terminaux. Les nœuds feuilles sont chargés de prédire le résultat.

Classification de l'arbre de décision

Les arbres de décision peuvent être classés en deux grandes catégories, à savoir les arbres de classification et les arbres de régression.

1. Arbres de classification

Les arbres de classification sont les types d'arbres de décision basés sur la réponse aux questions "Oui" ou "Non" et sur l'utilisation de ces informations pour prendre une décision. Ainsi, un arbre, qui détermine si une personne est apte ou inapte en posant un tas de questions connexes et en utilisant les réponses pour arriver à une solution viable, est un type d'arbre de classification.

Ces types d'arbres sont généralement construits en utilisant un processus appelé partitionnement récursif binaire. La méthode de partitionnement récursif binaire consiste à diviser les données en modules ou partitions séparés, puis ces partitions sont encore épissées dans chaque branche du classificateur d'arbre de décision .

2. Arbres de régression

Maintenant, un type d'arbre de décision de régression est différent du type de classification d'arbre de décision sur un aspect. Les données qui ont été introduites dans les deux arbres sont très différentes. Les arbres de classification traitent les données, qui sont discrètes, tandis que les arbres de décision de régression traitent le type de données continu. Un bon exemple d'arbres de régression serait le prix de l'immobilier ou la durée pendant laquelle un patient restera généralement à l'hôpital.

En savoir plus : Régression linéaire dans l'apprentissage automatique

Comment sont créés les arbres de décision ?

Les arbres de décision sont créés en prenant l'ensemble de données sur lequel le modèle doit être formé (les arbres de décision font partie de l'apprentissage automatique supervisé). Cet ensemble de données de formation doit être continuellement épissé en sous-ensembles de données plus petits. Ce processus est complété par la création d'un arbre d'association qui est progressivement créé côte à côte lors du processus de décomposition des données. Une fois que la machine a fini d'apprendre, la création d'un arbre de décision basé sur l'ensemble de données d'apprentissage qui a été fourni se termine, et cet arbre est ensuite renvoyé à l'utilisateur.

L'idée centrale derrière l'utilisation d'un arbre de décision est de séparer les données en deux régions principales, la région avec la population dense (cluster) ou la zone, qui sont des régions vides (ou clairsemées).

La classification par arbre de décision fonctionne sur un principe élémentaire de division. Il conquiert où tout nouvel exemple introduit dans l'arbre, après avoir traversé une série de tests, serait organisé et recevrait une étiquette de classe. L'algorithme de diviser pour régner est discuté en détail ci-dessous :

Diviser et conquérir

Il est évident que le classificateur d'arbre de décision est basé et construit en utilisant une heuristique connue sous le nom de partitionnement récursif, également connue sous le nom d'algorithme diviser pour régner. Il décompose les données en ensembles plus petits et continue de le faire. Tant qu'il n'a pas déterminé que les données de chaque sous-ensemble sont homogènes, ou si l'utilisateur a défini un autre critère d'arrêt, cela mettrait fin à cet algorithme.

Comment fonctionne le classificateur d'arbre de décision ?

  1. L'algorithme diviser pour mieux régner est utilisé pour créer un classificateur d'arbre de décision . En utilisant l'algorithme, nous commençons toujours à la racine de l'arbre et nous divisons également l'ensemble de données pour réduire l'incertitude dans la décision finale.
  2. Il s'agit d'un processus itératif. Donc, nous répétons ce processus à chaque nœud. Ce processus se répète jusqu'au moment où nous n'avons plus les nœuds de la pureté que nous désirons.
  3. Généralement, pour éviter le surajustement on se fixe une limite de pureté à atteindre. Cela signifie que le résultat final pourrait ne pas être pur à 100 %.

Principes de base de l'algorithme diviser pour mieux régner :

  1. Vient d'abord le choix ou la sélection d'un test pour le nœud racine. Commence alors le processus de création des branches. Les branches sont conçues en gardant à l'esprit chaque résultat possible de l'essai qui a été défini.
  2. Vient ensuite le fractionnement des instances de données en sous-ensembles plus petits. Chaque branche aurait sa propre épissure, qui est connectée au nœud.
  3. Ce processus doit ensuite être répété pour chaque branche en utilisant uniquement les instances qui arrivent sur la branche en question.
  4. Ce processus récursif doit être arrêté si toutes les instances appartiennent à la même classe.

Avantages de l'utilisation de la classification par arbre de décision

  1. Il ne nécessite pas une énorme somme d'argent pour construire.
  2. Il s'agit d'un processus rapide de classification des documents nouveaux ou inconnus.
  3. Il peut être très facilement interprété, surtout si l'arbre est de petite taille.
  4. La précision de la prédiction à l'aide du classificateur d'arbre de décision est comparable à d'autres méthodes de prédiction ou de classification.
  5. Il a également la capacité d'exclure les fonctionnalités qui ne sont pas importantes. Ce processus d'élimination des fonctionnalités non pertinentes se fait automatiquement.

Lire : Comment créer un arbre de décision parfait ?

Inconvénients de l'utilisation du classificateur d'arbre de décision

  1. Le surajustement de l'ensemble de données est très facile dans ce cas.
  2. La frontière de la décision a une restriction. Il ne peut être que parallèle aux axes, qui contiennent les attributs.
  3. Les modèles basés sur des arbres de décision ont souvent des divisions biaisées qui ont un nombre énorme de niveaux.
  4. Toute petite modification apportée à l'ensemble de données peut avoir un impact significatif sur la logique qui gouverne la décision.
  5. Les arbres Lager sont difficiles à comprendre car ils peuvent parfois sembler très contre-intuitifs.

Lisez aussi : Arbres de décision dans l'apprentissage automatique

Apprenez des cours de science des données dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Conclusion

Les arbres de décision sont utiles lorsque nous sommes confrontés à des problèmes qui ne peuvent pas être traités avec des solutions linéaires. D'après les observations, il a été noté que les modèles arborescents peuvent facilement cartographier la non-linéarité des entrées et éliminer efficacement le problème en question. Des méthodes sophistiquées telles que la génération aléatoire de forêts et l'amplification de gradient sont toutes basées sur le classificateur d'arbre de décision lui-même.

Les arbres de décision sont un outil puissant qui peut être utilisé dans de nombreux domaines de la vie réelle tels que le génie biomédical, l'astronomie, le contrôle des systèmes, les médicaments, la physique, etc. Cela fait de la classification des arbres de décision un outil essentiel et indispensable de l'apprentissage automatique.

Les arbres de décision ont-ils tendance à sur-adapter ?

Les arbres de décision fragmentent les données complexes en formes plus simples. Une classification d'arbre de décision essaie de diviser les données jusqu'à ce qu'elles ne puissent plus être divisées. Un tableau clair de tous les contenus possibles est alors créé, ce qui aide à une analyse plus approfondie. Alors qu'un vaste arbre avec de nombreuses épissures nous donne un chemin droit, il peut également générer un problème lors du test des données. Cet épissage excessif conduit à un surajustement, dans lequel de nombreuses divisions entraînent une croissance considérable de l'arbre. Dans de tels cas, la capacité prédictive de l'arbre de décision est compromise et, par conséquent, il devient instable. L'élagage est une technique utilisée pour traiter le surajustement, où les sous-ensembles excessifs sont supprimés.

Les arbres de décision ont-ils besoin d'être normalisés ?

Les arbres de décision sont l'algorithme d'apprentissage automatique le plus couramment utilisé pour la classification et la régression des données. Ce mécanisme supervisé répartit les données par sous-ensemble en divers groupes jusqu'à ce qu'elles atteignent le nœud feuille, où elles ne peuvent plus être divisées. Étant donné que ces données seront divisées en catégories en fonction des attributs fournis, elles seront également réparties. Cela signifie que les données qui sont passées par la normalisation et les données qui ne l'ont pas fait auraient le même nombre de fractionnements. Par conséquent, la normalisation n'est pas une condition préalable pour les modèles d'arbres décisionnels.

Comment épisser les arbres de décision ?

Les arbres de décision sont un mécanisme fiable pour classer les données et prévoir des solutions. L'épissage dans un arbre de décision nécessite de la précision ; une petite erreur peut compromettre l'intégrité de l'arbre de décision. L'épissage dans un arbre de décision se produit à l'aide d'un partitionnement récursif. Le fractionnement des données commence par la création de sous-ensembles de données via les attributs qui leur sont attribués. Les données sont divisées de manière récursive en répétition jusqu'à ce que les données épissées à chaque nœud soient jugées obsolètes dans la prédiction des solutions. Le sous-ensemble peut également être similaire à la valeur de la variable cible. L'épissage doit être méthodique et répétitif pour une bonne précision.