Guide de l'algorithme d'arbre de décision : applications, avantages et inconvénients et exemple

Publié: 2020-12-10

Il existe différents types d'algorithmes d'apprentissage automatique, et chacun d'eux a des applications uniques. Dans cet article, nous examinerons l'un des algorithmes ML les plus populaires et les plus utiles, l'algorithme Decision Tree. Nous avons discuté d'un exemple d'arbre de décision dans R pour vous aider à vous familiariser avec son utilisation. Commençons.

Table des matières

Qu'est-ce qu'un algorithme d'arbre de décision ?

Un arbre de décision est une sorte d'algorithme d'apprentissage automatique supervisé qui comporte un nœud racine et des nœuds feuilles. Chaque nœud représente une fonctionnalité et les liens entre les nœuds montrent la décision. Chaque feuille représente un résultat.

Supposons que vous vouliez aller au marché pour acheter des légumes. Vous avez deux choix : soit vous partez, soit vous ne partez pas. Si vous n'y allez pas, vous n'obtiendrez pas les légumes, mais si vous le faites, vous devrez vous rendre au marché, ce qui mène à une autre section de choix. Un arbre de décision fonctionne exactement comme ceci.

Applications d'arbres de décision

Voici quelques applications des arbres de décision :

Commercialisation:

Les entreprises peuvent utiliser des arbres de décision pour améliorer la précision de leurs campagnes promotionnelles en observant les performances des produits et services de leurs concurrents. Les arbres de décision peuvent aider à la segmentation de l'audience et aider les entreprises à produire des publicités mieux ciblées qui ont des taux de conversion plus élevés.

Fidélisation des clients :

Les entreprises utilisent des arbres de décision pour fidéliser leurs clients en analysant leurs comportements et en lançant de nouvelles offres ou de nouveaux produits adaptés à ces comportements. En utilisant des modèles d'arbre de décision, les entreprises peuvent également déterminer le niveau de satisfaction de leurs clients.

Diagnostic des maladies et des affections :

Les arbres décisionnels peuvent aider les médecins et les professionnels de la santé à identifier les patients qui présentent un risque plus élevé de développer des maladies graves (ou évitables) telles que le diabète ou la démence. La capacité des arbres de décision à restreindre les possibilités en fonction de variables spécifiques est très utile dans de tels cas.

Détection des Fraudes :

Les entreprises peuvent prévenir la fraude en utilisant des arbres de décision pour identifier au préalable les comportements frauduleux. Cela peut permettre aux entreprises d'économiser beaucoup de ressources, y compris du temps et de l'argent.

Avantages et inconvénients des arbres de décision

Avantages de l'algorithme d'arbre de décision :

Voici les principaux avantages de l'utilisation d'un arbre de décision dans R :

  • Comprendre les résultats est plus facile que d'autres modèles. Vous pouvez demander à l'équipe technique de programmer votre modèle d'arbre de décision, afin qu'il fonctionne plus rapidement et que vous puissiez l'appliquer à de nouvelles instances. Ses calculs comportent des tests d'inclusion selon une instance, qui est un modèle qualitatif ou quantitatif.
  • Il est non paramétrique. Les variables indépendantes présentes dans notre problème n'ont pas à suivre de distributions de probabilité spécifiques pour cette raison. Vous pouvez avoir des variables colinéaires. Qu'ils soient discriminants ou non, cela n'a pas d'impact sur votre arbre de décision car il n'a pas à choisir ces variables.
  • Ils sont capables de travailler avec des valeurs manquantes. CHAID place toutes les valeurs manquantes dans une catégorie, que vous pouvez fusionner avec une autre ou séparer des autres.
  • Les valeurs individuelles extrêmes (telles que les valeurs aberrantes) n'ont pas beaucoup d'effet sur les arbres de décision. Vous pouvez les isoler dans de petits nœuds afin qu'ils n'affectent pas l'ensemble de la classification.
  • Il vous donne une excellente représentation visuelle d'un processus de prise de décision. Chaque branche d'un arbre de décision représente les facteurs qui peuvent affecter vos décisions, et vous obtenez une vue d'ensemble. Vous pouvez utiliser des arbres de décision pour améliorer la communication au sein de votre équipe.
  • Les arbres CART peuvent gérer directement tous les types de variables, y compris les variables qualitatives, continues et discrètes.

Inconvénients de l'algorithme d'arbre de décision

  • Il n'analyse pas toutes les variables indépendantes simultanément. Au lieu de cela, il les évalue de manière séquentielle. Pour cette raison, l'arbre ne révise jamais la division d'un nœud à aucun niveau, ce qui peut entraîner un biais dans les choix de l'arbre.
  • Modifier ne serait-ce qu'une seule variable peut affecter l'arbre entier s'il est proche du sommet. Il existe des moyens de résoudre ce problème. Par exemple, vous pouvez construire l'arbre sur plusieurs échantillons et les agréger selon une moyenne (ou un vote) ; c'est ce qu'on appelle le rééchantillonnage. Cependant, cela conduit à un autre ensemble de problèmes car cela réduit la lisibilité du modèle en le rendant plus complexe. Ainsi, grâce au rééchantillonnage, vous pouvez vous débarrasser des meilleures qualités des arbres de décision. Pourquoi est-ce un problème ? Supposons qu'une variable ait toutes les qualités d'un groupe particulier, mais qu'elle ait aussi la qualité selon laquelle l'arbre se divise. Dans ce cas, l'arbre le mettrait dans la mauvaise classe simplement parce qu'il a cette qualité importante.
  • Tous les nœuds d'un niveau spécifique dans un arbre de décision dépendent des nœuds de leurs niveaux précédents. En d'autres termes, la manière dont vous définissez les nœuds au niveau 'n +1' dépend entièrement de votre définition des nœuds au niveau 'n'. Si votre définition au niveau 'n' est erronée, tous les niveaux suivants et les nœuds présents dans ces niveaux seraient également erronés.

Apprendre : Régression linéaire dans l'apprentissage automatique

Arbre de décision dans R (exemple)

Vous aurez besoin de rpart pour créer un arbre de décision dans R. Nous utilisons rpart pour la classification. Dans R, vous construisez un arbre de décision sur la base d'un algorithme de partitionnement récursif qui génère une décision, et avec elle, des arbres de régression. Il comporte deux étapes :

  • Tout d'abord, il identifiera une variable qui divise les données en deux groupes distincts de la meilleure façon possible.
  • Deuxièmement, il répétera le processus de l'étape précédente sur chaque sous-groupe jusqu'à ce que ces groupes atteignent une taille particulière ou s'il ne peut plus apporter d'améliorations à ces sous-groupes.

Nous avons les données suivantes à titre d'exemple :

Dans les données ci-dessus, vous avez le temps et l'accélération d'un vélo. Il faut prévoir son accélération en fonction du temps. Nous le ferons en procédant comme suit :

1bibliothèque(rpart)

Chargez ensuite les données :

1données(vélo)

Maintenant, nous allons créer un nuage de points :

1plot (accélération ~ fois, données = vélo)

Une fois, nous avons fait cela, et nous allons créer l'arbre :

1mct <- rpart(accel ~ times, data=bike)

Notre dernière étape consiste à tracer le graphique :

1Parcelle(mct)

Lire : Comment créer un arbre de décision parfait ?

Dernières pensées

Nous avons maintenant un modèle parfaitement fonctionnel de l'arbre de décision dans R. Vous pouvez trouver d'autres tutoriels similaires sur notre blog.

Si vous souhaitez en savoir plus sur les arbres de décision, l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions. , statut IIIT-B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Quelle est la caractéristique la plus importante d'un algorithme d'arbre de décision ?

Les algorithmes d'arbre de décision sont un outil précieux pour la décision et l'analyse des risques et sont souvent exprimés sous forme de graphique ou de liste de règles. La simplicité d'utilisation des algorithmes d'arbre de décision est l'une de ses caractéristiques les plus essentielles. Ils sont facilement compréhensibles et pertinents puisqu'ils sont visuels. Même si les utilisateurs ne sont pas familiers avec la construction d'algorithmes d'arbre de décision, ils peuvent l'appliquer avec succès. Les algorithmes d'arbre de décision sont le plus souvent utilisés pour anticiper les événements futurs en fonction de l'expérience antérieure et pour aider à la prise de décision rationnelle. Un autre domaine important des algorithmes d'arbre de décision est l'exploration de données, où les arbres de décision sont utilisés comme outil de classification et de modélisation, comme discuté plus en détail ci-dessous.

Quelle est l'importance d'un algorithme d'arbre de décision ?

Un algorithme d'arbre de décision a l'avantage important de forcer l'analyse de tous les résultats imaginables d'une décision et de suivre chaque chemin vers une conclusion. Il génère une étude détaillée des implications le long de chaque branche et indique les nœuds de décision qui nécessitent une enquête plus approfondie. De plus, chaque difficulté, chemin de décision et résultat se voit attribuer une valeur unique par des algorithmes d'arbre de décision. Cette méthode met en évidence les voies de décision importantes, réduit l'incertitude, élimine l'ambiguïté et clarifie les implications financières des plans d'action alternatifs. Lorsque les informations factuelles ne sont pas disponibles, les utilisateurs peuvent utiliser des algorithmes d'arbre de décision pour mettre les options en perspective les unes avec les autres pour des comparaisons simples en utilisant des probabilités pour les circonstances.

L'algorithme de l'arbre de décision est basé sur quelle technique ?

L'algorithme de l'arbre de décision est basé sur la technique de l'arbre de décision, qui peut être utilisée pour les problèmes de classification et de régression. Le nom implique l'utilisation d'une structure arborescente de type organigramme pour afficher les prédictions résultant d'une succession de divisions basées sur les fonctionnalités. Il commence par un nœud racine et se termine par une décision feuille. Un arbre de décision est composé de trois types de nœuds, à savoir des carrés qui représentent généralement des nœuds de décision, des nœuds aléatoires qui sont généralement représentés par des cercles et des triangles qui symbolisent des nœuds d'extrémité.