Avantages et inconvénients de la régression d'arbre de décision dans l'apprentissage automatique

Publié: 2020-12-24

L'un des algorithmes d'apprentissage automatique les plus populaires, la régression par arbre de décision, est utilisé à la fois par les concurrents et les professionnels de la science des données. Ce sont des modèles prédictifs qui calculent une valeur cible basée sur un ensemble de règles binaires.

Il permet de construire à la fois des modèles de régression et de classification sous forme d'arborescence. Les ensembles de données sont décomposés en sous-ensembles plus petits dans un arbre de décision, tandis qu'un arbre de décision associé est construit simultanément de manière incrémentielle.

Un arbre de décision est utilisé pour parvenir à une estimation basée sur l'exécution d'une série de questions sur l'ensemble de données. En posant ces questions vrai/faux, le modèle est capable d'affiner les valeurs possibles et de faire une prédiction. L'ordre et le contenu de la question sont décidés par le modèle lui-même.

Table des matières

Quels sont les termes de l'arbre de décision ?

Un arbre de décision a des branches, des nœuds, des feuilles, etc. Un nœud racine est un nœud initial représentant l'ensemble de l'échantillon ou de la population, et il peut être divisé en d'autres nœuds ou ensembles homogènes. Un nœud de décision se compose de deux nœuds ou plus qui représentent des valeurs distinctes de l'attribut testé.

Un nœud feuille/terminal ne se divise pas en d'autres nœuds et représente une décision. Une branche ou un sous-arbre est une sous-section d'un arbre entier. Le fractionnement est le processus de division d'un nœud en deux ou plusieurs sous-nœuds. L'opposé du fractionnement est appelé élagage, c'est-à-dire la suppression de sous-nœuds d'un nœud de décision. Un nœud parent est un nœud divisé en sous-nœuds, et le sous-nœud est le nœud enfant.

En relation: Guide de l'algorithme de l'arbre de décision

Comment ça marche?

L'algorithme de l'arbre de décision utilise un point de données et parcourt l'arbre entier en posant des questions vrai/faux. À partir du nœud racine, des questions sont posées et des branches distinctes sont créées pour chaque réponse, et cela continue jusqu'à ce que le nœud feuille soit atteint. Le partitionnement récursif est utilisé pour construire l'arbre.

Un arbre de décision est un modèle d'apprentissage automatique supervisé et, par conséquent, il apprend à mapper les données sur les sorties lors de la phase d'apprentissage de la construction du modèle. Cela se fait en ajustant le modèle avec des données historiques qui doivent être pertinentes pour le problème, ainsi que sa vraie valeur que le modèle doit apprendre à prédire avec précision. Cela aide le modèle à apprendre les relations entre les données et la variable cible.

Après cette phase, l'arbre de décision est capable de construire un arbre similaire en calculant les questions et leur ordre, ce qui l'aidera à faire l'estimation la plus précise. Ainsi, la prédiction dépend des données d'entraînement qui sont introduites dans le modèle.

Comment le fractionnement est-il décidé ?

La décision de diviser est différente pour les arbres de classification et de régression, et la précision de la prédiction de l'arbre en dépend fortement. L'erreur quadratique moyenne (MSE) est généralement utilisée pour décider de diviser un nœud en deux ou plusieurs sous-nœuds dans une régression d'arbre de décision . Dans le cas d'un arbre binaire, l'algorithme sélectionne une valeur et divise les données en deux sous-ensembles, calcule MSE pour chaque sous-ensemble et choisit la plus petite valeur MSE en conséquence.

Mise en œuvre de la régression de l'arbre de décision

La structure de base pour implémenter un algorithme de régression d'arbre de décision est fournie dans les étapes suivantes.

Importation de bibliothèques

La première étape du développement d'un modèle d'apprentissage automatique consiste à importer toutes les bibliothèques nécessaires au développement.

Chargement des données

Après avoir importé des bibliothèques, l'étape suivante consiste à charger l'ensemble de données. Les données peuvent être téléchargées ou utilisées à partir des dossiers locaux de l'utilisateur.

Fractionner le jeu de données

Une fois les données chargées, elles doivent être divisées en un ensemble d'apprentissage et un ensemble de test et en créant les variables x et y. Les valeurs doivent également être remodelées pour rendre les données au format requis.

Former le modèle

Ici, le modèle de régression d'arbre de données est formé à l'aide de l'ensemble d'apprentissage créé à l'étape précédente.

Prédire les résultats

Ici, les résultats de l'ensemble de test sont prédits en utilisant le modèle entraîné sur l'ensemble d'apprentissage.

Évaluation du modèle

La performance du modèle est vérifiée en comparant les valeurs réelles et les valeurs prédites à l'étape finale. La précision du modèle peut être déduite en comparant ces valeurs. La visualisation des résultats en créant un graphique des valeurs aide également à évaluer la précision du modèle.

Lire : Comment créer un arbre de décision parfait ?

Avantages

Le modèle d'arbre de décision peut être utilisé à la fois pour les problèmes de classification et de régression, et il est facile à interpréter, à comprendre et à visualiser.
La sortie d'un arbre de décision peut également être facilement comprise.
Par rapport à d'autres algorithmes, la préparation des données lors du prétraitement dans un arbre de décision nécessite moins d'efforts et ne nécessite pas de normalisation des données.
La mise en œuvre peut également se faire sans mise à l'échelle des données.
Un arbre de décision est l'un des moyens les plus rapides d'identifier les relations entre les variables et la variable la plus significative.
De nouvelles fonctionnalités peuvent également être créées pour une meilleure prédiction des variables cibles.
Les arbres de décision ne sont pas largement influencés par les valeurs aberrantes ou les valeurs manquantes, et ils peuvent gérer à la fois des variables numériques et catégorielles.
Comme il s'agit d'une méthode non paramétrique, elle n'a aucune hypothèse sur les distributions spatiales et la structure du classificateur.

Désavantages

Le surajustement est l'une des difficultés pratiques des modèles d'arbre de décision. Cela se produit lorsque l'algorithme d'apprentissage continue de développer des hypothèses qui réduisent l'erreur de l'ensemble d'apprentissage, mais au prix d'une augmentation de l'erreur de l'ensemble de test. Mais ce problème peut être résolu en élaguant et en définissant des contraintes sur les paramètres du modèle.
Les arbres de décision ne peuvent pas être bien utilisés avec des variables numériques continues.
Un petit changement dans les données a tendance à provoquer une grande différence dans la structure arborescente, ce qui provoque une instabilité.
Les calculs impliqués peuvent également devenir complexes par rapport à d'autres algorithmes, et l'apprentissage du modèle prend plus de temps.
Il est également relativement coûteux car le temps nécessaire et les niveaux de complexité sont plus importants.

Conclusion

L' algorithme de régression de l'arbre de décision a été expliqué dans cet article en décrivant comment l'arbre est construit avec de brèves définitions de divers termes le concernant. Une brève description du fonctionnement de l'arbre de décision et de la prise de décision concernant la division d'un nœud est également incluse.

La façon dont une régression d'arbre de décision de base peut être mise en œuvre a également été expliquée à travers une séquence d'étapes. Enfin, les avantages et les inconvénients d'un algorithme d'arbre de décision ont été fournis.

Si vous souhaitez en savoir plus sur les arbres de décision, l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions. , statut IIIT-B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Qu'est-ce que la régression dans l'apprentissage automatique ?

La régression est utilisée pour prédire les variables continues. C'est quand nous devons prédire un nombre. Par exemple, si vous souhaitez prédire les prix des maisons dans une ville, en fonction de caractéristiques telles que la taille de la maison et la superficie de la ville, la régression sera utilisée. Les problèmes de régression sont très faciles à résoudre en utilisant la régression linéaire. En un mot, la régression est l'acte d'estimer une valeur de sortie inconnue en fonction d'une valeur d'entrée.

Que sont les arbres de décision ?

Un arbre de décision est un diagramme qui montre toutes les décisions possibles et les résultats possibles. Les arbres de décision sont souvent utilisés pour examiner comment les décisions influencent les résultats futurs. Par exemple, un arbre de décision peut aider une entreprise à déterminer si elle doit acheter des entrepôts supplémentaires ou construire un nouveau centre de distribution. En général, les arbres de décision sont utilisés en recherche opérationnelle et en sciences de gestion. Les arbres de décision sont un concept commun et populaire dans la prise de décision et la planification de programmes. Ils peuvent être utilisés pour choisir entre des cours d'action lorsque certains des cours possibles sont mutuellement exclusifs et lorsque le résultat de chaque cours d'action dépend de l'état du monde.

Quels sont les avantages et les inconvénients des arbres de décision ?

Le modèle d'arbres de décision peut être utilisé pour n'importe quelle classe de problèmes, que ce soit pour la classification ou la prédiction numérique. Elle peut être étendue à toute classe de problèmes. Il peut être utilisé pour la classification supervisée et non supervisée. Il peut gérer un mélange de fonctionnalités numériques et catégorielles. Il donne des résultats stables. Cependant, il est difficile de comprendre la raison derrière la prédiction. Il faut comprendre que le modèle n'apprend pas la meilleure répartition dans chaque nœud de l'arbre, mais plutôt la distribution de probabilité de la classe dans chaque nœud. Cette exigence rend le modèle gourmand en calculs et l'empêche de traiter de grandes quantités de données.