Régression de l'arbre de décision : ce que vous devez savoir en 2022

Publié: 2021-01-03

Pour commencer, un modèle de régression est un modèle qui donne en sortie une valeur numérique lorsqu'on lui donne des valeurs d'entrée qui sont également numériques. Cela diffère de ce que fait un modèle de classification. Il classe les données de test en différentes classes ou groupes impliqués dans un énoncé de problème donné.

La taille du groupe peut être aussi petite que 2 et aussi grande que 1000 ou plus. Il existe plusieurs modèles de régression comme la régression linéaire, la régression multivariée, la régression Ridge, la régression logistique et bien d'autres.

Les modèles de régression d'arbre de décision appartiennent également à ce pool de modèles de régression. Le modèle prédictif classera ou prédira une valeur numérique qui utilise des règles binaires pour déterminer la sortie ou la valeur cible.

Le modèle d'arbre de décision, comme son nom l'indique, est un modèle semblable à un arbre qui a des feuilles, des branches et des nœuds.

Table des matières

Terminologies à retenir

Avant de nous plonger dans l'algorithme, voici quelques terminologies importantes que vous devriez tous connaître.

1. Nœud racine : il s'agit du nœud le plus haut à partir duquel le fractionnement commence.

2.Splitting : processus de subdivision d'un seul nœud en plusieurs sous-nœuds.

3. Nœud terminal ou nœud feuille : les nœuds qui ne se divisent pas davantage sont appelés nœuds terminaux.

4.Pruning : Le processus de suppression des sous-nœuds.

5.Nœud parent : le nœud qui se divise davantage en sous-nœuds.

6. Nœud enfant : les sous-nœuds qui ont émergé du nœud parent.

Lire : Guide de l'algorithme d'arbre de décision

Comment ça marche?

L'arbre de décision décompose l'ensemble de données en sous-ensembles plus petits. Une feuille de décision se divise en deux ou plusieurs branches qui représentent la valeur de l'attribut examiné. Le nœud le plus haut dans l'arbre de décision est le meilleur prédicteur appelé nœud racine. ID3 est l'algorithme qui construit l'arbre de décision.

Il utilise une approche de haut en bas et les répartitions sont effectuées en fonction de l'écart type. Juste pour une révision rapide, l'écart type est le degré de distribution ou de dispersion d'un ensemble de points de données par rapport à sa valeur moyenne.

Il quantifie la variabilité globale de la distribution des données. Une valeur de dispersion ou de variabilité plus élevée signifie que l'écart type est plus grand indiquant la plus grande dispersion des points de données par rapport à la valeur moyenne. Nous utilisons l'écart type pour mesurer l'uniformité de l'échantillon.

Si l'échantillon est totalement homogène, son écart type est nul. Et de même, plus le degré d'hétérogénéité est élevé, plus l'écart-type sera grand. La moyenne de l'échantillon et le nombre d'échantillons sont nécessaires pour calculer l'écart type.

Nous utilisons une fonction mathématique — Coefficient d'écart qui décide du moment où le fractionnement doit s'arrêter Il est calculé en divisant l'écart type par la moyenne de tous les échantillons.

La valeur finale serait la moyenne des nœuds feuilles. Disons, par exemple, si le mois de novembre est le nœud qui se divise davantage en différents salaires au fil des ans au mois de novembre (jusqu'en 2021). Pour l'année 2022, le salaire du mois de novembre serait la moyenne de tous les salaires sous le nœud novembre.

Passons à l'écart type de deux classes ou attributs (comme dans l'exemple ci-dessus, le salaire peut être basé sur une base horaire ou mensuelle).

Pour construire un arbre de décision précis, l'objectif doit être de trouver des attributs qui reviennent lors du calcul et renvoient la réduction d'écart type la plus élevée. En termes simples, les branches les plus homogènes.

Le processus de création d'un arbre de décision pour la régression couvre quatre étapes importantes.

1. Tout d'abord, nous calculons l'écart type de la variable cible. Considérez que la variable cible est le salaire comme dans les exemples précédents. Avec l'exemple en place, nous allons calculer l'écart type de l'ensemble des valeurs salariales.

2. À l'étape 2, l'ensemble de données est ensuite divisé en différents attributs. en parlant d'attributs, comme la valeur cible est le salaire, nous pouvons considérer les attributs possibles comme des mois, des heures, l'humeur du patron, la désignation, l'année dans l'entreprise, etc. Ensuite, l'écart type pour chaque branche est calculé à l'aide de la formule ci-dessus. l'écart type ainsi obtenu est soustrait de l'écart type avant le fractionnement. Le résultat obtenu s'appelle la réduction de l'écart type.

Paiement : Types d'arbre binaire

3. Une fois la différence calculée comme mentionné à l'étape précédente, le meilleur attribut est celui pour lequel la valeur de réduction de l'écart type est la plus grande. Cela signifie que l'écart type avant le fractionnement doit être supérieur à l'écart type avant le fractionnement. En fait, le mod de la différence est pris et donc vice versa est également possible.

4. L'ensemble de données complet est classé en fonction de l'importance de l'attribut sélectionné. Sur les branches non feuilles, cette méthode est poursuivie de manière récursive jusqu'à ce que toutes les données disponibles soient traitées. Considérez maintenant que le mois est sélectionné comme le meilleur attribut de fractionnement en fonction de la valeur de réduction de l'écart type. Nous aurons donc 12 succursales pour chaque mois. Ces branches se diviseront davantage pour sélectionner le meilleur attribut parmi l'ensemble d'attributs restant.

5. En réalité, nous avons besoin de certains critères de finition. Pour cela, on utilise le coefficient de déviation ou CV pour une branche qui devient inférieure à un certain seuil comme 10%. Lorsque nous atteignons ce critère, nous arrêtons le processus de construction de l'arbre. Étant donné qu'aucun autre fractionnement ne se produit, la valeur qui tombe sous cet attribut sera la moyenne de toutes les valeurs sous ce nœud.

Doit lire : Classification de l'arbre de décision

Mise en œuvre

La régression de l'arbre de décision peut être implémentée à l'aide du langage Python et de la bibliothèque scikit-learn. Il peut être trouvé sous le sklearn.tree.DecisionTreeRegressor.

Certains des paramètres importants sont les suivants

1.critère : Pour mesurer la qualité d'une scission. Sa valeur peut être "mse" ou l'erreur quadratique moyenne, "friedman_mse" et "mae" ou l'erreur absolue moyenne. La valeur par défaut est mse.

2.max_depth : Il représente la profondeur maximale de l'arbre. La valeur par défaut est Aucun.

3.max_features : il représente le nombre de fonctionnalités à rechercher lors du choix de la meilleure répartition. La valeur par défaut est Aucun.

4.splitter : Ce paramètre est utilisé pour choisir le split à chaque nœud. Les valeurs disponibles sont "meilleur" et "aléatoire". La valeur par défaut est la meilleure.

Exemple tiré de la documentation de sklearn

>>> à partir de sklearn.datasets importer load_diabetes

>>> depuis sklearn.model_selection importer cross_val_score

>>> depuis sklearn.tree importer DecisionTreeRegressor

>>> X, y = load_diabetes(return_X_y= True )

>>> régresseur = DecisionTreeRegressor(random_state=0)

>>> cross_val_score(régresseur, X, y, cv=10)

# doctest : +PASSER

tableau([-0.39…, -0.46…, 0.02…, 0.06…, -0.50…,

0,16…, 0,11…, -0,73…, -0,30…, -0,00…])

Conclusion

La structure du programme de science des données est conçue pour vous aider à devenir un véritable talent dans le domaine de la science des données, ce qui facilite le recrutement du meilleur employeur du marché. Inscrivez-vous dès aujourd'hui pour commencer votre parcours d'apprentissage avec upGrad !

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Qu'est-ce que l'analyse de régression dans l'apprentissage automatique ?

La régression est un ensemble d'algorithmes mathématiques utilisés dans l'apprentissage automatique pour prédire un résultat continu basé sur la valeur d'une ou plusieurs variables prédictives. Sous l'égide de l'apprentissage automatique supervisé, l'analyse de régression est un sujet fondamental. Cela aide simplement à comprendre les relations entre les variables. Il reconnaît l'impact d'une variable et son activité sur l'autre variable. Les caractéristiques d'entrée et les étiquettes de sortie sont utilisées pour former l'algorithme de régression.

Qu'entend-on par multicolinéarité dans l'apprentissage automatique ?

La multicolinéarité est une condition dans laquelle les variables indépendantes d'un ensemble de données sont sensiblement plus connectées entre elles qu'avec les autres variables. Dans un modèle de régression, cela indique qu'une variable indépendante peut être prédite à partir d'une autre variable indépendante. En termes d'influence des variables indépendantes dans un modèle, la multicolinéarité peut conduire à des intervalles de confiance plus larges, ce qui entraîne une probabilité moins fiable. Cela ne devrait pas être dans l'ensemble de données car cela perturbe le classement de la variable la plus affective.

Qu'entend-on par bagging dans l'apprentissage automatique ?

Lorsque l'ensemble de données fourni est bruyant, le bagging est utilisé, qui est une forme de stratégie d'apprentissage d'ensemble qui réduit la variance. L'agrégation bootstrap est un autre synonyme de bagging. Le bagging est le processus de sélection d'un échantillon aléatoire de données à partir d'un ensemble d'apprentissage avec remplacement, c'est-à-dire que les points de données individuels peuvent être récupérés plusieurs fois. Dans l'apprentissage automatique, l'algorithme de forêt aléatoire est essentiellement une extension du processus d'ensachage.