Régularisation en Machine Learning : comment éviter le surajustement ?

Publié: 2020-02-17

L'apprentissage automatique consiste à équiper des ordinateurs pour effectuer des tâches spécifiques sans instructions explicites. Ainsi, les systèmes sont programmés pour apprendre et s'améliorer automatiquement à partir de l'expérience. Les scientifiques des données utilisent généralement la régularisation dans l'apprentissage automatique pour ajuster leurs modèles dans le processus de formation. Comprenons ce concept en détail.

Table des matières

La régularisation évite le surajustement
Équilibrer le biais et la variance
Augmenter l'interprétabilité du modèle
- Expliquer la régularisation dans l'apprentissage automatique
- Régularisation de crête
- Régularisation au lasso
- RSS et prédicteurs de fonctions de contrainte
Comment la régularisation atteint un équilibre
Conclusion
Quelles sont vos options d'emploi après avoir appris l'apprentissage automatique ?
Combien de salaire un ingénieur en machine learning touche-t-il par an ?
Quelles sont les compétences requises pour l'apprentissage automatique ?

La régularisation évite le surajustement

La régularisation en machine learning vous permet d'éviter de sur-adapter votre modèle d'entraînement. Le surajustement se produit lorsque votre modèle capture les données arbitraires dans votre jeu de données d'entraînement. De tels points de données qui n'ont pas les propriétés de vos données rendent votre modèle "bruyant". Ce bruit peut rendre votre modèle plus flexible, mais il peut poser des problèmes de faible précision.

Considérez une classe de 10 élèves avec un nombre égal de filles et de garçons. La note globale de la classe à l'examen annuel est de 70. Le score moyen des étudiantes est de 60 et celui des étudiants est de 80. Sur la base de ces scores passés, nous voulons prédire les scores futurs des étudiants. Les prédictions peuvent être faites des manières suivantes :

Under Fit: Toute la classe obtiendra 70 points
Ajustement optimal : il pourrait s'agir d'un modèle simpliste qui prédit le score des filles à 60 ans et celui des garçons à 80 ans (comme la dernière fois)
Surajustement : ce modèle peut utiliser un attribut sans rapport, par exemple le numéro de liste, pour prédire que les élèves obtiendront exactement les mêmes notes que l'année dernière.

La régularisation est une forme de régression qui ajuste la fonction d'erreur en ajoutant un autre terme de pénalité. Ce terme supplémentaire évite aux coefficients de prendre des valeurs extrêmes, équilibrant ainsi la fonction trop fluctuante.

Tout expert en apprentissage automatique s'efforcerait de rendre ses modèles précis et sans erreur. Et la clé pour atteindre cet objectif réside dans la maîtrise du compromis entre biais et variance. Lisez la suite pour avoir une idée claire de ce que cela signifie.

Équilibrer le biais et la variance

L'erreur de test attendue peut être minimisée en trouvant une méthode qui réalise le bon équilibre « biais-variance ». En d'autres termes, la méthode d'apprentissage statistique choisie doit optimiser le modèle en réalisant simultanément une faible variance et un faible biais. Un modèle avec une variance élevée est surajusté et un biais élevé entraîne un modèle sous-ajusté.

La validation croisée offre un autre moyen d'éviter le surajustement. Il vérifie si votre modèle récupère les modèles corrects à partir de l'ensemble de données et estime l'erreur sur votre ensemble de test. Ainsi, cette méthode valide essentiellement la stabilité de votre modèle. De plus, il décide des paramètres qui fonctionnent le mieux pour votre modèle particulier.

Augmenter l'interprétabilité du modèle

L'objectif n'est pas seulement d'obtenir une erreur nulle pour l'ensemble d'apprentissage, mais également de prédire les valeurs cibles correctes à partir de l'ensemble de données de test. Nous avons donc besoin d'une fonction "accordée" qui réduit la complexité de ce processus.

Expliquer la régularisation dans l'apprentissage automatique

La régularisation est une forme de régression contrainte qui fonctionne en réduisant les estimations de coefficient vers zéro. De cette façon, cela limite la capacité des modèles à apprendre du bruit.

Regardons cette équation de régression linéaire :

Y= β0+β1X1+β2X2+…..+βpXp

Ici, β désigne les estimations de coefficient pour différents prédicteurs représentés par (X). Et Y est la relation apprise.

Puisque cette fonction elle-même peut rencontrer des erreurs, nous ajouterons une fonction d'erreur pour régulariser les estimations apprises. Nous voulons minimiser l'erreur dans ce cas afin que nous puissions également l'appeler une fonction de perte. Voici à quoi ressemble cette fonction de perte ou somme résiduelle des carrés (RSS) :

Par conséquent, les data scientists utilisent la régularisation pour ajuster la fonction de prédiction. Les techniques de régularisation sont également connues sous le nom de méthodes de retrait ou de décroissance du poids. Laissez-nous comprendre certains d'entre eux en détail.

Régularisation de crête

Dans Ridge Regression, la fonction de perte est modifiée avec une quantité de retrait correspondant à la somme des valeurs au carré de β. Et la valeur de λ décide de combien le modèle serait pénalisé.

Les estimations de coefficient dans Ridge Regression sont appelées la norme L2. Cette technique de régularisation viendrait à votre secours lorsque les variables indépendantes de vos données sont fortement corrélées.

Régularisation au lasso

Dans la technique Lasso, une pénalité égale à la somme des valeurs absolues de β (module de β) est ajoutée à la fonction d'erreur. Il est ensuite multiplié par le paramètre λ qui contrôle la force de la pénalité. Seuls les coefficients élevés sont pénalisés dans cette méthode.

Les estimations de coefficient produites par Lasso sont appelées la norme L1. Cette méthode est particulièrement avantageuse lorsqu'il y a un petit nombre d'observations avec un grand nombre de caractéristiques.

Pour simplifier les approches ci-dessus, considérons une constante, s, qui existe pour chaque valeur de λ. Maintenant, dans la régularisation L2, nous résolvons une équation où la somme des carrés des coefficients est inférieure ou égale à s. Alors que dans la régularisation L1, la somme des modules des coefficients doit être inférieure ou égale à s.

Lire : Apprentissage automatique vs réseaux de neurones

Les deux méthodes mentionnées ci-dessus visent à garantir que le modèle de régression ne consomme pas d'attributs inutiles. Pour cette raison, Ridge Regression et Lasso sont également appelés fonctions de contrainte.

RSS et prédicteurs de fonctions de contrainte

Avec l'aide des explications précédentes, les fonctions de perte (RSS) pour Ridge Regression et Lasso peuvent être données par β1² + β2² ≤ s et |β1| + |β2| ≤ s, respectivement. β1² + β2² ≤ s formerait un cercle, et RSS serait le plus petit pour tous les points qui s'y trouvent. Comme pour la fonction Lasso, le RSS serait le plus bas pour tous les points situés dans le losange donné par |β1| + |β2| ≤ s.

La régression Ridge réduit les estimations de coefficient pour les variables prédictives les moins essentielles, mais ne les élimine pas. Par conséquent, le modèle final peut contenir tous les prédicteurs en raison d'estimations non nulles. D'autre part, Lasso peut forcer certains coefficients à être exactement nuls, en particulier lorsque λ est grand.

Lire : Bibliothèques Python pour l'apprentissage automatique

Comment la régularisation atteint un équilibre

Il existe une certaine variance associée à un modèle standard des moindres carrés. Les techniques de régularisation réduisent la variance du modèle sans augmenter significativement son biais au carré. Et la valeur du paramètre de réglage, λ, orchestre cet équilibre sans éliminer les propriétés critiques des données. La pénalité est sans effet lorsque la valeur de λ est nulle, ce qui est le cas d'une régression par les moindres carrés ordinaires.

La variance ne diminue que lorsque la valeur de λ augmente. Mais cela ne se produit que jusqu'à un certain point, après quoi le biais peut commencer à augmenter. Par conséquent, la sélection de la valeur de ce facteur de retrait est l'une des étapes les plus critiques de la régularisation.

Conclusion

Dans cet article, nous avons découvert la régularisation dans l'apprentissage automatique et ses avantages et exploré des méthodes telles que la régression de crête et le lasso. Enfin, nous avons compris comment les techniques de régularisation permettent d'améliorer la précision des modèles de régression. Si vous débutez dans la régularisation, ces ressources clarifieront vos bases et vous encourageront à faire le premier pas !

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Quelles sont vos options d'emploi après avoir appris l'apprentissage automatique ?

L'apprentissage automatique est l'un des cheminements de carrière les plus récents et les plus prometteurs dans le domaine de la technologie. Alors que l'apprentissage automatique continue de progresser et de se développer, il ouvre de nouvelles opportunités d'emploi pour les personnes qui aspirent à faire carrière dans ce domaine de la technologie. Les étudiants et les professionnels qui souhaitent travailler en tant qu'ingénieurs en apprentissage automatique peuvent s'attendre à des expériences d'apprentissage enrichissantes et passionnantes, et bien sûr, s'attendre à décrocher des emplois dans les meilleures organisations bien rémunérées. Des scientifiques des données et des ingénieurs en apprentissage automatique aux linguistes informatiques et aux concepteurs d'apprentissage automatique centré sur l'humain, et plus encore, il existe de nombreux rôles intéressants que vous pouvez assumer en fonction de vos compétences et de votre expérience.

Combien de salaire un ingénieur en machine learning touche-t-il par an ?

En Inde, le salaire moyen gagné par un ingénieur en apprentissage automatique de niveau junior peut varier d'environ 6 INR à 8,2 lakhs par an. Mais pour les professionnels ayant une expérience de travail de niveau intermédiaire, la rémunération peut varier d'environ 13 à 15 lakhs INR en moyenne, voire plus. Désormais, le revenu annuel moyen des ingénieurs en apprentissage automatique dépendra d'une multitude de facteurs tels que l'expérience de travail pertinente, les compétences, l'expérience de travail globale, les certifications et même l'emplacement, entre autres. Les professionnels expérimentés de l'apprentissage automatique peuvent gagner environ 1 crore INR par an.

Quelles sont les compétences requises pour l'apprentissage automatique ?

Une compréhension de base et un certain niveau de confort dans des sujets spécifiques sont bénéfiques si vous aspirez à bâtir une carrière réussie dans l'apprentissage automatique. Tout d'abord, vous devez avoir une compréhension des probabilités et des statistiques. La création de modèles d'apprentissage automatique et la prévision des résultats nécessitent une connaissance des statistiques et des probabilités. Ensuite, vous devez vous familiariser avec les langages de programmation tels que Python et R, qui sont largement utilisés dans l'apprentissage automatique. Une certaine connaissance de la modélisation des données pour l'analyse des données et de solides compétences en conception de logiciels sont également nécessaires pour apprendre l'apprentissage automatique.