Qu'est-ce que le surajustement et le sous-ajustement dans l'apprentissage automatique ? [Tout ce que vous devez savoir]

Publié: 2020-02-18

L'apprentissage automatique n'est pas le sujet le plus facile à maîtriser. Le surajustement et le sous-ajustement sont quelques-uns des nombreux termes courants dans la communauté de l'apprentissage automatique. La compréhension de ces concepts jettera les bases de votre apprentissage futur.

Nous allons en apprendre plus sur ces concepts dans cet article. Nous discuterons également de l'idée de base de ces erreurs, pourquoi elles se produisent et comment vous pouvez les corriger. Vous en apprendrez également un peu plus sur les modèles de données et leur relation avec ces erreurs.

Alors, sans tourner autour du pot, plongeons-nous dans le vif du sujet :

Table des matières

Qu'est-ce qu'un modèle de données ?

Avant de commencer à discuter de ce que sont le surajustement et le sous-ajustement, commençons par comprendre ce qu'est un modèle. Un modèle de données est un système permettant de faire des prédictions avec l'entrée. On peut dire qu'un modèle est une théorie pour résoudre un problème. Par exemple, si vous souhaitez prédire la croissance de plusieurs entreprises, vous pouvez prendre leurs bénéfices comme données d'entrée et générer des résultats basés sur la relation entre leurs bénéfices et leur croissance. Le résultat de cet exemple serait la croissance prévue des entreprises.

Ainsi, l'intrant est le bénéfice courant des entreprises, tandis que leurs projections de croissance sont la sortie. La relation entre ces deux est le modèle. Les modèles sont nécessaires pour générer des sorties.

Le modèle comprend la relation entre l'entrée et la sortie grâce à un ensemble de données d'apprentissage. Nous appelons les entités d'entrée et les étiquettes de sortie. Donc, vous pourriez aussi voir ces noms dans l'article. Pendant la formation du modèle, vous lui donnerez les caractéristiques ainsi que les étiquettes et lui laisserez comprendre la relation entre eux. Une fois qu'il a terminé la formation, vous pouvez essayer le modèle en lui donnant uniquement un ensemble de fonctionnalités, dont les prédictions correctes sont à votre disposition.

Une fois qu'il a généré ses prédictions, vous les comparez avec les prédictions correctes que vous avez et voyez à quel point le modèle est précis. Les modèles sont de plusieurs formes.

Formation et test de données

Vous pouvez donner à votre modèle de données des fonctionnalités parfaites lorsque vous êtes débutant, mais ce n'est pas ce qui se passe dans le monde réel. Les données dans le monde réel sont remplies de bruit et d'informations inutiles. Quelle que soit la source de vos données, vous y trouverez des variables qui ne correspondent pas à la tendance.

Dans notre exemple de projections de croissance des entreprises, vous savez que leur croissance ne dépendrait pas entièrement de leurs bénéfices. Il y aurait beaucoup de facteurs en jeu. Lors de la formation de votre modèle, vous devez ajouter du bruit pour le rendre réaliste. Une fois que vous avez créé vos données, vous devez les diviser en deux ensembles pour la formation et les tests.

Vous utiliseriez les données de formation pour aider le modèle à apprendre la relation entre les fonctionnalités et les étiquettes. Et vous utiliseriez les données de test pour évaluer ses performances.

Il existe de nombreuses formes de modèles présents dans le monde des données. En choisir un peut être un peu intimidant, mais avec un peu de pratique, cela devient plus facile. Un modèle standard est une régression polynomiale. C'est une forme de régression linéaire où les entrées sont élevées à une variété de puissances. C'est une sorte de régression linéaire, mais elle ne forme pas une ligne droite. En savoir plus sur la mise en œuvre de la régression linéaire.

Vous définissez un polynôme par son ordre. L'ordre d'un polynôme est la plus grande puissance de x dans son équation. Et l'ordre du polynôme indique également son degré. Par exemple, une équation de ligne droite a 1 degré.

Importance de corriger le surajustement et le sous-ajustement dans l'apprentissage automatique

Le surajustement et le sous-ajustement se produisent lorsque vous traitez le degré polynomial de votre modèle. Comme nous l'avons mentionné précédemment, le degré du polynôme dépend de la puissance la plus élevée de x dans son équation. Cette valeur indique la flexibilité de votre modèle. Si votre modèle a un degré élevé, il aurait beaucoup plus de liberté. Avec un degré élevé, un modèle peut couvrir de nombreux objets de données.

D'un autre côté, un modèle avec moins de diplômes que requis ne serait pas en mesure de couvrir suffisamment d'objets de données. Ces deux situations peuvent conduire à des résultats souillés qui ne sont pas utiles.

L'ancien problème de degré plus élevé que nécessaire était le surajustement. Et le deuxième problème de moins que le degré requis était le sous-ajustement. Comme vous pouvez le voir, ils peuvent tous deux nuire à votre modèle et nuire à vos résultats.

Si vous ne résolvez pas ces problèmes, votre modèle ne vous donnera pas de résultats précis et vous aurez des étiquettes inutiles à utiliser.

Maintenant que nous connaissons leur concept de base, discutons de chacun d'eux en détail :

Qu'est-ce que le surajustement ?

Lorsqu'un algorithme d'apprentissage automatique commence à enregistrer du bruit dans les données, nous l'appelons le surajustement. En termes plus simples, lorsque l'algorithme commence à accorder trop d'attention aux petits détails. Dans l'apprentissage automatique, le résultat est de prédire la sortie probable, et en raison du surajustement, cela peut entraver considérablement sa précision. Nous savons que cela semble être une bonne chose, mais ce n'est pas le cas.

Un exemple grave de surajustement dans l'apprentissage automatique peut être un graphique où tous les points se connectent de manière linéaire. Nous voulons capturer la tendance, mais le graphique ne le fait pas.

Un modèle qui est incapable de faire de bonnes prédictions mais qui apprend tout ce qui est possible à partir des données est inutile car il conduit à des résultats inexacts.

Que faire lorsque vous remarquez un surajustement ?

Nous pouvons résoudre ce problème en diminuant simplement la quantité de données utilisées par l'algorithme et en ne surchargeant pas le système. Une variance élevée (surajustement) rend les choses pires que meilleures. Certaines des techniques conventionnelles utilisées pour résoudre le surajustement sont les suivantes :

Diminution des itérations

En réduisant le nombre de répétitions qui s'exécutent avant que le surajustement ne se produise, nous pouvons l'empêcher de se produire. Vous pouvez trouver le nombre exact d'itérations par la méthode d'essai et d'erreur.

Régularisation

Il contraint les estimations des coefficients, qui sont proches de 0. En termes plus simples, nous pouvons dire qu'il indique à l'algorithme d'utiliser un modèle plus indulgent au lieu d'un modèle rigide. En savoir plus sur la régularisation et comment éviter le surajustement.

Taille (standard)

Le moyen le plus simple et le plus courant d'éviter le surajustement est l'élagage. Il se débarrasse de tous les nœuds qui ajoutent peu ou pas de pouvoir prédictif.

Quintuple validation croisée

L'utilisation de la validation croisée est l'une des méthodes les moins compliquées pour vérifier le surajustement.

Qu'est-ce que le sous-ajustement ?

Comme son nom l'indique, le sous-ajustement se produit lorsque le modèle n'est pas suffisamment adapté pour vous donner des résultats. Un modèle de données sous-ajusté ne sait pas comment cibler suffisamment d'objets de données. Avec un degré moindre, le graphique finit par manquer la plupart des fonctionnalités présentes.

En d'autres termes, le modèle est "trop ​​simple" pour générer des résultats s'il est sous-ajusté. Cependant, la résolution de ce problème est beaucoup plus confortable et ne nécessite pas autant d'efforts que le surajustement le faisait auparavant.

Que faire lorsque vous remarquez un sous-ajustement ?

Si votre modèle est sous-équipé, vous devriez lui donner plus de fonctionnalités. Avec plus de fonctionnalités, il aura un plus grand espace d'hypothèse. Il peut utiliser cet espace pour générer des résultats précis. La détection du sous-ajustement est plus confortable que celle du sur-ajustement, de sorte que vous n'aurez aucun problème à identifier cette erreur. Cependant, vous ne devez augmenter que les fonctionnalités et non l'ensemble des données lorsque vous traitez avec un modèle sous-ajusté. L'expansion des données entraîne plus d'erreurs dans ce cas.

Lire : Idées intéressantes de projets d'apprentissage automatique

Frappez le Sweet Spot

Dans l'apprentissage automatique, vous voudriez que votre modèle de données reste entre Underfitting et Overfitting. Il ne doit couvrir ni trop de points de données ni trop peu. Au fur et à mesure que vous entraînerez votre modèle, vous pourrez l'améliorer davantage et corriger ses erreurs. Les erreurs de votre modèle commenceront à diminuer en nombre avec l'ensemble d'apprentissage et l'ensemble de test.

Un excellent moyen de trouver le juste milieu entre le surajustement et le sous-ajustement est d'arrêter d'entraîner votre modèle avant que ses erreurs ne commencent à augmenter. C'est une solution générale, que vous pouvez utiliser en dehors des méthodes que nous avons mentionnées précédemment dans cet article.

Conclusion

Chaque professionnel des données est confronté au problème du surajustement et du sous-ajustement. La formation d'un modèle de données n'est pas facile, et il faut beaucoup de pratique pour se familiariser avec eux. Cependant, avec l'expérience, vous commencerez à identifier les problèmes très tôt et à éviter complètement les causes des erreurs.

Il est essentiel de se familiariser avec de telles erreurs si vous souhaitez devenir un expert en apprentissage automatique. Si vous souhaitez en savoir plus sur l'apprentissage automatique et la science des données, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions. , statut IIIT-B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Préparez-vous à une carrière d'avenir

DIPLÔME PG EN APPRENTISSAGE MACHINE ET INTELLIGENCE ARTIFICIELLE
Apprendre encore plus