Validation croisée dans l'apprentissage automatique : 4 types de validation croisée

Publié: 2020-11-30

Table des matières

introduction

Le développement de modèles est une étape cruciale dans un cycle de vie de projet de science des données où nous essaierons de former notre ensemble de données avec différents types de modèles d'apprentissage automatique, soit des algorithmes supervisés ou non supervisés, basés sur le problème métier.

Comme nous sommes conscients que nous disposons de nombreux modèles pouvant être utilisés pour résoudre un problème métier, nous devons nous assurer que le modèle que nous sélectionnons à la fin de cette phase fonctionne bien sur les données invisibles. Nous ne pouvons donc pas nous contenter des métriques d'évaluation afin de sélectionner notre modèle le plus performant.

Nous avons besoin de quelque chose de plus en dehors de la métrique qui peut nous aider à décider de notre modèle final d'apprentissage automatique que nous pouvons déployer en production.

Le processus consistant à déterminer si les résultats mathématiques calculant les relations entre les variables sont acceptables en tant que descriptions des données est connu sous le nom de Validation . Habituellement, une estimation d'erreur pour le modèle est effectuée après l'entraînement du modèle sur l'ensemble de données de train, mieux connue sous le nom d'évaluation des résidus.

Dans ce processus, nous mesurons l' erreur d'apprentissage en calculant la différence entre la réponse prédite et la réponse d'origine. Mais cette métrique n'est pas fiable car elle ne fonctionne bien qu'avec les données d'entraînement. Il est possible que le modèle sous- ajuste ou surajuste les données.

Ainsi, le problème avec cette technique d'évaluation ou toute autre mesure d'évaluation est qu'elle ne donne pas d'indication sur la performance du modèle pour un ensemble de données invisible. La technique qui aide à savoir cela sur notre modèle est connue sous le nom de Cross-Validation .

Dans cet article, nous en apprendrons davantage sur les différents types de techniques de validation croisée, les avantages et les inconvénients de chaque technique. Commençons par la définition de la validation croisée.

Validation croisée

La validation croisée est une technique de rééchantillonnage qui aide à rendre notre modèle sûr de son efficacité et de sa précision sur les données invisibles. Il s'agit d'une méthode d'évaluation des modèles d'apprentissage automatique en formant plusieurs autres modèles d'apprentissage automatique sur des sous-ensembles de l'ensemble de données d'entrée disponibles et en les évaluant sur le sous-ensemble de l'ensemble de données.

Nous avons différents types de techniques de validation croisée, mais voyons les fonctionnalités de base de la validation croisée : la première étape consiste à diviser l'ensemble de données nettoyé en K partitions de taille égale.

Ensuite, nous devons traiter le Fold-1 comme un test fold tandis que l'autre K-1 comme un train fold et calculer le score du test-fold.
Nous devons répéter l'étape 2 pour tous les plis en prenant un autre pli comme test tout en restant en train.
La dernière étape serait de prendre la moyenne des scores de tous les plis.

Lire : Projets d'apprentissage automatique pour les débutants

Types de validation croisée

1. Méthode d'exclusion

Cette technique consiste à supprimer une partie de l'ensemble de données d'apprentissage et à l'envoyer à un modèle qui a été formé sur le reste de l'ensemble de données pour obtenir les prédictions. Nous calculons ensuite l'estimation de l'erreur qui indique comment notre modèle se comporte sur des ensembles de données invisibles. C'est ce qu'on appelle la méthode Holdout.

Avantages

Cette méthode est entièrement indépendante des données.
Cette méthode ne doit être exécutée qu'une seule fois, ce qui réduit les coûts de calcul.

Les inconvénients

La performance est sujette à une variance plus élevée compte tenu de la plus petite taille des données.

2. Validation croisée K-Fold

Dans un monde axé sur les données, il n'y a jamais assez de données pour former votre modèle, en plus de cela, en supprimer une partie pour validation pose un plus grand problème de sous-ajustement et nous risquons de perdre des modèles et des tendances importants dans notre ensemble de données, ce qui à son tour augmente le biais. Donc, idéalement, nous avons besoin d'une méthode qui fournit de grandes quantités de données pour former le modèle et laisse de grandes quantités de données pour les ensembles de validation.

Dans la validation croisée K-Fold, les données sont divisées en k sous-ensembles ou nous pouvons les considérer comme une méthode d'exclusion répétée k fois, de sorte qu'à chaque fois, l'un des k sous-ensembles est utilisé comme ensemble de validation et l'autre k-1 sous-ensembles comme ensemble d'apprentissage. L'erreur est moyennée sur tous les k essais pour obtenir l'efficacité totale de notre modèle.

Nous pouvons voir que chaque point de données sera dans un ensemble de validation exactement une fois et sera dans un ensemble d'apprentissage k-1 fois. Cela nous aide à réduire les biais car nous utilisons la plupart des données pour l'ajustement et réduit la variance car la plupart des données sont également utilisées dans l'ensemble de validation.

Avantages

Cela aidera à surmonter le problème de la puissance de calcul.
Les modèles peuvent ne pas être beaucoup affectés si une valeur aberrante est présente dans les données.
Cela nous aide à surmonter le problème de la variabilité.

Les inconvénients

Des ensembles de données déséquilibrés auront un impact sur notre modèle.

3. Validation croisée stratifiée en K

La technique de validation croisée K Fold ne fonctionnera pas comme prévu pour un ensemble de données déséquilibré. Lorsque nous avons un ensemble de données déséquilibré, nous avons besoin d'une légère modification de la technique de validation croisée K Fold, de sorte que chaque pli contienne approximativement les mêmes strates d'échantillons de chaque classe de sortie que le complet. Cette variation de l'utilisation d'une strate dans la validation croisée du pli K est connue sous le nom de validation croisée du pli K stratifié.

Avantages

Il peut améliorer différents modèles en utilisant un réglage hyper-paramètre.
Nous aide à comparer les modèles.
Cela aide à réduire à la fois le biais et la variance.

4. Validation croisée Leave-P-Out

Dans cette approche, nous laissons p points de données hors des données d'apprentissage sur un total de n points de données, puis np échantillons sont utilisés pour former le modèle et p points sont utilisés comme ensemble de validation. Ceci est répété pour toutes les combinaisons, puis l'erreur est moyennée.

Avantages

Il n'a aucun caractère aléatoire
Le biais sera plus faible

Les inconvénients

Cette méthode est exhaustive et inapplicable informatiquement.

Lisez aussi: Carrière en apprentissage automatique

Conclusion

Dans cet article, nous avons appris l'importance de la validation d'un modèle d'apprentissage automatique dans le cycle de vie d'un projet de science des données, appris ce qu'est la validation et la validation croisée, exploré les différents types de techniques de validation croisée, appris à connaître certains avantages et inconvénients de ces techniques.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Quel est le besoin de validation croisée dans l'apprentissage automatique ?

La validation croisée est une technique d'apprentissage automatique dans laquelle les données d'apprentissage sont divisées en deux parties : un ensemble d'apprentissage et un ensemble de test. L'ensemble d'apprentissage est utilisé pour créer le modèle, et l'ensemble de test est utilisé pour évaluer les performances du modèle en production. La raison en est qu'il existe un risque que le modèle que vous avez construit ne fonctionne pas bien dans le monde réel. Si vous ne validez pas votre modèle de manière croisée, vous risquez d'avoir créé un modèle qui fonctionne très bien sur les données d'apprentissage, mais qui ne fonctionne pas bien sur les données du monde réel.

Qu'est-ce que la validation croisée k-fold ?

Dans l'apprentissage automatique et l'exploration de données, la validation croisée k-fold, parfois appelée validation croisée sans un, est une forme de validation croisée dans laquelle les données d'apprentissage sont divisées en k sous-ensembles approximativement égaux, chacun des k- 1 sous-ensembles utilisés comme données de test à leur tour et le sous-ensemble restant utilisé comme données d'apprentissage. K est souvent égal à 10 ou 5. La validation croisée du facteur K est particulièrement utile dans la sélection du modèle, car elle réduit la variance des estimations de l'erreur de généralisation.

Quels sont les avantages de la validation croisée ?

La validation croisée est une forme de validation dans laquelle l'ensemble de données est partitionné en un ensemble d'apprentissage et un ensemble de test (ou ensemble de validation croisée). Cet ensemble est ensuite utilisé pour tester la précision de votre modèle. En d'autres termes, cela vous donne une méthodologie pour mesurer la qualité de votre modèle sur la base d'un échantillon de vos données. Par exemple, il est utilisé pour estimer l'erreur du modèle qui est induite par l'écart entre l'entrée d'apprentissage et l'entrée de test.