Techniques de nettoyage des données : découvrez des moyens simples et efficaces de nettoyer les données

Publié: 2020-01-26

Le nettoyage des données est une partie essentielle de la science des données. Travailler avec des données impures peut entraîner de nombreuses difficultés. Et aujourd'hui, nous allons discuter de la même chose.

Vous découvrirez pourquoi le nettoyage des données est essentiel, quels facteurs affectent la qualité de vos données et comment vous pouvez nettoyer les données dont vous disposez. Il s'agit d'un guide détaillé, alors assurez-vous de le mettre en signet pour référence future.

Commençons.

Table des matières

Pourquoi le nettoyage des données est nécessaire

Le nettoyage des données peut sembler ennuyeux et inintéressant, mais c'est l'une des tâches les plus importantes que vous auriez à accomplir en tant que professionnel de la science des données. Avoir des données erronées ou de mauvaise qualité peut nuire à vos processus et analyses. Des données médiocres peuvent entraîner l'échec d'un algorithme stellaire.

D'autre part, des données de haute qualité peuvent amener un algorithme simple à vous donner des résultats exceptionnels. Il existe de nombreuses techniques de nettoyage des données et vous devez vous familiariser avec elles pour améliorer la qualité de vos données. Toutes les données ne sont pas utiles. C'est donc un autre facteur majeur qui affecte la qualité de vos données.

Lire : Analyse de cluster dans R

Par exemple, supposons que votre entreprise dispose d'une liste d'adresses d'employés. Maintenant, si vos données incluent également quelques adresses de vos clients, cela n'endommagerait-il pas la liste ? Et vos efforts pour analyser la liste ne seraient-ils pas vains ? Dans ce marché basé sur les données, apprendre la science des données pour améliorer vos décisions commerciales est essentiel.

Il existe de nombreuses raisons pour lesquelles le nettoyage des données est essentiel. Certains d'entre eux sont énumérés ci-dessous:

Efficacité

Avoir des données propres (exemptes de valeurs erronées et incohérentes) peut vous aider à effectuer votre analyse beaucoup plus rapidement. Vous gagneriez un temps considérable en effectuant cette tâche au préalable. Lorsque vous nettoyez vos données avant de les utiliser, vous pourrez éviter plusieurs erreurs. Si vous utilisez des données contenant de fausses valeurs, vos résultats ne seront pas exacts.

Et il y a de fortes chances que vous deviez refaire toute la tâche, ce qui peut causer beaucoup de perte de temps. Si vous choisissez de nettoyer vos données avant de les utiliser, vous pouvez générer des résultats plus rapidement et éviter de refaire toute la tâche.

Marge d'erreur

Lorsque vous n'utilisez pas de données précises pour l'analyse, vous ferez sûrement des erreurs. Supposons que vous ayez consacré beaucoup d'efforts et de temps à l'analyse d'un groupe spécifique d'ensembles de données. Vous êtes très désireux de montrer les résultats à votre supérieur, mais lors de la réunion, votre supérieur signale quelques erreurs, la situation devient embarrassante et douloureuse.

Ne voudriez-vous pas éviter que de telles erreurs se produisent ? Non seulement ils causent de l'embarras, mais ils gaspillent également des ressources. Le nettoyage des données vous aide à cet égard, point c'est une pratique répandue, et vous devriez apprendre les méthodes utilisées pour nettoyer les données.

L'utilisation d'un algorithme simple avec des données propres est bien meilleure que l'utilisation d'un algorithme avancé avec des données impures.

Détermination de la qualité des données

Les données sont-elles valides ? (Validité)

La validité de vos données est la mesure dans laquelle elles suivent les règles de vos exigences particulières. Par exemple, vous savez comment importer les numéros de téléphone de différents clients, mais à certains endroits, vous avez ajouté des adresses e-mail dans les données. Maintenant, parce que vos besoins concernaient explicitement les numéros de téléphone, les adresses e-mail seraient invalides.

Des erreurs de validité se produisent lorsque la méthode d'entrée n'est pas correctement inspectée. Vous utilisez peut-être des feuilles de calcul pour collecter vos données. Et vous pourriez saisir des informations erronées dans les cellules de la feuille de calcul.

Il existe plusieurs types de contraintes auxquelles vos données doivent se conformer pour être valides. Les voici:

Varier:

Certains types de nombres doivent être dans une plage spécifique. Par exemple, le nombre de produits que vous pouvez transporter en une journée doit avoir une valeur minimale et maximale. Il y aurait sûrement une plage particulière pour les données. Il y aurait un point de départ et un point final.

Type de données:

Certaines cellules de données peuvent nécessiter un type spécifique de données, telles que numériques, booléennes, etc. Par exemple, dans une section booléenne, vous n'ajouteriez pas de valeur numérique.

Contraintes obligatoires :

Dans chaque scénario, il existe des contraintes obligatoires que vos données doivent respecter. Les restrictions obligatoires dépendent de vos besoins spécifiques. Certes, des colonnes spécifiques de vos données ne doivent pas être vides. Par exemple, dans la liste des noms de vos clients, la colonne 'nom' ne peut pas être vide.

Examen transversal :

Certaines conditions affectent plusieurs champs de données dans un formulaire particulier. Supposons que l'heure de départ d'un vol ne puisse pas être antérieure à son arrivée. Dans un bilan, la somme du débit et du crédit du client doit être la même. Cela ne peut pas être différent.

Ces valeurs sont liées les unes aux autres, et c'est pourquoi vous devrez peut-être effectuer un examen croisé.

Exigences uniques :

Les types de données particuliers ont des restrictions uniques. Deux clients ne peuvent pas avoir le même ticket de support client. Ce type de données doit être unique à un champ particulier et ne peut pas être partagé par plusieurs.

Restrictions d'appartenance à l'ensemble :

Certaines valeurs sont limitées à un ensemble particulier. Par exemple, le sexe peut être Homme, Femme ou Inconnu.

Motifs réguliers :

Certaines données suivent un format spécifique. Par exemple, les adresses e-mail ont le format '[email protected]'. De même, les numéros de téléphone ont dix chiffres.

Si les données ne sont pas au format requis, elles seraient également invalides.

Si une personne omet le '@' lors de la saisie d'une adresse e-mail, l'adresse e-mail serait invalide, n'est-ce pas ? Vérifier la validité de vos données est la première étape pour déterminer leur qualité. La plupart du temps, la cause de la saisie d'informations invalides est une erreur humaine.

S'en débarrasser vous aidera à rationaliser votre processus et à éviter au préalable les valeurs de données inutiles.

Précision

Maintenant que vous savez que la plupart des données dont vous disposez sont valides, vous devez vous concentrer sur l'établissement de leur exactitude. Même si les données sont valides, cela ne signifie pas que les données sont exactes. Et déterminer l'exactitude vous aide à déterminer si les données que vous avez saisies étaient exactes ou non.

L'adresse d'un client peut être au bon format, mais il n'est pas nécessaire que ce soit le bon. Peut-être que l'e-mail contient un chiffre ou un caractère supplémentaire qui le rend erroné. Un autre exemple est le numéro de téléphone d'un client.

Lire : Les meilleures API d'apprentissage automatique pour la science des données

Si le numéro de téléphone contient tous les chiffres, il s'agit d'une valeur valide. Mais cela ne veut pas dire que c'est vrai. Lorsque vous avez des définitions de valeurs valides, il est facile de déterminer celles qui ne sont pas valides. Mais cela n'aide pas à vérifier l'exactitude de la même chose. La vérification de l'exactitude des valeurs de vos données nécessite que vous utilisiez des sources tierces.

Cela signifie que vous devrez vous fier à des sources de données différentes de celle que vous utilisez actuellement. Vous devrez recouper vos données pour déterminer si elles sont exactes ou non. Les techniques de nettoyage des données n'ont pas beaucoup de solutions pour vérifier l'exactitude des valeurs des données.

Cependant, selon le type de données que vous utilisez, vous pourrez peut-être trouver des ressources qui pourraient vous aider à cet égard. Il ne faut pas confondre précision et précision .

Exactitude vs Précision

Bien que l'exactitude repose sur l'établissement de l'exactitude ou non de vos données saisies, la précision exige que vous donniez plus de détails à ce sujet. Un client peut entrer un prénom dans votre champ de données. Mais s'il n'y a pas de nom de famille, il serait difficile d'être plus précis.

Un autre exemple peut être celui d'une adresse. Supposons que vous demandiez à une personne où elle habite. Ils pourraient dire qu'ils vivent à Londres. Cela pourrait être vrai. Cependant, ce n'est pas une réponse précise car vous ne savez pas où ils vivent à Londres.

Une réponse précise serait de vous donner une adresse postale.

Complétude

Il est presque impossible d'avoir toutes les informations dont vous avez besoin. L'exhaustivité est le degré auquel vous connaissez toutes les valeurs requises. L'exhaustivité est un peu plus difficile à atteindre que l'exactitude ou la validité. C'est parce que vous ne pouvez pas supposer une valeur. Vous n'avez qu'à entrer des faits connus.

Vous pouvez essayer de compléter vos données en refaisant les activités de collecte de données (rapprocher les clients, réinterroger les personnes, etc.). Mais cela ne signifie pas que vous seriez en mesure de compléter vos données à fond.

Supposons que vous réinterrogiez les gens pour obtenir les données dont vous aviez besoin plus tôt. Maintenant, ce scénario a le problème du rappel. Si vous leur posez à nouveau les mêmes questions, il y a de fortes chances qu'ils ne se souviennent pas de ce à quoi ils ont répondu auparavant. Cela peut les conduire à vous donner la mauvaise réponse.

Vous pourriez lui demander quels livres ils lisaient il y a cinq mois. Et ils pourraient ne pas s'en souvenir. De même, vous devrez peut-être saisir les coordonnées de chaque client. Mais certains d'entre eux peuvent ne pas avoir d'adresse e-mail. Dans ce cas, vous devrez laisser ces colonnes vides.

Si vous avez un système qui vous oblige à remplir toutes les colonnes, vous pouvez essayer d'y saisir 'manquant' ou 'inconnu'. Mais entrer de telles valeurs ne signifie pas que les données sont complètes. Elle serait encore qualifiée d'incomplète.

Cohérence

À côté de l'exhaustivité vient la cohérence. Vous pouvez mesurer la cohérence en comparant deux systèmes similaires. Ou, vous pouvez vérifier les valeurs de données dans le même jeu de données pour voir si elles sont cohérentes ou non. La cohérence peut être relationnelle. Par exemple, l'âge d'un client peut être de 15 ans, ce qui est une valeur valide et peut être exacte, mais il peut également être indiqué comme senior dans le même système.

Dans de tels cas, vous devrez recouper les données, comme pour mesurer la précision, et voir quelle valeur est vraie. Le client a-t-il 15 ans ? Ou le client est-il un senior ? Une seule de ces valeurs peut être vraie.

Il existe plusieurs façons de rendre vos données cohérentes.

Vérifiez différents systèmes :

Vous pouvez jeter un œil à un autre système similaire pour savoir si la valeur que vous avez est réelle ou non. Si deux de vos systèmes se contredisent, il peut être utile de vérifier le troisième.

Dans notre exemple précédent, supposons que vous vérifiiez le troisième système et trouviez que l'âge du client est de 65 ans. Cela montre que le deuxième système, qui indiquait que le client est une personne âgée, serait valable.

Vérifiez les dernières données :

Une autre façon d'améliorer la cohérence de vos données consiste à vérifier la valeur la plus récente. Cela peut être plus avantageux pour vous dans des scénarios spécifiques. Vous pouvez avoir deux numéros de contact différents pour un client dans votre dossier. Le plus récent serait probablement plus fiable car il est possible que le client ait changé de numéro.

Vérifiez la source :

Le moyen le plus infaillible de vérifier la fiabilité des données est de contacter simplement la source. Dans notre exemple de l'âge du client, vous pouvez choisir de contacter directement le client et de lui demander son âge. Cependant, ce n'est pas possible dans tous les scénarios et contacter directement la source peut être très délicat. Peut-être que le client ne répond pas ou que ses coordonnées ne sont pas disponibles.

Uniformité

Vous devez vous assurer que toutes les valeurs que vous avez saisies dans votre ensemble de données sont dans les mêmes unités. Si vous entrez des unités SI pour les mesures, vous ne pouvez pas utiliser le système impérial à certains endroits. D'autre part, si à un endroit vous avez entré le temps en secondes, vous devez l'entrer dans ce format dans tout l'ensemble de données.

Lire : SQL pour la science des données

Vérifier l'uniformité de vos enregistrements est assez facile. Une simple inspection peut révéler si une valeur particulière est dans l'unité requise ou non. Les unités que vous utilisez pour saisir vos données dépendent de vos besoins spécifiques.

Techniques de nettoyage des données

Votre choix de techniques de nettoyage des données dépend de nombreux facteurs. Tout d'abord, quel type de données traitez-vous ? S'agit-il de valeurs numériques ou de chaînes ? À moins que vous n'ayez trop peu de valeurs à gérer, vous ne devriez pas non plus vous attendre à nettoyer vos données avec une seule technique.

Vous devrez peut-être utiliser plusieurs techniques pour un meilleur résultat. Plus vous devez gérer de types de données, plus vous devrez utiliser de techniques de nettoyage. Connaître toutes ces méthodes vous aidera à rectifier les erreurs et à vous débarrasser des données inutiles.

1. Supprimer les valeurs non pertinentes

La première chose à faire est de supprimer les données inutiles de votre système. Toutes les données inutiles ou non pertinentes sont celles dont vous n'avez pas besoin. Cela ne correspond peut-être pas au contexte de votre problème.

Vous n'aurez peut-être qu'à mesurer l'âge moyen de votre personnel de vente. Ensuite, leur adresse e-mail ne serait pas nécessaire. Un autre exemple est que vous vérifiez peut-être le nombre de clients que vous avez contactés en un mois. Dans ce cas, vous n'auriez pas besoin des données des personnes que vous avez contactées au cours d'un mois précédent.

Cependant, avant de supprimer une donnée particulière, assurez-vous qu'elle n'est pas pertinente car vous pourriez en avoir besoin pour vérifier ses valeurs corrélées plus tard (pour vérifier la cohérence). Et si vous pouvez obtenir un deuxième avis d'un expert plus expérimenté avant de supprimer des données, n'hésitez pas à le faire.

Vous ne voudriez pas supprimer certaines valeurs et regretter la décision plus tard. Mais une fois que vous êtes assuré que les données ne sont pas pertinentes, débarrassez-vous-en.

2. Débarrassez-vous des valeurs en double

Les doublons sont similaires à des valeurs inutiles - vous n'en avez pas besoin. Ils ne font qu'augmenter la quantité de données dont vous disposez et vous font perdre votre temps. Vous pouvez vous en débarrasser avec des recherches simples. Des valeurs en double peuvent être présentes dans votre système pour plusieurs raisons.

Peut-être avez-vous combiné les données de plusieurs sources. Ou peut-être que la personne qui soumet les données a répété une valeur par erreur. Certains utilisateurs ont cliqué deux fois sur "entrer" lorsqu'ils remplissaient un formulaire en ligne. Vous devez supprimer les doublons dès que vous les trouvez.

3. Évitez les fautes de frappe (et les erreurs similaires)

Les fautes de frappe sont le résultat d'une erreur humaine et peuvent être présentes n'importe où. Vous pouvez corriger les fautes de frappe grâce à plusieurs algorithmes et techniques. Vous pouvez mapper les valeurs et les convertir dans l'orthographe correcte. Les fautes de frappe sont essentielles à corriger car les modèles traitent différentes valeurs différemment. Les chaînes dépendent beaucoup de leur orthographe et de leur casse.

'George' est différent de 'george' même s'ils ont la même orthographe. De même, 'Mike' et 'Mice' sont différents l'un de l'autre, même s'ils ont le même nombre de caractères. Vous devrez rechercher des fautes de frappe comme celle-ci et les corriger de manière appropriée.

Une autre erreur similaire aux fautes de frappe concerne la taille des chaînes. Vous devrez peut-être les remplir pour les conserver dans le même format. Par exemple, votre ensemble de données peut exiger que vous n'ayez que des nombres à 5 chiffres. Donc, si vous avez une valeur qui n'a que quatre chiffres, comme '3994', vous pouvez ajouter un zéro au début pour augmenter son nombre de chiffres.

Sa valeur resterait la même que '03994', mais cela gardera vos données uniformes. Une erreur supplémentaire avec les chaînes est celle des espaces blancs. Assurez-vous de les supprimer de vos chaînes pour les garder cohérentes.

4. Convertir les types de données

Les types de données doivent être uniformes dans votre ensemble de données. Une chaîne ne peut pas être numérique et un numérique ne peut pas être un booléen. Il y a plusieurs choses que vous devez garder à l'esprit lorsqu'il s'agit de convertir des types de données :

  • Conserver les valeurs numériques sous forme numérique
  • Vérifiez si un numérique est une chaîne ou non. Si vous l'avez saisi sous forme de chaîne, ce serait incorrect.
  • Si vous ne pouvez pas convertir une valeur de données spécifique, vous devez entrer "valeur NA" ou quelque chose de ce genre. Assurez-vous d'ajouter également un avertissement pour indiquer que cette valeur particulière est erronée.

5. Prenez soin des valeurs manquantes

Il y aurait toujours une donnée manquante. Vous ne pouvez pas l'éviter. Vous devez donc savoir comment les gérer pour garder vos données propres et exemptes d'erreurs. Une colonne particulière de votre ensemble de données peut avoir trop de valeurs manquantes. Dans ce cas, il serait sage de se débarrasser de toute la colonne car elle ne contient pas suffisamment de données pour travailler.

Remarque : vous ne devez pas ignorer les valeurs manquantes.

Ignorer les valeurs manquantes peut être une erreur importante car elles contamineront vos données et vous n'obtiendrez pas de résultats précis. Il existe plusieurs façons de traiter les valeurs manquantes.

Imputation des valeurs manquantes :

Vous pouvez imputer les valeurs manquantes, c'est-à-dire en supposant la valeur approximative. Vous pouvez utiliser la régression linéaire ou la médiane pour calculer la valeur manquante. Cependant, cette méthode a ses implications car vous ne pouvez pas être sûr que ce serait la valeur réelle.

Une autre méthode pour imputer les valeurs manquantes consiste à copier les données d'un ensemble de données similaire. Cette méthode est appelée « imputation hot-deck ». Vous ajoutez de la valeur à votre enregistrement actuel tout en tenant compte de certaines contraintes telles que le type de données et la plage.

Mise en surbrillance des valeurs manquantes :

L'imputation n'est pas toujours la meilleure mesure pour s'occuper des valeurs manquantes. De nombreux experts affirment que cela ne conduit qu'à des résultats plus mitigés car ils ne sont pas « réels ». Ainsi, vous pouvez adopter une autre approche et informer le modèle que les données sont manquantes. Dire au modèle (ou à l'algorithme) que la valeur spécifique n'est pas disponible peut également constituer une information.

Si des raisons aléatoires ne sont pas responsables de vos valeurs manquantes, il peut être avantageux de les mettre en évidence ou de les signaler. Par exemple, vos enregistrements peuvent ne pas avoir beaucoup de réponses à une question spécifique de votre enquête parce que votre client n'a pas voulu y répondre en premier lieu.

Si la valeur manquante est numérique, vous pouvez utiliser 0. Assurez-vous simplement d'ignorer ces valeurs lors de l'analyse statistique. D'autre part, si la valeur manquante est une valeur catégorique, vous pouvez remplir 'manquant'.

Sommaire

Nous espérons que vous avez apprécié notre présentation détaillée des techniques de nettoyage des données. Il y avait sans aucun doute beaucoup à apprendre.

Apprenez-en plus sur la gestion des données grâce à notre vidéo webinaire ci-dessous.

Si vous avez des questions concernant le nettoyage des données, n'hésitez pas à demander à nos experts.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Pourquoi l'incohérence des données est-elle un problème ?

Lorsque la même donnée apparaît à plusieurs endroits, une redondance des données se produit, tandis que l'incohérence des données se produit lorsque les mêmes données apparaissent dans plusieurs tables sous différentes formes. Malheureusement, la redondance des données peut entraîner une incohérence des données, entraînant des données inexactes et/ou inutiles pour une entreprise. Ils ne peuvent pas anticiper correctement les ventes pour optimiser les procédures de gestion des stocks et de la distribution ; ils ne peuvent pas détecter les problèmes de fabrication ou de chaîne d'approvisionnement pour minimiser les dépassements de coûts et les retards ; et ils ne peuvent pas évaluer l'intérêt des clients pour un nouveau produit pour modifier les conceptions ou les campagnes marketing.

À quelle fréquence vos données doivent-elles être nettoyées ?

La fréquence à laquelle vous devez nettoyer vos données au printemps dépend entièrement des besoins de votre entreprise. Une grande entreprise acquerra rapidement beaucoup de données, par conséquent, le nettoyage des données peut être nécessaire tous les trois à six mois. Il est suggéré que les petites entreprises disposant de moins de données nettoient leurs données au moins une fois par an. Il est conseillé de planifier un nettoyage des données si vous soupçonnez que des données sales vous coûtent de l'argent ou ont un impact négatif sur votre productivité, votre efficacité ou vos informations.

Tableau est-il adapté au nettoyage des données ?

Tableau Prep est livré avec un certain nombre de procédures de nettoyage que vous pouvez utiliser pour nettoyer et mettre en forme vos données immédiatement. Le nettoyage des données sales simplifie l'intégration et l'analyse de vos données, ainsi que la compréhension de vos données par d'autres lorsque vous les partagez.