Guide du débutant sur la science des données et ses applications
Publié: 2018-02-24Les mots Data, Science ou Data Science ne suffisent pas à susciter un sentiment de peur ou d'effroi chez les lecteurs. Pour être honnête, ils sont trop mignons pour être même rebutants, et encore moins horribles, contrairement aux mots - tessellation, k-mean, k-plus proches voisins, Euclidean Minimum Spanning Tree, et plus de ce genre - des mots que vous ' rencontrerez au cours de votre voyage dans la science des données.
Bien que la «science des données» n'inspire pas la peur, elle n'explique rien non plus sur le terrain. Tout le monde sait ce que sont les données ; au moins dans un sens profane. Les données ne sont essentiellement que des informations brutes. La science, en revanche, peut être utilisée pour désigner tout groupe d'activités suivant une méthode scientifique.
Donc, en suivant cette logique, nous pouvons conclure que la science des données est un domaine qui utilise des méthodes scientifiques sur de gros morceaux de données. Mais pour quoi? Et qu'est -ce que la Data Science exactement ?
C'est notre sujet de discussion aujourd'hui. Après avoir lu cet article, vous serez en mesure de répondre aux questions suivantes :
- Qu'est-ce que la science des données ?
- Quelles sont les différentes phases d'un pipeline Data Science ?
- Où puis-je voir la science des données à l'œuvre ?
Table des matières
Qu'est-ce que la science des données ?
Wikipédia, la mère de toutes les encyclopédies, définit la science des données comme un domaine axé sur l'extraction de connaissances et d'informations à partir de données en utilisant des méthodes scientifiques. Cependant, ce qu'il ne vous dit pas, c'est que nous, les humains, sommes nés scientifiques des données. Comment? Voyons voir.
Vous observez le monde qui vous entoure, peu importe ce que vous faites. À chaque instant de votre réveil, vous absorbez des détails de votre environnement et les nourrissez dans votre cerveau. Vous transformez ensuite ces observations en données et les utilisez pour comprendre les choses autour de vous en trouvant des significations et en faisant des prédictions sur ce qui est susceptible de se produire ensuite.
Lorsque vous êtes en retard d'une heure pour partir au travail, vous appelez pour leur dire que vous travaillerez à domicile. Vous utilisez vos observations passées de la circulation et des arrêts de circulation sur le chemin qui vous font conclure que vous risquez de perdre votre temps coincé dans la circulation que vous gagneriez en étant au bureau. Lorsque vous entrez dans votre chambre et que vous voyez des emballages de chocolat traîner, une analyse informelle vous dira que quelqu'un a mangé vos chocolats en votre absence.
Top 4 des rôles d'analyse de données à surveiller
Dans l'un ou l'autre des cas mentionnés, si vous faites ces calculs et ces prédictions dans votre esprit, sans le noter, vous êtes un être humain normal. D'un autre côté, si vous allez de l'avant et enregistrez ces points de données (bien sûr dans un format lisible par machine), puis essayez de concevoir un algorithme (ou des procédures) et des programmes informatiques pour exécuter l'application. Si le résultat de ce système "hypothétique" est que "le trafic va être nul", ou "vos colocataires ont mangé vos chocolats", alors bingo ! Vous êtes un data scientist.
C'est aussi simple (en théorie) que l'analogie ci-dessus le laisse entendre. En fin de compte, vous disposez de données, de procédures, d'algorithmes et d'outils. Vous avez juste besoin d'en extraire des connaissances. Pour le faire efficacement, il y a un workflow/pipeline que vous devez suivre. Voyons ce que tout est inclus dans un pipeline Data Science typique.
Pipeline de science des données
Le pipeline de science des données parle du flux de l'ensemble du processus - de l'obtention des données souhaitées à la réalisation de calculs et de prévisions précis. Examinons les éléments de ce pipeline :

Obtenez vos données
C'est par défaut la première chose que vous devez faire pour pratiquer la science des données - obtenir les données ! Juste un petit avertissement - il y a certaines choses que vous devez prendre en considération lors de l'obtention de vos données. Vous devez d'abord identifier tous vos ensembles de données (peuvent provenir d'Internet ou de bases de données internes/externes). Vous devez ensuite extraire les données dans un format utilisable (CSV, XML, JSON, etc.)
Voici les principales compétences et outils à maîtriser pour devenir analyste de données
Compétences requises
- Gestion de base de données : SQL ou NoSQL, selon vos besoins et vos exigences.
- Interroger ces bases de données
- Récupérer des données non structurées sous forme de vidéos, audios, textes, documents, etc.
- Stockage distribué : Hadoop, Apache Spark ou Apache Flink.
Nettoyage/nettoyage de vos données
Le nettoyage des données doit revêtir la plus haute importance, car le résultat final de votre système est aussi bon que les données que vous y mettez. Le nettoyage fait référence à la suppression des anomalies, au remplissage des valeurs vides/manquantes, à la vérification de la cohérence des données et à d'autres choses de cette nature.
Compétences requises
- Langage de script : Python, R, SAS
- Outils de traitement des données : Python Pandas, R
- Traitement distribué : Hadoop, MapReduce/Spark
Exploration (analyse exploratoire des données)
Maintenant que les données sont propres, vous commencerez à comprendre les modèles de vos données. Différents types de visualisations et de modélisations statistiques entrent en jeu dans cette phase. Fondamentalement, cette phase vise à tirer le sens caché de nos données.
Il y a beaucoup de choses qui circulent dans le domaine de l'analyse exploratoire des données. Si vous pensez que c'est quelque chose que vous aimeriez, n'oubliez pas de lire notre article sur le même sujet.
Pour mieux performer dans cette phase, vous devez avoir des picotements dans vos "sens d'araignée". Soyez fou et repérez des modèles ou des tendances étranges - soyez toujours à l'affût de quelque chose qui sort des sentiers battus. Cependant, tout en faisant cela, n'oubliez pas le problème que vous souhaitez résoudre. Ne sortez pas trop des sentiers battus. L'analyse exploratoire des données est un art, et un artiste doit toujours garder le public à l'esprit.
Compétences requises
- Librairies Python : Numpy, Matplotlib, Pandas, Scipy
- Librairies R : GGplot2, Dplyr
- Statistiques déductives
- Visualisation des données
- Conception expérimentale
Modélisation (apprentissage automatique)
C'est la partie amusante. Les modèles sont simplement des règles générales au sens statistique. Un modèle d'apprentissage automatique est simplement un outil de votre boîte à outils. Vous avez accès à tellement d'algorithmes avec des cas d'utilisation et des objectifs différents qu'une simple recherche vous mènera à un algorithme qui correspond aux besoins de votre entreprise.
Après avoir nettoyé les données et découvert les caractéristiques essentielles (dans la phase EDA), l'utilisation d'un modèle statistique comme outil prédictif améliorera votre prise de décision globale. Au lieu de regarder en arrière pour voir « que s'est-il passé ? », l'analyse prédictive vise à répondre « et ensuite ? et "comment doit-on s'y prendre?".

Compétences requises
- Apprentissage automatique : Algorithmes d'apprentissage supervisé/non supervisé/renforcé
- Méthodes d'évaluation
- Bibliothèques d'apprentissage automatique : Python (Sci-kit Learn) / R (CARET)
- Algèbre linéaire et calcul multivarié
Interprétation (Data Storytelling)
C'est l'une des tâches les plus difficiles du pipeline. Ici, vous visez à expliquer vos découvertes par la communication. En fin de compte, il s'agit de se connecter avec votre public - et c'est ce qui fait de la narration une clé.
Vos découvertes ne sont guère utiles si vous n'êtes pas en mesure de transmettre leur importance au groupe non technique de votre bureau, ou même à votre patron, d'ailleurs. Une bonne pratique pour maîtriser les choses serait de beaucoup répéter. Essayez de cadrer une histoire sur vos découvertes et de la raconter à un profane (de préférence un enfant). S'ils le comprennent, votre patron le comprendra aussi. Et s'ils ne le font pas, eh bien, vous savez ce qu'Einstein a dit :
"Si vous ne pouvez pas l'expliquer à un enfant de six ans, vous ne le comprenez pas vous-même."
Cette phase vise à obtenir de véritables informations commerciales. Votre principal défi ici est de visualiser vos résultats et de les afficher d'une manière belle et compréhensible.
Compétences requises
- Connaissance de votre domaine d'activité
- Outils de visualisation de données : Tableau, D3.JS, Matplotlib, GGplot, Seaborn, etc.
- Communication : Compétences en présentation - à la fois verbales et écrites.
Ce n'est pas la fin de notre pipeline. Si vous voulez vraiment tirer le meilleur parti de votre système, vous devez vous assurer que vous mettez à jour votre modèle au fur et à mesure des besoins. En science des données, une taille ne convient pas à tous, et vous devrez sans cesse revoir et mettre à jour votre modèle.
Manipulation de données : comment détecter les mensonges de données ?
Applications de la science des données
Comme il est clair maintenant, la science des données est un terme large, tout comme ses applications. Presque toutes les applications de votre smartphone fonctionnent grâce aux données. Il est donc juste de dire qu'il est pratiquement impossible de répertorier toutes les applications de la science des données en raison de son omniprésence.
Jetons un coup d'œil aux grands domaines qui utilisent la magie de la science des données :
1. Recherche Internet
Comment Google renvoie-t-il des résultats de recherche aussi *précis* en une fraction de seconde ? Science des données !
2. Systèmes de recommandation
Des « personnes que vous connaissez peut-être » sur Facebook ou LinkedIn aux « personnes qui ont acheté ce produit ont également aimé… » sur Amazon, en passant par vos listes de lecture quotidiennes sur Spotify et même les « vidéos suggérées » sur YouTube, tout est alimenté par la science des données.
3. Image/Voix/Reconnaissance de caractères
Cela va sans dire. Selon vous, quel est le cerveau derrière "Siri", si ce n'est la science des données ? De plus, comment pensez-vous que Facebook reconnaît votre ami lorsque vous téléchargez une photo avec lui ? Ce n'est pas magique; c'est la science - la science des données.
4. Jeux
EA Sports, Sony, Nintendo, Zynga et d'autres géants de ce domaine ont pris sur eux de faire passer votre expérience de jeu à un tout autre niveau. Les jeux sont maintenant développés et améliorés à l'aide d'algorithmes d'apprentissage automatique afin qu'ils puissent être mis à niveau à mesure que vous passez à des niveaux supérieurs.
5. Sites Web de comparaison de prix
Ces sites Web sont alimentés par des données. Pour eux, plus on est de fous, mieux c'est. Les données sont extraites des sites Web concernés à l'aide d'API. PriceGrabber, PriceRunner, Junglee, Shopzilla sont quelques-uns de ces sites Web.
Initiez-vous à la science des données avec PythonEmballer…
Si vous avez une formation technique et que vous avez un petit quelque chose pour les données, alors la science des données est votre véritable vocation. La meilleure partie? Il y a tellement de choses à faire et à explorer dans et autour de Data Science. C'est un terme générique qui couvre un certain nombre d'outils et de technologies - dont la maîtrise de l'un d'entre eux fera de vous un atout sur le marché en constante augmentation de la science des données. upGrad propose divers cours sur la science des données pour vous garder une longueur d'avance. N'oubliez pas de les consulter !
Quelle est la portée de la science des données dans les industries en Inde ?
La science des données a un impact énorme sur de nombreux secteurs en Inde. Chaque industrie répertoriée ci-dessous s'appuie fortement sur la science des données et offre d'excellentes perspectives pour un scientifique des données.
1. Soins de santé : C'est un mot fourre-tout pour tout ce qui concerne la médecine, les patients et les maladies. La science des données a commencé à jouer un rôle essentiel dans cette industrie, allant du diagnostic plus efficace à la recherche médicale.
2. Banque et assurance - Évaluation des risques et détection des fraudes : les banques collectent les profils des clients, les demandes et les dépenses précédentes, ainsi qu'une variété d'autres données personnelles, en particulier pour les prêts et les assurances. C'est là qu'intervient la science des données, car elle simplifie le processus et fait la distinction entre ceux qui présentent un faible risque et ceux qui présentent un risque élevé.
3. Marketing et publicité - Avec toutes les données à portée de main, vous pouvez analyser et déterminer qui devrait être votre public cible afin de commercialiser efficacement votre service ou produit.
4. Industrie des compagnies aériennes - La science des données est utilisée dans le secteur des compagnies aériennes pour analyser les trajectoires et les itinéraires des avions.
Comment les Data Scientists peuvent-ils utiliser leurs compétences pour résoudre des problèmes métier ?
En fonction des exigences de son entreprise, un Data Scientist doit adopter une stratégie différente pour résoudre un défi commercial. À l'aide de modèles hybrides de mathématiques et d'informatique, les scientifiques des données glanent des informations exploitables à partir des données et aident à prendre de meilleures décisions. Les applications de la science des données pour résoudre les défis commerciaux du monde réel incluent l'amélioration de la qualité des produits, l'automatisation du placement d'annonces numériques, l'augmentation de la génération de revenus en prédisant la demande et les opportunités de croissance, l'automatisation des processus de recrutement, la fixation des prix sur un marché dynamique, entre autres cas d'utilisation.
Quel est l'avenir de la science des données ?
L'avenir de la science des données est très excitant avec un large éventail de mise en œuvre dans presque tous les domaines. Certaines des meilleures entreprises natives numériques telles que Google, Amazon, Facebook, etc. ont investi de manière significative dans les données. La montée en puissance des technologies émergentes combinée à la recherche en cours conduira à des applications et des cas d'utilisation innovants à l'avenir. Du point de vue de la carrière, la science des données est très prometteuse.
