Scientifiques des données : mythes vs réalités
Publié: 2018-04-05Tout ce qui prend rapidement de l'ampleur tend à devenir ce dont tout le monde parle. Et plus les gens parlent de quelque chose, plus les idées fausses et les mythes s'accumulent. La science des données et l'analyse sont l'un de ces domaines qui ne cesse d'augmenter, et avec lui, un nombre croissant de mythes associés.
Aujourd'hui, nous allons démystifier certains de ces mythes et idées fausses concernant la vie et le travail des data scientists. Mais avant de passer à cela, commençons par comprendre une journée type dans la vie d'un data scientist.
Une organisation a des tas de données qu'elle a recueillies au fil du temps à partir de diverses sources et dans divers formats. Maintenant, ils ont décidé de faire quelque chose à ce sujet. Ils veulent que leurs données comptent. Vers qui se tournent-ils ?
Scientifiques des données !
Oui, des data scientists que la majorité confond avec des êtres surnaturels. Ces personnes sont au cœur de l'équipe d'analyse de données de toute organisation. Ils occupent un poste vital et bien que cela puisse vous surprendre, leur journée régulière ressemble à la journée typique de tout autre employé à col blanc.
Table des matières
Des réunions, des réunions et encore des réunions !
Les data scientists doivent assister à des réunions, la plupart du temps au quotidien, pour recueillir les besoins, discuter du travail accompli et planifier le travail de la journée. Il existe également des réunions internes qui sont importantes pour les objectifs de l'organisation et permettent de surmonter les problèmes commerciaux. Dans l'ensemble, le but de ces réunions est d'avoir une idée plus claire des problèmes à résoudre et de s'assurer que tout le monde dans l'organisation est sur la voie à suivre.
Cherchez des données et rendez-les vierges !
Une partie de leur journée est consacrée à l'identification des problèmes réels auxquels leur organisation est confrontée et à la recherche de moyens pour que leurs données aident à résoudre ces problèmes. Vient ensuite une partie plus difficile : déterminer le type et la source des données requises. Un data scientist expérimenté sélectionne toujours les données des sources les plus pertinentes, celles qui sont susceptibles de générer de la valeur.
Cependant, c'est quelque chose qui vient avec l'expérience et l'expertise. Par conséquent, les scientifiques des données doivent y consacrer beaucoup de temps.
Cependant, la collecte des données ne fait que la moitié du travail. Le data scientist doit également s'assurer que les données sont validées et nettoyées. S'ils travaillent avec des données imparfaites, les chances de succès diminuent de façon exponentielle.
Principes fondamentaux de la statistique pour la science des donnéesMettez-vous à faire de la magie. Nous parlons d'analyse.
Lorsque les données sont entièrement nettoyées, le scientifique des données passe son temps restant à identifier les tendances et les modèles à partir des données. C'est un autre aspect problématique du travail d'un data scientist, d'autant plus qu'il n'existe pas de méthode définie pour analyser efficacement ces données. Le plus souvent, cela nécessite un data scientist pour concevoir ses outils et algorithmes ou les ajuster avec ceux existants. Cela demande une ouverture d'esprit et une volonté d'expérimenter.
Tisser une histoire.
Après l'analyse des ensembles de données, vient la partie la plus importante - celle de la visualisation des données. Les scientifiques des données doivent présenter leurs conclusions devant un public majoritairement non technique, comme les parties prenantes et les spécialistes du marketing de l'entreprise. Ce n'est pas toujours une tâche quotidienne, mais cela doit être fait fréquemment pour garder les choses en mouvement. La charge de travail importante du scientifique des données consiste ici à proposer une technique de visualisation qui non seulement capture l'essence de ses données, mais présente également le tout de manière esthétique.
Le rôle d'un data scientist est extrêmement dynamique ; il n'y a pas deux jours pareils pour eux. Leur travail les oblige à être sur leurs gardes et à toujours avoir leur chapeau de réflexion. Les données avec lesquelles ils travaillent, les problèmes qu'ils cherchent à résoudre et les informations qu'ils cherchent à découvrir changent constamment. C'est ce qui rend le rôle d'un data scientist si unique et passionnant.
Guide du débutant sur la science des données et ses applicationsMaintenant, prenez une longueur d'avance et démystifiez davantage de ces mythes, parfois absurdes : vidéo
vidéo Youtube
Mythe #1 : Vous devez être un statisticien expert avec un doctorat. dans les statistiques. Ou, à tout le moins, vous devez avoir un diplôme en statistiques.
Oui, détenir un diplôme officiel en statistique vous assurera que vous êtes au courant des meilleures pratiques en statistique dès le premier jour. Cependant, tenez-vous-y - si vous regardez le monde de la science des données, vous trouverez plus de personnes de une formation managériale/non mathématique que les « scientifiques de fusée » accros aux mathématiques.

Mythe #2 : Vous devez être un programmeur chevronné pour exceller en science des données. Plus c'est hardcore, mieux c'est.
Encore une fois, comme le mythe dont nous avons discuté il y a quelques lignes, cela aussi est basé sur une fausse hypothèse sur le travail du data scientist. Les gens supposent qu'être un scientifique des données implique d'écrire des lignes de codes et d'algorithmes et ainsi de suite ! Mais, si vous avez prêté attention à la routine dont nous avons parlé plus tôt, vous vous rendrez compte qu'il n'y a pas de "codage" significatif impliqué ici. La plupart des algorithmes ou des méthodes sont disponibles prêts à l'emploi avec juste quelques ajustements nécessaires. Cependant, vous devez avoir un esprit logique pour le faire.
Initiez-vous à la science des données avec PythonMythe #3 : Les data scientists ne sont pas des scientifiques au sens propre du terme.
Chaque scientifique est par défaut un data scientist. La science pure a toujours coexisté avec les données d'observation. Sans la capacité de passer au crible, de trier, de structurer, de classer, de théoriser et de présenter leurs données, aucun scientifique ne peut apporter de cohérence à leur étude. De même, un scientifique des données qui n'a pas approfondi ses données ne peut pas présenter ses conclusions de manière efficace. Les contrôles statistiques ont toujours été un fondement de la science pure, et maintenant, ce sont les responsabilités fondamentales d'un scientifique des données. Ainsi, si un scientifique des données observe les tendances et les modèles de comportement des clients d'une organisation et confirme ses conclusions à l'aide de statistiques et d'expériences réelles, il est un scientifique pur et simple.
Mythe #4 : Les data scientists travaillent sur des outils statistiques coûteux et compliqués pour faire leur travail.
Essentiellement, le travail d'un data scientist exige qu'il recherche des tendances et des modèles cachés dans un large ensemble de données. Pour cela, ils peuvent utiliser des outils de visualisation conviviaux, des outils d'intelligence d'affaires basés sur la recherche en libre-service, des outils interactifs d'exploration de données, ou même des outils simples qui ne nécessitent pas une grande maîtrise statistique. Pour ajouter, de nombreux analystes commerciaux du monde entier peuvent trouver des informations approfondies même en modélisant les fonctionnalités d'une application de feuille de calcul principale.
Mythe #5 : La science des données consiste à alimenter des clusters Hadoop en données et à utiliser MapReduce. Simple!
Si les gens essayaient d'explorer avant de répandre des mythes, nous n'en serions pas là. Si vous parlez à un scientifique des données, vous vous rendrez compte que la science des données et l'analyse ne se limitent pas à Hadoop et MapReduce. Ces deux ne sont que deux des nombreux outils. Le plus souvent, un projet de science des données réussi utilise un éventail d'outils à différentes étapes. Par conséquent, on s'attend à ce qu'un scientifique des données soit au courant de toutes les avancées technologiques majeures en cours dans ce domaine pour effectuer le passage approprié à n'importe quel outil ou technologie chaque fois que nécessaire. En matière de science des données, une seule chaussure ne convient pas à tous, et il n'y a pas de tableau Ouija magique pour faire parler les esprits de la science des données à nous, mortels.
Les meilleures étapes pour maîtriser la science des données, croyez-moi, je les ai essayéesNous espérons que vous avez aimé élargir votre vision ! Restez avec nous ; nous reviendrons avec d'autres Mythbusters de ce type.
Est un doctorat. obligatoire pour devenir Data Scientist ?
Décomposons le rôle d'un Data Scientist en deux domaines pour mieux comprendre cela :
1. Rôle d'Applied Data Science - Travailler avec les algorithmes actuels et comprendre leur fonctionnement est l'objectif principal d'Applied Data Science. Autrement dit, il s'agit d'intégrer ces méthodes dans votre projet. La majorité des personnes liées à la carrière en science des données entrent dans cette catégorie. La plupart des offres d'emploi et des descriptions de poste sont généralement considérées pour ce rôle.
2. Rôle de recherche - Si vous êtes intéressé par un rôle de recherche, vous aurez peut-être besoin d'un doctorat. Un rôle de recherche en science des données comprend la création de nouveaux algorithmes à partir de zéro, leur recherche, la rédaction d'articles scientifiques, etc.
L'Intelligence Artificielle remplacera-t-elle les Data Scientists dans un futur proche ?
Dans l'évolution de la Data Science, il est plausible de dire que l'intelligence artificielle remplacera à terme les opérations effectuées manuellement par les Data Scientists. Cependant, un ordinateur ne peut pas décider lui-même s'il doit nettoyer les données, développer un modèle efficace, travailler sur l'exactitude du modèle, etc. Ces choix sont faits par quelqu'un qui a les qualifications nécessaires. Même si des initiatives sont tentées pour développer des algorithmes plus avancés dans l'espoir de réduire le besoin de Data Scientists, il est peu probable que cela se produise de sitôt. Même avec les algorithmes les plus avancés, le maintien du fonctionnement des entreprises nécessiterait toujours une personne dotée d'un bon jugement et d'une connaissance du domaine.
Puis-je devenir un Data Scientist juste en maîtrisant les outils de la Data Science ?
C'est une idée fausse répandue que savoir utiliser des outils et des bibliothèques statistiques vous qualifie en tant que Data s Scientist. Travailler avec ces outils vous aidera à mieux les comprendre, mais la science des données est un ensemble de compétences qui combine une variété de capacités. L'apprentissage des outils qui vont avec n'est qu'un aspect du processus. Outre la connaissance d'outils tels que Python ou R, des compétences telles que la résolution de problèmes, une compréhension approfondie des concepts et des informations sur les applications correctes nécessaires à un problème métier sont également essentielles à maîtriser.