Principes fondamentaux de la statistique pour la science des données
Publié: 2018-02-27Si vous êtes un aspirant scientifique des données, familiarisez-vous avec les concepts de base de la statistique pour la science des données . Vous n'avez pas besoin d'être titulaire d'un doctorat. en statistique pour exceller en science des données, mais vous devez en savoir suffisamment pour décrire peut-être quelques algorithmes de base lors d'un dîner.
À l'avenir, nous vous guiderons à travers certaines des conditions préalables dans les bases de Statistics for Data Science .
Si vous venez d'entrer dans le monde de la science des données, vous avez peut-être rencontré des personnes déclarant que les "maths" sont une condition préalable à la science des données. En toute honnêteté, ce ne sont pas des mathématiques en soi, mais vous devez apprendre les statistiques pour la science des données .
De nos jours, les bibliothèques comme Tensorflow cachent presque toutes les mathématiques complexes à l'écart de l'utilisateur. Bon pour nous, mais il est toujours bon d'avoir une compréhension de base des principes sous-jacents sur lesquels ces choses fonctionnent. Avoir une bonne compréhension de l'analyse des données peut vous aider à mieux tout comprendre.
Cet article vous aidera à vous armer de théorèmes, de concepts et d'équations qui non seulement aideront votre cause en tant que Data Scientist, mais vous donneront également l'impression que vous avez réussi le cours sur le calcul statistique avancé.
Table des matières
Distributions statistiques
C'est probablement l'une des choses les plus importantes que vous devez savoir lorsque vous vous armez des statistiques préalables pour la science des données .
Loi de Poisson
La distribution de Poisson est l'un des outils les plus essentiels en statistique. Il est utilisé pour calculer le nombre d'événements susceptibles de se produire dans un intervalle de temps. Par exemple, combien d'appels téléphoniques sont susceptibles de se produire au cours d'une période donnée.
Le symbole amusant dans cette équation (λ) est connu sous le nom de lambda . Il est utilisé pour représenter le nombre moyen d'événements se produisant par intervalle de temps.Un autre bon exemple d'utilisation de la distribution de Poisson consiste à calculer la perte de fabrication. Supposons qu'une machine produise des feuilles de métal et présente X défauts par mètre. Supposons, par exemple, que le taux d'erreur soit de 2 par mètre de la feuille - puis en utilisant la distribution de Poisson, nous pouvons calculer la probabilité qu'exactement deux erreurs se produisent dans un mètre.
Distribution binomiale

Si vous avez déjà rencontré des statistiques de base, vous avez peut-être rencontré la distribution binomiale.Disons que vous avez eu une expérience consistant à lancer trois fois une pièce sans biais.
Pouvez-vous dire la probabilité que la pièce montre face sur les trois lancers ?Tout d'abord, à partir de la combinatoire de base, nous pouvons découvrir qu'il existe huit combinaisons possibles de résultats lorsque vous lancez une pièce trois fois. Maintenant, nous pouvons tracer les probabilités d'avoir 0, 1, 2 ou 3 têtes. Ce graphique nous donnera notre distribution binomiale requise pour ce problème. Lorsqu'il est représenté graphiquement, vous remarquerez qu'il ressemble beaucoup à une courbe de distribution normale typique, en théorie, les deux sont très similaires. Alors que la distribution binomiale concerne les valeurs discrètes (un nombre limité de lancers de pièces), la distribution normale prend en charge les valeurs continues.
Il existe un certain nombre de distributions autres que celles dont nous avons parlé ci-dessus. Si vous êtes une âme intéressée et que vous souhaitez également mieux vous armer des statistiques nécessaires pour Data Scienc e, nous vous suggérons également de lire les distributions suivantes :
- Répartition géométrique
- Distribution hypergéométrique
- Distribution uniforme discrète
- Distribution binomiale négative
Quelques théorèmes et algorithmes
Lorsque nous parlons de statistiques pour la science des données , nous ne pouvons tout simplement pas ignorer les théorèmes et algorithmes de base qui sont à la base de nombreuses bibliothèques sur lesquelles vous travaillerez en tant que Data Scientist. Il existe un certain nombre d'algorithmes de classification, d'algorithmes de clustering, d'algorithmes de réseau neuronal, d'arbres de décision, etc. Dans cette section, nous parlerons de quelques théorèmes de base que vous devriez connaître - cela vous aidera également à comprendre facilement d'autres théorèmes complexes.
Théorème de Bayes
C'est l'un des théorèmes courants que vous rencontrerez si vous avez suivi une formation formelle en informatique. Il y a eu de nombreux livres au fil des ans qui discutent excessivement du théorème de Bayes et de ses concepts de manière élaborée.
Le théorème de Bayes simplifie grandement les concepts complexes. Il explique beaucoup de faits statistiques en utilisant quelques variables simples. Il prend en charge le concept de « probabilité conditionnelle » (par exemple, si A s'est produit, il a joué un rôle dans l'occurrence de B). La chose la plus appréciable à ce sujet est le fait que vous pouvez prédire la probabilité de n'importe quelle hypothèse en utilisant uniquement les points de données donnés.
Bayes peut vous aider à prédire la probabilité qu'une personne ait un cancer simplement en connaissant son âge. Il peut également vous indiquer si un e-mail est un spam en fonction du nombre de mots. Ce théorème est essentiellement utilisé pour lever l'incertitude.
Fait amusant : le théorème de Bayes a aidé à prédire les emplacements des sous-marins ainsi qu'à prédire la configuration de la machine Enigma pour traduire les codes allemands, pendant la Seconde Guerre mondiale. Même dans la science des données moderne, Bayes trouve de nombreuses applications dans de nombreux algorithmes.
Qu'est-ce que l'entreposage de données et l'exploration de données ?
Algorithme K-plus proche voisin

Il s'agit d'un algorithme très simple tant en termes de compréhension que de mise en œuvre. À tel point qu'on l'appelle « l'algorithme paresseux ». Sa simplicité réside dans le fait qu'il est basé sur des déductions logiques plus que sur n'importe quel fondamental de la statistique en soi. En termes simples, cet algorithme cherche à trouver les groupes les plus proches les uns des autres.

K-NN utilise le concept de distance euclidienne. Il recherche des groupes locaux dans et autour d'un nombre spécifié de points focaux. Ce nombre est représenté par "k". Il existe de nombreuses approches pour déterminer la valeur de 'k' car il s'agit d'une valeur décidée par l'utilisateur.
Ce concept est idéal pour le regroupement de fonctionnalités, la segmentation de base du marché et la recherche de valeurs aberrantes à partir d'un groupe d'entrées de données. La plupart des langages de programmation modernes implémentent l'algorithme K-NN en seulement deux lignes de code.
Bagging (agrégation Bootstrap)
Le bagging fait essentiellement référence à la création de plusieurs modèles d'un seul algorithme, comme un arbre de décision. Chacun des modèles est formé sur un échantillon de données différent (c'est ce qu'on appelle l'échantillon bootstrap).
Par conséquent, chaque arbre de décision est créé à l'aide de données d'échantillon différentes, ce qui résout le problème de surajustement à la taille de l'échantillon. Le regroupement d'arbres de décision comme celui-ci aide essentiellement à réduire l'erreur totale, car la variance globale diminue à chaque nouvel arbre ajouté. Un sac de tels arbres de décision est connu sous le nom de forêt aléatoire.
Initiez-vous à la science des données avec Python
Analyse de la courbe ROC

Le terme ROC signifie Receiver Operating Characteristic. La courbe d'analyse ROC est largement utilisée en Data Science. Il prédit la performance probable d'un test en mesurant sa sensibilité globale par rapport à son taux de chute. L'analyse ROC est extrêmement importante pour déterminer la viabilité d'un modèle.
Comment ça marche?
Votre modèle d'apprentissage automatique peut vous donner des prédictions inexactes. Certains d'entre eux sont dus au fait qu'une valeur particulière aurait dû être "vraie" mais est à la place définie sur "faux", ou vice-versa.
Quelle est la probabilité que vous ayez raison alors ?
En utilisant la courbe ROC, vous pouvez voir la précision de votre prédiction. Avec les deux paraboles différentes, vous pouvez également déterminer où placer votre valeur de seuil. Le seuil est l'endroit où vous décidez si la classification binaire est positive ou négative - vrai ou faux.
Au fur et à mesure que les deux paraboles se rapprochent l'une de l'autre, l'aire sous la courbe tendra vers zéro. Cela signifie essentiellement que votre modèle a tendance à être imprécis. Plus la surface est grande, plus la précision de votre modèle est grande. C'est l'un des premiers tests utilisés lors du test de toute modélisation, car il aide à détecter les problèmes dès le début en indiquant si le modèle est correct ou non.
Un exemple réel de courbes ROC - Elles sont utilisées pour décrire le lien/compromis entre la sensibilité clinique et la spécificité pour le seuil d'un test particulier ou d'une combinaison de tests - de manière graphique. Pour ajouter à cela, l'aire sous la courbe ROC donne également une bonne idée des avantages de l'utilisation des tests mentionnés ci-dessus. Par conséquent, les courbes ROC sont largement utilisées en biochimie pour choisir un seuil approprié. Idéalement, le meilleur seuil est celui qui a le taux de faux positifs le plus bas avec le taux de vrais positifs le plus élevé ensemble.
Comment pouvez-vous passer à l'analyse de données ?
Importance des statistiques en science des données
À partir de la discussion ci-dessus, maintenant que vous connaissez les concepts de base de la statistique et les principes fondamentaux de la statistique, parlons de l'importance d'apprendre la statistique pour la science des données. Les outils et technologies cruciaux pour organiser et trouver des informations approfondies dans les données, pour analyser et quantifier les données sont fournis par Statistics for Data Analytics.
Nous vous avons donné un aperçu des concepts de base de la statistique et de l'impact de la statistique sur l'exploration, l'analyse, la modélisation et la représentation des données. Nous indiquons également au problème s'il y a une incohérence tout en négligeant les bases de la statistique. Si vous souhaitez rejoindre l'industrie à la croissance la plus rapide, rendez-vous directement sur notre site Web à UpGrad pour suivre notre didacticiel sur les statistiques pour la science des données, car nous proposons des cours en ligne et hors ligne. Une fois que vous aurez maîtrisé votre jeu dans au moins les bases de la statistique et les bases de la statistique, vous serez prêt à travailler.
En conclusion…
La liste de sujets ci-dessus n'est en aucun cas une liste exhaustive de tout ce que vous devez savoir sur les statistiques. Cette liste est juste pour vous donner une idée de tout ce que vous pourriez rencontrer dans votre parcours de Data Science, et comment pouvez-vous vous y préparer.
Dans l'ensemble, cet article présente certains des concepts de base de la statistique pour la science des données . Une compréhension approfondie des concepts expliqués couplés vous aidera à comprendre facilement les autres concepts. Si vous souhaitez explorer davantage et maîtriser la science des données, trouvez nos meilleurs cours de science des données en ligne.
Quelle est l'importance des statistiques pour la science des données ?
Les statistiques fournissent les techniques et les outils permettant d'identifier la structure des mégadonnées, ainsi que de fournir aux individus et aux organisations une meilleure compréhension des réalités révélées par leurs données, en utilisant des méthodes statistiques appropriées qui permettent la classification et l'organisation, aident à calculer la distribution et l'estimation des probabilités, et trouver une structure dans les données en repérant les anomalies et les tendances. Les statistiques aident également à la visualisation et à la modélisation des données grâce à l'utilisation de graphiques et de réseaux. Il aide à identifier les groupes de données ou d'autres structures qui sont affectées par des variables et aide à réduire le nombre d'hypothèses dans un modèle, le rendant ainsi plus précis et utile.
Quels sont les concepts fondamentaux clés de la statistique requis pour la science des données ?
Les concepts de base des statistiques sont indispensables pour la science des données. Voici quelques-uns des concepts clés qui vous aideront à démarrer votre voyage en science des données :
1. Probabilité : C'est la base de la science des données. La théorie des probabilités est très utile pour formuler des prédictions. Les données sont le fondement de toutes les probabilités et statistiques.
2. Échantillonnage : L'échantillonnage des données est une technique d'analyse statistique qui consiste à sélectionner, manipuler et analyser une sélection représentative de points de données afin de trouver des modèles et des tendances dans une plus grande collection de données.
3. Tendance et distribution des données : La distribution des données est un facteur crucial. L'importance d'une distribution bien connue telle que la distribution normale est énorme. Par conséquent, la détermination de la distribution et de l'asymétrie des données est un concept essentiel.
4. Test d'hypothèses : Le test d'hypothèses identifie les situations dans lesquelles des actions doivent être entreprises ou non en fonction des résultats attendus.
5. Variations : Il s'agit de la distorsion, de l'erreur et du décalage dans les données.
6. Régression : Elle est essentielle pour la Data Science car elle aide à la compréhension des solutions existantes ainsi qu'à la découverte de nouvelles innovations.
Comment les statistiques sont-elles utilisées en science des données ?
Les Data Scientists utilisent des statistiques pour aider les entreprises à prendre de meilleures décisions sur les produits, à concevoir et à interpréter des essais, à déterminer les facteurs qui stimulent les ventes, à prévoir les tendances et les modèles de ventes. La représentation visuelle des performances des données et des algorithmes aide à trouver des valeurs aberrantes, des modèles triviaux spécifiques et un résumé des métriques.
