Distribution de probabilité : types de distributions expliqués

Publié: 2020-12-16

Table des matières

Introduction à la probabilité et à la distribution de probabilité

Afin de comprendre la distribution de probabilité, commençons par comprendre ce qu'est la probabilité. La probabilité est la mesure de la probabilité qu'un événement se produise dans une expérience. En termes simples, il nous indique quelle est la probabilité que l'événement se produise. La valeur de la probabilité qu'un événement se produise va de 0 (étant le moins probable) à 1 (étant le plus probable).

La distribution de probabilité est une fonction qui fournit les probabilités de différents résultats pour l'expérimentation. Il montre les valeurs possibles qu'une variable aléatoire peut prendre et à quelle fréquence ces valeurs se produisent.

Dans la distribution de probabilité, la somme de toutes ces probabilités s'agrège toujours à 1. Dans le domaine de la science des données, l'une des utilisations de la distribution de probabilité est de calculer les intervalles de confiance et de calculer les régions critiques dans les tests d'hypothèse.

Distributions continues et discrètes

Le type de distribution de probabilité à utiliser dépend du fait que la variable contient des valeurs discrètes ou des valeurs continues. Une distribution discrète ne peut prendre qu'un ensemble limité de valeurs, tandis que les distributions continues peuvent prendre n'importe quelle valeur dans la plage spécifiée.

Les distributions continues sont représentées en termes de densité de probabilité car il peut y avoir des valeurs infinies dans une certaine plage et la probabilité de chaque valeur sera nulle. Dans le cas d'une distribution discrète, on peut obtenir une probabilité pour chaque valeur car le nombre de valeurs est limité.

Types de distributions – Distribution discrète

Distribution binomiale

C'est un type de distribution où le nombre de résultats dans un seul essai n'est que de deux. Chaque essai est indépendant d'un autre essai; c'est-à-dire que le résultat de chaque essai n'a pas d'impact sur le résultat des autres essais. Les essais qui sont menés dans cette expérience sont identiques les uns aux autres.

Ainsi, la probabilité de succès et d'échec serait la même pour chaque essai. Par exemple, si la probabilité de succès d'un essai est de 0,8 (ce qui signifie que la probabilité d'échec serait de 0,2), il en sera de même pour le reste des essais .

Distribution multi-nominale

Il s'agit de la version généralisée de la distribution binomiale où le nombre de résultats peut être supérieur à deux. Les autres propriétés de cette distribution sont similaires à celle de la distribution binomiale. Par exemple, considérez que lorsqu'un dé équitable est lancé, la probabilité de chaque résultat sera la même pour tous les essais car ces essais sont indépendants les uns des autres.

Distribution de Bernoulli

Ceci est une autre variante de la distribution binomiale. Il s'agit d'un cas particulier de distribution binomiale où le nombre d'essais effectués dans une expérience est de 1 (n = 1). Comme il n'y a qu'un seul essai, il peut être défini à l'aide d'un seul paramètre (p) qui est généralement la probabilité de succès.

Lire : Distribution binomiale en Python

Distribution binomiale négative

Les conditions suivantes dans une distribution binomiale négative diffèrent de la distribution binomiale : –

    • Le nombre d'essais effectués dans une expérience n'est pas fixe.
    • La variable aléatoire indique le nombre d'essais nécessaires pour atteindre un nombre souhaité de succès.

Pour la distribution binomiale, la variable aléatoire est le nombre de succès requis, c'est-à-dire que nous nous concentrons uniquement sur le nombre de succès, quel que soit le nombre de pistes qui échouent. Mais dans le cas d'un binôme négatif, il se concentre sur le nombre d'essais nécessaires pour atteindre le nombre de succès, c'est-à-dire que le nombre d'échecs (négatifs) est également pris en considération, c'est pourquoi on l'appelle une distribution binomiale négative.

Le processus ne se poursuit que jusqu'à ce que le nombre de succès souhaité ait été atteint. Cela rend le nombre d'essais pour une expérience arbitraire. Elle est également appelée distribution de Pascal.

Loi de Poisson

La distribution de Poisson fournit la probabilité qu'un nombre discret d'événements se produisent dans une période de temps spécifique, à condition que nous connaissions le nombre moyen d'événements qui se sont produits au cours de la même période. Ces événements se produisent indépendamment et n'ont aucun effet sur les autres événements. Pour mettre en œuvre cette distribution, il suppose que le taux d'occurrence reste constant sur la période de temps.

Distribution uniforme discrète

Dans une distribution uniforme, les probabilités de tous les résultats sont égales. Par exemple, considérez que lorsqu'un dé équitable est lancé, la probabilité de tout résultat allant de 1 à 6 sera égale. La fonction de masse de probabilité de cette distribution est 1/n où n est le nombre total de valeurs discrètes.

Types de distributions – Distribution continue

Distribution uniforme continue

L'uniformité de la distribution peut également s'appliquer aux valeurs continues. Cela indique que la distribution de probabilité est uniforme dans la plage spécifiée. Elle est également appelée distribution rectangulaire en raison de la forme qu'elle prend lorsqu'elle est tracée sur un graphique.

Distribution normale

Une distribution normale (également connue sous le nom de courbe en cloche) est un type de distribution continue symétrique des deux extrémités de la moyenne. Cela indique généralement que la moitié des échantillons se situe du côté gauche de la moyenne, tandis que l'autre moitié se situe du côté droit. Pour une distribution normale, la moyenne, le mode et la médiane sont égaux.

Les données normalement distribuées suivent généralement la règle empirique. La règle empirique montre la répartition des données en termes d'écart-type et de moyenne comme suit : -

    • 68 % de probabilité que la variable aléatoire tombe à moins d'un écart-type de la moyenne.
    • 95 % de probabilité que la variable aléatoire se situe à moins de 2 écarts-types de la moyenne.
    • Probabilité de 99,7 % que la variable aléatoire se situe à moins de 3 écarts-types de la moyenne.

T-Répartition

Elle est similaire à une distribution normale, mais elle a une probabilité plus élevée vers les valeurs extrêmes des données. Cela le rend plus susceptible de prendre des valeurs plus éloignées de la moyenne. Lorsqu'elle est tracée sur un graphique, la courbe semble plus courte et plus épaisse que la courbe de distribution normale.

Il est préférable lorsque le nombre d'échantillons est plus petit. Avec l'augmentation de la taille des échantillons, la courbe de distribution t commence à apparaître comme une courbe de distribution normale. Comme les formules pour la distribution normale et la distribution t sont très complexes et prennent du temps à calculer, nous calculons à la place les valeurs de Z-score et T-score respectivement.

Lisez aussi: 13 idées de projets de structure de données intéressantes et sujets pour les débutants

Chi – Distribution carrée

La distribution du chi carré est la distribution de la somme du carré des variables aléatoires tirées d'une distribution normale. Les degrés de liberté utilisés dans cette distribution sont égaux au nombre de variables extraites de la distribution normale. La moyenne d'une distribution du chi carré est égale au nombre de degrés de liberté.

Cette distribution est largement utilisée dans le calcul des intervalles de confiance et dans les tests d'hypothèses. C'est un cas particulier de distribution gamma . Il est également utilisé dans le test du chi carré, qui est le test de qualité de l'ajustement pour la distribution observée, qui aide à indiquer si les données de l'échantillon sont une bonne représentation de l'ensemble de la population.

Conclusion

Cet article a donné un aperçu de quelques exemples de types discrets et continus de distributions. Ces différentes distributions sont utilisées à des fins différentes, et chacune a ses propres hypothèses.

Apprenez le cours ML des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

Bien que dans des situations réelles, les hypothèses de ces distributions peuvent ne pas être remplies, mais ces distributions aident à prendre des décisions importantes pour l'organisation.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Qu'est-ce qui distingue la distribution binomiale de la distribution normale ?

Dans une distribution binomiale, il n'y a pas de points de données entre deux points de données donnés. Cela contraste fortement avec une distribution normale, qui comporte des points de données discrets. Une distribution normale n'est pas discrète contrairement à la distribution binomiale. Une distribution binomiale a un nombre fini d'occurrences, alors qu'une distribution normale a un nombre infini d'occurrences. Même dans ce cas, si la taille de l'échantillon est suffisamment grande, la forme de la distribution binomiale ressemblera à celle de la distribution normale.

Qu'est-ce qui distingue la distribution binomiale de la distribution de Bernoulli ?

Le résultat d'un seul essai d'un événement est traité par la distribution de Bernoulli, mais le résultat de plusieurs essais d'un même événement est traité par la distribution binomiale. Lorsque le résultat d'un événement n'est requis qu'une seule fois, la distribution de Bernoulli est appliquée, mais la distribution binomiale est utilisée lorsque le résultat est requis plusieurs fois.

En cas d'incertitude, comment pouvons-nous utiliser la distribution de probabilité ?

Un espace de probabilité est une représentation de notre incertitude sur une expérience qui comprend un espace échantillon de résultats possibles et une mesure de probabilité qui estime la probabilité de chaque événement. Dans l'analyse d'incertitude, la distribution rectangulaire est la distribution de probabilité la plus largement utilisée. Tous les résultats sont également susceptibles de se produire dans une distribution rectangulaire. Vous devrez diviser vos valeurs par la racine carrée de 3 pour convertir vos facteurs d'incertitude en équivalents d'écart type.