Distribuția probabilității: tipuri de distribuții explicate

Publicat: 2020-12-16

Cuprins

Introducere în probabilitate și distribuție de probabilitate

Pentru a înțelege distribuția probabilității, să înțelegem mai întâi ce este probabilitatea. Probabilitatea este măsura probabilității ca un eveniment să se producă într-un experiment. În termeni simpli, ne spune cât de probabil este ca evenimentul să aibă loc. Valoarea probabilității ca un eveniment să se producă variază de la 0 (fiind cel mai puțin probabil) la 1 (fiind cel mai probabil).

Distribuția probabilității este o funcție care furnizează probabilitățile diferitelor rezultate pentru experimentare. Acesta arată valorile posibile pe care le poate lua o variabilă aleatoare și cât de des apar aceste valori.

În distribuția de probabilitate, suma tuturor acestor probabilități se adună întotdeauna la 1. În domeniul științei datelor, una dintre utilizările distribuției de probabilitate este pentru calcularea intervalelor de încredere și pentru calcularea regiunilor critice în testele de ipoteză.

Distribuții continue și discrete

Tipul de distribuție de probabilitate care trebuie utilizat depinde dacă variabila conține valori discrete sau valori continue. O distribuție discretă poate lua doar un set limitat de valori, în timp ce distribuțiile continue pot lua orice valoare în intervalul specificat.

Distribuțiile continue sunt reprezentate în termeni de densitate de probabilitate deoarece pot exista valori infinite într-un anumit interval și probabilitatea fiecărei valori va fi zero. În cazul distribuției discrete, putem obține o probabilitate pentru fiecare valoare deoarece numărul de valori este limitat.

Tipuri de distribuții – Distribuție discretă

Distribuție binomială

Este un tip de distribuție în care numărul de rezultate într-un singur studiu este de doar două. Fiecare proces este independent de un alt proces; adică rezultatul fiecărui studiu nu are un impact asupra rezultatului altor studii. Încercările care sunt efectuate în acest experiment sunt identice unele cu altele.

Astfel, probabilitatea de succes și eșec ar fi aceeași pentru fiecare încercare. De exemplu, dacă probabilitatea de succes pentru o încercare este 0,8 (ceea ce înseamnă că probabilitatea de eșec ar fi 0,2), atunci va fi aceeași și pentru restul încercărilor .

Distribuție multi nominală

Aceasta este versiunea generalizată a distribuției binomiale în care numărul de rezultate poate fi mai mare de două. Celelalte proprietăți ale acestei distribuții sunt similare cu cele ale distribuției binomiale. De exemplu, luați în considerare când se aruncă un zar corect, probabilitatea fiecărui rezultat va fi aceeași pentru toate încercările, deoarece aceste încercări sunt independente unele de altele.

Distribuția lui Bernoulli

Aceasta este o altă variantă a distribuției binomiale. Este un caz special de distribuție binomială în care numărul de încercări efectuate într-un experiment este 1 (n = 1). Deoarece există o singură încercare, aceasta poate fi definită folosind un singur parametru (p), care este în general probabilitatea de succes.

Citiți: Distribuția binomială în Python

Distribuție binomială negativă

Următoarele condiții într-o distribuție binomială negativă diferă de distribuția binomială: –

    • Numărul de încercări efectuate într-un experiment nu este fix.
    • Variabila aleatoare indică numărul de încercări necesare pentru a obține un număr dorit de succese.

Pentru distribuția binomială, variabila aleatoare este numărul de reușite necesare, adică ne concentrăm doar pe numărul de reușite, indiferent de câte trasee eșuează. Dar în cazul binomului negativ, acesta se concentrează pe câte încercări vor fi necesare pentru a obține numărul de succese, adică numărul de eșecuri (negative) este de asemenea luat în considerare, motiv pentru care se numește distribuție binomială negativă.

Procesul este continuat doar până când a fost atins numărul dorit de succese. Acest lucru face ca numărul de încercări pentru un experiment să fie arbitrar. Se mai numește și Distribuție Pascal.

Distribuția Poisson

Distribuția Poisson oferă probabilitatea ca un număr discret de evenimente să aibă loc într-o anumită perioadă de timp, cu condiția să cunoaștem numărul mediu de evenimente care au avut loc în aceeași perioadă. Aceste evenimente apar independent și nu au efect asupra altor evenimente. Pentru implementarea acestei distribuții, se presupune că rata de apariție rămâne constantă pe perioada de timp.

Distribuție uniformă discretă

În distribuția uniformă, probabilitățile tuturor rezultatelor sunt egale. De exemplu, luați în considerare când se aruncă un zar corect, probabilitatea oricărui rezultat cuprins între 1 și 6 va fi egală. Funcția de masă de probabilitate a acestei distribuții este 1/n unde n este numărul total de valori discrete.

Tipuri de distribuții – Distribuție continuă

Distribuție uniformă continuă

Uniformitatea în distribuție poate fi aplicată și la valori continue. Indică faptul că distribuția probabilității este uniformă între intervalul specificat. Se mai numește distribuție dreptunghiulară datorită formei pe care o ia atunci când este reprezentată pe un grafic.

Distributie normala

O distribuție normală (cunoscută și sub numele de curbă clopot) este un tip de distribuție continuă care este simetrică față de ambele capete ale mediei. În general, indică că jumătate dintre eșantioane se află pe partea stângă a mediei, în timp ce cealaltă jumătate se află pe partea dreaptă. Pentru o distribuție normală, media, modul și mediana sunt egale.

Datele distribuite în mod normal urmează, în general, regula empirică. Regula empirică arată răspândirea datelor în termeni de abatere standard și medie după cum urmează:

    • 68% probabilitate ca variabila aleatoare să se încadreze la o abatere standard a mediei.
    • Probabilitate de 95% ca variabila aleatoare să se încadreze în 2 abateri standard ale mediei.
    • Probabilitate de 99,7% ca variabila aleatoare să se încadreze în 3 abateri standard ale mediei.

T – Distribuție

Este similar cu o distribuție normală, dar are o probabilitate mai mare față de valorile extreme ale datelor. Acest lucru face mai susceptibilă de a lua valori care sunt mai departe de medie. Când este reprezentată pe un grafic, curba pare mai scurtă și mai groasă decât curba de distribuție normală.

Este de preferat atunci când numărul de mostre este mai mic ca dimensiune. Odată cu creșterea dimensiunii probelor, curba de distribuție t începe să apară ca o curbă de distribuție normală. Deoarece formulele pentru distribuția normală și distribuția t sunt foarte complexe și necesită timp de calculat, calculăm în schimb valorile scorului Z și , respectiv , scorului T.

Citește și: 13 idei și subiecte interesante de proiecte cu structură de date pentru începători

Chi – Distribuție pătrată

Distribuția chi-pătrat este distribuția însumării pătratului variabilelor aleatoare luate dintr-o distribuție normală. Gradele de libertate utilizate în această distribuție sunt egale cu numărul de variabile luate din distribuția normală. Media unei distribuții chi-pătrat este egală cu numărul de grade de libertate.

Această distribuție este utilizată pe scară largă în calcularea intervalelor de încredere și în testarea ipotezelor. Este un caz specific de distribuție gamma . De asemenea, este utilizat în testul chi-pătrat, care este testul de bunătate a potrivirii pentru distribuția observată, care ajută la indicarea dacă datele eșantionului sunt o reprezentare bună a întregii populații.

Concluzie

Acest articol a oferit o prezentare generală a câtorva exemple de tipuri de distribuții discrete și continue. Aceste distribuții diferite sunt folosite pentru a servi unor scopuri diferite și fiecare are propriile ipoteze.

Învață cursul ML de la cele mai bune universități din lume. Câștigă programe de master, Executive PGP sau Advanced Certificate pentru a-ți accelera cariera.

Deși în situații reale, este posibil ca ipotezele acestor distribuții să nu fie îndeplinite, dar aceste distribuții ajută la luarea unor decizii importante pentru organizație.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce deosebește distribuția binomială de distribuția normală?

Într-o distribuție binomială, nu există puncte de date între oricare două puncte de date date. Aceasta este în contrast puternic cu o distribuție normală, care prezintă puncte de date discrete. O distribuție normală nu este discretă, spre deosebire de distribuția binomială. O distribuție binomială are un număr finit de apariții, în timp ce o distribuție normală are un număr infinit de apariții. Chiar și atunci, dacă dimensiunea eșantionului este suficient de mare, forma distribuției binomiale se va asemăna cu cea a distribuției normale.

Ce deosebește distribuția binomială de distribuția Bernoulli?

Rezultatul unei singure încercări a unui eveniment este tratat de distribuția Bernoulli, dar rezultatul mai multor încercări ale unui singur eveniment este tratat de distribuția Binomială. Când rezultatul unui eveniment este necesar o singură dată, se aplică distribuția Bernoulli, dar distribuția binomială este utilizată atunci când rezultatul este necesar de mai multe ori.

Când există incertitudine, cum putem folosi distribuția probabilității?

Un spațiu de probabilitate este o reprezentare a incertitudinii noastre cu privire la un experiment care include un spațiu eșantion de rezultate posibile și o măsură de probabilitate care estimează probabilitatea fiecărui eveniment. În analiza incertitudinii, distribuția dreptunghiulară este cea mai utilizată distribuție de probabilitate. Toate rezultatele sunt la fel de probabil să apară într-o distribuție dreptunghiulară. Va trebui să vă împărțiți valorile la rădăcina pătrată a lui 3 pentru a vă converti contributorii de incertitudine în echivalente cu deviația standard.