Rozkład prawdopodobieństwa: objaśnienie rodzajów rozkładów

Opublikowany: 2020-12-16

Spis treści

Wprowadzenie do prawdopodobieństwa i rozkładu prawdopodobieństwa

Aby zrozumieć rozkład prawdopodobieństwa, najpierw zrozummy, czym jest prawdopodobieństwo. Prawdopodobieństwo to miara prawdopodobieństwa wystąpienia zdarzenia w eksperymencie. Mówiąc prościej, mówi nam, jak prawdopodobne jest wystąpienie zdarzenia. Wartość prawdopodobieństwa wystąpienia zdarzenia waha się od 0 (najmniej prawdopodobne) do 1 (najbardziej prawdopodobne).

Rozkład prawdopodobieństwa to funkcja, która dostarcza prawdopodobieństwa różnych wyników eksperymentów. Pokazuje możliwe wartości, jakie może przyjąć zmienna losowa i jak często te wartości występują.

W rozkładzie prawdopodobieństwa suma wszystkich tych prawdopodobieństw zawsze sumuje się do 1. W dziedzinie nauki o danych jednym z zastosowań rozkładu prawdopodobieństwa jest obliczanie przedziałów ufności i obliczanie obszarów krytycznych w testach hipotez.

Dystrybucje ciągłe i dyskretne

Stosowany typ rozkładu prawdopodobieństwa zależy od tego, czy zmienna zawiera wartości dyskretne, czy wartości ciągłe. Rozkład dyskretny może przyjmować tylko ograniczony zestaw wartości, podczas gdy rozkłady ciągłe mogą przyjmować dowolną wartość z określonego zakresu.

Rozkłady ciągłe są reprezentowane w postaci gęstości prawdopodobieństwa, ponieważ w pewnym zakresie mogą istnieć nieskończone wartości, a prawdopodobieństwo każdej wartości będzie wynosić zero. W przypadku rozkładu dyskretnego możemy uzyskać prawdopodobieństwo dla każdej wartości, ponieważ liczba wartości jest ograniczona.

Rodzaje dystrybucji – Dystrybucja dyskretna

Rozkład dwumianowy

Jest to rodzaj rozkładu, w którym liczba wyników w jednym badaniu wynosi tylko dwa. Każda próba jest niezależna od innej próby; to znaczy, że wynik każdego badania nie ma wpływu na wynik innych badań. Próby przeprowadzone w tym eksperymencie są identyczne.

W ten sposób prawdopodobieństwo sukcesu i niepowodzenia byłoby takie samo dla każdej próby. Na przykład, jeśli prawdopodobieństwo sukcesu w próbie wynosi 0,8 (co oznacza, że ​​prawdopodobieństwo niepowodzenia wyniesie 0,2), to będzie takie samo dla pozostałych prób .

Dystrybucja wielu nominalna

Jest to uogólniona wersja rozkładu dwumianowego, w której liczba wyników może być większa niż dwa. Pozostałe właściwości tego rozkładu są podobne do właściwości rozkładu dwumianowego. Na przykład, zastanów się, kiedy rzuci się uczciwą kostką, prawdopodobieństwo każdego wyniku będzie takie samo dla wszystkich prób, ponieważ są one niezależne od siebie.

Dystrybucja Bernoulliego

To kolejny wariant rozkładu dwumianowego. Jest to szczególny przypadek rozkładu dwumianowego, w którym liczba prób przeprowadzonych w eksperymencie wynosi 1 (n = 1). Ponieważ jest tylko jedna próba, można ją zdefiniować za pomocą tylko jednego parametru (p), którym jest ogólnie prawdopodobieństwo sukcesu.

Przeczytaj: Rozkład dwumianowy w Pythonie

Ujemny rozkład dwumianowy

Następujące warunki w ujemnym rozkładzie dwumianowym różnią się od rozkładu dwumianowego: –

    • Liczba prób przeprowadzonych w eksperymencie nie jest ustalona.
    • Zmienna losowa wskazuje liczbę prób wymaganych do osiągnięcia pożądanej liczby sukcesów.

W przypadku rozkładu dwumianowego zmienną losową jest liczba wymaganych sukcesów, tj. Skupiamy się tylko na liczbie sukcesów, niezależnie od tego, ile śladów zawodzi. Ale w przypadku ujemnego dwumianu skupia się na tym, ile prób będzie potrzebnych do osiągnięcia liczby sukcesów, tj. Uwzględnia się również liczbę niepowodzeń (ujemnych), dlatego nazywa się to ujemnym rozkładem dwumianowym.

Proces trwa tylko do osiągnięcia pożądanej liczby sukcesów. Powoduje to, że liczba prób w eksperymencie jest arbitralna. Nazywa się to również dystrybucją Pascala.

Rozkład Poissona

Rozkład Poissona podaje prawdopodobieństwo wystąpienia dyskretnej liczby zdarzeń w określonym czasie, pod warunkiem, że znamy średnią liczbę zdarzeń, które wystąpiły w tym samym okresie. Zdarzenia te występują niezależnie i nie mają wpływu na inne zdarzenia. W celu wdrożenia tego rozkładu zakłada się, że częstość występowania pozostaje stała w czasie.

Dyskretna dystrybucja równomierna

W rozkładzie równomiernym prawdopodobieństwa wszystkich wyników są równe. Zastanówmy się na przykład, kiedy rzuci się uczciwą kostką, prawdopodobieństwo dowolnego wyniku w zakresie od 1 do 6 będzie równe. Masowa funkcja prawdopodobieństwa tego rozkładu wynosi 1/n, gdzie n jest całkowitą liczbą wartości dyskretnych.

Rodzaje dystrybucji – dystrybucja ciągła

Ciągła dystrybucja równomierna

Równomierność rozkładu można również zastosować do wartości ciągłych. Wskazuje, że rozkład prawdopodobieństwa jest jednorodny w określonym przedziale. Nazywa się go również rozkładem prostokątnym ze względu na kształt, jaki przybiera na wykresie.

Normalna dystrybucja

Rozkład normalny (znany również jako krzywa dzwonowa) to rodzaj rozkładu ciągłego, który jest symetryczny względem obu końców średniej. Ogólnie oznacza to, że połowa próbek leży po lewej stronie średniej, podczas gdy druga połowa leży po prawej stronie. W przypadku rozkładu normalnego średnia, tryb i mediana są sobie równe.

Dane o normalnym rozkładzie zazwyczaj podlegają zasadzie empirycznej. Reguła empiryczna pokazuje rozkład danych pod względem odchylenia standardowego i średniej w następujący sposób: –

    • 68% prawdopodobieństwa, że ​​zmienna losowa mieści się w 1 odchyleniu standardowym średniej.
    • 95% prawdopodobieństwo, że zmienna losowa mieści się w 2 odchyleniach standardowych średniej.
    • 99,7% prawdopodobieństwa, że ​​zmienna losowa mieści się w 3 odchyleniach standardowych średniej.

T – Dystrybucja

Jest podobny do rozkładu normalnego, ale ma większe prawdopodobieństwo w przypadku skrajnych wartości danych. To sprawia, że ​​jest bardziej podatny na przyjmowanie wartości, które są dalej od średniej. Na wykresie krzywa wydaje się krótsza i grubsza niż krzywa rozkładu normalnego.

Jest to preferowane, gdy liczba próbek jest mniejsza. Wraz ze wzrostem wielkości próbek krzywa rozkładu t zaczyna wyglądać jak krzywa rozkładu normalnego. Ponieważ formuły na rozkład normalny i rozkład t są bardzo złożone i czasochłonne do obliczenia, zamiast tego obliczamy odpowiednio wartości Z-score i T-score .

Przeczytaj także: 13 ciekawych pomysłów na projekt struktury danych i tematów dla początkujących

Chi – Dystrybucja kwadratowa

Rozkład chi-kwadrat to rozkład sumy kwadratu zmiennych losowych wziętych z rozkładu normalnego. Stopnie swobody użyte w tym rozkładzie są równe liczbie zmiennych pobranych z rozkładu normalnego. Średnia z rozkładu chi-kwadrat jest równa liczbie stopni swobody.

Rozkład ten jest szeroko stosowany przy obliczaniu przedziałów ufności i testowaniu hipotez. Jest to szczególny przypadek rozkładu gamma . Jest również używany w teście chi-kwadrat, który jest testem dobroci dopasowania dla obserwowanego rozkładu, który pomaga we wskazaniu, czy dane próbki są dobrą reprezentacją całej populacji.

Wniosek

W tym artykule przedstawiono przegląd kilku przykładów dyskretnych i ciągłych typów dystrybucji. Te różne dystrybucje służą do różnych celów, a każdy ma swoje własne założenia.

Ucz się kursu ML z najlepszych światowych uniwersytetów. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.

Chociaż w rzeczywistych sytuacjach założenia tych dystrybucji mogą nie zostać spełnione, ale te dystrybucje pomagają w podejmowaniu ważnych decyzji dla organizacji.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Co odróżnia rozkład dwumianowy od rozkładu normalnego?

W rozkładzie dwumianowym nie ma punktów danych między dowolnymi dwoma danymi punktami danych. Stanowi to wyraźny kontrast z rozkładem normalnym, w którym występują dyskretne punkty danych. Rozkład normalny nie jest dyskretny w przeciwieństwie do rozkładu dwumianowego. Rozkład dwumianowy ma skończoną liczbę wystąpień, podczas gdy rozkład normalny ma nieskończoną liczbę wystąpień. Nawet wtedy, jeśli wielkość próby jest wystarczająco duża, postać rozkładu dwumianowego będzie przypominać rozkład normalny.

Co odróżnia rozkład dwumianowy od rozkładu Bernoulliego?

Wynik pojedynczej próby zdarzenia jest rozpatrywany przez rozkład Bernoulliego, ale wynik kilku prób pojedynczego zdarzenia jest rozpatrywany przez rozkład dwumianowy. Gdy wynik zdarzenia jest wymagany tylko raz, stosuje się rozkład Bernoulliego, ale rozkład dwumianowy jest używany, gdy wynik jest wymagany kilka razy.

Kiedy istnieje niepewność, jak możemy wykorzystać rozkład prawdopodobieństwa?

Przestrzeń prawdopodobieństwa jest reprezentacją naszej niepewności dotyczącej eksperymentu, która obejmuje przestrzeń próbki możliwych wyników i miarę prawdopodobieństwa, która szacuje prawdopodobieństwo każdego zdarzenia. W analizie niepewności najczęściej stosowanym rozkładem prawdopodobieństwa jest rozkład prostokątny. Prawdopodobieństwo wystąpienia wszystkich wyników w rozkładzie prostokątnym jest takie samo. Będziesz musiał podzielić swoje wartości przez pierwiastek kwadratowy z 3, aby przeliczyć czynniki wpływające na niepewność na ekwiwalenty odchylenia standardowego.