概率分佈:解釋的分佈類型
已發表: 2020-12-16目錄
概率和概率分佈簡介
為了理解概率分佈,讓我們首先了解什麼是概率。 概率是實驗中事件發生的可能性的量度。 簡單來說,它告訴我們事件發生的可能性有多大。 事件發生的概率值範圍從 0(最不可能)到 1(最可能)。
概率分佈是一個函數,它為實驗提供不同結果的概率。 它顯示了隨機變量可以採用的可能值以及這些值出現的頻率。
在概率分佈中,所有這些概率的總和總是聚合為 1。在數據科學領域,概率分佈的用途之一是計算置信區間和計算假設檢驗中的關鍵區域。
連續和離散分佈
要使用的概率分佈類型取決於變量是包含離散值還是連續值。 離散分佈只能取有限的一組值,而連續分佈可以取指定範圍內的任何值。
連續分佈用概率密度表示,因為在一定範圍內可以有無限個值,每個值的概率為零。 在離散分佈的情況下,由於值的數量有限,我們可以獲得每個值的概率。
分佈類型——離散分佈
二項分佈
這是一種分佈類型,其中單個試驗中的結果數量只有兩個。 每個試驗都獨立於另一個試驗; 也就是說,每個試驗的結果不會對其他試驗的結果產生影響。 在本實驗中進行的試驗彼此相同。

因此,每次試驗的成功和失敗概率都是相同的。 例如,如果試驗的成功概率為 0.8(這意味著失敗的概率為 0.2),那麼其餘試驗的成功概率也相同。
多名義分佈
這是二項分佈的廣義版本,其中結果的數量可以大於兩個。 此分佈的其他性質類似於二項分佈的性質。 例如,考慮當擲出公平骰子時,所有試驗的每個結果的概率將是相同的,因為這些試驗彼此獨立。
伯努利分佈
這是二項分佈的另一種變體。 這是二項分佈的一種特殊情況,其中在實驗中進行的試驗次數為 1(n = 1)。 由於只有一次試驗,因此可以僅使用一個參數 (p) 來定義,該參數通常是成功的概率。
閱讀: Python 中的二項分佈
負二項分佈
負二項分佈中的以下條件與二項分佈不同:-
- 實驗中進行的試驗次數不是固定的。
- 隨機變量表示達到所需成功次數所需的試驗次數。
對於二項分佈,隨機變量是所需的成功次數,即無論有多少路徑失敗,我們只關注成功的次數。 但是在負二項分佈的情況下,它側重於實現成功次數需要多少次試驗,即失敗(負數)的數量也被考慮在內,這就是為什麼它被稱為負二項分佈。
該過程僅持續到達到所需的成功次數為止。 這導致實驗的試驗次數是任意的。 它也稱為帕斯卡分佈。

泊松分佈
泊松分佈提供了在特定時間段內發生離散事件的概率,前提是我們知道在同一時期發生的平均事件數。 這些事件獨立發生,對其他事件沒有影響。 為了實現這種分佈,它假設發生率在一段時間內保持不變。
離散均勻分佈
在均勻分佈中,所有結果的概率都是相等的。 例如,考慮當擲出公平骰子時,從 1 到 6 的任何結果的概率都是相等的。 此分佈的概率質量函數為 1/n,其中 n 是離散值的總數。
分佈類型——連續分佈
連續均勻分佈
分佈的均勻性也可以應用於連續值。 它表示指定範圍之間的概率分佈是均勻的。 由於繪製在圖表上時所採用的形狀,它也被稱為矩形分佈。
正態分佈
正態分佈(也稱為鍾形曲線)是一種從均值兩端對稱的連續分佈。 它通常表示一半的樣本位於平均值的左側,而另一半位於平均值的右側。 對於正態分佈,均值、眾數和中位數相等。
正態分佈的數據一般遵循經驗法則。 經驗法則以標準差和均值的形式顯示數據的分佈,如下所示:-
- 隨機變量落在平均值的 1 個標準差內的概率為 68%。
- 隨機變量落在平均值的 2 個標準差內的概率為 95%。
- 隨機變量落在平均值的 3 個標準差內的概率為 99.7%。
T - 分佈
它類似於正態分佈,但它對數據極值的概率更高。 這使得它更容易取離平均值較遠的值。 當繪製在圖表上時,曲線似乎比正態分佈曲線更短更胖。
當樣本數量較小時是優選的。 隨著樣本量的增加,t分佈曲線開始呈現為正態分佈曲線。 由於正態分佈和 t 分佈的公式計算起來非常複雜且耗時,因此我們分別計算Z-score和T-score的值。
另請閱讀:初學者的 13 個有趣的數據結構項目想法和主題
Chi – 平方分佈
卡方分佈是取自正態分佈的隨機變量平方和的分佈。 此分佈中使用的自由度等於從正態分佈中提取的變量數。 卡方分佈的均值等於自由度數。

這種分佈廣泛用於計算置信區間和假設檢驗。 這是伽馬分佈的一個特例。 它還用於卡方檢驗,這是觀察分佈的擬合優度檢驗,有助於指示樣本數據是否能很好地代表整個人口。
結論
本文概述了離散和連續分佈類型的幾個示例。 這些不同的分佈用於服務於不同的目的,並且每個都有自己的假設。
從世界頂級大學學習ML 課程。 獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。
儘管在現實生活中,這些分佈的假設可能無法實現,但這些分佈確實有助於為組織做出重要決策。
如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。
二項分佈與正態分佈有何區別?
在二項分佈中,任何兩個給定數據點之間都沒有數據點。 這與具有離散數據點的正態分佈形成鮮明對比。 與二項分佈不同,正態分佈不是離散的。 二項分佈的出現次數是有限的,而正態分佈的出現次數是無限的。 即使這樣,如果樣本量足夠大,二項分佈的形式將類似於正態分佈的形式。
二項分佈與伯努利分佈有何區別?
一個事件的單次試驗的結果由伯努利分佈處理,但單個事件的多次試驗的結果由二項分佈處理。 當只需要一次事件的結果時,應用伯努利分佈,但當需要多次結果時,使用二項分佈。
當存在不確定性時,我們如何使用概率分佈?
概率空間是我們對實驗的不確定性的表示,它包括可能結果的樣本空間和估計每個事件可能性的概率度量。 在不確定性分析中,矩形分佈是應用最廣泛的概率分佈。 所有結果都同樣可能以矩形分佈出現。 您必須將您的值除以 3 的平方根,才能將不確定性貢獻者轉換為標準偏差等值。