概率分布:解释的分布类型
已发表: 2020-12-16目录
概率和概率分布简介
为了理解概率分布,让我们首先了解什么是概率。 概率是实验中事件发生的可能性的量度。 简单来说,它告诉我们事件发生的可能性有多大。 事件发生的概率值范围从 0(最不可能)到 1(最可能)。
概率分布是一个函数,它为实验提供不同结果的概率。 它显示了随机变量可以采用的可能值以及这些值出现的频率。
在概率分布中,所有这些概率的总和总是聚合为 1。在数据科学领域,概率分布的用途之一是计算置信区间和计算假设检验中的关键区域。
连续和离散分布
要使用的概率分布类型取决于变量是包含离散值还是连续值。 离散分布只能取有限的一组值,而连续分布可以取指定范围内的任何值。
连续分布用概率密度表示,因为在一定范围内可以有无限个值,每个值的概率为零。 在离散分布的情况下,由于值的数量有限,我们可以获得每个值的概率。
分布类型——离散分布
二项分布
这是一种分布类型,其中单个试验中的结果数量只有两个。 每个试验都独立于另一个试验; 也就是说,每个试验的结果不会对其他试验的结果产生影响。 在本实验中进行的试验彼此相同。

因此,每次试验的成功和失败概率都是相同的。 例如,如果试验的成功概率为 0.8(这意味着失败的概率为 0.2),那么其余试验的成功概率也相同。
多名义分布
这是二项分布的广义版本,其中结果的数量可以大于两个。 此分布的其他性质类似于二项分布的性质。 例如,考虑当掷出公平骰子时,所有试验的每个结果的概率将是相同的,因为这些试验彼此独立。
伯努利分布
这是二项分布的另一种变体。 这是二项分布的一种特殊情况,其中在实验中进行的试验次数为 1(n = 1)。 由于只有一次试验,因此可以仅使用一个参数 (p) 来定义,该参数通常是成功的概率。
阅读: Python 中的二项分布
负二项分布
负二项分布中的以下条件与二项分布不同:-
- 实验中进行的试验次数不是固定的。
- 随机变量表示达到所需成功次数所需的试验次数。
对于二项分布,随机变量是所需的成功次数,即无论有多少路径失败,我们只关注成功的次数。 但是在负二项分布的情况下,它侧重于实现成功次数需要多少次试验,即失败(负数)的数量也被考虑在内,这就是为什么它被称为负二项分布。
该过程仅持续到达到所需的成功次数为止。 这导致实验的试验次数是任意的。 它也称为帕斯卡分布。

泊松分布
泊松分布提供了在特定时间段内发生离散事件的概率,前提是我们知道在同一时期发生的平均事件数。 这些事件独立发生,对其他事件没有影响。 为了实现这种分布,它假设发生率在一段时间内保持不变。
离散均匀分布
在均匀分布中,所有结果的概率都是相等的。 例如,考虑当掷出公平骰子时,从 1 到 6 的任何结果的概率都是相等的。 此分布的概率质量函数为 1/n,其中 n 是离散值的总数。
分布类型——连续分布
连续均匀分布
分布的均匀性也可以应用于连续值。 它表示指定范围之间的概率分布是均匀的。 由于绘制在图表上时所采用的形状,它也被称为矩形分布。
正态分布
正态分布(也称为钟形曲线)是一种从均值两端对称的连续分布。 它通常表示一半的样本位于平均值的左侧,而另一半位于平均值的右侧。 对于正态分布,均值、众数和中位数相等。
正态分布的数据一般遵循经验法则。 经验法则以标准差和均值的形式显示数据的分布,如下所示:-
- 随机变量落在平均值的 1 个标准差内的概率为 68%。
- 随机变量落在平均值的 2 个标准差内的概率为 95%。
- 随机变量落在平均值的 3 个标准差内的概率为 99.7%。
T - 分布
它类似于正态分布,但它对数据极值的概率更高。 这使得它更容易取离平均值较远的值。 当绘制在图表上时,曲线似乎比正态分布曲线更短更胖。
当样本数量较小时是优选的。 随着样本量的增加,t分布曲线开始呈现为正态分布曲线。 由于正态分布和 t 分布的公式计算起来非常复杂且耗时,因此我们分别计算Z-score和T-score的值。
另请阅读:初学者的 13 个有趣的数据结构项目想法和主题
Chi – 平方分布
卡方分布是取自正态分布的随机变量平方和的分布。 此分布中使用的自由度等于从正态分布中提取的变量数。 卡方分布的均值等于自由度数。

这种分布广泛用于计算置信区间和假设检验。 这是伽马分布的一个特例。 它还用于卡方检验,这是观察分布的拟合优度检验,有助于指示样本数据是否能很好地代表整个人口。
结论
本文概述了离散和连续分布类型的几个示例。 这些不同的分布用于服务于不同的目的,并且每个都有自己的假设。
从世界顶级大学学习ML 课程。 获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。
尽管在现实生活中,这些分布的假设可能无法实现,但这些分布确实有助于为组织做出重要决策。
如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。
二项分布与正态分布有何区别?
在二项分布中,任何两个给定数据点之间都没有数据点。 这与具有离散数据点的正态分布形成鲜明对比。 与二项分布不同,正态分布不是离散的。 二项分布的出现次数是有限的,而正态分布的出现次数是无限的。 即使这样,如果样本量足够大,二项分布的形式将类似于正态分布的形式。
二项分布与伯努利分布有何区别?
一个事件的单次试验的结果由伯努利分布处理,但单个事件的多次试验的结果由二项分布处理。 当只需要一次事件的结果时,应用伯努利分布,但当需要多次结果时,使用二项分布。
当存在不确定性时,我们如何使用概率分布?
概率空间是我们对实验的不确定性的表示,它包括可能结果的样本空间和估计每个事件可能性的概率度量。 在不确定性分析中,矩形分布是应用最广泛的概率分布。 所有结果都同样可能以矩形分布出现。 您必须将您的值除以 3 的平方根,才能将不确定性贡献者转换为标准偏差等值。
