具有复制的 Anova 二因子 [带比较]
已发表: 2020-09-18目录
介绍
简而言之,方差分析或方差分析是一种理解变量方差的技术。 它可以计算特定变量对最终结果的影响程度。 方差分析技术通过消除或确认零假设来做到这一点。 零假设意味着被观察的两个实体之间根本不存在任何关系。 例如,如果有两个变量 A 和 B,如果 A 的变化不会影响 B 的结果,我们就说 A 和 B 之间的原假设成立,反之亦然。
在详细介绍Anova two-factor with replication之前,让我们首先讨论 Anova 的基本概念。
概念
方差分析是一个统计概念,没有数字就没有统计数据。 Anova 需要一定的数字,通过它可以分析我们在分析开始时提出的零假设。 此计算的三个临界值是 F 比率和 F 临界值,具有一些显着性值。 现在在这里我们不会深入讨论详细的数学计算,但我们将通过示例解决概念部分。
通过将值与对目标值的总体影响进行比较来计算特定变量或实体的重要性。 例如,如果 X 的微小变化也会影响 A 的值,那么 X 对 A 的重要性会更大。F 比率由实体的平均平方和和残差平方的平均和计算。 通过将均方和除以自由度来计算均方和。 自由度是名义变量的可能情况数减一。
F critical 基于显着性值。 F 比率是通过上述过程手动计算的。 假设的有效性取决于 F 比率和 F 临界值。 以下是案例:
· 如果 F-critical > F ratio,那么假设成立,并且观察变量之间没有关系
· 如果 F-critical < F 比率,则可以宣布假设无效,进而支持变量相互影响的观点。
阅读:印度薪酬最高的 10 大数据科学工作
单向和双向的区别
如前所述,在这里,我们讨论了Anova two-factor with replication的概念。 但是,一因素和二因素究竟有什么区别? Anova one-factor 仅处理一个名义变量(具有两个或多个类别或类别的变量,但类别的顺序并不重要。例如,性别是具有男性和女性类别的名义变量)。
学习世界顶尖大学的数据科学认证课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
但是,Anova 双因子处理两个名义变量。 由于变量较少,两种分析类型中的零假设的数量也发生了变化。 双向方差分析中的假设如下:
· 一个变量的观察手段是一样的。 意思是,变量一不会以任何方式影响目标值。
· 其他变量的观察手段相同。 意思是,变量二不会以任何方式影响目标值。
· 变量一和变量二之间没有交互作用。
在单向方差分析中,存在原假设和备择假设。 首先,变量的均值相同,其次,另一个变量的均值相同。
为了更清楚地理解,让我们借助一个例子。
示例 #1
SID | 高噪音 | SID | 中等噪音 | SID | 低噪声 |
S1 | 23 | S5 | 23 | S9 | 39 |
S2 | 45 | S6 | 64 | S10 | 43 |
S3 | 34 | S7 | 73 | S11 | 26 |
S4 | 46 | S8 | 48 | S12 | 11 |
该表显示了不同学生在存在不同范围的噪音时的分数。 在单向方差分析中,只有一个名义变量。 这里,名义变量是噪声。 因此,该假设将尝试检查噪音是否对学生的成绩有显着影响。

让我们再来一张桌子:
学生 | 高噪音 | 中等噪音 | 低噪声 |
男性 | 13 | 24 | 29 |
12 | 23 | 45 | |
11 | 32 | 33 | |
4 | 11 | 33 | |
女性 | 16 | 17 | 56 |
12 | 24 | 34 | |
8 | 23 | 23 | |
3 | 29 | 67 |
现在在此表中,分数与学生类别一起显示。 因此,我们有两个名义变量,学生的性别和噪音水平。 在这里,可以进行两因素分析,这将使用三个假设来完成。
但是现在Anova two-factor with replication到底是什么意思?
另请阅读:数据科学项目理念
有复制和无复制的区别
具有复制和不复制的 Anova 双因子之间的根本区别在于样本量不同。 在具有复制的技术中,样本总数大多是均匀的。 如果是这种情况,则独立计算均值。 这种类型的数据也称为平衡数据。 但如果样本量不统一,分析就很困难。 最好使样本大小一致以获得更快的结果。
在没有复制的技术中,样本观察量为 1。 这意味着对于名义变量的每个组合只有一个观察值。 在这里,可以使用变量的均值以及将每个观测值视为单个集群的总均值来完成分析。 然后可以通过余数平均值和总平均值计算 F 比。
查看:用于数据科学的 12 大 Python 库
结论
因此,这就是带复制的 Anova 双因子的工作原理。 统计中有许多这样的概念,计算似乎很困难,但如果概念清晰,事情就会变得更简单。 我们讨论了 Anova 的含义、概念、双向 Anova 和复制标准。 我们希望这篇文章提供了足够多的关于Anova 两因素复制工作的详细信息,供您自己尝试。
如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一,400 多个小时的学习和顶级公司的工作协助。
t 检验与 Anova 相同吗?
t 检验检查两个总体是否在统计上不同,而方差分析则检验三个或更多总体在统计上是否不同。 为了比较两组的平均值,使用 t 检验,但在比较三组或更多组的平均值时使用 Anova。 在 Anova 中,第一步是找到一个共同的 P 值。 Anova 检验中的显着 P 值表明至少一对之间的平均差异具有统计学意义。
在 Anova 中,您如何接受或拒绝原假设?
典型的解释是当 p 值小于显着性水平时数据具有统计显着性,并且您拒绝 H 0。当有足够的信息可以确定并非所有均值都相等时,我们可能会拒绝原假设在单向方差分析。
在 Anova 中,您如何解释 F 值?
F 的显着性是回归模型的原假设不能被拒绝的概率。 换句话说,它表示回归结果中所有系数都为零的概率! 两个均方值之差相当于 F 比。 如果原假设准确,则 F 在绝大多数情况下应该接近 1.0。 高 F 比率意味着组平均方差高于偶然预期的值。