数据科学统计学基础

已发表: 2018-02-27

如果您是一名有抱负的数据科学家,请熟悉Statistics for Data Science的核心概念。 你不必是博士。 在统计数据科学方面表现出色,但您需要足够了解才能在晚宴上描述一些基本算法。

展望未来,我们将引导您了解数据科学统计学基础知识的一些先决条件

如果您刚刚进入数据科学的世界,您可能会遇到有人说“数学”是数据科学的先决条件。 老实说,它本身不是数学,但你必须学习数据科学的统计学。

如今,Tensorflow 之类的库几乎将所有复杂的数学隐藏在用户面前。 对我们有好处,但对这些事情的基本原理有一个基本的了解仍然很好。 对数据分析有一个很好的理解可以帮助你更好地理解一切。

本文将帮助您掌握一些定理、概念和方程式,它们不仅会帮助您作为数据科学家的事业,还会让您听起来像是在高级统计计算课程中取得了不错的成绩。

目录

统计分布

这可能是您在使用数据科学必备的统计数据武装自己时需要了解的最重要的事情之一。

  • 泊松分布

    数据科学统计 泊松分布是统计学中最重要的工具之一。 它用于计算一个时间间隔内可能发生的事件的数量。 例如,在任何特定时间段内可能会发生多少电话。
    这个等式 (λ) 中看起来很有趣的符号被称为lambda 它用于表示每个时间间隔发生的平均事件数。

    另一个使用泊松分布的好例子是计算制造中的损失。 假设一台机器生产金属板并且每码有 X 个缺陷。 例如,假设错误率为每码纸 2 次——然后使用泊松分布,我们可以计算出一码中恰好出现两个错误的概率。

  • 二项分布

    数据科学统计
    如果您曾经遇到过基本统计数据,那么您可能会遇到二项分布。

    假设您进行了一次将无偏硬币抛三次的实验。
    你能说出硬币在所有三个翻转中出现正面的概率吗?

    首先,从基本的组合学中,我们可以发现抛硬币三次时有八种可能的结果组合。 现在,我们可以绘制 0、1、2 或 3 个正面的概率。 该图将为我们提供该问题所需的二项式分布。 绘制图表时,您会注意到它看起来与典型的正态分布曲线非常相似,理论上两者都非常相似。 二项分布适用于离散值(抛硬币次数有限),而正态分布适用于连续值。

    除了我们上面讨论的发行版之外,还有许多发行版。 如果您是一个感兴趣的人,并且还想用所需的数据科学统计数据更好地武装自己,我们建议您也阅读以下分布:

  • 几何分布
  • 超几何分布
  • 离散均匀分布
  • 负二项分布
探索性数据分析及其对您业务的重要性

一些定理和算法

当我们谈论数据科学统计时,我们不能忽视作为数据科学家工作的许多库的基础的基本定理和算法。 有许多分类算法、聚类算法、神经网络算法、决策树等等。 在本节中,我们将讨论一些您应该知道的基本定理——它还将帮助您轻松理解其他复杂的定理。

贝叶斯定理

如果您接受过任何正规的计算机科学教育,这是您会遇到的常见定理之一。 多年来,有许多书籍以详尽的方式过度讨论贝叶斯定理及其概念。

贝叶斯定理极大地简化了复杂的概念。 它使用一些简单的变量解释了许多统计事实。 它支持“条件概率”的概念(例如,如果 A 发生,则它在 B 的发生中起作用)。 最值得注意的是,您可以仅使用给定的数据点来预测任何假设的概率。

贝叶斯可以帮助您仅通过了解某人的年龄来预测某人患癌症的可能性。 它还可以根据字数让您知道电子邮件是否为垃圾邮件。 这个定理本质上是用来消除不确定性的。

有趣的事实:贝叶斯定理帮助预测 U 艇的位置以及预测 Enigma 机器的配置以翻译德国代码,在 WW2。 即使在现代数据科学中,贝叶斯在许多算法中也有广泛的应用。
什么是数据仓库和数据挖掘

K-最近邻算法

数据科学统计
在理解和实现方面,这是一个非常简单的算法。 以至于它被称为“惰性算法”。 它的简单性在于它基于逻辑推论,而不是任何统计基础本身。 通俗地说,该算法旨在寻找彼此最接近的组。

K-NN 使用欧几里得距离的概念。 它在指定数量的焦点内和周围搜索本地组。 该数字由“k”表示。 有很多方法可以找出“k”的值应该有多大,因为这是用户决定的值。

这个概念非常适合特征聚类、基本市场细分以及从一组数据条目中寻找异常值。 大多数现代编程语言只用两行代码就实现了 K-NN 算法。

Bagging(引导聚合)

Bagging 本质上是指为单一算法创建多个模型——比如决策树。 每个模型都在不同的样本数据上进行训练(这称为引导样本)。

因此,每个决策树都是使用不同的样本数据制作的——这解决了对样本大小的过度拟合问题。 像这样对决策树进行分组基本上有助于减少总误差,因为随着每棵新树的添加,总体方差会减小。 一袋这样的决策树被称为随机森林。

使用 Python 开始数据科学

ROC曲线分析

数据科学统计
ROC 代表接收器操作特性。 ROC 分析曲线在数据科学中得到广泛应用。 它通过测量其整体灵敏度与失败率来预测测试的执行情况。 在确定任何模型的可行性时,ROC 分析非常重要。

它是如何工作的?

您的机器学习模型可能会给您一些不准确的预测。 其中一些是因为一个特定的值应该是“真”,但被设置为“假”,反之亦然。

那么你正确的概率是多少?

使用 ROC 曲线,您可以看到您的预测有多准确。 通过这两个不同的比喻,您还可以找出将阈值放在哪里。 阈值是您决定二元分类是正还是负的地方——真或假。

随着两个比喻越来越接近,曲线下的面积将趋于零。 这实质上意味着您的模型倾向于不准确。 面积越大,模型的准确性就越高。 这是测试任何建模时首先使用的测试之一,因为它通过判断模型是否正确来帮助及早发现问题。

ROC 曲线的真实示例——它们用于以图形方式描述特定测试或测试组合的临床敏感性和特异性之间的联系/权衡。 除此之外,ROC 曲线下的面积也很好地说明了使用上述测试的好处。 因此,ROC 曲线在生物化学中广泛用于选择适当的截止值。 理想情况下,最好的截止值是假阳性率最低和真阳性率最高的那个。

如何过渡到数据分析?

统计学在数据科学中的重要性

通过上面的讨论,既然您已经了解了统计学的基本概念和统计学的基础知识,那么让我们来谈谈学习统计学对于数据科学的重要性。 Statistics for Data Analytics 提供了组织和发现数据深刻见解、分析和量化数据的关键工具和技术。

我们为您概述了统计基本概念以及统计对数据探索、分析、建模和表示的影响。 如果它们在忽略统计基础的情况下不一致,我们还会指出问题。 如果您有兴趣加入这个发展最快的行业,请直接访问我们的 UpGrad 网站,了解我们的数据科学统计教程,因为我们同时提供在线和离线课程。 一旦你至少掌握了统计基础和统计基础知识,你就可以开始工作了。

综上所述…
上面的主题列表绝不是您在统计中需要了解的所有内容的完整列表。 这份清单只是为了让您了解您在数据科学之旅中可能遇到的一切,以及您如何为此做好准备。

总而言之,本文介绍了Statistics for Data Science的一些核心概念 对所解释的概念的深入理解将帮助您轻松理解其他概念。 如果您想探索更多并掌握数据科学,请查找我们最好的在线数据科学课程。

统计学对数据科学的重要性是什么?

统计提供了识别大数据结构的技术和工具,以及使个人和组织更好地了解其数据所揭示的现实,使用能够分类和组织的适当统计方法,有助于计算概率分布和估计,并通过发现异常和趋势来查找数据结构。 统计还有助于使用图形和网络进行数据可视化和建模。 它有助于识别受变量影响的数据集群或其他结构,并有助于减少模型中的假设数量,从而使其更加准确和有用。

数据科学所需的统计学的关键基本概念是什么?

统计学的核心概念对于数据科学来说是必须的。 以下是帮助您开始数据科学之旅的一些关键概念:

1. 概率:这构成了数据科学的基础。 概率论在制定预测时非常有用。 数据是所有概率和统计的基础。
2. 抽样:数据抽样是一种统计分析技术,涉及选择、操作和分析数据点的代表性选择,以便在更大的数据集合中找到模式和趋势。
3. 数据的趋势和分布:数据的分布是一个关键因素。 众所周知的分布(例如正态分布)的意义是巨大的。 因此,确定数据的分布和偏度是一个关键概念。
4. 假设检验:假设检验根据预期结果确定应该采取或不采取行动的情况。
5. 变异:这是指数据中的失真、错误和偏移。
6.回归:它对数据科学至关重要,因为它有助于理解现有解决方案以及发现新的创新。

数据科学中如何使用统计学?

数据科学家使用统计数据帮助企业做出更好的产品决策、设计和解释试验、确定推动销售的因素、预测销售趋势和模式。 数据和算法性能的可视化表示有助于发现异常值、特定的琐碎模式和指标摘要。