探索性数据分析及其对您业务的重要性

已发表: 2018-02-22

大多数关于数据分析的讨论都涉及它的“科学”方面。当然，整个过程背后有很多科学——算法、公式和计算，但你不能把“艺术”从它带走。构建整个过程——从计划分析到理解最终结果——绝非易事，而且不亚于一种艺术形式。这正是我们今天的主题——探索性数据分析。在本文中，我们将探讨什么是探索性数据分析，它的常用工具和技术是什么，以及它如何帮助组织。

什么是探索性数据分析？

探索性数据分析是数据分析过程中的重要步骤之一。在这里，重点是理解手头的数据——比如制定正确的问题来询问你的数据集，如何操作数据源以获得所需的答案等等。这是通过使用视觉方法仔细查看趋势、模式和异常值来完成的。

在您开始机器学习或数据建模之前，探索性数据分析是至关重要的一步。它提供了开发适当模型所需的背景 - 并正确解释结果。
数据操纵：如何发现数据谎言？

多年来，机器学习一直在兴起——这催生了许多强大的机器学习算法。如此强大，它们几乎会诱使您跳过探索性数据分析阶段。虽然您可以理解为什么要利用此类算法并跳过 EDA - 将数据输入黑匣子并等待结果并不是一个好主意。一次又一次地观察到，探索性数据分析提供了许多很容易错过的关键信息——从提出问题到显示结果的从长远来看有助于分析的信息。如果您是初学者并且有兴趣了解有关数据科学的更多信息，请查看我们来自顶尖大学的数据科学培训。

虽然只要我们有数据要分析，EDA 的各个方面就已经存在，探索性数据分析正式由约翰·土耳其在 1970 年代开发——同一位科学家创造了“比特”（Binary Digit 的缩写）这个词。 EDA 经常被视为一种哲学，而不是科学，因为它没有硬性规定。探索性数据分析的目的对于解决特定任务至关重要，例如：

- 发现缺失和错误的数据；

- 映射和理解数据的底层结构；

- 识别数据集中最重要的变量；

- 检验与特定模型相关的假设或检查假设；

- 建立一个简约的模型（一个可以用最小变量解释你的数据的模型）；

估计参数并计算误差范围。

探索性数据分析中使用的工具和技术

S-Plus 和 R 是用于执行探索性数据分析的最重要的统计编程语言。这些语言捆绑了大量工具，可帮助您执行特定的统计功能，例如：

分类和降维技术

探索性数据分析
分类本质上是用来根据一个共同的参数/变量将不同的数据集组合在一起。我们说的数据是多维的，对多维的数据集进行分类或聚类并不容易。因此，为了解决这个问题，执行了 PCA 和 LDA 等降维技术——这些技术可以降低数据集的维度，而不会丢失数据中任何有价值的信息。
辛普森悖论如何影响数据？

单变量可视化

探索性数据分析
单变量可视化本质上是原始数据集中每个字段的概率分布——带有汇总统计。单变量可视化使用频率分布表、条形图、直方图或饼图进行图形表示。

双变量可视化

探索性数据分析
这些使数据科学家能够评估数据集中变量之间的关系，并帮助您定位正在查看的变量。双变量分析的适当图表取决于相关变量的类型。例如，如果您正在处理两个连续变量，散点图应该是您选择的图形。如果一个是分类的而另一个是连续的，则首选箱线图，当两个变量都是分类时，则选择马赛克图。
数据安全业务正在蓬勃发展！

多元可视化

探索性数据分析
多元可视化有助于理解不同数据字段之间的交互。它涉及在任何给定时间对多个统计结果变量的观察和分析。

K-means 聚类

探索性数据分析
K-means 聚类基本上用于根据最接近的均值为每个聚类创建“中心”。这是一种不断创建和重新创建集群的迭代技术——直到形成的集群不再随迭代而变化。它可用于查找数据集中的异常值（理想情况下，不是任何集群形式的点将是异常值）。

预测模型

探索性数据分析
顾名思义，预测建模是一种使用统计数据来预测结果的方法。尽管大多数预测旨在预测未来会发生什么，但预测建模也可以应用于任何未知事件，无论它何时可能发生。例如，即使在犯罪发生后，这种技术也可用于侦查犯罪并识别嫌疑人。执行预测建模的最常见方法是使用线性回归（见图）。
什么是数据仓库和数据挖掘

探索性数据分析如何帮助您的业务以及它适用于何处？

探索性数据分析通过帮助科学家了解他们产生的结果是否得到正确解释以及它们是否适用于所需的业务环境，从而为任何业务提供最大价值。除了确保技术上合理的结果之外，探索性数据分析还可以通过确认他们提出的问题是否正确来使利益相关者受益。探索性数据科学通常会出现不可预测的见解——利益相关者或数据科学家通常甚至不会关心调查，但仍然可以证明对业务有高度的信息。
有许多数据连接器可以帮助组织将探索性数据分析直接整合到他们的商业智能软件中。您还可以通过在（例如）R 中构建和运行使用 BI 数据并在新信息流入模型时自动更新的统计模型来设置它以允许数据也以另一种方式流动。
探索性数据分析的潜在用例范围很广，但归根结底，这一切都归结为 - 探索性数据分析就是在对数据做出任何假设或采取任何措施之前了解和理解您的数据数据挖掘。它可以帮助您避免创建不准确的模型或在错误的数据上构建准确的模型。
正确执行此步骤将使任何组织对他们的数据有必要的信心——这最终将使他们能够开始部署强大的机器学习算法。但是，忽略这一关键步骤可能会导致您在非常不稳定的基础上构建您的商业智能系统。
将数据分析与业务成果联系起来的 12 种方法

综上所述…
探索性数据分析显然是整个知识提取过程中的重要步骤之一。如果你想为你的整体分析过程打下坚实的基础，你应该全力以赴地专注于 EDA 阶段。老实说，要完成这一步，需要一些统计数据。如果您觉得自己在这方面落后了，请不要忘记阅读我们关于数据科学所需的统计基础的文章。

从世界顶级大学在线学习数据科学课程。获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

如果您有兴趣学习 python 并想亲身体验各种工具和库，请查看数据科学中的 Executive PG Program。 哦，您对我们将“探索性数据分析”视为一门艺术而非科学的立场有何看法？ 在下面的评论中让我们知道！

为什么数据科学家应该使用探索性数据分析来改善您的业务？

探索性数据分析的主要目标是在做出任何假设之前协助数据分析。它可以帮助检测明显的错误、更好地理解数据模式、检测异常值或意外事件，以及发现变量之间有趣的相关性。

数据科学家可以采用探索性分析来确保他们产生的结果是准确的，并且对于任何期望的业务成果和目标都是可接受的。 EDA 还通过确保利益相关者提出适当的问题来帮助他们。标准偏差、分类变量和置信区间都可以用 EDA 来回答。在完成 EDA 并提取见解后，其功能可应用于更高级的数据分析或建模，包括机器学习。

EDA 最流行的用例是什么？

数据科学家在绑定其他类型的建模之前使用 EDA 并不少见。它通常用于数据分析，以查看数据集以识别异常值、趋势、模式和错误。例如，EDA 常用于零售业，其中 BI 工具和专家分析数据以揭示销售趋势、热门类别等方面的洞察力，EDA 还用于医疗保健研究，以识别市场或行业的新趋势，确定压力在新的流感季节可能会更加流行的流感，验证患者群体的同质性等。

探索性数据分析有哪些类型？

探索性数据分析的类型是

1. 单变量非图形：单变量非图形 EDA 的标准目的是了解样本分布/数据并进行总体观察。
2. 单变量图形：直方图、茎叶图、箱线图等。
3. 多变量非图形：这些 EDA 技术使用交叉制表或统计来描述两个或多个数据变量之间的关系。
4. 多元图形：在多元数据中使用两种或多种数据类型之间关系的图形表示。