每个数据科学家都应该知道的 9 大数据科学算法

已发表: 2020-02-13

算法是一组规则或指令，计算机程序遵循这些规则或指令来执行计算或执行其他解决问题的功能。由于数据科学就是为数据集提取有意义的信息，因此有无数的算法可以解决这个问题。

数据科学算法可以帮助分类、预测、分析、检测默认值等。这些算法还构成了机器学习库（如 scikit-learn）的基础。因此，它有助于对表面下发生的事情有一个坚实的了解。

学习世界顶尖大学的数据科学课程。 获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

阅读：数据科学的机器学习算法

常用的数据科学算法

一、分类

用于离散目标变量，输出为类别形式。聚类、关联和决策树是处理输入数据以预测结果的方式。例如，可以使用分类模型将新患者标记为“生病”或“健康”。

2.回归

回归用于预测目标变量以及衡量目标变量之间的关系，这些关系本质上是连续的。这是一种在单个特征或一组特征（例如 x）和目标变量 y 的图上绘制“最佳拟合线”的简单方法。

回归可用于根据不同大气参数之间的先前相关性来估计降雨量。另一个例子是根据面积、地点、年龄等特征来预测房子的价格。

现在让我们了解数据科学算法最基本的构建块之一——线性回归。

3. 线性回归

具有 N 个特征的数据集的线性方程可以给出为： y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + .....b n .x n ，其中 b 0是一些常数。

对于单变量数据 (y = b 0 + b 1 .x)，目标是将损失或误差最小化到返回变量的可能最小值。这是成本函数的主要目的。如果假设 b 0为零并为 b 1输入不同的值，您会发现线性回归成本函数的形状是凸的。

数学工具有助于优化 b 0和 b 1这两个参数，并最小化成本函数。其中之一讨论如下。

4.最小二乘法

在上述情况下，b 1是 x 的权重或直线的斜率，b 0是截距。此外，y 的所有预测值都在这条线上。最小二乘法旨在最小化每个点之间的距离，例如 (x i , y i )，即预测值。

要计算 b 0的值，请找出 x i的所有值的平均值并将它们乘以 b 1 。然后，从所有 y i的平均值中减去乘积。此外，您可以在 Python 中针对 b 1的值运行代码。这些值将准备好插入成本函数，并且由于损失和错误，返回值将最小化。例如，对于 b 0 = -34.671 和 b 1 = 9.102，成本函数将返回 21.801。

5.梯度下降

当有多个特征时，例如在多元回归的情况下，复杂的计算由梯度下降等方法处理。它是一种迭代优化算法，用于确定函数的局部最小值。该过程首先为 b 0和 b 1取一个初始值，并一直持续到成本函数的斜率为零。

假设你必须去一个位于山的最低点的湖。如果您的能见度为零并且站在山顶，您将从土地趋于下降的地方开始。迈出第一步，沿着下降的路径，很可能你会到达湖边。

虽然成本函数是一种允许我们评估参数的工具，但梯度下降算法可以帮助更新和训练模型参数。现在，让我们概述一些其他的数据科学算法。

6. 逻辑回归

虽然线性回归的预测是连续值，但逻辑回归给出离散或二元预测。换句话说，输出中的结果在应用转换函数后属于两个类别。例如，逻辑回归可用于预测学生是否通过或不及格，或者是否会下雨。阅读有关逻辑回归的更多信息。

7. K-means 聚类

它是一种迭代算法，将相似的数据点分配到集群中。为此，它计算 k 个聚类的质心，并根据与质心的最小距离对数据进行分组。详细了解数据挖掘中的聚类分析。

8. K-最近邻（KNN）

当新的数据实例需要结果时，KNN 算法会遍历整个数据集以找到 k-最近的实例。用户指定要使用的 k 值。

9. 主成分分析（PCA）

PCA 算法通过将数据中的最大方差捕获到一个新的“主成分”系统中来减少变量的数量。这使得探索和可视化数据变得容易。

包起来

如果您刚刚开始涉足该领域，那么上述数据科学算法的知识可能会非常有用。在执行日常数据科学功能时，了解细节也可以派上用场。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

在为 ML 选择数据科学算法之前，我们应该考虑哪些要点？

检查线性度；最简单的方法是拟合一条直线或执行逻辑回归或 SVM 并寻找残差。较大的误差表明数据不是线性的，需要复杂的技术来拟合它。

朴素贝叶斯、线性和逻辑回归算法易于构建和执行。需要参数调整的 SVM、具有快速收敛时间的神经网络和随机森林都需要大量时间来训练数据。因此，请根据您喜欢的速度做出选择。

为了生成可靠的预测，通常建议收集大量数据。然而，数据可用性经常是一个问题。如果训练数据受到限制或数据集包含较少的观察和较多的特征，例如遗传学或文本数据，请使用具有高偏差/低方差的算法，例如线性回归或线性 SVM。

什么是灵活和限制性算法？

由于它们创建了有限种类的映射函数形式，因此据说某些算法具有限制性。例如，线性回归是一种有限的技术，因为它只能创建像线这样的线性函数。

有些算法据说很灵活，因为它们可以创建更大范围的映射函数形式。例如，k=1 的 KNN 非常通用，因为它在生成映射输出函数时会考虑每个输入数据点。

如果一个函数能够预测给定观测值的接近真实响应值的响应值，那么这就是它的准确度。具有高度可解释性的技术（限制性模型，如线性回归）意味着可以理解每个单独的预测变量，而灵活的模型以低可解释性为代价提供更高的准确性。

什么是朴素贝叶斯算法？

它是一种基于贝叶斯定理和预测变量独立假设的分类算法。简单来说，朴素贝叶斯分类器指出，一个类中一个特征的存在与任何其他特征的存在无关。朴素贝叶斯模型易于构建，对大型数据集特别有用。由于其简单性，朴素贝叶斯以击败最强大的分类算法而闻名。