机器学习中的线性回归:你需要知道的一切

已发表: 2020-04-28

我们日常生活的各个方面都使用了不同的机器学习技术,以以数据、分析和经验为后盾的方式找到日常问题的解决方案。 这些机器学习算法不仅在识别文本、图像和视频方面发挥着非常重要的作用,而且在改进医疗解决方案、网络安全、营销、客户服务以及与我们日常生活有关的许多其他方面或领域方面发挥着重要作用。

主要有两种类型的机器学习算法,所有算法都分为。 这些是有监督和无监督的机器学习算法。 我们在这篇博客中的重点将只放在有监督的机器学习算法上,尤其是线性回归。 让我们从了解监督机器学习算法开始。

目录

什么是监督学习算法?

这些机器学习算法是我们训练来预测依赖于用户输入数据的成熟输出的算法。 该算法训练模型以在给定数据集上提供输出。 一开始,系统可以访问输入和输出数据。 系统的工作是定义将输入映射到输出的规则。

模型的训练一直持续到性能达到最佳水平。 训练结束后,系统能够分配在训练时没有遇到的输出对象。 在理想情况下,此过程非常准确,不会花费很多时间。 有两种类型的监督学习算法,即分类和回归。

在直接进入我们的主要讨论主题之前,我们将简要讨论这两个问题。

一、分类

这些是有监督的机器学习算法,其简单目标是重现类分配。 对于需要数据分离的情况,通常会考虑学习技术。 它通过预测响应将数据分类。 例如,某一天的天气预报,从相册中识别特定类型的照片,以及从电子邮件中分离垃圾邮件。

2.回归

学习技术用于服务于再现输出值的目标。 换句话说,它用于我们需要将数据拟合到特定值的情况。 例如,它通常用于估算不同物品的价格。 回归可以用来预测比你想象的更多的事情。

回归类型

逻辑回归和线性回归是现代机器学习和数据科学世界中存在的两种最重要的回归类型。 然而,也有其他的,但它们的使用非常谨慎。 不可否认的是,我们可以对给定的数据集执行大量回归或用于不同的情况。

每种形式的回归都有其优点和缺点,并且适用于特定条件。 虽然我们将只关注线性攻击,但您需要了解完整的背景才能熟悉它的工作原理。

这就是我们逐步进行讨论的原因。

什么是回归分析?

回归分析不过是一种预测建模方法,旨在研究自变量或预测变量与因变量或目标之间存在的关系。 这种分析用于许多不同的事情,包括时间序列建模、预测等。

例如,如果你想研究交通事故和随意驾驶之间的关系,没有比回归分析更好的技术来完成这项工作。 它在分析和建模数据方面都起着非常重要的作用。 这是通过将直线或曲线拟合到不同的数据点来完成的,我们可以最小化数据点与直线或曲线的距离差异。

回归分析需要什么?

回归分析用于预测变量之间的关系,只有当它们的数量为两个或更多时。 让我们通过一个简单的例子来了解它是如何工作的。 假设您有一项任务,要求您在考虑现有经济状况的情况下,估算公司在给定时期内的销售增长。

现在公司数据告诉你,销售额增长大约是经济增长的两倍。 我们可以通过从过去和当前的信息中获取洞察,使用这些数据来估计公司未来的销售额增长。

在处理数据或对数据集进行预测时,使用回归分析可以为您带来许多好处。 它可以用来指出自变量和因变量之间的重要关系。 它用于表示来自多个自变量的因变量经验的影响。

它允许比较属于不同测量尺度的不同变量的影响。 这些东西在帮助数据科学家、研究人员和数据分析师基于最合适的变量集构建预测模型方面大有帮助。

阅读:机器学习项目的想法和主题

选择正确的回归模型需要注意什么?

好吧,当您只有两种或三种技术可供选择时,事情通常会容易得多。 但是,如果我们有这么多可供选择的选择,那么这个决定就会变得更加压倒性。 现在你不能只选择线性回归,因为结果是连续的。 如果结果是二元的,或者进行逻辑回归。 当我们为我们的问题选择回归模型时,还有更多的事情需要考虑。

正如我们已经提到的,有更多可用的回归模型,然后我们就可以了解了。 那么我们在选择的时候需要注意什么呢? 有几件事很重要——数据维度、因变量和自变量的类型以及相关数据的其他属性。 在选择正确的回归模型时,需要考虑以下几个重要事项:

数据探索是构建预测模型的关键。 难怪它一定是您在做出选择之前应该做的第一件事。 探索用于识别变量影响和关系的数据。

通过交叉验证评估不同的回归模型以进行预测。 将您的数据集分成训练组和验证组。 预测值和观察值之间的均方差将提供对预测准确性的洞察。

使用 Ridge、ElasticNet 和其他回归正则化方法为具有高多重共线性和维度的变量的数据集选择正确的模型。

为了对不同的回归模型及其适用性进行比较,我们可以分析参数,例如 AIC、BIC、R 平方、误差项等。 还有一个标准,称为 Mallow 的 Cp。 它将模型与不同的子模型进行比较以找出偏差。

如果您正在使用的数据集有许多令人费解的变量,则永远不要使用自动模型选择方法。 如果你这样做,你将朝着将这些变量一次性放入模型的方向发展。

您的目标对于选择正确的回归模型也很重要。 无论您需要一个强大的模型、一个简单的模型还是一个具有统计意义的模型,都取决于您的目标。

什么是线性回归?

让我们更多地了解什么是线性回归。 它是属于监督学习的机器学习技术之一。 机器学习技术的需求和使用的增加是线性回归在几个领域的使用突然高涨的背后。 你知道多层感知器层可以执行线性回归吗? 现在让我们阐明已知线性回归对其所应用的数据集所做的假设。

1. 自相关:

线性回归做出的这个假设表明数据中几乎没有自相关。 当残差以一种或另一种方式相互依赖时,就会发生自相关。

2.多重共线性:

这个假设表明数据多重共线性要么根本不存在,要么几乎不存在。 当独立的特征或变量表现出某种依赖性时,就会发生多重共线性。

3.变量关系:

该模型假设特征变量和响应变量之间存在线性关系。

您可以使用线性回归的一些例子包括根据房屋数量估算房屋价格,根据浇水的频率确定植物的生长情况等等。 对于所有这些实例,您已经对不同变量之间存在的关系类型有所了解。

当您使用线性回归分析时,您可以用数据支持您的想法或假设。 当您更好地理解不同变量之间的关系时,您就可以更好地做出有力的预测。 如果您还不知道,让我们告诉您线性回归是一种有监督的机器学习技术以及一种统计模型。

在机器学习术语中,回归模型就是你的机器,学习与在数据集上训练这个模型有关,这有助于它学习变量之间的关系并使其能够进行数据支持的预测。

线性回归如何工作?

在我们进行分析之前,让我们假设我们有两种类型的团队——一种能很好地完成工作,另一些则不能。 一个团队不擅长它正在做的事情可能有几个原因。 这可能是因为它没有合适的技能组合,或者它没有在工作中履行某些职责所需的经验。 但是,你永远无法确定它是什么。

我们可以使用线性回归来找出最适合参与特定工作的特定团队所需的所有候选人。 这将有助于我们选择极有可能擅长其工作的候选人。

回归分析的目的是创建适合相关数据的趋势曲线或线。 这有助于我们找出一个参数(自变量)与另一个参数(因变量)的关系。

首先,我们需要仔细查看不同候选人的所有属性,并找出它们是否以某种方式相关。 如果我们发现一些相关性,我们可以继续根据这些属性进行预测。

通过使用趋势曲线或线并绘制数据来完成数据中的关系探索。 曲线或线会告诉我们是否存在任何相关性。 我们现在可以使用线性回归来反驳或接受关系。 当关系确定后,我们可以使用回归算法来学习他的关系。 这将使我们能够做出正确的预测。 我们将能够更准确地预测候选人是否适合这份工作。

训练模型的重要性

训练线性回归模型所涉及的过程在许多方面与训练其他机器学习模型的过程相似。 我们需要处理训练数据集,并以不影响模型预测新数据样本能力的方式对其变量之间的关系进行建模。 模型经过训练以不断改进您的预测方程。

它是通过迭代循环遍历给定的数据集来完成的。 每次重复此操作时,您都会同时更新梯度或成本函数指示的方向上的偏差和权重值。 当触及错误阈值或随后的训练迭代没有降低成本时,就达到了训练完成的阶段。

在我们开始训练模型之前,我们需要准备一些东西。 我们需要设置所需的迭代次数以及学习率。 除此之外,我们还必须为权重设置默认值。 此外,记录每次重复我们能够取得的进展。

什么是正则化?

如果我们谈论比其他变体更受欢迎的线性回归变体,那么我们将不得不提及那些增加了正则化的变体。 正则化涉及惩罚模型中绝对值大于其他模型的权重。

进行正则化以限制过度拟合,这是模型经常做的事情,因为它过于紧密地再现了训练数据关系。 它不允许模型按照预期的那样概括以前从未见过的样本。

我们什么时候使用线性回归?

线性回归的强大之处在于它的简单程度。 这意味着它可以用来找到几乎所有问题的答案。 在使用线性回归算法之前,您必须确保您的数据集满足其工作所需的条件。

这些条件中最重要的是数据集变量之间存在线性关系。 这使得它们可以很容易地被绘制出来。 您需要看到预测值和实际实现值之间存在的差异是恒定的。 预测值应该仍然是独立的,并且预测变量之间的相关性应该太接近而无法舒适。

您可以简单地沿着一条线绘制数据,然后彻底研究其结构,以查看您的数据集是否满足所需条件。

线性回归使用

线性攻击的简单性使分子水平的解释更容易是其最大的优势之一。 线性回归可以应用于所有变量具有线性关系的数据集。

企业可以使用线性回归算法是他们的销售数据。 假设您是一家计划推出新产品的企业。 但是,您不确定应该以什么价格出售该产品。 您可以通过以一些经过深思熟虑的价格点销售产品来检查客户对您的产品的反应。 这将允许您概括产品销售和价格之间的关系。 使用线性回归,您将能够确定客户更有可能接受的价格点。

另请阅读:印度的机器学习薪资

线性回归也可用于产品采购和生产的不同阶段。 这些模型广泛应用于学术、科学和医学领域。 例如,农民可以建立一个系统模型,使他们能够利用环境条件为自己谋取利益。 这将帮助他们以这样一种方式处理这些元素,使它们对作物产量和利润造成最小的损害。

除此之外,它还可用于医疗保健、考古和劳动等领域。 是如何解释线性模型

结论

回归分析是一种广泛采用的工具,它使用数学来分类可能对最终数据产生直接或间接影响的变量。 在进行分析时牢记这一点很重要! 线性回归是数据科学家用来建立数据集变量之间线性关系的最常用算法之一,其数学模型是预测分析所必需的。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

线性回归是否有任何限制或缺点?

线性回归是一种流行的方法,用于理解因变量与一个或多个自变量之间的关系。 尽管线性回归模型被广泛用于开发机器学习模型,但它也有一定的局限性。 例如,这种回归算法假设变量之间的所有关系都是线性的,这通常会产生误导。 然后,它总是在检查因变量与自变量的关系时考虑因变量的​​平均值。 其次,线性回归总是假设数据是互斥的,即独立于其他值,这可能是不正确的。 此外,线性回归通常对异常值或意外数据敏感。

回归分析流行的原因有哪些?

回归分析是机器学习中最有用和最强大的统计技术之一。 有多种原因可以解释其受欢迎程度。 首先,回归分析由于其巨大的多功能性而具有广泛的应用。 回归分析模型的实现和解释非常简单,也就是说,您可以轻松地解释它的工作原理并解释结果。 了解回归分析可以牢牢掌握机器学习统计模型。 它还可以帮助您使用 R 和 Python 等编程语言开发更高效的机器学习模型。 此外,该技术与人工神经网络提供了出色的可集成性,可用于做出有用的预测。

企业如何将线性回归应用于他们的优势?

企业可以使用线性回归来检查并生成有用的数据洞察,以了解影响盈利能力的消费者行为。 它还可以帮助公司进行估计和评估市场趋势。 营销人员可以使用线性回归来评估他们的营销策略的有效性,包括促销和产品定价。 金融和保险公司可以有效地评估风险并制定关键的业务决策。 信用卡公司可以使用线性回归模型将违约者的风险组合降至最低。