带有用例示例的机器学习算法类型

已发表: 2019-07-23

您今天享受的所有创新优势——从智能 AI 助手和推荐引擎到复杂的物联网设备，都是数据科学的成果，或者更具体地说，是机器学习的成果。

机器学习的应用几乎渗透到我们日常生活的方方面面，而我们甚至没有意识到这一点。如今，ML 算法已成为各个行业不可或缺的一部分，包括商业、金融和医疗保健。虽然您可能多次听说过“机器学习算法”这个术语，但您知道它们是什么吗？

本质上，机器学习算法是先进的自学习程序——它们不仅可以从数据中学习，还可以从经验中改进。这里的“学习”表示随着时间的推移，这些算法会不断改变它们处理数据的方式，而无需对其进行明确编程。

学习可能包括理解将输入映射到输出的特定函数，或者发现和理解原始数据的隐藏模式。 ML 算法学习的另一种方式是通过“基于实例的学习”或基于记忆的学习，但其他时候更多。

今天，我们的重点将是了解不同类型的机器学习算法及其特定目的。

监督学习

顾名思义，在监督学习方法中，算法是通过直接的人工监督来明确训练的。因此，开发人员选择输入算法的信息输出类型，并确定所需的结果类型。这个过程有点像这样开始——算法接收输入和输出数据。然后算法开始创建将输入映射到输出的规则。这个训练过程一直持续到达到最高水平。因此，最终，开发人员可以从最能预测所需输出的模型中进行选择。这里的目的是训练一种算法来分配或预测在训练过程中没有与之交互的输出对象。

这里的主要目标是通过处理和分析标记的样本数据来扩展数据范围并预测未来的结果。

监督学习最常见的用例是预测价格、销售和股票交易的未来趋势。 监督算法的示例包括线性回归、逻辑回归、神经网络、决策树、随机森林、支持向量机 (SVM) 和朴素贝叶斯。

有两种监督学习技术：

回归——该技术首先识别样本数据中的模式，然后计算或再现对连续结果的预测。为此，它必须了解数字、它们的值、它们的相关性或分组等。回归可用于产品和股票的自豪度预测。

分类——在这种技术中，输入数据根据历史数据样本进行标记，然后手动训练以识别特定类型的对象。一旦它学会识别所需的对象，它就会学会对它们进行适当的分类。为此，它必须知道如何区分获取的信息并识别光学字符/图像/二进制输入。分类用于进行天气预报、识别图片中的对象、确定邮件是否为垃圾邮件等。

资源

无监督学习

与使用标记数据进行输出预测的监督学习方法不同，无监督学习仅在未标记数据上提供和训练算法。无监督学习方法用于探索数据的内部结构并从中提取有价值的见解。通过检测未标记数据中的隐藏模式，该技术旨在发现可以带来更好输出的此类见解。它可以用作监督学习的初步步骤。

企业使用无监督学习从原始数据中提取有意义的见解，以提高运营效率和其他业务指标。它通常用于数字营销和广告领域。一些最流行的无监督算法是 K 均值聚类、关联规则、t-SNE（t 分布随机邻域嵌入）和 PCA（主成分分析）。

有两种无监督学习技术：

聚类——聚类是一种探索技术，用于将数据分类为有意义的组或“集群”，而无需任何关于集群凭据的先验信息（因此，它仅基于它们的内部模式）。集群凭证由单个数据对象的相似性及其与其余对象的差异确定。聚类用于对具有相似内容的推文进行分组，分离不同类型的新闻片段等。

降维- 降维用于找到输入数据的更好且可能更简单的表示。通过这种方法，在保留所有必要位的同时，清除了输入数据中的冗余信息（或至少最小化了不必要的信息）。这样，它允许数据压缩，从而减少数据的存储空间需求。一种最常见的降维用例是将邮件隔离和识别为垃圾邮件或重要邮件。

半监督学习

半监督学习介于监督学习和无监督学习之间。 它结合了两全其美的优势，创造了一套独特的算法。 在半监督学习中，使用一组有限的标记样本数据来训练算法以产生所需的结果。由于它只使用一组有限的标记数据，它创建了一个部分训练的模型，将标签分配给未标记的数据集。因此，最终结果是一种独特的算法——标记数据集和伪标记数据集的融合。该算法融合了监督学习和无监督学习的描述性和预测性属性。

半监督学习算法广泛用于法律和医疗保健行业、图像和语音分析以及网络内容分类等。 近年来，由于未标记和非结构化数据的数量快速增长以及行业特定问题的种类繁多，半监督学习变得越来越流行。

强化学习

强化学习旨在开发自我维持和自我学习的算法，这些算法可以通过基于标记数据和传入数据之间的组合和交互的连续试验和错误循环来改进自己。强化学习使用发生动作的探索和利用方法；观察行动的后果，并基于这些后果，下一个行动随之而来——一直在努力改善结果。

在训练过程中，一旦算法可以执行特定/期望的任务，就会触发奖励信号。这些奖励信号就像强化算法的导航工具，表示特定结果的完成并确定下一步行动。自然地，有两个奖励信号：

肯定- 当要继续执行特定的操作序列时触发。

Negative – 该信号会惩罚执行某些活动，并要求在继续之前更正算法。

资源

强化学习最适合只有有限或不一致信息可用的情况。它最常用于视频游戏、现代 NPC、自动驾驶汽车，甚至广告技术运营中。强化学习算法的示例包括 Q-Learning、深度对抗网络、蒙特卡洛树搜索 (MCTS)、时间差异 (TD) 和异步 Actor-Critic 代理 (A3C)。

那么，我们从这一切中推断出什么？

机器学习算法用于揭示和识别隐藏在海量数据集中的模式。 然后，这些见解将用于积极影响业务决策并为广泛的现实世界问题找到解决方案。由于数据科学和机器学习的先进性，我们现在拥有针对特定问题和问题量身定制的 ML 算法。 ML 算法已经改变了医疗保健应用程序、流程以及当今的业务运营方式。

机器学习中有哪些不同的算法？

机器学习中有很多算法，但特别流行的是以下几种：线性回归：可以在元素之间的关系是线性的情况下使用。逻辑回归：当元素之间的关系是非线性时使用。神经网络：实现一组相互连接的神经元，并在整个网络中传播它们的激活以生成输出。 k-Nearest Neighbors：查找并记录一组与正在考虑的对象相邻的有趣对象。支持向量机：搜索对训练数据进行最佳分类的超平面。朴素贝叶斯：使用贝叶斯定理计算给定事件发生的概率。

机器学习有哪些应用？

机器学习是计算机科学的一个子领域，它是从人工智能中的模式识别和计算学习理论的研究发展而来的。它与计算统计有关，计算统计也侧重于通过使用计算机进行预测。机器学习侧重于修改完成预测的软件的自动化方法，以便在没有明确指令的情况下改进软件。

有监督学习和无监督学习有什么区别？

监督学习：给你一组样本 X 和相应的标签 Y。你的目标是建立一个从 X 映射到 Y 的学习模型。该映射由学习算法表示。一个常见的学习模型是线性回归。该算法是将线拟合到数据的数学算法。无监督学习：只给你一组 X 未标记的样本。您的目标是在没有任何指导的情况下找到数据中的模式或结构。您可以为此使用聚类算法。一种常见的学习模型是 k-means 聚类。该算法内置于集群算法中。