无监督机器学习如何工作？

已发表: 2018-06-13

无监督学习是指使用未分类或未标记的信息训练 AI 系统。理想情况下，这意味着算法必须在没有任何事先指导的情况下对信息采取行动。
在无监督学习中，机器将关于异同的未排序/无序信息分组。这是在没有为机器提供分类数据的情况下完成的。使用这种学习的系统通常与生成学习模型相关联。

无监督机器学习如何工作？

在无监督学习中，人工智能系统呈现未标记、未分类的数据，系统的算法无需事先训练即可对数据进行操作。输出取决于编码算法。对系统进行无监督学习是测试该系统能力的一种既定方法。
无监督学习算法可以执行比监督学习系统更复杂的处理任务。然而，无监督学习可能比替代模型更难以预测。例如，使用无监督模型训练的系统可能会自行弄清楚如何区分猫和狗，它还可能会添加意外和不受欢迎的类别来处理不寻常的品种，这可能最终会弄乱东西而不是将它们留在命令。

对于无监督学习算法，AI 系统呈现一个未标记和未分类的数据集。要记住的是，该系统没有经过任何先前的培训。从本质上讲，无监督学习可以被认为是没有老师的学习。
在监督学习的情况下，系统既有输入也有输出。因此，根据期望输出和观察到的输出之间的差异，系统将被设置为学习和改进。然而，在无监督学习的情况下，系统只有输入，没有输出。
什么是机器学习及其重要性

在与数据挖掘和特征提取相关的任务中，无监督学习非常有用。无监督学习的最终目标是发现数据中隐藏的趋势和模式或提取所需的特征。就像我们之前说的，无监督学习只处理输入数据集，没有任何先验知识或学习。因此，有两种类型的无监督学习：

参数无监督学习

参数无监督学习假设数据的参数分布。这意味着，这种类型的无监督学习假设数据来自一个基于某些参数遵循特定概率分布的群体。理论上，如果我们考虑一个对象族的正态分布，那么我们会看到所有成员都有一些相似的特征，并且总是通过均值和标准差进行参数化。这意味着，如果我们知道均值和标准差，并且分布是正态的，那么我们可以很容易地找出未来观察的概率。参数无监督学习比标准监督学习困难得多，因为没有可用的标签；因此没有预定义的准确度度量来测试输出。

非参数无监督学习

非参数无监督学习是指输入数据集的聚类。从本质上讲，每个集群都说明了集合中存在的数据项的类别和类别。这是数据建模和分析小样本数据最常用的方法。这些方法也被称为无分布方法，因为与参数学习的情况不同，建模者不需要对整个人口的分布做出任何假设。
这 6 种机器学习技术正在改善医疗保健

在这一点上，有必要深入了解一下我们所说的集群是什么意思。

那么，什么是聚类？

当涉及到无监督学习时，聚类是最重要的基本概念之一。它处理在未分类的数据集合中查找结构或模式。集群的简单定义可以是“将对象分组为类的过程，这样类的每个成员都以一种或另一种方式与另一个相似。”
因此，集群可以简单地定义为数据对象的集合，这些数据对象在一个集群之间“相似”，而与另一个集群的对象“不相似”。

无监督机器学习的应用

无监督机器学习的目标是发现数据中先前隐藏的模式和趋势。但是，在大多数情况下，数据模式与监督机器学习所能实现的效果并不一致——例如，它们将客户分成大组，而不是将他们视为个人并提供高度个性化的通信。在无监督学习的情况下，我们不知道结果会是什么，因此，如果我们需要设计一个预测模型，监督学习在现实世界中更有意义。
使用无监督机器学习的理想用例是当您没有关于预期结果的数据时。例如，如果您需要确定全新产品的目标市场。但是，如果您想更好地对您的消费者群进行分类，监督学习是更好的选择。
5 机器学习的突破性应用

让我们看一下无监督机器学习技术的一些应用：

无监督学习对于从数据集中进行异常检测非常有帮助。异常检测是指在您的数据集合中找到重要的数据点。这对于发现欺诈性交易、发现损坏的硬件或识别在数据输入过程中可能潜入的任何异常值非常方便。
关联挖掘意味着识别在数据集中一起出现的一组项目。这对于篮子分析非常有用，因为它允许分析师发现经常一起购买的商品。如果不对数据进行聚类，关联挖掘是不可能的，当您谈论聚类时，您谈论的是无监督机器学习算法。
无监督学习的另一种用例是降维。它指的是减少数据集中的特征数量，从而实现更好的数据预处理。潜在变量模型通常用于此目的，并且只有通过使用无监督学习算法才能实现。

使用无监督学习发现的模式和趋势也可以在以后应用监督学习算法时派上用场——例如，无监督学习可以帮助您对数据集进行聚类分析，然后您可以在您选择的任何聚类上使用监督学习/需要。
机器学习工程师：神话与现实

总而言之，机器学习和人工智能是非常复杂的领域，你遇到的任何复杂的人工智能系统很可能会使用各种学习算法和机制的组合。话虽如此，如果您是初学者，则必须了解围绕所有主要学习技术的关键点。

从世界顶级大学学习 ML 课程。获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。
我们希望我们能够阐明无监督学习算法的细微之处。如果您有任何疑问，请在下面的评论中留言！

提到无监督机器学习的一些限制。

在无监督机器学习的情况下，可能需要人工干预来掌握不同的模式并将它们与领域专业知识联系起来，这可能是昂贵的。经常发现输出或发现是不准确的。无法精确定义无监督任务的排序和输出。它高度依赖于模型，因此也依赖于机器。此外，课程总数未知。因此，分析的结论难以验证。

无监督机器学习中的关联规则是什么？

关联规则是几种无监督机器学习方法之一。您可以使用关联规则在大型数据库中的数据元素之间创建关系。发现海量数据库中变量之间有趣的相关性是这种无监督方法/算法的目标。关联规则是一组方法，用于为生成各种预测和评估某些事件发生在其他事件之上的可能性提供一个很好的基础。