Mahout 中的距离测量：前 3 种测量类型 [2022]

已发表: 2021-01-07

Mahout 是 Apache 软件基金会的一个开源项目，数据科学家使用它来创建分布式或可扩展的机器学习算法。 Mahout 主要关注线性代数，其算法是在 Hadoop 基础架构之上编写的。该框架实现的一些流行的数据挖掘技术包括推荐、分类和聚类。 Mahout中的距离度量是学习聚类问题的重要主题。

由于 Mahout 为编码人员提供了即用型的结构，并允许快速有效地管理批量数据，因此它已成为 Apache 的顶级项目之一。 Twitter、Facebook、LinkedIn、Adobe、Yahoo 等各种公司都将其用于内部数据挖掘任务。

了解更多： 12 个最有用的数据挖掘应用程序

什么是距离度量？

顾名思义，它是数据点之间距离的度量。 Mahout 中的距离度量计算两个任意向量的位置距离并指示点之间的相似性。现在让我们考虑一些例子。

假设您经营一家电话公司，并且您想在某个地区建立一个铁塔网络。为确保最佳信号强度，您需要确定竖立信号塔的位置。
地区政府希望开设一系列公共急救病房。这些单位在整个地区的位置应靠近事故多发地区。
为了在犯罪率高的地区进行有效执法和严格监视，您可以评估巡逻车应该驻扎的附近。

在所有这些场景中，您可以看到距离度量是聚类算法的核心。在无监督学习问题中，这种计算构成了决策制定的最关键因素之一。您对测距技术的选择将在很大程度上影响结果。

此外，您无需使用 Mahout 库中提供的技术。您还可以应用自定义方法来找出基于特定数据或算法上下文的距离度量。您需要做的就是为向量点实现数学逻辑并分配一个值以确定该实现是否落在特定质心内。簇的中心称为质心。

了解：在印度招聘数据科学家的顶级公司

复习聚类基础知识

在我们深入研究不同的类别之前，让我们先刷新一下关于集群的基础知识。集群基本上是数据实例的相似或相异组。以下是一些现实生活中的应用。

营销人员可以使用聚类来细分客户并执行有针对性的营销策略。
作为服装制造商，您可能希望根据类似的 T 恤尺寸对人员进行分组，例如“小”、“中”和“大”。一刀切的方法并非每次都奏效。为每个人定制的 T 恤可能很昂贵。
在图书馆管理系统中，聚类用于根据内容相似性组织书籍和文档。
在地球观测数据库中，聚类可以帮助识别具有相似土地利用的区域。
在生物学中，聚类可用于对具有相似功能的基因进行分类，并了解不同植物和动物种群中固有的结构。

此外，在这个数字时代，每天都会产生和使用大量数据。因此，由于它提供的便利性，聚类是最广泛使用的数据挖掘技术之一。

聚类的质量由两个主要方面决定——聚类算法和距离函数。

聚类算法（分区、分层等）
距离函数（相似或相异）

现在我们已经修改了基本概念，让我们继续讨论 Apache Mahout 中可用的不同类型的距离测量。

阅读：数据挖掘中的聚类分析

Mahout 中的距离测量

余弦距离测量

这种类型的距离度量最适合查找文本相似性。给定一组文本文档，它可以通过使用权重最高的常用词对它们进行分组来生成主题层次结构。

余弦距离度量使用 TF-IDF 算法将属性转换为向量。并且主题词的向量权重高于停用词。因此，相似的文档之间具有共同的主题词。结果，质心向量（或聚类中心）对主题词具有更高的平均权重。

最受欢迎的应用程序之一是您在 Google 页面上遇到的页面排名或搜索摘要。该算法首先形成簇，然后找到质心。此过程对于 Siri 和 Alexa 等 AI 应用程序中的信息发现也很有用。

集群间距离测量

它是属于两个单独集群的对象之间的距离。集群间距离度量适用于评估集群的质量。如果质心彼此太靠近，则会妨碍创建具有相似特征的组的过程。因此，明确区分集群成员变得至关重要。总体目标是将数据点划分或分割成特定的集群。

阅读更多： R中的聚类分析

集群内距离测量

此度量为您提供同一集群的两个成员之间的距离。因此，它与集群间距离度量相反。与簇间距离相比，簇内距离更小。相似物体之间距离的小测量表明集群是紧密的并且可以可靠地相互区分。

这种类型的距离度量取决于两件事：i）对较远物体的惩罚 ii）对较近物体的较小值。并且更分离的集群具有这两个值的高比率。

现在，让我们看一下聚类分析中相似距离度量的以下演示。

快递服务可以通过将它们之间距离最小的位置分组来创建不同的“交付区域”。这样，该算法有利于人员快速有效地交付。我们的任务是优化聚类质心点之间的距离，最小化聚类内方差，并确保具有最相似特征的数据集聚集在一起。

学习世界顶尖大学的数据科学课程。获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

包起来

至此，我们已经解释了Mahout 中距离度量的概念。现在您已经掌握了这个重要的大数据工具的要点，您可以在任何工作面试中轻松地阐明它。此外，对不同距离度量的清晰理解将帮助您在实施聚类算法时实现准确性。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭，该文凭专为在职专业人士而设，提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流，400 多个小时的学习和顶级公司的工作协助。

什么是聚类分析，它的特点是什么？

我们定义一个对象而不标记它的过程称为聚类分析。它使用数据挖掘将各种相似的对象分组到一个集群中，就像在判别分析中一样。它的应用包括模式识别、信息分析、图像分析、机器学习、计算机图形学和其他各种领域。
聚类分析是一项使用其他几种算法进行的任务，这些算法在许多方面彼此不同，从而创建了一个聚类。
以下是聚类分析的一些特点 - 聚类分析具有高度可扩展性。它可以处理一组不同的属性。它表现出高维度，可解释性。

为开源项目做贡献值得吗？

开源项目是那些源代码对所有人开放并且任何人都可以访问它并对其进行修改的项目。为开源项目做贡献是非常有益的，因为它不仅可以提高您的技能，还可以为您提供一些大项目来添加您的简历。
由于许多大公司正在转向开源软件，如果您尽早开始贡献，它将对您有利。微软、谷歌、IBM 和思科等一些大公司已经以一种或另一种方式接受了开源。
有一个由精通开源开发人员组成的大型社区，他们不断为使软件变得更好和更新做出贡献。社区对初学者非常友好，随时准备加强并欢迎新的贡献者。还有大量的文档可以指导您为开源做出贡献。

区分单变量和多变量方法。

单变量方法是处理异常值的最简单方法。它不概述任何关系，因为它是单个变量，其主要目的是分析数据并确定与之关联的模式。均值、中位数和众数是在单变量数据中发现的模式示例。
另一方面，多变量方法用于分析三个或更多变量。它比早期的方法更精确，因为与单变量方法不同，多变量方法处理关系和模式。加法树、典型相关分析和聚类分析是执行多变量分析的一些方法。