Mahout 中的距離測量：前 3 種測量類型 [2022]

已發表: 2021-01-07

Mahout 是 Apache 軟件基金會的一個開源項目，數據科學家使用它來創建分佈式或可擴展的機器學習算法。 Mahout 主要關注線性代數，其算法是在 Hadoop 基礎架構之上編寫的。該框架實現的一些流行的數據挖掘技術包括推薦、分類和聚類。 Mahout中的距離度量是學習聚類問題的重要主題。

由於 Mahout 為編碼人員提供了即用型的結構，並允許快速有效地管理批量數據，因此它已成為 Apache 的頂級項目之一。 Twitter、Facebook、LinkedIn、Adobe、Yahoo 等各種公司都將其用於內部數據挖掘任務。

了解更多： 12 個最有用的數據挖掘應用程序

什麼是距離度量？

顧名思義，它是數據點之間距離的度量。 Mahout 中的距離度量計算兩個任意向量的位置距離並指示點之間的相似性。現在讓我們考慮一些例子。

假設您經營一家電話公司，並且您想在某個地區建立一個鐵塔網絡。為確保最佳信號強度，您需要確定豎立信號塔的位置。
地區政府希望開設一系列公共急救病房。這些單位在整個地區的位置應靠近事故多發地區。
為了在犯罪率高的地區進行有效執法和嚴格監視，您可以評估巡邏車應該駐紮的附近。

在所有這些場景中，您可以看到距離度量是聚類算法的核心。在無監督學習問題中，這種計算構成了決策制定的最關鍵因素之一。您對測距技術的選擇將在很大程度上影響結果。

此外，您無需使用 Mahout 庫中提供的技術。您還可以應用自定義方法來找出基於特定數據或算法上下文的距離度量。您需要做的就是為向量點實現數學邏輯並分配一個值以確定該實現是否落在特定質心內。簇的中心稱為質心。

了解：在印度招聘數據科學家的頂級公司

複習聚類基礎知識

在我們深入研究不同的類別之前，讓我們先刷新一下關於集群的基礎知識。集群基本上是數據實例的相似或相異組。以下是一些現實生活中的應用。

營銷人員可以使用聚類來細分客戶並執行有針對性的營銷策略。
作為服裝製造商，您可能希望根據類似的 T 卹尺寸對人員進行分組，例如“小”、“中”和“大”。一刀切的方法並非每次都奏效。為每個人定制的 T 卹可能很昂貴。
在圖書館管理系統中，聚類用於根據內容相似性組織書籍和文檔。
在地球觀測數據庫中，聚類可以幫助識別具有相似土地利用的區域。
在生物學中，聚類可用於對具有相似功能的基因進行分類，並了解不同植物和動物種群中固有的結構。

此外，在這個數字時代，每天都會產生和使用大量數據。因此，由於它提供的便利性，聚類是最廣泛使用的數據挖掘技術之一。

聚類的質量由兩個主要方面決定——聚類算法和距離函數。

聚類算法（分區、分層等）
距離函數（相似或相異）

現在我們已經修改了基本概念，讓我們繼續討論 Apache Mahout 中可用的不同類型的距離測量。

閱讀：數據挖掘中的聚類分析

Mahout 中的距離測量

餘弦距離測量

這種類型的距離度量最適合查找文本相似性。給定一組文本文檔，它可以通過使用權重最高的常用詞對它們進行分組來生成主題層次結構。

餘弦距離度量使用 TF-IDF 算法將屬性轉換為向量。並且主題詞的向量權重高於停用詞。因此，相似的文檔之間具有共同的主題詞。結果，質心向量（或聚類中心）對主題詞具有更高的平均權重。

最受歡迎的應用程序之一是您在 Google 頁面上遇到的頁面排名或搜索摘要。該算法首先形成簇，然後找到質心。此過程對於 Siri 和 Alexa 等 AI 應用程序中的信息發現也很有用。

集群間距離測量

它是屬於兩個單獨集群的對象之間的距離。集群間距離度量適用於評估集群的質量。如果質心彼此太靠近，則會妨礙創建具有相似特徵的組的過程。因此，明確區分集群成員變得至關重要。總體目標是將數據點劃分或分割成特定的集群。

閱讀更多： R中的聚類分析

集群內距離測量

此度量為您提供同一集群的兩個成員之間的距離。因此，它與集群間距離度量相反。與簇間距離相比，簇內距離更小。相似物體之間距離的小測量表明集群是緊密的並且可以可靠地相互區分。

這種類型的距離度量取決於兩件事：i）對較遠物體的懲罰 ii）對較近物體的較小值。並且更分離的集群具有這兩個值的高比率。

現在，讓我們看一下聚類分析中相似距離度量的以下演示。

快遞服務可以通過將它們之間距離最小的位置分組來創建不同的“交付區域”。這樣，該算法有利於人員快速有效地交付。我們的任務是優化聚類質心點之間的距離，最小化聚類內方差，並確保具有最相似特徵的數據集聚集在一起。

學習世界頂尖大學的數據科學課程。獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

包起來

至此，我們已經解釋了Mahout 中距離度量的概念。現在您已經掌握了這個重要的大數據工具的要點，您可以在任何工作面試中輕鬆地闡明它。此外，對不同距離度量的清晰理解將幫助您在實施聚類算法時實現準確性。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑，該文憑專為在職專業人士而設，提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流，400 多個小時的學習和頂級公司的工作協助。

什麼是聚類分析，它的特點是什麼？

我們定義一個對象而不標記它的過程稱為聚類分析。它使用數據挖掘將各種相似的對象分組到一個集群中，就像在判別分析中一樣。它的應用包括模式識別、信息分析、圖像分析、機器學習、計算機圖形學和其他各種領域。
聚類分析是一項使用其他幾種算法進行的任務，這些算法在許多方面彼此不同，從而創建了一個聚類。
以下是聚類分析的一些特點 - 聚類分析具有高度可擴展性。它可以處理一組不同的屬性。它表現出高維度，可解釋性。

為開源項目做貢獻值得嗎？

開源項目是那些源代碼對所有人開放並且任何人都可以訪問它並對其進行修改的項目。為開源項目做貢獻是非常有益的，因為它不僅可以提高您的技能，還可以為您提供一些大項目來添加您的簡歷。
由於許多大公司正在轉向開源軟件，如果您儘早開始貢獻，它將對您有利。微軟、谷歌、IBM 和思科等一些大公司已經以一種或另一種方式接受了開源。
有一個由精通開源開發人員組成的大型社區，他們不斷為使軟件變得更好和更新做出貢獻。社區對初學者非常友好，隨時準備加強並歡迎新的貢獻者。還有大量的文檔可以指導您為開源做出貢獻。

區分單變量和多變量方法。

單變量方法是處理異常值的最簡單方法。它不概述任何關係，因為它是單個變量，其主要目的是分析數據並確定與之關聯的模式。均值、中位數和眾數是在單變量數據中發現的模式示例。
另一方面，多變量方法用於分析三個或更多變量。它比早期的方法更精確，因為與單變量方法不同，多變量方法處理關係和模式。加法樹、典型相關分析和聚類分析是執行多變量分析的一些方法。