マハウトの距離測度：上位3つの測度タイプ[2022]

公開: 2021-01-07

Mahoutは、データサイエンティストが分散型またはスケーラブルな機械学習アルゴリズムを作成するために使用する、ApacheSoftwareFoundationによるオープンソースプロジェクトです。 Mahoutは主に線形代数に焦点を当てており、そのアルゴリズムはHadoopインフラストラクチャ上に記述されています。このフレームワークによって実装される一般的なデータマイニング手法には、推奨、分類、およびクラスタリングが含まれます。 Mahoutの距離測度は、クラスタリングの問題について学ぶための重要なトピックです。

Mahoutは、すぐに使用できる構造をコーダーに提供し、バルクデータの迅速かつ効果的な管理を可能にするため、Apacheのトッププロジェクトの1つになりました。また、Twitter、Facebook、LinkedIn、Adobe、Yahooなどのさまざまな企業が、内部データマイニングタスクにこれを使用しています。

詳細： 12の最も有用なデータマイニングアプリケーション

距離測度とは何ですか？

名前が示すように、これはデータポイント間の距離の尺度です。 Mahoutの距離測度は、2つの任意のベクトルがどれだけ近いかを計算し、ポイント間の類似性を示します。ここで、いくつかの例を考えてみましょう。

電話会社を経営していて、特定の地域にタワーのネットワークを構築したいとします。最適な信号強度を確保するには、タワーを建てる場所を決定する必要があります。
地方行政は、一連の公的救急病棟を開設したいと考えています。地域全体でのこれらのユニットの位置は、事故が発生しやすいエリアの近くにあるようにする必要があります。
犯罪率の高い地域で効果的な法執行と厳格な監視を行うために、パトロールバンを配置する必要がある周辺を評価できます。

これらすべてのシナリオで、距離の測定値がクラスタリングアルゴリズムの中核にあることがわかります。教師なし学習の問題では、この計算が意思決定の最も重要な要素の1つを形成します。距離測定手法に関する選択は、結果に大きな影響を与えます。

また、Mahoutライブラリで利用可能な手法を使用する必要はありません。カスタムメソッドを適用して、特定のデータまたはアルゴリズムのコンテキストに基づく距離メトリックを見つけることもできます。あなたがする必要があるのは、ベクトル点の数学的論理を実装し、その実装が特定の重心内にあるかどうかを決定するために値を割り当てることです。クラスターの中心は重心と呼ばれます。

について学ぶ：インドでデータサイエンティストを採用しているトップ企業

クラスタリングの基本をブラッシュアップ

さまざまなカテゴリを掘り下げる前に、まずクラスタリングに関する基本を更新しましょう。クラスターは基本的に、データインスタンスの類似性または非類似性のグループです。これが実際のアプリケーションです。

マーケターは、クラスタリングを使用して顧客をセグメント化し、ターゲットを絞ったマーケティング戦略を実行できます。
衣料品メーカーとして、「小」、「中」、「大」など、類似したTシャツのサイズに応じて人々をグループ化することをお勧めします。万能のアプローチが毎回機能するとは限りません。そして、一人一人のためにカスタマイズされたTシャツは高価になる可能性があります。
図書館管理システムでは、コンテンツの類似性に従って本や文書を整理するためにクラスタリングが使用されます。
地球観測データベースでは、クラスタリングは同様の土地利用を持つ地域を特定するのに役立ちます。
生物学では、クラスタリングを使用して、同様の機能を持つ遺伝子を分類し、さまざまな植物や動物の集団に固有の構造を理解することができます。

さらに、このデジタル時代では、膨大な量のデータが毎日生成され、使用されています。したがって、クラスタリングは、その利便性から、最も広く使用されているデータマイニング手法の1つです。

クラスタリングの品質は、クラスタリングアルゴリズムと距離関数という2つの主要な側面によって決定されます。

クラスタリングアルゴリズム（部分的、階層的など）
距離関数（類似性または非類似性）

基本的な概念を改訂したので、ApacheMahoutで使用できるさまざまなタイプの距離測度に移りましょう。

読む：データマイニングにおけるクラスター分析

マハウトの距離測度

コサイン距離測定

このタイプの距離測定は、テキストの類似性を見つけるのに最適です。テキストドキュメントのコレクションが与えられると、最も重みの高い一般的な単語を使用してそれらをグループ化することにより、トピック階層を生成できます。

コサイン距離測定では、TF-IDFアルゴリズムを使用して属性をベクトルに変換します。また、トピックワードのベクトルの重みはストップワードよりも高くなります。したがって、同様のドキュメントには、共通のトピックワードがあります。その結果、重心ベクトル（またはクラスターの中心）のトピックワードの平均重みが高くなります。

最も人気のあるアプリケーションの1つは、Googleページで遭遇するページランキングまたは検索要約です。アルゴリズムは最初にクラスターを形成し、次に重心を見つけます。この手順は、SiriやAlexaなどのAIアプリケーションでの情報発見にも役立ちます。

クラスター間距離測定

これは、2つの別々のクラスターに属するオブジェクト間の距離です。クラスター間の距離の測定は、クラスターの品質を評価するのに適しています。図心が互いに近すぎると、同様の機能を持つグループを作成するプロセスが妨げられます。したがって、クラスターメンバーを明確に区別することが重要になります。全体的な目標は、データポイントを特定のクラスターに分割またはセグメント化することです。

続きを読む： Rでのクラスター分析

クラスター内距離測定

この測定値は、同じクラスターの2つのメンバー間の距離を示します。したがって、これはクラスター間距離の測定の反対です。クラスター内の距離は、クラスター間の距離と比較して小さくなっています。類似したオブジェクト間の距離の小さな測定値は、クラスターが緊密であり、互いに確実に識別されていることを示します。

このタイプの距離メトリックは、次の2つに依存します。i）遠いオブジェクトに対するペナルティii）近いオブジェクトに対する小さい値。そして、より分離されたクラスターは、これら2つの値の比率が高くなります。

ここで、クラスター分析における類似距離測度の次のデモンストレーションを見てみましょう。

宅配便サービスは、それらの間の距離が最小である場所をグループ化することにより、さまざまな「配達ゾーン」を作成できます。このようにして、アルゴリズムは、担当者による迅速かつ効果的な配信を容易にします。私たちのタスクは、クラスターの重心点間の距離を最適化し、クラスター内の分散を最小限に抑え、最も類似した特性を持つデータセットがクラスター化されるようにすることです。

世界のトップ大学からデータサイエンスコースを学びましょう。エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

まとめ

これで、Mahoutの距離測度の概念について説明しました。そして今、あなたはこの重要なビッグデータツールの要点を理解したので、どんな就職の面接でもそれを簡単に解明することができます。また、さまざまな距離測度を明確に理解すると、クラスタリングアルゴリズムを実装しながら精度を達成するのに役立ちます。

データサイエンスについて知りたい場合は、IIIT-BとupGradのデータサイエンスのPGディプロマをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、1- on-1業界のメンター、400時間以上の学習、トップ企業との仕事の支援。

クラスター分析とは何ですか？その特徴は何ですか？

ラベルを付けずにオブジェクトを定義するプロセスは、クラスター分析と呼ばれます。判別分析の場合と同様に、データマイニングを使用して、さまざまな類似オブジェクトを1つのクラスターにグループ化します。そのアプリケーションには、パターン認識、情報分析、画像分析、機械学習、コンピュータグラフィックス、およびその他のさまざまな分野が含まれます。
クラスター分析は、多くの点で互いに異なる他のいくつかのアルゴリズムを使用して実行されるタスクであり、クラスターを作成します。
以下は、クラスター分析の特徴の一部です-クラスター分析は非常にスケーラブルです。異なる属性のセットを処理できます。それは高次元性、解釈可能性を示しています。

オープンソースプロジェクトに貢献する価値はありますか？

オープンソースプロジェクトとは、ソースコードがすべての人に公開されており、誰でもアクセスして変更を加えることができるプロジェクトです。オープンソースプロジェクトに貢献することは、スキルを磨くだけでなく、履歴書に載せる大きなプロジェクトを提供するため、非常に有益です。
多くの大企業がオープンソースソフトウェアに移行しているので、あなたが早く貢献し始めればそれはあなたにとって有益でしょう。 Microsoft、Google、IBM、Ciscoなどの有名企業の中には、何らかの形でオープンソースを採用しているところもあります。
熟練したオープンソース開発者の大規模なコミュニティがあり、ソフトウェアの改善と更新に絶えず貢献しています。コミュニティは非常に初心者に優しいものであり、いつでもステップアップして新しい貢献者を歓迎する準備ができています。オープンソースに貢献するためのガイドとなるドキュメントもたくさんあります。

単変量法と多変量法を区別します。

単変量法は、外れ値を処理するための最も簡単な方法です。これは単一変量であり、その主な目的はデータを分析し、それに関連するパターンを決定することであるため、関係の概要は示していません。平均、中央値、最頻値は、単変量データに見られるパターンの例です。
一方、多変量法は、3つ以上の変数を分析するためのものです。単変量法とは異なり、多変量法は関係とパターンを処理するため、以前の方法よりも正確です。加法ツリー、正準相関分析、およびクラスター分析は、多変量分析を実行する方法の一部です。