クラスタリングとは何ですか?さまざまなタイプのクラスタリング方法

公開: 2020-12-01

組織の最高マーケティング責任者と会話していると考えてください。 組織は、データを利用して顧客をよりよく理解し、ビジネス目標を支援し、顧客により良いエクスペリエンスを提供できるようにしたいと考えています。 さて、これはクラスタリングが助けになるシナリオの1つです。

目次

クラスタリングとは何ですか?

クラスタリングは、機械学習の教師なし学習方法の一種です。 教師なし学習法では、ラベル付けされた出力変数を含まないデータセットから推論が引き出されます。 これは、多変量データセットを分析できる探索的データ分析手法です。

クラスタリングは、クラスターに属するデータポイントが同様の特性を持つように、データセットを特定の数のクラスターに分割するタスクです。 クラスターは、クラスター内のデータポイント間の距離が最小になるようにデータポイントをグループ化することに他なりません。

つまり、クラスターは、類似したデータポイントの密度が高い領域です。 これは通常、データセットの分析、巨大なデータセットの中から洞察に満ちたデータを見つけ、そこから推論を引き出すために使用されます。 一般に、クラスターは球形で表示されますが、クラスターは任意の形状にすることができるため、必須ではありません。 データサイエンスオンラインコースで、クラスタリングとその他のデータサイエンスの概念について学びます。

これは、クラスターの作成方法を決定する、使用するアルゴリズムのタイプによって異なります。 良好なクラスタリングの基準がないため、データセットから引き出す必要のある推論もユーザーによって異なります。

クラスタリング手法の種類は何ですか?

クラスタリング自体は、2つのタイプに分類できます。 ハードクラスタリングとソフトクラスタリング。 ハードクラスタリングでは、1つのデータポイントは1つのクラスターにのみ属することができます。 ただし、ソフトクラスタリングでは、提供される出力は、事前定義された数のクラスターのそれぞれに属するデータポイントの確率尤度です。

密度ベースのクラスタリング

この方法では、クラスターは、データ空間で表されるデータポイントの密度に基づいて作成されます。 その領域に存在する膨大な数のデータポイントのために密になる領域は、クラスターと見なされます。

スパース領域(データポイントが非常に少ない領域)のデータポイントは、ノイズまたは外れ値と見なされます。 これらのメソッドで作成されたクラスターは、任意の形状にすることができます。 以下は、密度ベースのクラスタリングアルゴリズムの例です。

DBSCAN(ノイズのあるアプリケーションの密度ベースの空間クラスタリング)

DBSCANは、データポイントの最小数の距離メトリックと基準に基づいてデータポイントをグループ化します。 eps最小ポイントの2つのパラメータを取りますEpsは、データポイントがネイバーと見なされる距離を示します。 その領域を密な領域と見なすには、最小点の基準を完了する必要があります。

OPTICS(クラスタリング構造を識別するための順序付けポイント)

プロセスはDBSCANと似ていますが、前者のアルゴリズムの欠点の1つ、つまり任意の密度のデータからクラスターを形成できないという欠点があります。 コア距離と到達可能距離の2つのパラメータが考慮されます。 コア距離は、最小値を設定することにより、考慮されているデータポイントがコアであるかどうかを示します。

到達可能距離は、コア距離の最大値であり、2つのデータポイント間の距離を計算するために使用される距離メトリックの値です。 到達可能距離について考慮すべきことの1つは、データポイントの1つがコアポイントである場合、その値が定義されないままになることです。

HDBSCAN(ノイズのあるアプリケーションの階層密度ベースの空間クラスタリング)

HDBSCANは、階層的クラスタリングアルゴリズムに変換することにより、DBSCAN手法を拡張する密度ベースのクラスタリング手法です。

階層的クラスタリング

階層的クラスタリンググループ(凝集型またはボトムアップアプローチとも呼ばれる)または距離メトリックに基づいてクラスターを分割(分割型またはトップダウンアプローチとも呼ばれる)します。 凝集的クラスタリングでは、各データポイントは最初はクラスターとして機能し、次にクラスターを1つずつグループ化します。

DivisiveはAgglomerativeの反対であり、すべてのポイントを1つのクラスターに分割し、それらを分割してさらにクラスターを作成します。 これらのアルゴリズムは、既存のすべてのクラスターの距離行列を作成し、リンクの基準に応じてクラスター間のリンクを実行します。 データポイントのクラスタリングは、樹状図を使用して表されます。 リンケージにはさまざまなタイプがあります。–

o シングルリンケージ:–シングルリンケージでは、2つのクラスター間の距離は、これら2つのクラスター内のポイント間の最短距離です。

o 完全なリンケージ:–完全なリンケージでは、2つのクラスター間の距離は、これら2つのクラスター内のポイント間の最も遠い距離です。

o 平均リンケージ:–平均リンケージでは、2つのクラスター間の距離は、クラスター内のすべてのポイントと別のクラスター内のすべてのポイントの平均距離です。

読む:データマイニングの一般的な例。

ファジークラスタリング

ファジークラスタリングでは、いずれかのクラスターでのデータポイントの割り当ては決定的ではありません。 ここでは、1つのデータポイントが複数のクラスターに属することができます。 これは、各クラスターに属するデータポイントの確率として結果を提供します。 ファジークラスタリングで使用されるアルゴリズムの1つは、ファジーc-meansクラスタリングです。

このアルゴリズムは、プロセスがK-Meansクラスタリングと似ており、ファジファイアやメンバーシップ値などの計算に関係するパラメーターが異なります。

クラスタリングのパーティショニング

この方法は、アナリストがクラスターを作成するための最も一般的な選択肢の1つです。 パーティショニングクラスタリングでは、データポイントの特性に基づいてクラスタがパーティショニングされます。 このクラスタリング手法で作成するクラスターの数を指定する必要があります。 これらのクラスタリングアルゴリズムは、反復プロセスに従って、距離に基づいてクラスター間でデータポイントを再割り当てします。 このカテゴリに分類されるアルゴリズムは次のとおりです。–

o K-Meansクラスタリング:– K-Meansクラスタリングは、最も広く使用されているアルゴリズムの1つです。 クラスタリングに使用される距離メトリックに基づいて、データポイントをk個のクラスターに分割します。 'k'の値はユーザーが定義します。 距離は、データポイントとクラスターの重心の間で計算されます。

クラスターの重心に最も近いデータポイントがそのクラスターに割り当てられます。 反復後、それらのクラスターの重心が再度計算され、事前定義された反復回数が完了するまで、または反復後にクラスターの重心が変化しなくなるまで、プロセスが続行されます。

これは、各反復ですべてのクラスターの重心を使用してすべてのデータポイントの距離を計算するため、非常に計算コストの高いアルゴリズムです。 これにより、巨大なデータセットに同じものを実装することが困難になります。

PAM(メドイド周辺のパーティショニング)

このアルゴリズムは、k-medoidアルゴリズムとも呼ばれます。 また、プロセスはK-meansクラスタリングアルゴリズムと似ていますが、クラスターの中心の割り当てに違いがあります。 PAMでは、クラスターのメドイドは入力データポイントである必要がありますが、クラスター内のすべてのデータポイントの平均が入力データポイントに属していない可能性があるため、K-meansクラスタリングには当てはまりません。

o CLARA(クラスタリング大規模アプリケーション) :– CLARAは、PAMアルゴリズムの拡張であり、大規模なデータセットのパフォーマンスを向上させるために計算時間が短縮されています。 これを実現するために、実際のデータの代表として、データセット全体の中からデータの特定の部分を任意に選択します。 PAMアルゴリズムをデータの複数のサンプルに適用し、多数の反復から最適なクラスターを選択します。

また読む:あなたが知っておくべきデータマイニングアルゴリズム

グリッドベースのクラスタリング

グリッドベースのクラスタリングでは、データセットはグリッド(セルとも呼ばれます)で構成されるグリッド構造に表されます。 この方法のアルゴリズムの全体的なアプローチは、他のアルゴリズムとは異なります。

彼らは、データポイント自体ではなく、データポイントを取り巻く価値空間に関心を持っています。 これらのアルゴリズムの最大の利点の1つは、計算の複雑さが軽減されることです。 これにより、膨大なデータセットの処理に適しています。

データセットをセルに分割した後、クラスターの識別に役立つセルの密度を計算します。 グリッドベースのクラスタリングに基づくいくつかのアルゴリズムは次のとおりです。–

o STING(統計情報グリッドアプローチ) :– STINGでは、データセットは階層的に再帰的に分割されます。 各セルはさらに、異なる数のセルに細分されます。 セルの統計的測定値をキャプチャし、短時間でクエリに回答するのに役立ちます。

o WaveCluster :–このアルゴリズムでは、データ空間はウェーブレットの形式で表されます。 データ空間は、クラスターの識別に役立つn次元信号を構成します。 周波数が低く振幅が大きい信号の部分は、データポイントが集中していることを示しています。 これらの領域は、アルゴリズムによってクラスターとして識別されます。 周波数が高い信号の部分は、クラスターの境界を表します。 詳細については、このペーパーを参照してください

o CLIQUE(Questingでのクラスタリング) :– CLIQUEは、密度ベースとグリッドベースのクラスタリングアルゴリズムの組み合わせです。 データスペースを分割し、Aprioriの原理を使用してサブスペースを識別します。 セルの密度を計算することにより、クラスターを識別します。

エンドノート

この記事では、クラスタリングとは何か、クラスタリングのさまざまな方法の概要とその例を紹介しました。 この記事は、クラスタリングの開始に役立つことを目的としています。

これらのクラスタリング手法には独自の長所と短所があり、特定のデータセットにのみ適しているように制限されています。 データセットの分析を実行するときに明らかになるのは、アルゴリズムだけでなく、マシンのハードウェア仕様、アルゴリズムの複雑さなど、他の多くの要因があります。

アナリストは、どのアルゴリズムを選択し、どのアルゴリズムが特定の状況でより良い結果をもたらすかを決定する必要があります。 1つのアルゴリズムがすべての戦略に適合し、機械学習の問題では機能しません。 だから、実験を続けて、クラスタリングの世界で手を汚してください。

データサイエンスを学びたい場合は、IIIT-BとupGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。

ビジネスインテリジェンスで使用されるさまざまなタイプのクラスタリング手法は何ですか?

クラスタリングは、特定の仮説を立てることなく、データ内のいくつかの隠れたパターンを識別するためにデータマイニングで使用される無向の手法です。 クラスタリングを使用する理由は、特定のオブジェクト間の類似性を識別し、類似したオブジェクトのグループを作成するためです。
クラスタリングには、階層的手法と非階層的手法の2種類があります。

1.非階層的クラスタリング

この方法では、N個のオブジェクトを含むデータセットがM個のクラスターに分割されます。 ビジネスインテリジェンスで最も広く使用されている非階層的クラスタリング手法はK-meansです。
2.階層的クラスタリング
この方法では、ネストされたクラスターのセットが生成されます。 これらのネストされたクラスターでは、オブジェクトのすべてのペアがさらにネストされて、最後に1つのクラスターのみが残るまで大きなクラスターを形成します。

クラスタリングはいつ使用されますか?

クラスタリングの主な機能は、店舗、製品、顧客のいずれであっても、セグメンテーションを実行することです。 顧客と製品は、さまざまな属性に基づいて階層グループにクラスター化できます。
不正取引などの異常を検出するためのクラスタリング手法の別の使用法が見られます。 ここでは、すべての正常なトランザクションを含むクラスターが検出され、サンプルとして保持されます。 これは通常のクラスターと呼ばれます。 このクラスターから何かがラインから外れているときはいつでも、それは疑わしいセクションの下にあります。 この方法は、体内の異常な細胞の存在を検出するのに非常に役立つことがわかっています。
それ以外に、クラスタリングは、大きなデータセットを分解して小さなデータグループを作成するために広く使用されています。 これにより、データの評価効率が向上します。

クラスタリングの利点は何ですか?

クラスタリングは、いくつかの理由から、特定のデータのランダムサンプリングよりも効果的であると言われています。 クラスタリングの2つの主な利点は次のとおりです。
1.必要なリソースが少なくて済みます
クラスターは、サンプル全体からより少ないリソースのグループを作成します。 このため、ランダムサンプリングと比較して、リソースの要件が少なくなります。 ランダムサンプリングには旅費と管理費が​​必要ですが、ここではそうではありません。
2.実行可能なオプション
ここでは、母集団全体から同種のグループが作成されるため、すべてのクラスターが母集団のセット全体を決定します。 これにより、1つの研究により多くの被験者を含めることが容易になります。