データマイニングにおけるクラスター分析:アプリケーション、方法、要件

公開: 2020-01-20

ここでは、データマイニングにおけるクラスター分析について説明します。 したがって、最初にデータマイニングでのクラスタリングとは何か、次にその導入とデータマイニングでのクラスタリングの必要性についてお知らせください。 また、データサイエンスにおけるクラスター分析のアルゴリズムとアプリケーションについても説明します。 後で、クラスター分析とデータマイニングクラスタリング手法のさまざまなアプローチについて学習します。

目次

データマイニングにおけるクラスタリングとは何ですか?

クラスタリングでは、異なるデータオブジェクトのグループが類似オブジェクトとして分類されます。 1つのグループは、データのクラスターを意味します。 データセットは、データの類似性に基づくクラスター分析で異なるグループに分割されます。 データをさまざまなグループに分類した後、ラベルがグループに割り当てられます。 分類を行うことにより、変更に適応するのに役立ちます。

読む:データマイニングの一般的な例。

データマイニングにおけるクラスター分析とは何ですか?

データマイニングのクラスター分析とは、グループ内で互いに類似しているが、他のグループ内のオブジェクトとは異なるオブジェクトのグループを見つけることを意味します。

データマイニングクラスター分析のアプリケーション

画像処理、データ分析、パターン認識、市場調査など、データクラスタリング分析には多くの用途があります。 データクラスタリングを使用すると、企業は顧客のデータベースで新しいグループを見つけることができます。 データの分類は、購入のパターンに基づいて行うこともできます。

データマイニングでのクラスタリングは、生物学の分野で同様の機能または遺伝子を使用して行われる動植物の分類に役立ちます。 それは種の構造への洞察を得るのに役立ちます。 エリアは、データマイニングのクラスタリングを使用して識別されます。 地球観測データベースでは、互いに類似している土地が特定されています。

地理的な場所、価値、および家のタイプに基づいて、家のグループが都市で定義されます。 データマイニングのクラスタリングは、インターネット上のファイルを分類することにより、情報の発見に役立ちます。 また、検出アプリケーションでも使用されます。 クレジットカードの不正は、欺瞞のパターンを分析するデータマイニングのクラスタリングを使用して簡単に検出できます。 金融業界におけるデータサイエンスのアプリケーションについてもっと読む。

各クラスターとその特性を理解するのに役立ちます。 データがどのように分散されているかを理解することができ、データマイニング機能のツールとして機能します。

データマイニングにおけるクラスタリングの要件

  • 解釈可能性

クラスタリングの結果は、使用可能で、理解可能で、解釈可能でなければなりません。

  • 混乱したデータの処理に役立ちます

通常、データはめちゃくちゃで構造化されていません。 迅速に分析することはできません。そのため、データマイニングでは情報のクラスタリングが非常に重要です。 グループ化は、データを類似のデータオブジェクトのグループに編成することにより、データに何らかの構造を与えることができます。 データの専門家がデータを処理し、新しいことを発見するのがより快適になります。

  • 高次元

データクラスタリングは、小さなサイズのデータ​​と一緒に高次元のデータを処理することもできます。

  • 属性形状クラスターが検出されました

任意の形状のクラスターは、クラスタリングのアルゴリズムを使用して検出されます。 球形の小さなクラスターもあります。

  • 複数のデータの種類によるアルゴリズムのユーザビリティ

クラスタリングのアルゴリズムでは、さまざまな種類のデータを使用できます。 データは、バイナリデータ、カテゴリデータ、間隔ベースのデータのようにすることができます。

読む:知っておくべきデータマイニングアルゴリズム

  • クラスタリングのスケーラビリティ

データベースは通常、処理するのに巨大です。 アルゴリズムは、大規模なデータベースを処理するためにスケーラブルである必要があるため、スケーラブルである必要があります。

データマイニングクラスタリング手法

1.パーティショニングクラスタリング手法

この方法では、「m」パーティションがデータベースの「p」オブジェクトで実行されるとしましょう。 クラスターは、各パーティションおよびm<pで表されます。 Kは、オブジェクトの分類後のグループの数です。 このパーティショニングクラスタリング手法で満たす必要のある要件がいくつかあり、それらは次のとおりです。–

  1. 1つの目標は1つのグループにのみ属する必要があります。
  2. 一つの目的さえも持たないグループがあってはなりません。

このタイプのパーティショニングクラスタリング手法では、次の点を覚えておく必要があります。

  1. すでにnoを指定している場合は、最初のパーティショニングがあります。 パーティションの(たとえばm)。
  2. 反復再配置と呼ばれる手法が1つあります。これは、オブジェクトをあるグループから別のグループに移動して、パーティション分割を改善することを意味します。

2.階層的クラスタリング手法

この階層的クラスタリング手法では、データのオブジェクトの特定のセットが一種の階層的分解に作成されます。 階層分解の形成により、分類の目的が決まります。 階層分解を作成するには、次の2種類のアプローチがあります。–

1.分割アプローチ

分割アプローチの別名は、トップダウンアプローチです。 このメソッドの開始時には、すべてのデータオブジェクトが同じクラスターに保持されます。 連続反復を使用してグループを分割することにより、より小さなクラスターが作成されます。 一定の反復法は、終了の条件が満たされるまで続行されます。 グループが分割またはマージされた後は元に戻すことができないため、この方法はそれほど柔軟ではありません。

2.凝集的アプローチ

このアプローチの別名は、ボトムアップアプローチです。 最初はすべてのグループが分かれています。 その後、すべてのグループがマージされるか、終了条件が満たされるまで、マージを続行します。

データマイニングの階層的クラスタリングの品質を向上させるために使用できるアプローチは2つあります。–

  1. 階層的クラスタリングのすべてのパーティショニングで、オブジェクトのリンケージを注意深く分析する必要があります。
  2. 階層的凝集の統合のために階層的凝集アルゴリズムを使用することができる。 このアプローチでは、最初に、オブジェクトがマイクロクラスターにグループ化されます。 データオブジェクトをマイクロクラスターにグループ化した後、マイクロクラスターでマクロクラスタリングが実行されます。

3.密度ベースのクラスタリング手法

データマイニングでクラスタリングするこの方法では、密度が主な焦点です。 質量の概念は、このクラスタリング手法の基礎として使用されます。 このクラスタリング手法では、クラスターは継続的に成長し続けます。 データの各ポイントについて、グループの半径内に少なくとも1つのポイントが存在する必要があります。

4.グリッドベースのクラスタリング手法

このタイプのグリッドベースのクラスタリング手法では、オブジェクトを一緒に使用してグリッドが形成されます。 グリッド構造は、オブジェクト空間を有限数のセルに定量化することによって形成されます。

グリッドベースのクラスタリング手法の利点:–

  1. 処理時間の短縮:このメソッドの処理時間は他の方法よりもはるかに高速であるため、時間を節約できます。
  2. この方法は、番号によって異なります。 量子化された各次元の空間における細胞の数。

5.モデルベースのクラスタリング手法

このタイプのクラスタリング手法では、モデルに最適なデータを見つけることができるように、すべてのクラスターが仮定されます。 密度関数は、このメソッドでグループを見つけるためにクラスター化されます。

6.制約ベースのクラスタリング手法

クラスタリングを実行するために、アプリケーションまたはユーザー指向の制約が組み込まれています。 ユーザーの期待は、制約と呼ばれます。 このグループ化のプロセスでは、コミュニケーションは非常にインタラクティブであり、制限によって提供されます。

クラスター分析とは見なされない分類の種類は何ですか?

  1. グラフの分割–領域が同じではなく、相互の相乗効果と関連性に基づいてのみ分類される分類のタイプは、クラスター分析ではありません。
  2. クエリの結果–このタイプの分類では、グループは外部ソースから提供された仕様に基づいて作成されます。 クラスター分析としてはカウントされません。
  3. 単純なセグメンテーション–姓に基づいて名前を個別の登録グループに分割することは、クラスター分析の対象にはなりません。
  4. 教師あり分類–クラスター分析にはパターンに基づくグループが含まれるため、ラベル情報を使用して分類されるタイプの分類は、クラスター分析とは言えません。

結論

これで、データマイニングにおけるデータクラスタリングやクラスター分析のアプローチや方法など、データクラスタリングについて多くのことを学びました。

データサイエンスを学びたい場合は、IIIT-BとupGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。

クラスター分析の欠点は何ですか?

クラスター分析は、市場や顧客の行動に関する事前の知識がないことを前提とした統計的アプローチです。 一部のクラスター分析方法では、統計分析を実行するたびに多少異なる結果が得られます。 これは、データ分析に万能の方法がないために発生する可能性があります。 データ出力の変更は、クラスター分析の概念に不慣れな学生にとっては混乱を招き、苛立たしいものになる可能性があります。

クラスターの純度とクラスターの品質はどのように計算されますか?

データポイントの総数に、各クラスター内の正確なクラスラベルの数を掛けます。 一般にクラスターの数が増えると、純度も上がります。 たとえば、各観測値を独自のクラスターに編成するモデルがある場合、純度は1つになります。 クラスター内のすべてのオブジェクトの平均シルエット係数値を計算して、クラスター内の適合度を判断できます。 データセット内のすべてのオブジェクトの平均シルエット係数値を使用して、グループ化の品質を評価できます。

K-meansとK-medoidの違いは何ですか?

K-meansは、二乗誤差の合計を減らそうとしますが、k-medoidsは、クラスター内にあると分類されたポイントとクラスターの中心として選択されたポイントの間の非類似度の合計を減らそうとします。 k-means法とは異なり、k-medoidsアルゴリズムは、データポイントを中心(medoidまたはエグザンプラ)として選択します。