機械学習におけるクラスタリング:3種類のクラスタリングの説明

公開: 2020-11-30

目次

序章

機械学習は2020年に最も注目されているテクノロジーのひとつであり、データは日々増加しており、機械学習の必要性も飛躍的に高まっています。 機械学習は非常に広大なトピックであり、各ドメインと業界でさまざまなアルゴリズムとユースケースがあります。 その1つは、クラスタリングの使用を確認できる教師なし学習です。

教師なし学習は、マシンがラベルのないデータから学習する手法です。 ラベルがわからないため、マシンがそこから学習するための正しい答えはありませんが、マシン自体が与えられたデータからいくつかのパターンを見つけて、ビジネス上の問題に対する答えを考え出します。

クラスタリングは、指定されたラベルのないデータのグループ化を含む、機械学習の教師なし学習手法です。 クリーンアップされた各データセットで、クラスタリングアルゴリズムを使用して、指定されたデータポイントを各グループにクラスタリングできます。 クラスタリングアルゴリズムは、同じクラスター内のデータポイントは類似したプロパティを持つ必要があり、異なるクラスター内のデータポイントは非常に異なるプロパティを持つ必要があることを前提としています。

この記事では、クラスタリングの必要性、さまざまなタイプのクラスタリング、およびそれらの長所と短所について学習します。

読む:機械学習の前提条件

クラスタリングの必要性は何ですか?

クラスタリングは広く使用されているMLアルゴリズムであり、データセット内のデータポイント間の隠れた関係を見つけることができます。

例:

1)顧客は以前の顧客の類似性に従ってセグメント化され、推奨に使用できます。

2)テキストデータのコレクションに基づいて、トピック階層を作成するために、コンテンツの類似性に従ってデータを整理できます。

3)基礎となるパターンを特定するための、主に生物学研究における画像処理。

4)スパムフィルタリング。

5)詐欺的および犯罪的活動を特定する。

6)ファンタジーフットボールやスポーツにも使用できます。

クラスタリングの種類

機械学習には多くの種類のクラスタリングアルゴリズムがあります。 この記事では、以下の3つのアルゴリズムについて説明します。

1)K-Meansクラスタリング。

2)平均シフトクラスタリング。

3)DBSCAN。

1.K-Meansクラスタリング

K-Meansは、機械学習の他のクラスタリングアルゴリズムの中で最も人気のあるクラスタリングアルゴリズムです。 このアルゴリズムは、多くのトップ業界や多くの紹介コースで使用されていることがわかります。 これは、実装と理解の両方で開始するのが最も簡単なモデルの1つです。

ステップ-1まず、使用するkの乱数を選択し、それぞれの中心点をランダムに初期化します。

ステップ-2次に、各データポイントは、そのポイントと各グループの中心との間の距離(ユークリッドまたはマンハッタン)を計算し、中心が最も近いクラスター内にあるようにデータポイントをクラスター化することによって分類されます。

ステップ-3グループ内のすべてのベクトルの平均をとることにより、グループの中心を再計算します。

ステップ-4これらのすべてのステップを何度も繰り返すか、グループの中心があまり変わらなくなるまで繰り返します。

長所

1)非常に高速です。

2)計算が非常に少ない

3)線形複雑度O(n)。

短所

1)k値を選択します。

2)異なる実行における異なるクラスタリングセンター。

3)一貫性の欠如。

2.平均シフトクラスタリング

平均シフトクラスタリングは、データポイントの密集した領域を識別しようとするスライディングウィンドウベースのアルゴリズムです。 重心ベースのアルゴリズムであるということは、各クラスの中心点を特定することを目的としていることを意味します。中心点の候補は、スライディングウィンドウ内の点の平均になるように更新されます。

これらの選択された候補ウィンドウは、センターの最終セットとそれに対応するクラスの形成に役立つ重複を排除するために、後処理段階でフィルタリングされます。

ステップ-1点C(ランダムに選択)を中心とし、半径rをカーネルとする円形のスライディングウィンドウから始めます。 平均シフトは山登り法のタイプのアルゴリズムであり、収束に達するまで、各ステップでこのカーネルをより高密度の領域に繰り返しシフトする必要があります。

ステップ-2各反復の後、中心点をウィンドウ内の点の平均にシフトすることにより、スライディングウィンドウが高密度の領域に向かってシフトされます。 スライディングウィンドウ内の密度は、スライディングウィンドウ内のポイント数が増えるにつれて増加します。 ウィンドウ内のポイントの平均をシフトすると、ポイント密度の高い領域に向かって徐々に移動します。

ステップ3このステップでは、シフトが選択されたカーネル内でより多くのポイントを取得できる方向がなくなるまで、平均値に基づいてスライディングウィンドウをシフトし続けます。

ステップ-4ステップ1-2は、すべてのポイントがウィンドウ内に収まるまで、多くのスライドウィンドウを使用して実行されます。 複数のスライディングウィンドウが重なる傾向がある場合は、最も多くのポイントを含むウィンドウが選択されます。 これで、データポイントは、それらが存在するスライディングウィンドウに従ってクラスター化されます。

長所

1)クラスターの数を選択する必要はありません。

2)自然にデータ駆動型の意味でうまく適合します

短所

1)唯一の欠点は、ウィンドウサイズ(r)の選択が簡単ではない可能性があることです。

3.ノイズのあるアプリケーションの密度ベースの空間クラスタリング(DBSCAN)

DBSCANは、いくつかの変更を加えた密度ベースのアルゴリズムでもある平均シフトクラスタリングのようなものです。

ステップ-1任意の開始点から開始し、この点の近傍をイプシロンと呼ばれる距離を使用して抽出します。

ステップ-2十分なポイントがあり、データポイントがクラスター内の最初の新しいポイントになると、クラスタリングが開始されます。 十分なデータがない場合、ポイントはノイズとしてラベル付けされ、ポイントは訪問済みとしてマークされます。

ステップ-3イプシロン内のポイントはクラスターの一部になる傾向があります。 この手順は、クラスター内のすべてのポイントに対して繰り返されます。

ステップ-4クラスター内のポイントにアクセスしてラベルを付けるまで、ステップ2と3を繰り返します。

ステップ-5現在のクラスタが完了すると、新しい未訪問のポイントが新しいクラスタに処理され、クラスタまたはノイズとして分類されます。

長所

1)クラスターの数を設定する必要はありません。

2)外れ値をノイズとして定義します。

3)任意のサイズと任意の形状のクラスターを非常にうまく見つけるのに役立ちます。

短所

1)さまざまな密度のクラスターではうまく機能しません。

2)高次元データではうまく機能しません。

また読む:機械学習プロジェクトのアイデア

結論

この記事では、現在の市場でのクラスタリングの必要性、さまざまなタイプのクラスタリングアルゴリズム、およびそれらの長所と短所について理解しました。 クラスタリングは機械学習で非常に興味深いトピックであり、学習する価値のあるクラスタリングアルゴリズムは他にもたくさんあります。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

ガウス混合クラスタリングとはどういう意味ですか?

ガウス混合モデルは通常、ハードクラスタリングまたはソフトクラスタリングのいずれかを実行するためのクエリデータの場合に使用されます。 ガウス混合モデルは、クラスタリングを適切に実行するためにいくつかの仮定を行います。 仮定に基づいて、モデルは単一の分布に属するデータポイントをグループ化します。 これらは確率モデルであり、ソフトクラスタリングアプローチを使用してクラスタリングプロセスを効率的に実行します。

クラスタリングのシルエット係数とは何ですか?

クラスタリングがどの程度うまく実行されたかを測定するために、シルエット係数を使用します。 基本的には、2つのクラスター間の平均距離を測定し、式を使用してシルエット幅を計算します。 このようにして、特定のデータに存在するクラスターの最適な数を簡単に測定し、実行されたクラスタリングの効率を見つけることができます。

機械学習におけるファジークラスタリングとはどういう意味ですか?

指定されたデータが複数のクラスターまたはグループに分類される場合、ファジーC-meanアルゴリズムまたはファジーK-meanアルゴリズムで機能するファジークラスタリング手法が使用されます。 ソフトクラスタリング手法です。 このメソッドは、クラスターの中心とイメージポイントの間の距離に応じて、各クラスターの中心に関連付けられた各イメージポイントにメンバーシップ値を割り当てます。