クラスタリングと分類:クラスタリングと分類の違い

公開: 2020-12-01

目次

序章

機械学習アルゴリズムは、一般に、出力変数のタイプと対処する必要のある問題のタイプに基づいて分類されます。 これらのアルゴリズムは、回帰、クラスタリング、分類の3つのタイプに大きく分けられます。 回帰と分類は教師あり学習アルゴリズムの一種であり、クラスタリングは教師なしアルゴリズムの一種です。

出力変数が連続である場合、それは回帰問題ですが、離散値が含まれている場合、それは分類問題です。 クラスタリングアルゴリズムは通常、データポイントの特性に基づいてクラスターを作成する必要がある場合に使用されます。 この記事では、クラスタリング、分類について簡単に紹介し、2つの違いをいくつか挙げます。

コーディングの経験は必要ありません。 360°キャリアサポート。 IIIT-BおよびupGradの機械学習とAIのPGディプロマ。

分類

分類は、教師あり機械学習アルゴリズムの一種です。 任意の入力について、分類アルゴリズムは出力変数のクラスの予測に役立ちます。 二項分類、多クラス分類など、複数のタイプの分類があります。これは、出力変数のクラスの数によって異なります。

分類アルゴリズムの種類

ロジスティック回帰:–分類に使用できる線形モデルの1つです。 シグモイド関数を使用して、特定のイベントが発生する確率を計算します。 これは、バイナリ変数の分類に理想的な方法です。

K最近傍法(kNN) :–ユークリッド距離、マンハッタン距離などの距離メトリックを使用して、1つのデータポイントから他のすべてのデータポイントまでの距離を計算します。 出力を分類するには、各データポイントのk最近傍からの多数決が必要です。

デシジョンツリー:–これは、ロジスティック回帰などの線形アルゴリズムのいくつかの欠点を克服する非線形モデルです。 ノードとリーフを含むツリー構造の形式で分類モデルを構築します。 このアルゴリズムには、構造をより小さな構造に分解し、最終的に最終結果を提供するのに役立つ複数のif-elseステートメントが含まれます。 回帰および分類の問題に使用できます。

ランダムフォレスト:–これは、ターゲット変数の結果を予測するために複数の決定木を含むアンサンブル学習方法です。 各決定木は、独自の結果を提供します。 分類問題の場合、最終結果を分類するには、これらの複数の決定木の多数決が必要です。 回帰問題の場合、決定木によって予測された値の平均を取ります。

ナイーブベイズ:–ベイズの定理に基づくアルゴリズムです。 特定の機能が他の機能の包含から独立していることを前提としています。 つまり、それらは互いに相関していません。 ほとんどのデータセットには機能間に何らかの関係が存在するため、この仮定により、一般に複雑なデータではうまく機能しません。

サポートベクターマシン:–多次元空間のデータポイントを表します。 これらのデータポイントは、超平面の助けを借りてクラスに分離されます。 データセット内のn個のフィーチャのn次元空間をプロットし、データポイントを最大のマージンで分割するように超平面を作成しようとします。

読む:データマイニングの一般的な例。

アプリケーション

  • 電子メールスパムの検出。
  • 顔認識。
  • 顧客が解約するかどうかを特定します。
  • 銀行ローンの承認。

クラスタリング

クラスタリングは、教師なし機械学習アルゴリズムの一種です。 これは、クラスターと同様の特性を持つデータポイントをグループ化するために使用されます。 理想的には、同じクラスター内のデータポイントは同様のプロパティを示し、異なるクラスター内のポイントは可能な限り異なる必要があります。

クラスタリングは、ハードクラスタリングとソフトクラスタリングの2つのグループに分けられます。 ハードクラスタリングでは、データポイントはクラスターの1つにのみ割り当てられますが、ソフトクラスタリングでは、データポイントが各クラスターに存在する確率が提供されます。

クラスタリングアルゴリズムの種類

K-Meansクラスタリング:–事前定義された数のkクラスターを初期化し、距離メトリックを使用して、各クラスターの重心からの各データポイントの距離を計算します。 距離に基づいて、データポイントをk個のクラスターの1つに割り当てます。

凝集型階層的クラスタリング(ボトムアップアプローチ) :–各データポイントをクラスターと見なし、距離メトリックとこれらのクラスターのリンクに使用される基準に基づいて、これらのデータポイントをマージします。

分割階層的クラスタリング(トップダウンアプローチ) :–すべてのデータポイントを1つのクラスターとして初期化し、距離メトリックと基準に基づいてこれらのデータポイントを分割します。 凝集的および分割的クラスタリングは、樹状図およびそれを参照することによって選択されるクラスターの数として表すことができます。

DBSCAN(ノイズのあるアプリケーションの密度ベースの空間クラスタリング) :–密度ベースのクラスタリング手法です。 K-Meansのようなアルゴリズムは、かなり分離されたクラスターでうまく機能し、球形のクラスターを作成します。 DBSCANは、データが任意の形状であり、外れ値の影響を受けにくい場合に使用されます。 特定の半径内に多数の隣接データポイントがあるデータポイントをグループ化します。

OPTICS(クラスタリング構造を識別するための順序付けポイント) :–これは、密度ベースのクラスタリング手法の別のタイプであり、いくつかのパラメーターを考慮することを除いて、DBSCANとプロセスが似ています。 ただし、DBSCANよりも計算が複雑です。 また、データポイントをクラスターに分割しませんが、クラスターの作成の解釈に役立つ到達可能性プロットを作成します。

BIRCH(階層を使用したバランスの取れた反復削減とクラスタリング) :–データの要約を生成することによってクラスターを作成します。 最初にデータを要約し、次にそれを使用してクラスターを作成するため、巨大なデータセットでうまく機能します。 ただし、スペースで表すことができる数値属性のみを処理できます。

また読む:あなたが知っておくべきデータマイニングアルゴリズム

アプリケーション

  • 市場における消費者基盤の細分化。
  • ソーシャルネットワークの分析。
  • 画像セグメンテーション。
  • レコメンデーションシステム。
データサイエンスの高度な認定、250以上の採用パートナー、300時間以上の学習、0%EMI

クラスタリングと分類の違い

  1. タイプ:–クラスタリングは教師なし学習方法ですが、分類は教師あり学習方法です。
  2. プロセス:–クラスタリングでは、データポイントは類似性に基づいてクラスターとしてグループ化されます。 分類には、入力データを出力変数からのクラスラベルの1つとして分類することが含まれます。
  3. 予測:–分類には、モデル構築に基づく入力変数の予測が含まれます。 クラスタリングは通常、データを分析し、より良い意思決定のためにデータから推論を引き出すために使用されます。
  4. データの分割:–分類アルゴリズムでは、モデルを予測および評価するためのトレーニングおよびテストデータとしてデータを分割する必要があります。 クラスタリングアルゴリズムは、使用するためにデータを分割する必要はありません。
  5. データラベル:–分類アルゴリズムはラベル付きデータを処理しますが、クラスタリングアルゴリズムはラベルなしデータを処理します。
  6. ステージ:–分類プロセスには、トレーニングとテストの2つのステージが含まれます。 クラスタリングプロセスには、データのグループ化のみが含まれます。
  7. 複雑さ:–分類はより多くのステージを処理するため、分類アルゴリズムの複雑さは、データのグループ化のみを目的とするクラスタリングアルゴリズムよりも高くなります。

結論

分類とクラスタリングの方法論は異なり、それらのアルゴリズムから期待される結果も異なります。 一言で言えば、分類とクラスタリングの両方がさまざまな問題に取り組むために使用されます。 この記事では、分類とクラスタリングについて簡単に紹介しました。

また、いくつかのアプリケーションとともに、それぞれの場合に使用されるさまざまなタイプのアルゴリズムについても少し読みました。 この記事にリストされているアルゴリズムは網羅的ではありません。 つまり、これは完全なリストではなく、そのような問題に取り組むために使用できる他の多くのアルゴリズムが存在します。

データサイエンスを学びたい場合は、データサイエンスのPGディプロマをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、業界との1対1のメンターシップを提供します。メンター、400時間以上の学習、トップ企業との就職支援。

クラスタリングのさまざまな方法とアプリケーションは何ですか?

クラスターは、同じクラスに属するオブジェクトのグループと呼ぶことができます。 簡単に言えば、クラスターは同様のプロパティを持つオブジェクトのグループであると言えます。 クラスタリングは、機械学習での分析にとって重要なプロセスであることが知られています。

クラスタリングのさまざまな方法

1.パーティショニングベースのクラスタリング
2.階層ベースのクラスタリング
3.密度ベースのクラスタリング
4.グリッドベースのクラスタリング
5.モデルベースのクラスタリング

クラスタリングのさまざまなアプリケーション

1.レコメンデーションエンジン
2.市場と顧客のセグメンテーション
3.ソーシャルネットワーク分析(SNA)
4.検索結果のクラスタリング
5.生物学的データ分析
6.医療画像分析
7.がん細胞の特定

これらは、クラスタリングの最も広く使用されている方法と最も一般的なアプリケーションの一部です。

分類のさまざまな分類子とアプリケーションは何ですか?

分類手法は、データを個別の数のクラスに分類することによって作成されたすべてのクラスにラベルを付けるために使用されます。

分類子には次の2つのタイプがあります。

1.二項分類器–ここでは、分類は2つの可能な結果または2つの異なるクラスのみで実行されます。 たとえば、男性と女性の分類、スパムメールと非スパムメールなどです。
2.マルチクラス分類器–ここでは、分類は3つ以上の異なるクラスで実行されます。 たとえば、土壌の種類の分類、音楽の分類などです。

分類の用途は次のとおりです。

1.ドキュメント分類
生体認証
手書き認識
音声認識

これらは、分類のアプリケーションのほんの一部です。 これは、さまざまな業界のいくつかの場所で役立つ概念です。

機械学習で最も一般的な分類アルゴリズムは何ですか?

分類は、機械学習アルゴリズムに完全に依存する自然言語処理のタスクです。 すべてのアルゴリズムは、特定の問題を解決するために使用されます。 したがって、すべてのアルゴリズムは、要件に基づいて異なる場所で使用されます。

データセットで使用できる分類アルゴリズムはたくさんあります。 統計では、分類の研究は非常に広範であり、特定のアルゴリズムの使用は、作業しているデータセットに完全に依存します。 以下は、分類のための機械学習で最も一般的なアルゴリズムです。

1.サポートベクターマシン
2.ナイーブベイズ
3.デシジョンツリー
4.K最近傍
5.ロジスティック回帰

これらの分類アルゴリズムは、人間が実行するのに数百時間かかる可能性のあるいくつかの分析タスクを簡単かつ効率的にするために使用されます。