分類アルゴリズムの概要：概念とさまざまなタイプ

公開: 2020-04-13

分類アルゴリズムは、データをさまざまなクラスに分割するのに役立ちます。パッキング中に並べ替える場合と同様に、分類アルゴリズムはデータの分類に役立ちます。この記事では、分類アルゴリズムとは何か、分類アルゴリズムの種類、このトピックのいくつかの基本的な概念、およびそれらがどのように機能するかを見ていきます。

分類とはどういう意味ですか？

ターゲットクラスを予測するために、トレーニングデータセットを使用して境界条件を取得する場合、このプロセス分類を呼び出します。達成できるターゲットクラスには多くの種類があります。たとえば、顧客データに基づいて、顧客が特定の製品を購入するかどうかを予測するとします。この場合、ターゲットクラスは「はい」または「いいえ」のいずれかになります。

一方、野菜を重量、サイズ、または色で分類することもできます。このシナリオでは、使用可能なターゲットクラスは、ほうれん草、トマト、タマネギ、ポテト、およびキャベツである可能性があります。性別分類も実行できます。ターゲットクラスは女性と男性です。

3番目の例を検討して、分類アルゴリズムがどのように機能するかを少し理解しましょう。この例のためだけですが、髪の長さを特徴パラメータとして保持できます。分類アルゴリズムを使用してモデルをトレーニングし、境界条件を決定して、指定された特徴パラメーター、つまり髪の長さを通じて女性と男性の性別を区別することができます。

分類の基本概念

分類アルゴリズムについてさらに説明する前に、いくつかの定義に精通している必要があります。このようにして、後で混乱を避けることができます。

特徴

これは、私たちが一度に観察する特定の現象の個々の測定可能な特性です。

分類子

分類器は、モデルの入力データを特定のカテゴリにマッピングするアルゴリズムです。

分類モデル

分類モデルは、トレーニング中にモデルに与える入力値を結論付ける必要があります。これらのモデルは、提供する新しいデータのカテゴリ（クラスラベル）を予測します。

マルチラベル分類

マルチラベル分類は、各サンプルを複数のクラスのターゲットラベルのセットにマッピングする場合です。たとえば、ランドセルには、本、お弁当箱、ペンを同時に入れることができます。

マルチクラス分類

マルチクラス分類とは、すべてのサンプルを単一のターゲットラベルにのみ割り当てる場合です。これは、3つ以上のクラスがある場合に行われます。たとえば、車は移動中または静止している可能性がありますが、両方を同時に実行することはできません。

二項分類

二項分類は、可能なクラスが2つしかない場合です。たとえば、人の性別は男性または女性である可能性があります。

分類アルゴリズムの種類

分類アルゴリズムのすべてのタイプは次のとおりです。

カーネル推定

（K最近傍）

線形分類器

（ロジスティック回帰、フィッシャーの線形判別分析、および単純ベイズ分類器）

二次分類器
ニューラルネットワーク
ベクトル量子化の学習
ベクターマシンのサポート

（最小二乗はベクトルマシンをサポートします）

次に、分類アルゴリズムの基本的なタイプのいくつかについて説明します。

詳細：ユースケースの例を使用した機械学習アルゴリズムの種類

K最近傍

KNNとも呼ばれる、K最近傍法は、回帰と分類の問題を解決するための一般的なアルゴリズムです。これは、k近傍の投票に従って新しいケースを分類します。距離関数を使用して、k最近傍を決定します。最も人気のある距離関数はユークリッドですが、マンハッタンやハミングなどの他のオプションもあります。

KNNを理解するために、実際の例を見ることができます。あなたがあまり情報を持っていない人と友達になりたいとしましょう。彼らをよりよく知るために、あなたは最初に彼らの友人や同僚と話をして彼らがどんな人かを知るでしょう。これがKNNアルゴリズムの仕組みです。

k最近傍アルゴリズムを使用している間は、より高い範囲の変数がバイアスを発生させる可能性があるため、変数を正規化するようにしてください。さらに、KNNアルゴリズムは、計算上非常に高価です。

デシジョンツリー

デシジョンツリーは、一連の選択に従って可能な結果を予測するのに役立ちます。これは教師あり学習アルゴリズムであり、連続およびカテゴリの従属変数を持つさまざまな機能を使用します。

たとえば、自分で果物を買いに出かけたいが、天気が曇っていることに気付いたとします。今、あなたは2つの選択肢があります、あなたは行くかもしれません、あるいはあなたはそうしないかもしれません。行くと雨が降る可能性があり、手ぶらで帰らなければなりません。一方、雨が降らなければ、購入する必要のある果物を購入することができます。これは複数の変数を含む単純な例でしたが、あなたはその考えを理解しています。

また読む： Rの決定木

ロジスティック回帰

ロジスティック回帰は回帰アルゴリズムではありません。ロジスティック回帰は、独立変数の特定のセットに従って離散値を推定します。つまり、ロジット関数を使用してイベントの可能性を予測します。そのため、ロジスティック回帰という名前もあります。

ロジスティック回帰は分類用に設計されているため、専門家の間で人気のある選択肢です。また、考えられる結果に対するさまざまな独立変数の影響を理解するのに最適なアルゴリズムです。その欠点は、予測可能なバイナリ変数でのみ機能し、そのデータに欠落値が含まれていないことを前提としていることです。

サポートベクターマシン

サポートベクターマシンでは、すべての特徴の値は特定の座標の値であり、すべてのアイテムはn次元空間の点です。ここで、「n」はあなたが持っている機能の数を表します。

髪の長さと高さの2つの特徴があるとしましょう。この場合、最初にこれらの変数を2次元空間にプロットし、すべての点に2つの座標があります。これらの座標をサポートベクターと呼びます。そのため、このアルゴリズムはサポートベクターマシンと呼ばれています。

これらの点をプロットすると、データを2つの明確に分類されたグループに分割する線が見つかります。この行は分類子であり、テストデータが最終結果にある側に応じてクラスを作成します。

結論

このブログでは、分類アルゴリズムを可能な限り包括的に説明するように努めました。このトピックについて詳しく知りたい場合は、この種の貴重な記事が満載のブログにアクセスすることをお勧めします。

このトピックの詳細については、機械学習コースのカタログにアクセスすることもできます。私たちはあなたが何か役に立つものを見つけると確信しています。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

未来のキャリアに備える

機械学習と人工知能におけるPGディプロマ

詳細@アップグレード