機械学習における5種類の分類アルゴリズム[2022]

公開: 2021-01-02

序章

機械学習は、人工知能の最も重要なトピックの1つです。さらに、教師あり学習と教師なし学習に分けられ、ラベル付きおよびラベルなしのデータ分析またはデータ予測に関連付けることができます。教師あり学習では、回帰と分類と呼ばれるさらに2つのタイプのビジネス上の問題があります。

分類は機械学習アルゴリズムであり、ラベル付けされたデータを入力として取得し、クラスへの出力を予測する必要があります。 2つのクラスがある場合、それは二項分類と呼ばれます。 3つ以上のクラスがある場合、それはマルチクラス分類と呼ばれます。実際のシナリオでは、両方のタイプの分類が見られる傾向があります。

この記事では、いくつかのタイプの分類アルゴリズムとその長所と短所を調査します。利用可能な分類アルゴリズムは非常にたくさんありますが、以下の5つのアルゴリズムに焦点を当てましょう。

ロジスティック回帰
K最近傍
デシジョンツリー
ランダムフォレスト
サポートベクターマシン

1.ロジスティック回帰

名前は回帰を示唆していますが、それは分類アルゴリズムです。ロジスティック回帰は、2つ以上のクラスを持つ変数（TARGET）で測定される結果を決定する、1つ以上の独立変数または特徴があるデータを分類するための統計的方法です。その主な目標は、ターゲット変数と独立変数の間の関係を記述するための最適なモデルを見つけることです。

長所

1）前提条件がなく、分類が高速であるため、実装、解釈が簡単で、トレーニングが効率的です。

2）マルチクラス分類に使用できます。

3）過剰適合の傾向は少ないですが、高次元のデータセットでは過剰適合します。

短所

1）観測値が特徴よりも少ない場合のオーバーフィット。

2）離散関数でのみ機能します。

3）非線形問題は解決できません。

4）複雑なパターンを学ぶのは難しく、通常、ニューラルネットワークはそれらよりも優れています。

2.K最近傍

K最近傍法（KNN）アルゴリズムは、「特徴類似性」または「最近傍法」の手法を使用して、新しいデータポイントが分類されるクラスターを予測します。以下は、このアルゴリズムの動作をよりよく理解するためのいくつかのステップです。

ステップ1-機械学習でアルゴリズムを実装するには、モデリングの準備ができたクリーンなデータセットが必要です。 トレーニングとテストのデータセットに分割された、クリーンアップされたデータセットがすでにあると仮定します。

ステップ2-すでにデータセットの準備ができているので、アルゴリズムを実装するために考慮する必要がある最も近いデータポイントの数を示すK（整数）の値を選択する必要があります。記事の後の段階でk値を決定する方法を知ることができます。

ステップ3-このステップは反復的なものであり、データセット内の各データポイントに適用する必要があります

距離メトリックのいずれかを使用して、テストデータとトレーニングデータの各行の間の距離を計算します
ユークリッド距離
マンハッタン距離
ミンコフスキー距離
ハミング距離。

多くのデータサイエンティストはユークリッド距離を使用する傾向がありますが、この記事の後の段階でそれぞれの重要性を知ることができます。

上記の手順で使用した距離メトリックに基づいてデータを並べ替える必要があります。

変換されたソート済みデータの上位K行を選択します。

次に、これらの行の最も頻繁なクラスに基づいて、テストポイントにクラスを割り当てます。

ステップ4–終了

長所

使いやすく、理解し、解釈しやすい。
迅速な計算時間。
データに関する仮定はありません。
予測の高精度。
用途が広い–分類と回帰の両方のビジネス問題に使用できます。
マルチクラス問題にも使用できます。
ハイパーパラメータ調整ステップで調整するハイパーパラメータは1つだけです。

短所

アルゴリズムはすべてのトレーニングデータを保存するため、計算コストが高く、高いメモリが必要です。
変数が増えると、アルゴリズムは遅くなります。
無関係な機能には非常に敏感です。
次元の呪い。
Kの最適値を選択します。
クラスの不均衡なデータセットは問題を引き起こします。
データに値がない場合も問題が発生します。

読む：機械学習プロジェクトのアイデア

3.ディシジョンツリー

デシジョンツリーは、数値データとカテゴリデータの両方を処理できるため、分類と回帰の両方に使用できます。ツリーが開発されると、データセットがますます小さなサブセットまたはノードに分割されます。デシジョンツリーには、デシジョンノードとリーフノードの出力があり、デシジョンノードには2つ以上のブランチがあり、リーフノードはデシジョンを表します。最良の予測子に対応する最上位のノードは、ルートノードと呼ばれます。

長所

わかりやすい
簡単な視覚化
より少ないデータ解釈
数値データとカテゴリデータの両方を処理します。

短所

時々うまく一般化しない
入力データの変更に対して不安定

4.ランダムフォレスト

ランダムフォレストは、分類と回帰に使用できるアンサンブル学習方法です。これは、いくつかの決定木を構築することによって機能し、回帰問題のすべての決定木または分類問題の多数決の平均を取ることによって結果を出力します。名前自体から、木のグループが森と呼ばれていることがわかります。

長所

大規模なデータセットを処理できます。
変数の重要度を出力します。
欠落している値を処理できます。

短所

これはブラックボックスアルゴリズムです。
遅いリアルタイム予測と複雑なアルゴリズム。

5.サポートベクターマシン

サポートベクターマシンは、可能な限り明確なギャップまたは線でカテゴリに分割された空間内のポイントとしてのデータセットの表現です。これで、新しいデータポイントが同じスペースにマッピングされ、線または分離のどちら側にあるかに基づいてカテゴリに属するように分類されます。

長所

高次元空間で最適に機能します。
決定関数でトレーニングデータポイントのサブセットを使用するため、メモリ効率の高いアルゴリズムになります。

短所

確率の見積もりは提供されません。
交差検定を使用して確率推定を計算できますが、時間がかかります。

また読む：機械学習のキャリア

結論

この記事では、5つの分類アルゴリズム、それらの簡単な定義、長所と短所について説明しました。これらは私たちがカバーしたほんの数個のアルゴリズムですが、ナイーブベイズ、ニューラルネットワーク、順序付きロジスティック回帰などのより価値のあるアルゴリズムがあります。どのアルゴリズムがどの問題に対して適切に機能するかを判断することはできないため、ベストプラクティスは、いくつか試して、評価メトリックに基づいて最終モデルを選択することです。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

ロジスティック回帰を使用する背後にある主な目的は何ですか？

ロジスティック回帰は、主に統計的確率で使用されます。与えられたデータに存在する従属変数と独立変数の間の関係を理解するために、ロジスティック回帰方程式を使用します。これは、個々のイベントの確率を推定することによって行われます。ロジスティック回帰モデルは線形回帰モデルと非常に似ていますが、データで指定された従属変数が二分されている場合に使用することをお勧めします。

SVMはロジスティック回帰とどのように異なりますか？

SVMはロジスティック回帰モデルよりも精度が高くなりますが、使用が複雑であるため、ユーザーフレンドリーではありません。大量のデータの場合、SVMの使用は推奨されません。 SVMは回帰と分類の両方の問題を解決するために使用されますが、ロジスティック回帰は分類の問題のみをうまく解決します。 SVMとは異なり、ロジスティック回帰を使用する場合、過剰適合が一般的に発生します。また、ロジスティック回帰は、サポートベクターマシンと比較した場合、外れ値に対してより脆弱です。

回帰ツリーは決定木の一種ですか？

はい、回帰ツリーは基本的に回帰タスクに使用される決定木です。回帰モデルは、従属変数と、最初に指定されたデータセットの分割によって実際に発生した独立変数との関係を理解するために使用されます。回帰ツリーは、決定木が連続ターゲット変数で構成されている場合にのみ使用できます。