機械学習のための線形判別分析:あなたが知る必要があること?

公開: 2020-05-22

近年の技術の進歩により、接続されたデバイスは大量のデータを処理できるようになりました。 ただし、このような大量のデータを処理する場合、データの保存とセキュリティは依然として大きな懸念事項です。 これが、データを正しい方法で処理することが非常に重要である理由です。 多くの場合、時間のかかる作業になる可能性があります。

ここで、線形判別分析やLDAなどのデータ次元削減手法が登場します。 これらの手法は、データのセキュリティとプライバシーを確​​保しながら、データセットをより適切に処理するのに役立ちます。 このブログでは、線形判別分析データの次元削減手法について説明します。 次元削減について話すことから始めましょう。

目次

次元削減とは何ですか?

線形判別分析の基礎となる概念の背景を知っていれば、線形判別分析の手法をよりよく理解できるようになります。 多次元データを扱う場合、相互に相関する多くの特徴を持つデータがあります。 多次元データを2次元または3次元でプロットする場合、次元削減手法を使用しています。

次元削減の代わりとして非常に一般的に使用される代替手段は、ヒストグラム、散布図、箱ひげ図などを使用してデータをプロットすることです。 これらのグラフを使用して、特定の生データのセットのパターンを見つけることができます。 ただし、グラフは、一般の人々が簡単に解読できる方法でデータを表示しません。 また、多くの機能を備えたデータには、そのデータセットのパターンを識別するためにいくつかのグラフが必要になります。

LDAなどのデータ次元削減手法は、データのプロットに2次元または3次元を使用することで、これらの懸念を克服するのに役立ちます。 これにより、データの表示をより明確にすることができ、技術的なバックグラウンドを持たない人にも意味があります。

読む: 25の機械学習インタビューの質問と回答

線形判別分析とは何ですか?

これは、最も使用されている次元削減手法の1つです。 機械学習だけでなく、パターンの分類に関係するアプリケーションでも使用されます。 LDAは、高次元の空間に存在する特徴を低次元の空間に投影するという非常に特殊な目的を果たします。

これは、一般的なディメンションの問題を排除し、ディメンションのコストとリソースを削減するために行われます。 ロナルドAフィッシャーは、 1936年に元の概念を開発した功績があります–フィッシャーの判別分析または線形判別 もともと、線形判別分析は2つのクラスの手法でした。 マルチクラスバージョンは後で登場しました。

線形判別分析は、機械学習モデルを作成するために使用される教師あり分類法です。 次元削減に基づくこれらのモデルは、マーケティング予測分析や画像認識などのアプリケーションで使用されます。 アプリケーションについては後で説明します。

では、LDAで正確に何を探しているのでしょうか。 この次元削減手法が発見に役立つ2つの領域があります–グループとオブジェクトの関係を説明するために使用できるパラメーター–グループの分離に役立つ分類プリセプターモデル。 これが、LDAがさまざまなグループの品種をモデル化するために広く使用されている理由です。 したがって、この手法を使用して、変数の分散に2つまたは3つ以上のクラスを使用できます。

線形判別分析の拡張

LDAは、分類に利用できる最も単純で最も効果的な方法の1つと見なされています。 この方法は非常にシンプルで理解しやすいため、いくつかのバリエーションと拡張機能を利用できます。 これらのいくつかは次のとおりです。

1.正規化判別分析またはRDA

RDAは、正則化を分散または共分散推定にもたらすために使用されます。 これは、変数がLDAに与える影響を緩和するために行われます。

2.2次判別分析またはQDA

QDAでは、さまざまなクラスが独自の分散推定を使用します。 入力変数の数が通常より多い場合、すべてのクラスはその共分散推定を使用します。

3.柔軟な判別分析またはFDA

FDAは、非線形結合の入力を利用します。 スプラインは良い例です。

学ぶ: Pythonプロジェクトのアイデアとトピック

一般的なLDAアプリケーション

LDAは、いくつかのアプリケーションで使用されています。 分類問題になり得るあらゆる問題に使用できます。 一般的な例としては、速度認識、顔認識、化学、マイクロアレイデータ分類、画像検索、バイオメトリクス、バイオインフォマティクスなどがあります。 これらのいくつかについて説明しましょう。

1.顔認識

コンピュータビジョンでは、顔認識は最も人気のあるアプリケーションの1つと見なされています。 顔認識は、大量のピクセル値を使用して顔を表現することによって実行されます。 LDAは、分類法を使用するための根拠を準備するために、特徴の数を削減するために使用されます。 新しい寸法は、テンプレートの作成に使用されるピクセル値の組み合わせです。

2.顧客の識別

製品を購入する可能性に基づいて顧客を特定する場合は、LDAを使用して顧客の機能を収集できます。 製品を購入する可能性が高い顧客のグループを表す機能を特定して選択できます。

3.医療

LDAを使用して、疾患を重度、軽度、中等度などのさまざまなカテゴリに分類できます。 この分類タスクを実行するために使用されるいくつかの患者パラメータがあります。 この分類により、医師は治療のペースを定義することができます。

また読む:初心者のための15の興味深い機械学習プロジェクトのアイデア

結論

LDAは、MLモデルの分類で一般的に使用されるシンプルでよく理解されている手法です。 PCAとロジスティック回帰は、私たちが利用できる他の次元削減手法です。 しかし、特別な分類問題に関しては、LDAが他の2つよりも優先されます。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

線形判別分析とは何ですか?

線形判別分析(LDA)は、サンプルのグループを他のすべてのグループから判別するのに適した基本的な機能を学習するための分類アルゴリズムです。 LDAアルゴリズムを適用した結果、グループメンバーシップの予測に使用できる新しい機能セットが得られます。 たとえば、IPアドレスを収集し、それらがどの国に属しているかを把握したいとします。 サンプルIPアドレスのトレーニングセットがあり、非常に高い精度で原産国を特定できます。 新しいIPアドレスがあり、それがどの国から来ているのかを知りたい場合は、それをLDAに渡すと、最も可能性の高いクラスに割り当てられます。

線形判別分析の用途は何ですか?

線形判別分析(LDA)は、教師あり学習フレームワークの一連の手法です。 LDAは、従属変数が特徴空間で線形分離可能である方法です。 LDAは、マーケティング、財務、およびその他の分野で、顧客プロファイリングや不正検出などの多くの分類タスクを実行するために使用されます。 たとえば、データポイントの2つのグループを分離する独立変数の線形結合を見つけたいとします。 LDAは、特徴空間内のデータポイントの2つのグループ間で最大の分離を生成する独立変数の線形結合を検出します。

次元削減とは何ですか?

次元削減とは、データセット内の変数の数を削減するための手法のコレクションを指します。 最も一般的な次元削減手法は、主成分分析(PCA)です。 PCAは、その単純さ、数学的エレガンス、および高い統計的特性により、最も一般的な次元削減手法です。 PCAは、分散が最も多く、エラーが最も少ない軸を特定することにより、データセットの次元を削減するために使用されます。