機械学習における回帰と分類：回帰と分類の違い

公開: 2020-11-12

序章

データサイエンスの問題を解決する上で、適切なアプローチをとることは非常に重要であり、多くの場合、混乱して適切な解決策を考え出すことの違いを意味します。最初は、データサイエンティストは、この2つを混同する傾向があります。つまり、適切なアプローチで問題を攻撃するために重要な小さな技術的な詳細を理解することができません。

経験豊富で経験豊富なデータサイエンティストであっても、違いは簡単に混乱する可能性があり、これにより適切なアプローチを適用することが困難になります。この談話では、分類と回帰という2つの重要なデータサイエンスアルゴリズムとの相違点と類似点について詳しく説明します。

これらのアプローチは両方とも、ビジネス上の問題を解決するためのデータサイエンティストの武器庫に不可欠なツールである必要があります。したがって、適切なモデルを選択し、適切な微調整を行い、ビジネスに活力を与える適切なソリューションを展開するには、重要な理解が不可欠です。

読む：機械学習プロジェクトのアイデア

回帰と分類

まず、重要な類似性–回帰と分類の両方が教師あり機械学習アプローチに分類されます。 教師あり機械学習アプローチとは何ですか？ これは、実際のデータセット（トレーニングデータセットと呼ばれる）を使用してモデルをトレーニングし、予測を行う機械学習アルゴリズムのセットです。

モデルのトレーニングに使用されるデータは、適切にラベル付けされ、クリーンである必要があります。モデルは、トレーニングデータから、独立変数と予測変数の間の関係を学習します。これは、データ内のパターンをすべてそれ自体で識別するようにモデルに要求する教師なし機械学習アプローチとは対照的です。したがって、データセット内に固有のパターンを調べることによってマッピング関数を見つけます。

教師あり機械学習アプローチは、マッピング関数y = f（x）を解こうとします。ここで、xは入力変数を指し、yはマッピング関数です。マッピング関数を解くことにより、実際のデータセットにすばやく便利に転送できます。

分類関数と回帰関数の両方で、他の教師あり機械学習アプローチと同様にこれを行うことができます。ただし、重要な違いと回帰アプローチは、回帰では、出力変数'y'が数値で連続的（整数値または浮動小数点値にすることができます）であるのに対し、分類アルゴリズムでは、出力変数'y'は離散的であり、カテゴリカル。

したがって、給与、平均余命、解約確率などの変数を予測している場合、これらの変数は数値で連続的です。

たとえば、金融機関がデフォルトの可能性を測定するためにローン申請者のプロファイリングに関心があるとします。 データサイエンティストは、2つの主要な方法で問題に取り組むことができます。確率（0から1までの連続浮動小数点数の範囲）を各ローン申請者に割り当てるか、単純に一連のバイナリ出力を提供します。 PASS/FAILに対応します。

どちらのアプローチも、申請者の信用履歴、給与情報、人口統計、年齢、マクロ経済状況など、同じ入力変数のセットを使用します。ただし、2つのアプローチの違いは、前者が各申請者にスコアを付ける一方で、ある個人が別の個人に対してどれだけ可能性が高いかなど、相対論的な計算を行います。

出力は、他の分析にも使用できます。ただし、後者の場合、アルゴリズムは個々のプロファイルのデータセット全体を「はい」または「いいえ」に分類します。これを使用して、クレジットを付与しても安全かどうかを判断できます。 yesクラスとnoクラスはどちらも、サブクラス内でかなりの変動がある可能性があることに注意してください。

ただし、ここでは分類アプローチを使用しているため、各サブグループ内の変動を把握することには関心がありません。分類は、受信メールがスパムかどうかを分類するなど、他の目的にも使用できます。

一方、天気予報（天気は一定の範囲の連続値を取ることができる）では、通常、回帰アプローチが必要になります。代わりに、雨が降るかどうかを予測することだけに関心がある場合は、同じ気象データセットをより適切に分類システムに入れることができます。したがって、ご覧のとおり、ユースケースによって、どのアルゴリズムを使用するのがより適しているかが決まります。

回帰アルゴリズムは、線形回帰、多変量回帰、サポートベクターモデル、回帰ツリーなどで構成されています。分類アプローチでは、決定木、ナイーブベイズ、ロジスティック回帰などを利用します。

これらのアプローチとアルゴリズムの違いを理解することで、適切なものを選択してビジネス固有のユースケースに適用できるようになり、適切なソリューションにすばやく到達できるようになります。

分類および回帰アルゴリズムのタイプ

深く掘り下げて、回帰と分類で使用されるこれらのアルゴリズムタイプのそれぞれを理解しましょう。

線形回帰–線形回帰では、2つの変数間の関係は、直線で最適な線をプロットすることによって推定されます。 とりわけ、適合の強さ、分散、標準偏差、決定係数など、プロットされた最適な線の強さを測定するために必要な他の測定値があります。機械学習の回帰モデルの詳細をご覧ください。

多項式回帰–多項式回帰モデルでは、「いくつかの」入力変数と予測変数または「出力」変数の間の関係が測定されます。 回帰モデルの詳細をご覧ください。

デシジョンツリーアルゴリズム–デシジョンツリーアルゴリズムでは、データセットはデシジョンツリーの助けを借りて分類されます–ツリーの各ノードはテストケースであり、ツリーの各ノードで発生するすべてのブランチは可能な値に対応します属性の。

読む：完璧な決定木を作成する方法は？

ランダムフォレストアルゴリズム–名前が示すように、ランダムフォレストは、いくつかの決定木アルゴリズムを合計することによって構築されます。次に、モデルはさまざまな決定木の出力を集約し、個々の決定木の多数決によって行われる最終的な予測を行います。

デシジョンツリーによって提供される最終出力は、個々のデシジョンツリーによって提供される出力よりも正確です。 'ランダムフォレストはしばしば過剰適合の問題に悩まされる傾向がありますが、交差検定や他の方法で微調整することができます

K最近傍法– K最近傍法は、類似したものが互いに近接したままであるという原則に基づいて機能する堅牢な分類アルゴリズムです。 新しい変数が予測アルゴリズムに入れられると、データセットへの近さに基づいてグループに割り当てようとします。 KNNの詳細をご覧ください。

結論

データサイエンティストは、さまざまな分類と回帰のアプローチについて基本的かつ本質的な理解を持っている必要があります。関連する手法は、データサイエンティストとして適切なツールのセットを適用し、メリットのある適切なソリューションを考案するのに役立ちます。あなたのビジネス。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

AI主導の技術革命をリードする

機械学習と人工知能におけるPGディプロマ

もっと詳しく知る