データマイニングにおける回帰:​​さまざまなタイプの回帰手法[2022]

公開: 2021-01-01

教師あり学習は、すでにラベル付けされているデータを使用して機械学習アルゴリズムをトレーニングする学習です。 これは、すべてのトレーニングデータについて正解がすでにわかっていることを意味します。 トレーニング後、教師あり学習アルゴリズムが分析する未知のデータの新しいセットが提供され、ラベル付けされたトレーニングデータに基づいて正しい結果が生成されます。

教師なし学習とは、正しいラベルがわからない情報を使用してアルゴリズムをトレーニングすることです。 ここで、マシンは基本的に、事前にデータをトレーニングせずに、さまざまなパターンまたは相関関係に従って情報をグループ化する必要があります。

回帰は、連続値の属性を予測しようとする教師あり機械学習手法の一種です。 ターゲット変数(従属)とその予測変数(独立)の間の関係を分析します。 回帰は、時系列モデリング、予測などに使用できるデータ分析の重要なツールです。

回帰には、さまざまなデータポイントに曲線または直線を当てはめるプロセスが含まれます。 これは、曲線とデータポイントの間の距離が最小になるように行われます。

線形回帰とロジスティック回帰が最も一般的なタイプですが、特定のデータセットでのパフォーマンスに応じて適用できる回帰には他にも多くのタイプがあります。 これらの異なるタイプは、すべての従属変数の数とタイプ、および形成される回帰曲線の種類によって異なります。

チェックアウト:データサイエンスとデータマイニングの違い

目次

線形回帰

線形回帰は、最適な直線を使用して、ターゲット(従属)変数と1つ以上の独立変数の間に関係を形成します。

これは次の式で表されます。

Y = a + b * X + e

ここで、aは切片、bは回帰直線の傾き、eは誤差です。 XとYは、それぞれ予測変数とターゲット変数です。 Xが複数の変数(または特徴)で構成されている場合、それは重回帰と呼ばれます。

最適なラインは、最小二乗法を使用して実現されます。 この方法では、各データポイントから回帰直線までの偏差の2乗の合計が最小化されます。 すべての偏差が2乗されるため、負の距離と正の距離はここでキャンセルされません。

多項式回帰

多項式回帰では、独立変数の累乗は回帰方程式で1より大きくなります。 以下に例を示します。

Y = a + b * X ^ 2

この特定の回帰では、最適な線は線形回帰のように直線ではありません。 ただし、これはすべてのデータポイントに適合している曲線です。

多項式回帰を実装すると、曲線をより複雑にすることでエラーを減らしたい場合に、過剰適合が発生する可能性があります。 したがって、常に問題に一般化することによって曲線を適合させるようにしてください。

ロジスティック回帰

ロジスティック回帰は、従属変数がバイナリの性質(TrueまたはFalse、0または1、成功または失敗)の場合に使用されます。 ここで、目標値(Y)は0から1の範囲であり、分類タイプの問題に広く使用されています。 ロジスティック回帰では、線形回帰の場合のように、従属変数と独立変数が線形関係を持つ必要はありません。

読む:データマイニングプロジェクトのアイデア

リッジ回帰

リッジ回帰は、多重共線性の問題がある複数の回帰データを分析するために使用される手法です。 多重共線性は、任意の2つの独立変数間にほぼ線形の相関関係が存在することです。

これは、最小二乗推定のバイアスが低いが分散が大きい場合に発生するため、真の値とは大きく異なります。 したがって、推定された回帰値にある程度のバイアスを追加することにより、リッジ回帰を実装することによって標準誤差が大幅に削減されます。

ラッソ回帰

A S S OLASSO 」という用語は、 bsoluteShrinkageこれは一種の線形回帰です 収縮を使用します この場合、すべてのデータポイントは、平均とも呼ばれる中心点に向かってダウン(または縮小)されます。 投げ縄手順は、パラメーターが比較的少ない単純でまばらなモデルに最も適しています。 このタイプの回帰は、多重共線性(尾根のように)に悩まされているモデルにも適しています。

世界のトップ大学からデータサイエンス認定を取得します。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムに参加して、キャリアを早めに進めましょう。

結論

回帰分析では、基本的に、さまざまなスケールで測定されたさまざまな種類の特徴変数の効果を比較できます。 総面積、地域、年齢、家具などに基づく住宅価格の予測など。これらの結果は、市場の研究者やデータアナリストにとって、無駄な機能を排除し、最適な機能セットを評価して正確な予測モデルを構築するのに大いに役立ちます。

データサイエンスについて知りたい場合は、IIIT-BとupGradのデータサイエンスのPGディプロマをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、1- on-1業界のメンター、400時間以上の学習、トップ企業との仕事の支援。

線形回帰とは何ですか?

線形回帰は、ターゲット変数または従属変数と1つまたは複数の独立変数の間の関係を確立します。 方程式に複数の予測子がある場合、それは重回帰になります。

最小二乗法は、各データポイントから回帰直線への偏差の二乗和を最小化するため、最適な直線を実現するための最良の方法と見なされます。

回帰手法とは何ですか?なぜそれらが必要なのですか?

これらは、変数間の関係を推定または予測するための手法です。 関係は2つの変数の間にあり、1つはターゲットで、もう1つは予測変数(x変数およびy変数とも呼ばれます)です。

この関係を特定するには、線形、ロジスティック、ステップワイズ、多項式、ラッソ、リッジなどのさまざまな手法を使用できます。 これは、データ収集を使用して予測を生成し、それらの間にグラフをプロットするために行われます。

線形回帰手法はロジスティック回帰手法とどのように異なりますか?

これらの回帰手法の両方の違いは、従属変数のタイプにあります。 従属変数が連続である場合は線形回帰が使用され、従属変数がカテゴリである場合はロジスティック回帰が使用されます。

名前も示すように、線形または直線は線形手法で識別されます。 一方、ロジスティック手法では、独立変数が多項式であるため、S曲線が識別されます。 線形の場合の結果は連続的ですが、ロジスティック手法の場合、結果はTrueまたはFalse、0または1などのカテゴリに分類できます。