回帰分析における多重共線性:知っておくべきことすべて

公開: 2020-12-23

目次

序章

回帰は、1つの従属変数と一連の他の独立変数の間の関係の特性と強さを決定しようとします。 これは、異なる変数間の関係の強さを評価し、それらの間の将来の関係のモデルを作成するのに役立ちます。 回帰における「多重共線性」とは、他の予測子と相関する予測子を指します。

多重共線性とは何ですか?

2つ以上の予測変数間の相関が高い場合は常に、回帰の多重共線性が発生します。 簡単に言うと、多重共線予測子とも呼ばれる予測変数を使用して、他の変数を予測できます。 これにより、冗長な情報が作成され、回帰モデルの結果が歪められます。

多重共線性予測子の例は、車の販売価格と年齢、体重、人の身長、または年収と教育年数です。

相関係数の計算は、予測値のすべてのペアの多重共線性を検出する最も簡単な方法です。 rの場合、その相関係数は正確に+1または-1であり、完全多重共線性と呼ばれます。 相関係数が+1または-1に正確に近いか近い場合は、可能である場合にのみ、変数の1つをモデルから破棄する必要があります。

実験データではまれですが、観察研究に関しては、多重共線性が醜い頭をもたげることは非常に一般的です。 条件が存在する場合、回帰の信頼性が低く不安定な推定につながる可能性があります。 結果を分析することで、次のような他のいくつかの問題が妨げられる可能性があります。

  • 通常、t統計量はかなり小さく、係数の信頼区間は広くなります。 これは、帰無仮説を棄却することが難しくなることを意味します。
  • サンプルからサンプルに渡されるときに、部分回帰係数の大きさや符号が変化する可能性があります。
  • 標準誤差は大きくなる可能性があり、部分回帰係数の推定は不正確になる可能性があります。
  • 多重共線性のため、独立変数による従属変数への影響を測定することは困難になります。

読む:機械学習における回帰モデルの種類

多重共線性が問題になるのはなぜですか?

単一の変数を変更すると、残りの変数も変更される可能性があります。これは、独立変数が高度に相関している場合に発生します。 したがって、モデルは大幅に変動する結果につながります。 モデルの結果は不安定で大きく変動するため、データにわずかな変化が生じた場合でも、次の問題が発生します。

  • 係数の推定は不安定であり、モデルの解釈が困難になります。 つまり、予測の要因の1つでも1単位の変化がある場合、出力の違いの規模を予測することはできません。
  • 毎回異なる結果が得られる場合、モデルの重要な変数のリストを選択することは困難です。
  • モデルの不安定な性質が原因で、過剰適合が発生する可能性があります。 トレーニングデータセットで得た精度と比較して、同じモデルを他のデータサンプルに適用すると、精度が大幅に低下することがわかります。

状況を考慮すると、中程度の共線性の問題のみが発生する場合は、モデルにとって問題にならない可能性があります。 ただし、共線性に深刻な問題がある場合は、常に問題を解決することをお勧めします。

多重共線性の原因は何ですか?

2つのタイプがあります:

  1. 回帰における構造的多重共線性:これは通常、新しい予測変数を作成しているときに研究者またはあなたによって引き起こされます。
  2. 回帰におけるデータベースの多重共線性:これは一般に、不十分に設計された実験、操作できないデータの収集方法、または純粋に観察データが原因で発生します。 いくつかのケースでは、100%の観察研究からのデータ収集により、変数が高度に相関する可能性があり、研究者側からのエラーはありません。 このため、予測変数のレベルを事前に設定して、可能な限り実験を行うことを常にお勧めします。

また読む:線形回帰プロジェクトのアイデアとトピック

他の原因も含まれる可能性があります

  1. データの欠如。 場合によっては、十分な量のデータを収集すると、問題の解決に役立つことがあります。
  2. ダミーとして使用される変数が正しく使用されていない可能性があります。 たとえば、研究者は、すべてのカテゴリにダミー変数を追加したり、1つのカテゴリを除外したりできない場合があります。
  3. 回帰の他の変数の組み合わせである回帰の変数を検討します。たとえば、貯蓄利息からの収入+債券と株式からの収入である場合の「総投資収入」を検討します。
  4. 2つのほぼまたは完全に同一の変数を含みます。 たとえば、債券/貯蓄収入と投資収入、キロ単位の重み、ポンド単位の重み。

多重共線性が発生したかどうかを確認するには

すべての独立変数の相関行列をプロットできます。 または、VIF、つまり各独立変数の分散拡大係数を使用することもできます。 変数の重回帰セットの多重共線性を測定します。 VIFの値は、この変数と残りの変数の間の相関に比例します。 これは、VIF値が高いほど、相関が高くなることを意味します。

多重共線性の問題をどのように修正できますか?

  1. 変数の選択:最も簡単な方法は、相互に高い相関関係があるいくつかの変数を削除し、最も重要な変数のみをセットに残すことです。
  2. 変数の変換2番目の方法は変数変換です。これにより、相関が減少し、機能を維持することができます。
  3. 主成分分析主成分分析は通常、データをいくつかの独立した要因に分解することにより、データの次元を減らすために使用されます。 予測因子の数を減らすことでモデル計算を簡略化できるなど、多くの用途があります。

関連記事:機械学習における線形回帰

結論

回帰モデルを構築する前に、多重共線性の問題を常に確認する必要があります。 各独立変数を簡単に調べるために、VIFは、それらが他の変数とかなりの相関関係があるかどうかを確認することをお勧めします。 相関行列は、どの変数を選択すべきかわからない場合に重要な要素を選択するのに役立ちます。 また、いくつかの変数がVIFの値が高い理由を理解するのにも役立ちます。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

機械学習における順序回帰という用語はどういう意味ですか?

順序回帰は、回帰分析ファミリーに属する回帰分析の一種です。 順序回帰はデータを分析し、予測研究として1つの従属変数と2つ以上の独立変数の関係を説明します。 順序回帰は、「順序付けられた」多数のカテゴリと独立した因子がある場合に従属変数を予測するために使用されます。 別の言い方をすれば、順序付けされたレベルが異なる従属変数が1つ以上の独立変数とより簡単に対話できるようにします。

多重共線性の存在は決定木に影響を与えますか?

2つの特性が特定の機械学習モデルで高度に関連付けられている場合でも、決定木は分割時にそのうちの1つだけを選択します。 データが歪んでいるか不均衡である場合、単一のツリーは貪欲なアプローチにつながりますが、ランダムフォレストや勾配ブースティングツリーなどのアンサンブル学習方法により、予測は多重共線性の影響を受けなくなります。 その結果、ランダムフォレストと決定木は多重共線性の影響を受けません。

ロジスティック回帰は線形回帰とどのように異なりますか?

いくつかの側面では、線形回帰はロジスティック回帰とは異なります。 ロジスティック回帰は離散的な意見と発見を生成しますが、線形回帰は連続的で継続的な出力を生成します。 線形回帰では、平均二乗誤差が計算されますが、ロジスティック回帰では、最尤推定が計算されます。 最後に、線形回帰の目標は、データに一致する最適な線を特定することですが、ロジスティック回帰は、データをシグモイド曲線に適合させることで先を行きます。