線形回帰の仮定:例を含む5つの仮定

公開: 2020-12-22

回帰は、因果関係を測定および定量化するために使用されます。 回帰分析は、観測されたパターンと、特定の観測されたパターンに影響を与えると想定される変数との間の考えられる因果関係の大きさと方向を理解するために使用される統計手法です。

たとえば、保湿剤などの製品の価格が20%値下げされた場合、人々はそれを購入する可能性が高く、売上は増加する可能性があります。

ここで、観察されたパターンは売上の増加です(従属変数とも呼ばれます)。 売上に影響を与えると想定される変数は価格です(独立変数とも呼ばれます)。

目次

線形回帰とは何ですか?

線形回帰は、独立変数によって説明される従属変数への影響の大きさと方向をモデル化する統計手法です。 線形回帰は、一般的に予測分析で使用されます。

線形回帰は、変数の2つの重要な側面を説明します。これらは次のとおりです。

  • 独立変数のセットは、従属変数を大幅に説明していますか?
  • 利用可能な依存関係を説明する上で最も重要な変数はどれですか? それらは従属変数にどのように影響しますか? 影響は通常、方程式のベータ係数の大きさと符号によって決まります。

ここで、線形回帰モデルを実行する前に理解することが不可欠な線形回帰の仮定を見てみましょう。

続きを読む:線形回帰モデルとその仕組み

線形回帰の仮定

線形関係

最も重要な仮定の1つは、従属変数と独立変数の間に線形関係が存在すると言われていることです。 非線形データセットに線形関係を適合させようとすると、提案されたアルゴリズムは傾向を線形グラフとしてキャプチャしないため、モデルが非効率になります。 したがって、予測が不正確になります。

仮定が満たされているかどうかをどのように判断できますか?

この仮定が満たされているかどうかを判断する簡単な方法は、散布図xvsyを作成することです。 データポイントがグラフ内で直線上にある場合、従属変数と独立変数の間には線形関係があり、仮定が成り立ちます。

この仮定に違反した場合はどうすればよいですか?

従属変数と独立変数の間に線形関係が存在しない場合は、対数、指数、平方根、逆数などの非線形変換を従属変数、独立変数、またはその両方に適用します。

自己相関や独立性はありません

残差(誤差項)は互いに独立しています。 つまり、時系列データの連続する誤差項の間に相関関係はありません。 誤差項に相関が存在すると、モデルの精度が大幅に低下します。 誤差項が相関している場合、推定された標準誤差は真の標準誤差を収縮させようとします。

仮定が満たされているかどうかを判断する方法は?

Durbin-Watson(DW)統計量検定を実行します。 値は0〜4の間にある必要があります。 DW = 2の場合、自己相関はありません。 DWが0と2の間にある場合、それは正の相関が存在することを意味します。 DWが2と4の間にある場合、それは負の相関があることを意味します。 もう1つの方法は、残差と時間のグラフをプロットし、残差値のパターンを確認することです。

この仮定に違反した場合はどうすればよいですか?

仮定に違反する場合は、次のオプションを検討してください。

  • 正の相関関係については、従属変数、独立変数、または両方の変数にラグを追加することを検討してください。
  • 負の相関については、どの変数も過差がないかどうかを確認してください。
  • 季節相関については、モデルにいくつかの季節変数を追加することを検討してください。

多重共線性なし

独立変数は相関させてはなりません。 独立変数間に多重共線性が存在する場合、モデルの結果を予測することは困難です。 本質的に、従属変数と独立変数の関係を説明することは困難です。 言い換えれば、どの独立変数が従属変数を説明するのかは不明です。

標準誤差は相関変数で膨らむ傾向があるため、信頼区間が広がり、不正確な推定につながります。

仮定が満たされているかどうかを判断する方法は?

散布図を使用して、変数間の相関関係を視覚化します。 もう1つの方法は、VIF(分散拡大係数)を決定することです。 VIF <= 4は多重共線性がないことを意味し、VIF>=10は深刻な多重共線性を意味します。

この仮定に違反した場合はどうすればよいですか?

相関変数を変換または結合することにより、変数間の相関を減らします。

必読: MLの回帰モデルの種類

等分散性

等分散性とは、残差がxのすべてのレベルで一定の分散を持つことを意味します。 この現象がないことは、不均一分散として知られています。 不均一分散は、一般に、外れ値と極値の存在下で発生します。

仮定が満たされているかどうかを判断する方法は?

残差と近似値を示す散布図を作成します。 データポイントが目立つパターンなしで均等に分散している場合、それは残差が一定の分散(等分散性)を持っていることを意味します。 それ以外の場合、漏斗状のパターンが見られる場合は、残差が均等に分布しておらず、不均一分散(不均一分散)を示していることを意味します。

この仮定に違反した場合はどうすればよいですか?

  • 従属変数を変換します
  • 従属変数を再定義します
  • 加重回帰を使用する

誤差項の正規分布

線形回帰をチェックする必要がある最後の仮定は、誤差項の正規分布です。 誤差項が正規分布に従わない場合、信頼区間が広すぎたり狭すぎたりする可能性があります。

仮定が満たされているかどうかを判断する方法は?

QQ(Quantile-Quantile)プロットを使用して仮定を確認します。 グラフ上のデータポイントが直線の対角線を形成する場合、仮定は満たされます。

コルモゴロフ-スミロノフ検定やシャピロ-ウィルク検定などの統計的検定を使用して、誤差項の正規性を確認することもできます。

この仮定に違反した場合はどうすればよいですか?

  • 外れ値が分布に影響を与えるかどうかを確認します。 それらが実際の値であり、データ入力エラーではないことを確認してください。
  • 対数、平方根、または逆数の形式で、従属変数、独立変数、または両方の変数に非線形変換を適用します。

結論

上記の手法を適用して回帰の真の力を活用し、仮定に違反しないようにします。 線形回帰のすべての仮定が満たされている場合、従属変数に対する独立変数の影響を理解することは確かに実行可能です。

線形回帰の概念は、データサイエンスと機械学習プログラムの不可欠な要素です。

回帰モデルや機械学習の詳細に興味がある場合は、機械学習とAIのIIIT-BとupGradのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディを提供します。 &アサインメント、IIIT-B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

線形回帰で等分散性が必要なのはなぜですか?

等分散性は、データが平均からどれだけ類似しているか、またはどれだけ離れているかを表します。 パラメトリック統計テストは違いに敏感であるため、これは重要な仮定です。 不均一分散は、係数推定にバイアスを引き起こしませんが、精度を低下させます。 精度が低いと、係数の推定値が正しい母集団の値から外れる可能性が高くなります。 これを回避するには、等分散性を主張することが重要です。

線形回帰の多重共線性の2つのタイプは何ですか?

データと構造の多重共線性は、多重共線性の2つの基本的なタイプです。 他の項からモデル項を作成すると、構造的な多重共線性が得られます。 言い換えれば、それはデータ自体に存在するのではなく、私たちが提供するモデルの結果です。 データの多重共線性はモデルのアーティファクトではありませんが、データ自体に存在します。 データの多重共線性は、観察研究でより一般的です。

独立したテストにt検定を使用することの欠点は何ですか?

対応のあるサンプルのt検定を使用する場合、グループ設計間の違いではなく、測定を繰り返すことには問題があり、キャリーオーバー効果につながります。 タイプIのエラーのため、t検定を多重比較に使用することはできません。 一連のサンプルで対応のあるt検定を実行する場合、帰無仮説を棄却することは困難です。 サンプルデータの主題を取得することは、研究プロセスの時間と費用のかかる側面です。