線形回帰モデル:それは何であり、どのように機能するのですか?
公開: 2020-12-16目次
序章
回帰分析は、データをモデル化および分析するための重要なツールです。 2つ以上の変数間の関係を見つけることが不可欠です。 回帰は、データのモデリングと分析に役立つ曲線内にデータポイントを配置するのに役立ちます。 回帰を使用すると、予測モデルとデータセットを評価するために、さまざまなスケールで変数を測定および特性化できます。
必読:線形回帰プロジェクトのアイデア
回帰モデル
モデルには、データの表現に使用される係数の値が含まれます。 これらの係数を推定するために使用される統計的特性が含まれています。 これは、すべての標準偏差、共分散、および相関の融合です。 すべてのデータが利用可能である必要があります。
回帰モデルは、情報値(x)の特定の配置を統合する線形条件であり、その答えは、その情報値のセット(y)の予想される出力です。 情報値(x)と出力はどちらも数値です。
一次方程式は、係数と呼ばれ、大文字のギリシャ文字ベータ(B)で示される、各情報値またはセグメントに1つのスケール係数を割り当てます。 同様に、1つの追加の係数が追加され、ラインに追加のレベルの機会が与えられます(たとえば、2次元プロット全体に渡ります)。これは、キャプチャまたは傾斜係数と呼ばれることがよくあります。
たとえば、基本的な回帰(単純なxと単純なy)では、モデルのタイプは次のようになります。

y = B0 + B1 * x
複数の情報(x)がある場合のより高い測定では、線は平面または超平面として知られています。 これらの線に沿った描写は、条件のタイプと係数に使用される特定の品質です(たとえば、上記のモデルのB0とB1)。
回帰のような再発モデルの多面的な性質について議論することは予想外ではありません。 これは、モデルで使用される係数の数をほのめかします。
係数がゼロになる時点で、モデルに対する情報変数の影響を適切に排除し、その後、モデルを使用して作成された予測から排除します(0 * x = 0)。 これは、学習計算を変更して、係数の最大サイズを絞り、一部をゼロにすることで再発モデルの多面的な性質を減らす正則化手法を検討する場合に適しています。
回帰は、関係を確立するために1つ以上の変数が使用される直線で最もよく表されます。
モデルの背後にあるロジック:
回帰モデルは方程式y=mx+cを使用するため
ここで、y=独立変数
m=勾配
c=特定の行の切片
複数の独立変数を計算するために、複数の回帰モデルが実装されます。 完璧に機能するモデルを作成するためのプロセスは次のとおりです
- ライブラリのインポート-機械学習モデルの実装を中心に展開する重要なパラメータがあります。 最初のライブラリは、Pythonの公式の機械学習ライブラリであるため、sklearnを含める必要があります。 Numpyは、データを配列に変換するために使用され、データセットのファイルにアクセスするために、Pandasが実装されています。
- 相対データセットをロードする-以前にインポートされたPanda変数を使用して実行されます。
- 変数の分割-配列要素に必要な独立変数または従属変数の数を指定および定義します。
- テストデータとトレーニングデータの分割-データセット全体がトレーニングドメインとテストドメインに分割され、データセットから取得したランダムな値を許可および促進します。
- 適切なモデルを選択する-適切な選択には、同じデータセットが他のモデルで暗示される試行錯誤のプロセスが必要になります。
- 出力予測-モデルは、独立変数からのテスト値に裏打ちされた従属変数で実行されます。これらのモデルに組み込まれているメソッドは、提示された各値に対して定性的な計算を行います。
これにより、線形回帰モデルの実装が開始されます。 線形予測関数は、前述のように、関係モデリング用に実装されています。 応答の条件付き平均は、応答の条件付き平均を移動するために必要な予測子をモデルに提供します。

このような予測と予測の目標は、付随する応答値を追加せずに、追加の変数に対応することです。 適合モデルは、その応答に必要な予測を行うために実装されます。
線形回帰モデルは、最小二乗アプローチで使用するのが最も好ましいです。たとえば、偏差とコスト関数を最小化することにより、実装で他の方法が必要になる場合があります。 一般線形モデルには、本質的にベクトルであり、直接スカラーではない応答変数が含まれています。 条件付き線形性は、モデリングプロセス全体で正であると推定されます。 それらは大規模に変化しますが、対数正規分布に関連する歪んだ分布としてより適切に説明されます。

読む:機械学習における回帰モデルの種類
警告
2つの変数が関連していることを考えると、これは一方が他方を引き起こす機能を除外するものではありません。
データセットの線形回帰方程式が試行され、それが機能する場合、必ずしも方程式が完全に適合していることを意味するわけではありません。同様の見通しを持つ他の反復が存在する可能性があります。 手法が本物であることを確認するには、データポイントを使用して線をプロットし、方程式の線形性を見つけます。
要約すると
線形回帰法は、可能性を高め、イベントの予測可能性と、問題に関係する2つ以上の変数間の関係を見つけることができる、はるかに優れた強力な統計的方法を提供することが証明されています。
機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。
線形回帰モデルを使用しているときに直面する可能性のあるいくつかの問題に言及します。
線形回帰は、従属変数の平均と独立因子の間の関係を予測するのに役立ちます。 問題を解決する唯一の方法が従属変数の極値を調べることである場合があるため、これは問題になります。 一方、分位点回帰は、この問題を解決するために使用できます。 さらに、線形回帰は、提示されたデータが独立していることを前提としています。これは、クラスタリングの問題が発生した場合には正しくありません。
回帰における線形相関係数とは何ですか?
相関係数は、単純な線形回帰で変数間の関係を分析する1つの側面にすぎません。 実際、これは最も強力で広く使用されている統計分析方法の1つです。 ピアソンの積率相関係数は、基本的に2つの変数がどれだけ密接に関連しているかを示す統計であり、最も頻繁に使用される相関係数です。 線形相関係数は、2つの変数間の線形関連の強さを評価します。 完全な線形接続とは、一方の変数を変更すると、もう一方の変数も同じ単位で変更される接続です。
回帰分析はどのビジネスでもどのように役立ちますか?
回帰分析は、組織がデータポイントが何を表しているかを理解し、より良い意思決定を行うためにそれらにビジネス分析アプローチを適用するのに役立ちます。 この洗練された統計ツールは、ビジネスアナリストやデータの専門家が不要な変数を排除し、最も関連性の高い変数を選択するために使用します。 組織はデータ主導の意思決定を使用しています。これにより、仮説の推測や仮定などの昔ながらの手法が排除され、その結果、作業パフォーマンスが向上します。
