機械学習における線形回帰:知っておくべきことすべて
公開: 2020-04-28データ、分析、および経験に裏打ちされた方法で日常の問題の解決策を見つけるために、さまざまな機械学習テクノロジーが日常生活のいくつかの段階で使用されています。 これらの機械学習アルゴリズムは、テキスト、画像、動画を識別するだけでなく、医療ソリューション、サイバーセキュリティ、マーケティング、カスタマーサービス、および私たちの日常生活に関係する他の多くの側面や領域を改善するのに非常に重要な役割を果たします。
機械学習アルゴリズムには主に2つのタイプがあり、すべてのアルゴリズムに分けられます。 これらは、教師ありおよび教師なしの機械学習アルゴリズムです。 このブログでは、教師あり機械学習アルゴリズム、特に線形回帰にのみ焦点を当てます。 教師あり機械学習アルゴリズムを理解することから始めましょう。
目次
教師あり学習アルゴリズムとは何ですか?
これらの機械学習アルゴリズムは、ユーザーが入力したデータに依存する確立された出力を予測するためにトレーニングするアルゴリズムです。 アルゴリズムは、特定のデータセットで出力を提供するようにモデルをトレーニングします。 開始時に、システムは入力データと出力データの両方にアクセスできます。 システムの役割は、入力を出力にマップするルールを定義することです。
モデルのトレーニングは、パフォーマンスが最適なレベルになるまで継続されます。 トレーニング後、システムは、トレーニング中に遭遇しなかった出力オブジェクトを割り当てることができます。 理想的なシナリオでは、このプロセスは非常に正確で、多くの時間はかかりません。 教師あり学習アルゴリズムには、分類と回帰の2種類があります。
議論の主要なトピックに直接飛び込む前に、両方について簡単に議論します。
1.分類
これらは、クラスの割り当てを再現するという単純な目標を持つ教師あり機械学習アルゴリズムです。 学習手法は、データの分離が必要な状況でよく考慮されます。 応答を予測することにより、データをクラスに分割します。 たとえば、特定の日の天気予報、アルバムから特定の種類の写真を識別し、スパムを電子メールから分離します。

2.回帰
学習手法は、出力値を再現する目的で使用されます。 つまり、データを特定の値に適合させる必要がある状況で使用されます。 たとえば、さまざまなアイテムの価格を見積もるためによく使用されます。 回帰を使用して、想像できるよりも多くのことを予測できます。
回帰の種類
ロジスティック回帰と線形回帰は、機械学習とデータサイエンスの現代の世界に存在する2つの最も重要なタイプの回帰です。 ただし、他にもありますが、使用頻度はかなり控えめです。 特定のデータセットに対して多数の回帰を実行したり、さまざまな状況で使用したりできるという事実を否定することはできません。
回帰のすべての形式には長所と短所があり、特定の条件に適しています。 線形攻撃のみに焦点を当てますが、その動作に慣れるためには、完全な背景を知る必要があります。
それが私たちが段階的に議論をしている理由です。
回帰分析とは何ですか?
回帰分析は、独立変数または予測変数と従属変数またはターゲットの間に存在する関係を調査することを目的とした予測モデリング手法に他なりません。 この分析は、時系列モデリング、予測など、さまざまな用途で使用されます。
たとえば、交通事故とカジュアルな運転の関係を調べたい場合、この仕事の回帰分析よりも優れた手法はありません。 これは、データの分析とモデリングの両方で非常に重要な役割を果たします。 これは、線または曲線からのデータポイントの距離の差を最小限に抑えることができる方法で、線または曲線をさまざまなデータポイントに適合させることによって行われます。
回帰分析の必要性は何ですか?
回帰分析は、変数の数が2つ以上の場合にのみ、変数間の関係を予測するために使用されます。 簡単な例でこれがどのように機能するかを理解しましょう。 現在の経済状況を考慮して、特定の期間の見積もりで会社の売上成長を考え出す必要があるタスクが与えられたとします。
現在、会社のデータによると、売上高は経済成長の約2倍に成長しました。 このデータを使用して、過去および現在の情報から洞察を得ることにより、将来の会社の売上高の成長を見積もることができます。
回帰分析を使用すると、データを操作したり、データセットを予測したりするときに多くの利点が得られます。 これは、独立変数と従属変数の間の重要な関係を示すために使用できます。 これは、複数の独立変数からの従属変数の経験の影響を示すために使用されます。
これにより、さまざまな測定尺度に属するさまざまな変数の効果を比較できます。 これらのことは、データサイエンティスト、研究者、およびデータアナリストが、最も適切な変数のセットに基づいて予測モデルを構築するのに大いに役立ちます。
読む:機械学習プロジェクトのアイデアとトピック
適切な回帰モデルを選択するために何を覚えておく必要がありますか?
ええと、2つか3つのテクニックから選択するだけで、物事は通常ずっと簡単になります。 しかし、私たちが自由に使える選択肢が非常に多い場合、決定ははるかに圧倒的になります。 結果は連続的であるため、線形回帰を選択することはできません。 または、結果がバイナリの場合は、ロジスティック回帰を実行します。 問題の回帰モデルを選択する際には、さらに考慮すべきことがあります。
すでに述べたように、利用可能な回帰モデルは他にもあります。 では、選択する際に留意すべきことは何でしょうか。 重要なことがいくつかあります。データの次元、従属変数と独立変数のタイプ、および問題のデータの他のプロパティです。 適切な回帰モデルを選択する際に考慮すべきいくつかの重要な事項を次に示します。
データ探索は、予測モデルを構築するための鍵です。 あなたが選択をする前にあなたが最初にすべきことの中にそれがなければならないのも不思議ではありません。 変数の影響と関係を特定するためのデータを調べます。
交差検定による予測のために、さまざまな回帰モデルを評価します。 データセットをトレーニンググループと検証グループに分けます。 予測値と観測値の平均二乗差は、予測精度への洞察を提供します。
Ridge、ElasticNet、およびその他の回帰正則化手法を使用して、多重共線性と次元性が高い変数を持つデータセットに適切なモデルを選択します。
さまざまな回帰モデルとその適合性を比較するために、AIC、BIC、R-square、誤差項などのパラメーターを分析できます。 マローズのCpと呼ばれるもう1つの基準があります。 モデルをさまざまなサブモデルと比較して、バイアスを探します。
使用しているデータセットに不可解な変数が多数ある場合は、自動モデル選択方法を使用しないでください。 そうすると、それらの変数を一度にモデルに入れる方向に移動することになります。
適切な回帰モデルを選択するには、目的も重要です。 強力なモデル、単純なモデル、または統計的に有意なモデルが必要かどうかは、目的によって異なります。
線形回帰とは何ですか?
線形回帰とは何かについてもっと知りましょう。 これは、教師あり学習に該当する機械学習手法の1つです。 機械学習技術の需要と使用の増加は、いくつかの分野で線形回帰の使用が急増した背景にあります。 多層パーセプトロン層が線形回帰を実行することが知られていることをご存知ですか? ここで、線形回帰が適用されるデータセットについて行うことが知られているという仮定に光を当てましょう。

1.自己相関:
線形回帰によって行われたこの仮定は、データの自己相関がほとんどまたはまったくないことを示しています。 自己相関は、残差誤差がいずれかの方法で相互に依存している場合に発生します。
2.多重共線性:
この仮定は、データの多重共線性がまったく存在しないか、ほとんど存在しないことを示しています。 多重共線性は、独立した特徴または変数が何らかの依存関係を示す場合に発生します。
3.変数の関係:
モデルには、特徴変数と応答変数の間に線形関係があるという仮定があります。
線形回帰を使用できるいくつかの例には、部屋の数に応じた家の価格の見積もり、水やりの頻度に応じて植物がどれだけ成長するかなどが含まれます。 これらすべてのインスタンスについて、さまざまな変数間に存在する関係のタイプについてすでに理解しているはずです。
線形回帰分析を使用する場合は、アイデアまたは仮説をデータで裏付けます。 さまざまな変数間の関係をよりよく理解すると、強力な予測を行うためのより良い立場になります。 まだご存じない場合は、線形回帰が教師あり機械学習手法であり、統計モデルでもあることをお伝えします。
機械学習の用語では、回帰モデルはマシンであり、学習はデータセットでトレーニングされているこのモデルに関連しています。これにより、変数間の関係を学習し、データに基づく予測を行うことができます。
線形回帰はどのように機能しますか?
分析を実行する前に、2つのタイプのチームがあると仮定します。1つは仕事をうまく実行し、もう1つはそうではありません。 チームが何をしているかが得意でない理由はいくつか考えられます。 適切なスキルセットがないか、仕事で特定の職務を遂行するために必要な経験がないことが原因である可能性があります。 しかし、それが何であるかを確信することはできません。
線形回帰を使用して、特定の業務に関与する特定のチームに最適であるために必要なすべてを備えた候補を見つけることができます。 これは、仕事が得意である可能性が高い候補者を選択するのに役立ちます。
回帰分析が役立つ目的は、問題のデータに適した傾向曲線または線を作成することです。 これは、1つのパラメーター(独立変数)が他のパラメーター(従属変数)とどのように関連しているかを調べるのに役立ちます。
何よりもまず、さまざまな候補者のすべての属性を詳しく調べて、それらが何らかの形で相関しているかどうかを確認する必要があります。 いくつかの相関関係が見つかった場合は、これらの属性に基づいて予測を開始できます。
データの関係の調査は、傾向曲線または線を使用してデータをプロットすることによって行われます。 曲線または線は、相関関係があるかどうかを示します。 これで、線形回帰を使用して、関係に反論したり、受け入れたりすることができます。 関係が確認されたら、回帰アルゴリズムを使用して彼の関係を学習できます。 これにより、正しい予測を行うことができます。 候補者がその仕事に適しているかどうかをより正確に予測できるようになります。
モデルのトレーニングの重要性
線形回帰モデルのトレーニングに関連するプロセスは、他の機械学習モデルのトレーニング方法と多くの点で類似しています。 トレーニングデータセットに取り組み、新しいデータサンプルを予測するモデルの能力に影響を与えない方法でその変数の関係をモデル化する必要があります。 モデルは、予測方程式を継続的に改善するようにトレーニングされています。
これは、指定されたデータセットを繰り返しループすることによって行われます。 このアクションを繰り返すたびに、勾配またはコスト関数が示す方向のバイアスと重みの値を同時に更新します。 エラーしきい値に達したとき、またはその後のトレーニングの反復でコストが削減されなかったときに、トレーニングの完了段階に到達します。
モデルのトレーニングを開始する前に、準備する必要のあることがいくつかあります。 必要な反復回数と学習率を設定する必要があります。 これとは別に、重みのデフォルト値も設定する必要があります。 また、繰り返しごとに達成できる進捗状況を記録します。
正則化とは何ですか?
他のものよりも優先される線形回帰バリアントについて話す場合、正則化を追加したものについて言及する必要があります。 正則化には、他の重みよりも絶対値が大きいモデルの重みにペナルティを課すことが含まれます。
正則化は、過剰適合を制限するために行われます。これは、モデルがトレーニングデータの関係をあまりにも密接に再現するためによく行われることです。 それは、モデルが想定されているように、サンプルの前に見たことのないものを一般化することを許可しません。
線形回帰はいつ使用しますか?
線形回帰の力は、それがいかに単純であるかにあります。 これは、ほぼすべての質問に対する回答を見つけるために使用できることを意味します。 線形回帰アルゴリズムを使用する前に、データセットが動作するために必要な条件を満たしていることを確認する必要があります。
これらの条件の中で最も重要なのは、データセットの変数間に線形関係が存在することです。 これにより、それらを簡単にプロットできます。 予測値と実際の達成値の間に存在する差が一定であることを確認する必要があります。 予測値は依然として独立している必要があり、予測子間の相関は快適にするには近すぎる必要があります。
データを線に沿ってプロットし、その構造を徹底的に調べて、データセットが目的の条件を満たしているかどうかを確認するだけです。
線形回帰は
線形攻撃が分子レベルでの解釈を容易にする単純さは、その最大の利点の1つです。 線形回帰は、変数が線形関係にあるすべてのデータセットに適用できます。
企業は、販売データである線形回帰アルゴリズムを使用できます。 あなたが新製品の発売を計画している企業であるとします。 しかし、あなたはこの製品をどのような価格で売るべきか本当にわかりません。 いくつかのよく考えられた価格で製品を販売することにより、顧客が製品にどのように反応しているかを確認できます。 これにより、製品の売上と価格の関係を一般化することができます。 線形回帰を使用すると、顧客が受け入れる可能性が高い価格を決定できます。

また読む:インドの機械学習給与
線形回帰は、製品の調達と生産のさまざまな段階で使用することもできます。 これらのモデルは、学術、科学、および医療の分野で広く使用されています。 たとえば、農民は自分たちの利益のために環境条件を利用できるようにするシステムをモデル化することができます。 これは、作物の収穫量と利益へのダメージを最小限に抑えるような方法で要素を操作するのに役立ちます。
これらに加えて、それは他の分野の中でもとりわけ医療、考古学、および労働で使用することができます。 線形モデルでの解釈は
結論
回帰分析は、数学を使用して、最終データに直接または間接的に影響を与える可能性のある変数を分類する、広く採用されているツールです。 分析を行っている間は、このことを覚えておくことが重要です。 線形回帰は、データサイエンティストがデータセットの変数間の線形関係を確立するために使用する最も一般的なアルゴリズムの1つであり、その数学モデルは予測分析に必要です。
機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。
線形回帰には制限やデメリットがありますか?
線形回帰は、従属変数と1つ以上の独立変数の間の関係を理解するために使用される一般的な方法です。 線形回帰モデルは機械学習モデルの開発に広く使用されていますが、一定の制限があります。 たとえば、この回帰アルゴリズムは、変数間のすべての関係が線形であると想定していますが、これは誤解を招く可能性があります。 次に、独立変数との関係を調べながら、従属変数の平均値を常に考慮します。 次に、線形回帰は常に、データが相互に排他的である、つまり他の値から独立していると想定しますが、これは正しくない可能性があります。 さらに、線形回帰は一般に外れ値や予期しないデータに敏感です。
回帰分析が人気の理由は何ですか?
回帰分析は、機械学習で使用される最も有用で強力な統計手法の1つです。 その人気を説明するさまざまな理由があります。 第一に、回帰分析は、その非常に多様性があるため、幅広いアプリケーションに付属しています。 回帰分析モデルは、実装と解釈が非常に簡単です。つまり、モデルがどのように機能し、結果を解釈するかを簡単に説明できます。 回帰分析を理解することで、機械学習の統計モデルをしっかりと把握できます。 また、RやPythonなどのプログラミング言語を使用してより効率的な機械学習モデルを開発するのにも役立ちます。 さらに、この手法は、有用な予測を行うための人工ニューラルネットワークとの優れた統合性を提供します。
企業はどのようにして線形回帰を自分たちの利点に適用できますか?
企業は線形回帰を使用して、収益性に影響を与える消費者行動に関する有用なデータ洞察を調べて生成できます。 また、企業が見積もりを行い、市場動向を評価するのにも役立ちます。 マーケターは線形回帰を使用して、製品のプロモーションと価格設定を含むマーケティング戦略の有効性を評価できます。 金融および保険会社は、リスクを効果的に評価し、重要なビジネス上の決定を策定することができます。 クレジットカード会社は、線形回帰モデルを使用して、債務不履行者によるリスクポートフォリオの最小化を目指すことができます。