機械学習の正則化:過剰適合を回避する方法は?
公開: 2020-02-17機械学習では、明示的な指示なしに特定のタスクを実行するようにコンピューターを装備します。 したがって、システムは、経験から自動的に学習して改善するようにプログラムされています。 データサイエンティストは通常、機械学習で正則化を使用して、トレーニングプロセスでモデルを調整します。 この概念を詳しく理解しましょう。
目次
正則化は過剰適合を回避します
機械学習の正則化により、トレーニングモデルの過剰適合を回避できます。 モデルがトレーニングデータセット内の任意のデータをキャプチャすると、過剰適合が発生します。 データのプロパティを持たないこのようなデータポイントは、モデルを「ノイズの多い」ものにします。 このノイズはモデルをより柔軟にする可能性がありますが、精度が低いという課題が生じる可能性があります。
同じ数の女の子と男の子がいる10人の生徒の教室を考えてみましょう。 年次試験の総合成績は70点です。女子生徒の平均点数は60点、男子生徒の平均点数は80点です。これらの過去の点数をもとに、将来の点数を予測したいと思います。 予測は次の方法で行うことができます。
- アンダーフィット:クラス全体で70点を獲得
- 最適な適合:これは、女の子のスコアを60、男の子のスコアを80と予測する単純なモデルである可能性があります(前回と同じ)
- オーバーフィット:このモデルでは、ロール番号などの無関係な属性を使用して、生徒が昨年とまったく同じ点数を獲得することを予測できます。
正則化は、別のペナルティ項を追加することによって誤差関数を調整する回帰の形式です。 この追加の項は、係数が極端な値をとらないようにし、過度に変動する関数のバランスを取ります。
機械学習の専門家なら誰でも、モデルを正確でエラーのないものにするよう努めます。 そして、この目標を達成するための鍵は、偏りと分散の間のトレードオフをマスターすることにあります。 これが何を意味するのかを明確に理解するために読んでください。
バイアスと分散のバランスをとる
予想されるテストエラーは、適切な「偏りと分散」のバランスを実現する方法を見つけることで最小限に抑えることができます。 言い換えると、選択した統計学習方法は、低分散と低バイアスを同時に実現することによってモデルを最適化する必要があります。 分散の大きいモデルは過剰適合であり、バイアスが高いとモデルの適合が不十分になります。

交差検定は、過剰適合を回避する別の手段を提供します。 モデルがデータセットから正しいパターンを取得しているかどうかを確認し、テストセット全体のエラーを推定します。 したがって、このメソッドは基本的にモデルの安定性を検証します。 さらに、特定のモデルに最適なパラメーターを決定します。
モデルの解釈可能性の向上
目的は、トレーニングセットのエラーをゼロにするだけでなく、テストデータセットから正しいターゲット値を予測することです。 したがって、このプロセスの複雑さを軽減する「調整済み」関数が必要です。
機械学習における正規化の説明
正則化は、係数推定値をゼロに向かって縮小することによって機能する制約付き回帰の形式です。 このように、それはノイズから学ぶモデルの能力を制限します。
この線形回帰方程式を見てみましょう。
Y= β0+β1X1+β2X2+…..+βpXp
ここで、βは(X)で表されるさまざまな予測子の係数推定値を示します。 そして、Yは学習した関係です。
この関数自体でエラーが発生する可能性があるため、学習した推定値を正規化するためにエラー関数を追加します。 この場合のエラーを最小限に抑えて、損失関数と呼ぶこともできます。 この損失関数または残差平方和(RSS)は次のようになります。
したがって、データサイエンティストは、正則化を使用して予測関数を調整します。 正則化手法は、収縮法または重量減衰としても知られています。 それらのいくつかを詳しく理解しましょう。
リッジ正則化
リッジ回帰では、損失関数は、βの2乗値の合計に対応する収縮量で変更されます。 そして、λの値は、モデルがペナルティを科される量を決定します。

リッジ回帰の係数推定値は、L2ノルムと呼ばれます。 この正則化手法は、データ内の独立変数が高度に相関している場合に役立ちます。
ラッソ正則化
なげなわ手法では、βの絶対値の合計(βの係数)に等しいペナルティが誤差関数に追加されます。 さらに、ペナルティの強さを制御するパラメータλが乗算されます。 この方法では、高い係数のみがペナルティを受けます。
Lassoによって生成された係数推定値は、L1ノルムと呼ばれます。 この方法は、多数の特徴を持つ少数の観測値がある場合に特に役立ちます。
上記のアプローチを単純化するために、λの各値に存在する定数sを考えます。 ここで、L2正則化では、係数の2乗の合計がs以下である方程式を解きます。 一方、L1正則化では、係数の係数の合計はs以下である必要があります。
読む:機械学習とニューラルネットワーク
上記の両方の方法は、回帰モデルが不要な属性を消費しないようにすることを目的としています。 このため、リッジ回帰とラッソは制約関数とも呼ばれます。
RSSと制約関数の予測子
以前の説明の助けを借りて、リッジ回帰とラッソの損失関数(RSS)は、 β1²+β2²≤sおよび|β1|で与えることができます。 +|β2| それぞれ≤s。 β1²+β2²≤sは円を形成し、RSSはその中にあるすべてのポイントで最小になります。 なげなわ関数に関しては、RSSは|β1|によって与えられるひし形内にあるすべてのポイントで最低になります。 +|β2| ≤s。
リッジ回帰は、最も重要でない予測変数の係数推定値を縮小しますが、それらを排除しません。 したがって、推定値がゼロでないため、最終モデルにはすべての予測子が含まれる可能性があります。 一方、Lassoは、特にλが大きい場合に、一部の係数を正確にゼロにすることができます。

読む:機械学習用のPythonライブラリ
正則化がどのようにバランスを達成するか
標準の最小二乗モデルに関連する分散があります。 正則化手法は、バイアスの2乗を大幅に増やすことなく、モデルの分散を減らします。 また、調整パラメーターの値λは、データの重要な特性を排除することなく、このバランスを調整します。 λの値がゼロの場合、ペナルティは効果がありません。これは、通常の最小二乗回帰の場合です。
分散は、λの値が上がると下がるだけです。 しかし、これは特定の時点までしか発生せず、その後バイアスが上昇し始める可能性があります。 したがって、この収縮係数の値を選択することは、正則化で最も重要なステップの1つです。
結論
この記事では、機械学習の正則化とその利点について学び、リッジ回帰やラッソなどの方法を検討しました。 最後に、正則化手法が回帰モデルの精度を向上させるのにどのように役立つかを理解しました。 正則化を始めたばかりの場合、これらのリソースは基本を明確にし、その最初の一歩を踏み出すことを奨励します。
機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。
機械学習を学んだ後のあなたの仕事の選択肢は何ですか?
機械学習は、テクノロジーの分野における最新かつ最も有望なキャリアパスの1つです。 機械学習が進歩し、拡大し続けるにつれて、この技術分野でのキャリアを切り開くことを熱望する個人に新しい雇用機会が開かれます。 機械学習エンジニアとして働きたい学生や専門家は、やりがいのあるスリリングな学習体験を楽しみにできます。もちろん、高収入のトップ組織に仕事を任せることも期待できます。 データサイエンティストや機械学習エンジニアから、計算言語学者や人間中心の機械学習デザイナーまで、スキルや経験に応じて、多くの興味深い職務を引き受けることができます。
機械学習エンジニアは年間いくらの給与を受け取りますか?
インドでは、ジュニアレベルの機械学習エンジニアが稼ぐ平均給与は、年間約6〜8.2ルピーの範囲です。 しかし、中級レベルの実務経験を持つ専門家の場合、報酬は平均で約13〜15ルピーまたはそれ以上の範囲になります。 現在、機械学習エンジニアの平均年収は、関連する作業経験、スキルセット、全体的な作業経験、認定資格、さらには場所など、さまざまな要因に依存します。 上級の機械学習の専門家は、年間約1ルピーを稼ぐことができます。
機械学習に必要なスキルセットは何ですか?
機械学習で成功するキャリアを築くことを目指す場合は、特定の科目の基本的な理解とある程度の快適さが有益です。 まず、確率と統計を理解する必要があります。 機械学習モデルを作成して結果を予測するには、統計と確率の知識が必要です。 次に、機械学習で広く使用されているPythonやRなどのプログラミング言語に精通している必要があります。 機械学習を学ぶには、データ分析のためのデータモデリングに関するある程度の知識と強力なソフトウェア設計スキルも必要です。