ディープラーニングの正則化：知っておくべきことすべて

公開: 2020-11-16

データサイエンティストや機械学習エンジニアが直面する最大の問題の1つは、トレーニングデータや新しい入力で適切に機能するアルゴリズムの作成に伴う複雑さです。機械学習では、テストエラーを最小化または完全に排除するために、多くの手法が使用されています。これは、場合によっては、トレーニングエラーの増加をあまり気にせずに行われます。これらすべての手法を組み合わせたものは、一般に正則化と呼ばれます。

簡単に言うと、正則化とは、トレーニングエラーの削減にあまり重点を置くことなく、一般化エラーを最小限に抑えるために学習アルゴリズムに加えられた変更です。利用可能ないくつかの正則化手法があり、それぞれが学習アルゴリズムまたはニューラルネットワークの異なる側面に取り組んでおり、それぞれが異なる結果につながります。

パラメータ値の制約など、学習モデルに追加の制限を課す正則化手法があります。パラメータ値に制限を設けるものがあります。正則化手法を慎重に選択すると、テストデータモデルのパフォーマンスが向上する可能性があります。

なぜニューラルネットワークの正則化が必要なのですか？

ディープニューラルネットワークは、認識できないデータに対して一般化されたアプローチをとる代わりに、個々のトレーニングセットのパターンを記憶するという柔軟な性質のため、過剰適合にさらされる複雑な学習モデルです。これが、ニューラルネットワークの正則化が非常に重要である理由です。学習モデルを理解しやすくし、ニューラルネットワークが認識できないデータを一般化できるようにするのに役立ちます。

例を挙げてこれを理解しましょう。入力値と出力値の両方を含むデータセットがあるとします。また、これらの値の間に真の関係があると仮定しましょう。ここで、深層学習の目的の1つは、入力値と出力値の間に近似的な関係を確立することです。したがって、すべてのデータセットには、この関係を定義するのに役立つ2つのモデル（単純なモデルと複雑なモデル）があります。

単純なモデルでは、問題の関係を定義する2つのパラメーターを含む直線が存在します。このモデルのグラフィック表現は、問題のデータセットの中心を厳密に通過する直線を特徴とし、直線とその上下の点との間に距離がほとんどないことを保証します。

また読む：機械学習プロジェクトのアイデア

一方、複雑なモデルには、データセットに応じていくつかのパラメーターがあります。これは、すべてのトレーニングデータポイントを通過できるようにする多項式に従います。複雑さが徐々に増すにつれて、トレーニングエラーはゼロ値に達し、モデルはデータセットの個々のパターンを記憶します。異なるデータセットでトレーニングされた場合でも互いにそれほど異ならない単純なモデルとは異なり、複雑なモデルについては同じことが言えません。

バイアスと分散とは何ですか？

簡単に言うと、バイアスは、真の母集団線と、さまざまなデータセットでトレーニングされたモデルの平均との間に存在する距離の尺度です。バイアスは、適切な予測区間を設定するかどうかを決定する上で非常に重要な役割を果たします。これは、平均関数が真の関係にどれだけ近づいたかを把握することによって行われます。

また読む：インドの機械学習エンジニアの給与

分散は、平均関数の推定分散を定量化します。分散は、特定のデータセットでモデル化されているモデルが、予測ジャーニー全体を通じてさまざまなデータセットでトレーニングされたときに表示される偏差の量を決定します。アルゴリズムのバイアスが高いか分散が高いかにかかわらず、アルゴリズムのパフォーマンスを向上させるためにいくつかの変更を加えることができます。

どうすれば高いバイアスに対処できますか？

長期間トレーニングする
非表示のユニットまたはレイヤーを備えたより大きなネットワークを使用する
より良いニューラルネットワークアーキテクチャまたは高度な最適化アルゴリズムを試してください

高分散（過剰適合）にどのように対処できますか？

正則化
データの追加
より良いニューラルネットワークアーキテクチャを見つける

既存の深層学習アルゴリズムを使用すると、分散に影響を与えることなく、バイアスを最小限に抑えるために、より大きなニューラルネットワークを自由にトレーニングできます。同様に、バイアスの値に影響を与えることなく、分散を最小限に抑えるためにデータを追加し続けることができます。また、高バイアスと高分散の両方を処理している場合は、適切な深層学習の正則化手法を使用して、両方の値を下げることができます。

説明したように、モデルの複雑さが増すと、分散の値が増加し、バイアスの値が減少します。適切な正則化手法を使用すると、テストとトレーニングの両方のエラーを減らし、分散とバイアスの間の理想的なトレードオフを可能にすることができます。

正則化手法

最も一般的な正則化手法の3つを次に示します。

1.データセットの拡張

一般化する最も簡単な方法は何ですか？答えは非常に簡単ですが、その実装はそうではありません。より大きなデータセットでそのモデルをトレーニングする必要があります。ただし、ほとんどの場合、限られたデータを処理するため、これはほとんどの状況で実行可能ではありません。いくつかの機械学習の問題に対して実行できる最善の解決策は、既存のデータセットに追加する合成データまたは偽のデータを作成することです。したがって、画像データを扱う場合、合成データを作成する最も簡単な方法には、スケーリング、画像のピクセル変換、および回転が含まれます。

2.早期打ち切り

過剰適合につながる非常に一般的なトレーニングシナリオは、モデルが比較的大きなデータセットでトレーニングされる場合です。この状況では、モデルを長期間トレーニングしても、一般化機能は向上しません。代わりに、過剰適合につながります。

トレーニングプロセスの特定の時点の後、トレーニングエラーが大幅に減少した後、検証エラーが増加し始める時期が来ます。これは、過剰適合が始まったことを意味します。早期打ち切り手法を使用することにより、検証エラーの増加が見られるとすぐに、モデルのトレーニングを停止し、パラメーターをそのまま保持します。

3.L1およびL2

L1とL2は、モデルのトレーニングに非常に一般的に使用される重みペナルティ正則化手法を作成します。これは、重みが大きいモデルを重みが小さいモデルよりも複雑にするという仮定に基づいて機能します。これらすべてにおけるペナルティの役割は、重みがゼロまたは非常に小さいことを確認することです。唯一の例外は、打ち消すために大きな勾配が存在する場合です。ウェイトペナルティはウェイトディケイとも呼ばれ、ウェイトがより小さな単位またはゼロに減衰することを意味します。

L1基準：一部の重みを大きくして、一部をゼロに近づけることができます。ウェイトの真の値にペナルティを課します。

L2ノルム：すべての重みをより小さな値に向けて駆動します。ウェイトの2乗値にペナルティを課します。

結論

この投稿では、深層学習におけるニューラルネットワークの正則化とその手法について学びました。これにより、トピックに関するほとんどのクエリがクリアされたことを願っています。

ディープラーニングと人工知能について詳しく知りたい場合は、機械学習とAIプログラムのPGディプロマをチェックしてください。このプログラムは、働く専門家向けに設計されており、30以上のケーススタディと課題、25以上の業界メンターシップセッション、5以上の実践的なハンドを提供します。 -キャップストーンプロジェクトでは、450時間以上の厳格なトレーニングとトップ企業との就職支援。

L2正則化に対するL1の利点は何ですか？

L1正則化はベータ係数を下げるか、ベータ係数をほぼゼロに小さくするため、重要でない機能を終了するために不可欠です。一方、L2正則化は、重みを均一に減らし、多重共線性がデータ自体に存在する場合にのみ適用されます。したがって、L1正則化は特徴選択に使用でき、L2正則化よりも有利です。

データ拡張の利点と課題は何ですか？

利点には、トレーニングデータを追加することでモデルを予測する精度を向上させること、より良いモデルのためにデータが不足するのを防ぐこと、出力を一般化するモデルの能力を高めることが含まれます。また、データを収集してラベルを付けるコストも削減されます。課題には、データ拡張ドメインの高度なアプリケーションを使用して合成データを作成するための新しい研究の開発が含まれます。また、実際のデータセットにバイアスが含まれている場合、拡張データにもバイアスが含まれます。

高バイアスと高分散をどのように処理しますか？

高バイアスに対処するということは、データセットを長期間トレーニングすることを意味します。そのためには、より大きなネットワークを隠しレイヤーで使用する必要があります。また、より良いニューラルネットワークを適用する必要があります。高い分散を処理するには、正則化を開始し、追加のデータを追加する必要があります。同様に、より優れたニューラルネットワークアーキテクチャをフレーム化する必要があります。