機械学習における過剰適合と過適合とは何ですか? [あなたが学ぶ必要があるすべて]

公開: 2020-02-18

機械学習は、習得するのが最も簡単な科目ではありません。 過剰適合と過適合は、機械学習コミュニティで一般的な多くの用語のいくつかです。 これらの概念を理解することは、将来の学習の基礎を築きます。

この記事では、これらの概念について深く学びます。 また、これらのエラーの基本的な考え方、エラーが発生する理由、およびエラーを修正する方法についても説明します。 データモデルとそれらのエラーとの関係についても少し学びます。

だから、茂みの周りを殴らずに、すぐに飛び込みましょう:

目次

データモデルとは何ですか?

過剰適合と過適合とは何かについて説明する前に、まずモデルとは何かを理解しましょう。 データモデルは、入力を使用して予測を行うためのシステムです。 モデルは問題を解決するための理論であると言えます。 たとえば、複数の企業の成長を予測したい場合は、それらの企業の利益を入力として受け取り、それらの企業の収益と成長の関係に基づいて結果を生成できます。 この例の出力は、企業の予測される成長になります。

したがって、インプットは企業の現在の利益であり、一方、成長予測はアウトプットです。 これら2つの関係がモデルです。 出力を生成するにはモデルが必要です。

モデルは、トレーニングデータセットを通じて入力と出力の関係を理解し​​ます。 入力機能と出力ラベルを呼び出します。 したがって、これらの名前は記事にも表示される可能性があります。 モデルのトレーニング中に、モデルに機能とラベルを付けて、それらの間の関係を理解させます。 トレーニングが完了したら、正しい予測が利用できる機能のセットのみをモデルに与えることで、モデルを試すことができます。

予測が生成されたら、それらを現在の正しい予測と比較して、モデルがどれほど正確であるかを確認します。 モデルにはさまざまな形があります。

データのトレーニングとテスト

初心者の場合、データモデルに完璧な機能を提供することもできますが、それは現実の世界では起こりません。 現実世界のデータは、ノイズと役に立たない情報でいっぱいです。 データのソースが何であっても、トレンドに合わない変数がデータに含まれていることがあります。

私たちの企業の成長予測の例では、企業の成長が完全に利益に依存しているわけではないことをご存知でしょう。 さまざまな要因が関係しています。 モデルのトレーニング中に、モデルを現実的にするためにノイズを追加する必要があります。 データを作成したら、トレーニングとテストのためにデータを2つのセットに分割する必要があります。

トレーニングデータを使用して、モデルが特徴とラベルの関係を学習できるようにします。 そして、テストデータを使用してそのパフォーマンスを評価します。

データの世界には多くの形式のモデルが存在します。 どちらかを選択するのは少し難しいかもしれませんが、少し練習すれば簡単になります。 標準モデルは多項式回帰です。 これは、入力がさまざまな累乗で累乗される線形回帰の形式です。 これは一種の線形回帰ですが、直線にはなりません。 線形回帰の実装についてもっと読む。

多項式はその順序で定義します。 多項式の次数は、その方程式のxの最大の累乗です。 また、多項式の次数もその次数を示します。 たとえば、直線方程式は1度です。

機械学習における過剰適合と過適合を修正することの重要性

モデルの多項式次数を処理すると、過剰適合と過適合が発生します。 前に述べたように、多項式の次数は、その方程式のxの最大乗数に依存します。 この値は、モデルの柔軟性を示します。 モデルの程度が高い場合は、より多くの自由度があります。 高度に、モデルは多くのデータオブジェクトをカバーできます。

一方、必要な次数より少ないモデルでは、十分なデータオブジェクトをカバーできません。 これらの状況は両方とも、役に立たない汚れた結果につながる可能性があります。

必要以上の程度の前者の問題は、過剰適合でした。 そして、必要な程度に満たないという2番目の問題は、不十分でした。 ご覧のとおり、どちらもモデルに悪影響を及ぼし、結果を損なう可能性があります。

これらの問題を修正しないと、モデルで正確な結果が得られず、使用するラベルが役に立たなくなります。

それらの基本的な概念がわかったので、それぞれについて詳しく説明しましょう。

過剰適合とは何ですか?

機械学習アルゴリズムがデータ内にノイズを登録し始めると、それを過剰適合と呼びます。 簡単に言うと、アルゴリズムが細部に注意を払い始めたときです。 機械学習では、結果として予想される出力が予測され、過剰適合のために、精度が大幅に低下する可能性があります。 良いことのように聞こえますが、そうではありません。

機械学習での過剰適合の深刻な例は、すべてのドットが直線的に接続されているグラフです。 トレンドをキャプチャしたいのですが、チャートはそれを行いません。

適切な予測を行うことはできませんが、データから可能なすべてのことを学習するモデルは、不正確な結果につながるため、役に立ちません。

過剰適合に気付いた場合はどうすればよいですか?

この問題は、アルゴリズムが使用するデータの量を減らすだけで、システムに過負荷をかけないようにすることで修正できます。 分散が大きい(過剰適合)と、状況は良くなるよりも悪くなります。 過剰適合を解決するために使用される従来の手法のいくつかは次のとおりです。

反復を減らす

過剰適合が発生する前に実行される繰り返しの数を減らすことにより、過剰適合が発生するのを防ぐことができます。 試行錯誤の方法で正確な反復回数を見つけることができます。

正則化

これは、0に近い係数推定値を制約します。簡単に言えば、厳密なモデルではなく、より寛大なモデルを使用するようにアルゴリズムに指示していると言えます。 正則化と過剰適合を回避する方法の詳細をご覧ください。

剪定(標準)

過剰適合を回避するための最も簡単で最も一般的な方法は、剪定です。 予測力をほとんどまたはまったく追加しないノードを取り除きます。

5分割交差検定

交差検定の使用は、過剰適合をチェックするためのそれほど複雑でない方法の1つです。

アンダーフィッティングとは何ですか?

名前が示すように、アンダーフィッティングとは、モデルが結果を出すのに十分に適合していない場合です。 アンダーフィットデータモデルは、十分なデータオブジェクトをターゲットにする方法を知りません。 程度が低くなると、グラフには存在する機能のほとんどが失われてしまいます。

言い換えると、モデルが「単純すぎる」ため、適合性が低い場合に結果を生成できません。 ただし、この問題の解決は非常に快適であり、以前の過剰適合ほど多くの労力を必要としません。

アンダーフィットに気づいたらどうしますか?

モデルが不十分な場合は、より多くの機能をモデルに与える必要があります。 より多くの機能を使用すると、より大きな仮説空間が得られます。 そのスペースを使用して、正確な結果を生成できます。 過適合の検出は、過剰適合と比較してより快適であるため、このエラーの識別に問題はありません。 ただし、アンダーフィットモデルを処理するときは、データ全体ではなく、機能のみを増やす必要があります。 この場合、データを展開するとエラーが増えます。

読む:興味深い機械学習プロジェクトのアイデア

スイートスポットをヒット

機械学習では、データモデルを過適合と過剰適合の間に維持する必要があります。 カバーするデータポイントが多すぎても少なすぎてもいけません。 モデルをさらにトレーニングすると、モデルをさらに改善してエラーを修正できます。 モデルのエラーは、トレーニングセットとテストセットで数が減り始めます。

過剰適合と過適合の間のスイートスポットに到達するための優れた方法は、エラーが増加し始める前にモデルのトレーニングを停止することです。 これは一般的なソリューションであり、この記事で前述した方法とは別に使用できます。

結論

すべてのデータ専門家は、過剰適合と過適合の問題に直面しています。 データモデルのトレーニングは簡単ではなく、データモデルに精通するには多くの練習が必要です。 ただし、経験を積むと、問題を早期に特定し、エラーの原因を完全に回避できるようになります。

機械学習の専門家になりたい場合は、このようなエラーに精通していることが重要です。 機械学習とデータサイエンスについて詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題を提供します。 、IIIT-B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との雇用支援。

未来のキャリアに備える

機械学習と人工知能におけるPGディプロマ
もっと詳しく知る