Ce este supraadaptarea și subadaptarea în învățarea automată? [Tot ce trebuie să înveți]

Publicat: 2020-02-18

Învățarea automată nu este subiectul cel mai ușor de stăpânit. Suprafitting și Underfitting sunt câțiva dintre mulți termeni care sunt obișnuiți în comunitatea Machine Learning. Înțelegerea acestor concepte va pune bazele învățării viitoare.

Despre aceste concepte vom afla profund în acest articol. Vom discuta, de asemenea, ideea de bază a acestor erori, de ce apar și cum le puteți remedia. Veți învăța puțin despre modelele de date și despre relația lor cu aceste erori.

Așa că, fără să ne batem prin tufiș, să ne scufundăm direct în:

Cuprins

Ce este un model de date?

Înainte de a începe să discutăm ce sunt Suprafitting și Underfitting, să înțelegem mai întâi ce este un model. Un model de date este un sistem pentru a face predicții cu intrare. Puteți spune că un model este o teorie pentru rezolvarea unei probleme. De exemplu, dacă doriți să preziceți creșterea mai multor companii, puteți lua profiturile acestora drept input și puteți genera rezultate pe baza relației dintre câștigurile și creșterea lor. Rezultatul pentru acest exemplu ar fi creșterea estimată a companiilor.

Deci inputul este profitul curent al companiilor, în timp ce proiecțiile lor de creștere sunt producția. Relația dintre acestea două este modelul. Modelele sunt necesare pentru a genera rezultate.

Modelul înțelege relația dintre intrare și ieșire printr-un set de date de antrenament. Numim caracteristici de intrare și etichete de ieșiri. Deci, s-ar putea să vedeți aceste nume și în articol. În timpul antrenamentului modelului, îi vei oferi caracteristicile, precum și etichetele și îi vei lăsa să descopere relația dintre ele. Odată ce a finalizat antrenamentul, puteți încerca modelul oferindu-i doar un set de caracteristici, ale căror predicții corecte vă sunt disponibile.

După ce și-a generat predicțiile, le veți compara cu predicțiile corecte pe care le aveți și veți vedea cât de precis a fost modelul. Modelele sunt de multe forme.

Instruirea și testarea datelor

Ați putea oferi modelului dvs. de date caracteristici perfecte atunci când sunteți începător, dar nu asta se întâmplă în lumea reală. Datele din lumea reală sunt pline de zgomot și informații inutile. Indiferent care este sursa datelor dvs., veți găsi câteva variabile prezente în ea, care nu se potrivesc cu tendința.

În exemplul nostru de proiecții de creștere a companiilor, știți că creșterea lor nu se va baza în întregime pe profiturile lor. Ar fi o mulțime de factori în joc. În timpul antrenamentului modelului dvs., ar trebui să adăugați ceva zgomot pentru a-l face realist. Odată ce ați creat datele, va trebui să le împărțiți în două seturi pentru antrenament și testare.

Veți folosi datele de antrenament pentru a ajuta modelul să învețe relația dintre caracteristici și etichete. Și ai folosi datele de testare pentru a-i evalua performanța.

Există multe forme de modele prezente în lumea datelor. Alegerea unuia poate fi puțin descurajantă, dar cu puțină practică, devine mai ușor. Un model standard este o regresie polinomială. Este o formă de regresie liniară în care intrările sunt ridicate la o varietate de puteri. Este un fel de regresie liniară, dar nu formează o linie dreaptă. Citiți mai multe despre implementarea regresiei liniare.

Definiți un polinom după ordinea lui. Ordinea unui polinom este cea mai mare putere a lui x din ecuația sa. Și ordinea polinomului arată și gradul său. De exemplu, o ecuație în linie dreaptă are 1 grad.

Importanța remedierii supraajustării și subajustării în învățarea automată

Suprafitting și Underfitting apar atunci când aveți de-a face cu gradul polinom al modelului dvs. După cum am menționat mai devreme, gradul polinomului depinde de cea mai mare putere a lui x din ecuația sa. Această valoare indică cât de flexibil este modelul dvs. Dacă modelul tău are un grad înalt, ar avea mult mai multă libertate. Cu un grad ridicat, un model poate acoperi multe obiecte de date.

Pe de altă parte, un model cu mai puține grade decât cele necesare nu ar putea acoperi suficiente obiecte de date. Ambele situații pot duce la rezultate murdare care nu sunt utile.

Prima problemă de grad mai mare decât necesar a fost Suprafitting. Iar a doua problemă, cu gradul mai mic decât gradul necesar, a fost insuficientă. După cum puteți vedea, ambele pot fi dăunătoare modelului dvs. și pot deteriora rezultatele.

Dacă nu ați remediat aceste probleme, modelul dvs. nu vă va oferi rezultate precise și veți avea etichete inutile de folosit.

Acum că le cunoaștem conceptul de bază, să discutăm pe fiecare dintre ele în detaliu:

Ce este supraajustarea?

Când un algoritm de învățare automată începe să înregistreze zgomot în cadrul datelor, îl numim supraajustare. Cu cuvinte mai simple, atunci când algoritmul începe să acorde prea multă atenție micilor detalii. În învățarea automată, rezultatul este de a prezice ieșirea probabilă și, din cauza supraajustării, poate împiedica acuratețea acesteia în mare măsură. Știm că pare un lucru bun, dar nu este.

Un exemplu sever de supraajustare în învățarea automată poate fi un grafic în care toate punctele se conectează liniar. Vrem să surprindem tendința, dar graficul nu face asta.

Un model care nu poate face predicții bune, dar învață tot ce este posibil din date este inutil, deoarece duce la rezultate inexacte.

Ce să faci când observi supraajustare?

Putem rezolva această problemă prin simpla scădere a cantității de date pe care algoritmul o folosește și fără a supraîncărca sistemul. Varianta mare (suprafitting) face lucrurile mai rău decât mai bune. Unele dintre tehnicile convenționale utilizate pentru a rezolva supraajustarea sunt următoarele:

Scăderea iterațiilor

Prin reducerea numărului de repetări care se execută înainte de a se produce Suprafitting, putem împiedica să se întâmple. Puteți găsi cantitatea exactă de iterații prin metoda de încercare și eroare.

Regularizare

Constrânge estimările coeficienților, care sunt aproape de 0. Cu cuvinte mai simple, putem spune că îi spune algoritmului să folosească un model mai indulgent în loc de unul rigid. Aflați mai multe despre regularizare și despre cum să evitați supraadaptarea.

Tunderea (standard)

Cel mai simplu și cel mai comun mod de a evita supraadaptarea este tăierea. El scapă de orice noduri care adaugă puțină sau deloc putere predictivă.

Validare încrucișată în cinci ori

Utilizarea validării încrucișate este una dintre metodele mai puțin complicate de verificare a supraajustării.

Ce este Underfitting?

După cum sugerează și numele, Underfitting este atunci când modelul nu este suficient de potrivit pentru a vă oferi rezultate. Un model de date insuficient nu știe cum să vizeze suficiente obiecte de date. Cu un grad mai mic, graficul ajunge să lipsească majoritatea caracteristicilor prezente.

Cu alte cuvinte, modelul este „prea simplu” pentru a genera rezultate dacă este insuficient. Cu toate acestea, rezolvarea acestei probleme este destul de mai confortabilă și nu necesită atât de mult efort precum Overfitting a făcut anterior.

Ce să faci când observi Underfitting?

Dacă modelul dvs. este insuficient, ar trebui să îi oferiți mai multe caracteristici. Cu mai multe caracteristici, va avea un spațiu de ipoteză mai mare. Poate folosi acel spațiu pentru a genera rezultate precise. Detectarea underfitting este mai confortabilă în comparație cu Overfitting, astfel încât să nu aveți nicio problemă la identificarea acestei erori. Cu toate acestea, ar trebui să creșteți doar caracteristicile și nu toate datele în timp ce aveți de-a face cu un model subadaptat. Extinderea datelor are ca rezultat mai multe erori în acest caz.

Citiți: Idei interesante de proiecte de învățare automată

Loviți locul dulce

În învățarea automată, ați dori ca modelul dvs. de date să rămână între Underfitting și Overfitting. Nu ar trebui să acopere nici prea multe puncte de date, nici prea puține. Pe măsură ce vă veți antrena modelul în continuare, îl puteți îmbunătăți în continuare și îi puteți remedia erorile. Erorile modelului dvs. vor începe să scadă în număr cu setul de antrenament și setul de testare.

O modalitate excelentă de a atinge punctul favorabil dintre Supramontare și Underfitting este să nu mai antrenezi modelul înainte ca erorile acestuia să înceapă să crească. Este o soluție generală, pe care o poți folosi în afară de metodele pe care le-am menționat anterior în acest articol.

Concluzie

Fiecare profesionist de date se confruntă cu problema suprainstalării și subinstalării. Formarea unui model de date nu este ușoară și este nevoie de multă practică pentru a le familiariza. Cu toate acestea, cu experiență, veți începe să identificați problemele de la început și veți evita cu totul cauzele erorilor.

Este vital să fii familiarizat cu astfel de erori dacă vrei să devii un expert în învățarea automată. Dacă sunteți interesat să aflați mai multe despre învățarea automată și știința datelor, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini. , statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Pregătiți-vă pentru o carieră a viitorului

PG DIPLOMĂ ÎN ÎNVĂŢAREA MACHINĂ ŞI INTELIGENTĂ ARTIFICIALĂ

Aflați mai multe