Regularizarea în învățarea automată: Cum să evitați supraadaptarea?
Publicat: 2020-02-17Învățarea automată implică echiparea computerelor pentru a îndeplini sarcini specifice fără instrucțiuni explicite. Deci, sistemele sunt programate să învețe și să se îmbunătățească din experiență automat. Oamenii de știință de date folosesc de obicei regularizarea în învățarea automată pentru a-și ajusta modelele în procesul de instruire. Să înțelegem acest concept în detaliu.
Cuprins
Regularizarea Dodges Suprafitting
Regularizarea în învățarea automată vă permite să evitați supraadaptarea modelului dvs. de antrenament. Supraadaptarea are loc atunci când modelul dvs. captează datele arbitrare din setul de date de antrenament. Astfel de puncte de date care nu au proprietățile datelor dvs. fac modelul dvs. „zgomotos”. Acest zgomot poate face modelul dvs. mai flexibil, dar poate pune provocări de precizie scăzută.
Luați în considerare o sală de clasă de 10 elevi cu un număr egal de fete și băieți. Nota generală a clasei la examenul anual este 70. Scorul mediu al elevilor este de 60, iar cel al studenților de sex masculin este de 80. Pe baza acestor scoruri trecute, dorim să prezicem scorurile viitoare ale elevilor. Predicțiile pot fi făcute în următoarele moduri:
- Under Fit: întreaga clasă va nota 70 de puncte
- Potrivire optimă: acesta ar putea fi un model simplist care prezice scorul fetelor la 60 și al băieților la 80 (la fel ca data trecută)
- Supra potrivire: acest model poate folosi un atribut care nu are legătură, să spunem numărul rolului, pentru a prezice că elevii vor obține exact aceleași note ca anul trecut
Regularizarea este o formă de regresie care ajustează funcția de eroare prin adăugarea unui alt termen de penalizare. Acest termen suplimentar împiedică coeficienții să ia valori extreme, echilibrând astfel funcția excesiv de fluctuantă.
Orice expert în învățarea automată s-ar strădui să își facă modelele precise și fără erori. Iar cheia atingerii acestui obiectiv constă în stăpânirea compromisului dintre părtinire și varianță. Citiți mai departe pentru a obține o imagine clară a ceea ce înseamnă acest lucru.
Echilibrarea părtinirii și a variației
Eroarea de test așteptată poate fi minimizată prin găsirea unei metode care realizează echilibrul corect de „varianță-prejudecata”. Cu alte cuvinte, metoda de învățare statistică aleasă de dvs. ar trebui să optimizeze modelul realizând simultan o varianță scăzută și o părtinire scăzută. Un model cu varianță mare este supraadaptat, iar părtinirea mare are ca rezultat un model insuficient.

Validarea încrucișată oferă un alt mijloc de a evita supraadaptarea. Acesta verifică dacă modelul dvs. preia modelele corecte din setul de date și estimează eroarea peste setul dvs. de testare. Deci, această metodă validează practic stabilitatea modelului dvs. În plus, decide parametrii care funcționează cel mai bine pentru modelul dvs.
Creșterea interpretabilității modelului
Obiectivul nu este doar de a obține o eroare zero pentru setul de antrenament, ci și de a prezice valori țintă corecte din setul de date de testare. Deci, avem nevoie de o funcție „reglată” care să reducă complexitatea acestui proces.
Explicarea regularizării în Machine Learning
Regularizarea este o formă de regresie constrânsă care funcționează prin micșorarea estimărilor coeficientului la zero. În acest fel, limitează capacitatea modelelor de a învăța din zgomot.
Să ne uităm la această ecuație de regresie liniară:
Y= β0+β1X1+β2X2+…..+βpXp
Aici, β denotă estimările coeficientului pentru diferiți predictori reprezentați de (X). Și Y este relația învățată.
Deoarece această funcție în sine poate întâmpina erori, vom adăuga o funcție de eroare pentru a regulariza estimările învățate. Dorim să minimizăm eroarea în acest caz, astfel încât să o putem numi și o funcție de pierdere. Iată cum arată această funcție de pierdere sau Suma de pătrate reziduală (RSS):
Prin urmare, oamenii de știință din date folosesc regularizarea pentru a ajusta funcția de predicție. Tehnicile de regularizare sunt cunoscute și sub denumirea de metode de contracție sau scădere a greutății. Să înțelegem câteva dintre ele în detaliu.
Regularizarea crestei
În Regresia Ridge, funcția de pierdere este modificată cu o mărime de contracție corespunzătoare însumării valorilor pătrate ale lui β. Iar valoarea lui λ decide cât de mult ar fi penalizat modelul.
Estimările coeficienților în regresia Ridge se numesc norma L2. Această tehnică de regularizare va veni în ajutor atunci când variabilele independente din datele dumneavoastră sunt foarte corelate.
Regularizare lazo
În tehnica Lasso, la funcția de eroare se adaugă o penalizare egală cu suma valorilor absolute ale lui β (modulul lui β). Este înmulțit în continuare cu parametrul λ care controlează puterea penalizării. Doar coeficienții mari sunt penalizați în această metodă.

Estimările coeficienților produse de Lasso sunt denumite norma L1. Această metodă este deosebit de benefică atunci când există un număr mic de observații cu un număr mare de caracteristici.
Pentru a simplifica abordările de mai sus, luați în considerare o constantă, s, care există pentru fiecare valoare a lui λ. Acum, în regularizarea L2, rezolvăm o ecuație în care suma pătratelor coeficienților este mai mică sau egală cu s. În timp ce în regularizarea L1, suma modulului coeficienților ar trebui să fie mai mică sau egală cu s.
Citiți: Învățare automată vs rețele neuronale
Ambele metode menționate mai sus urmăresc să se asigure că modelul de regresie nu consumă atribute inutile. Din acest motiv, Ridge Regression și Lasso sunt cunoscute și ca funcții de constrângere.
RSS și predictori ai funcțiilor de constrângere
Cu ajutorul explicațiilor anterioare, funcțiile de pierdere (RSS) pentru Ridge Regression și Lasso pot fi date prin β1² + β2² ≤ s și |β1| + |β2| ≤ s, respectiv. β1² + β2² ≤ s ar forma un cerc, iar RSS ar fi cel mai mic pentru toate punctele care se află în el. În ceea ce privește funcția Lasso, RSS ar fi cel mai scăzut pentru toate punctele care se află în diamantul dat de |β1| + |β2| ≤ s.
Regresia Ridge micșorează estimările coeficientului pentru variabilele predictoare cele mai puțin esențiale, dar nu le elimină. Prin urmare, modelul final poate conține toți predictorii din cauza estimărilor diferite de zero. Pe de altă parte, Lasso poate forța ca unii coeficienți să fie exact zero, mai ales când λ este mare.

Citiți: Biblioteci Python pentru învățarea automată
Cum regularizarea realizează un echilibru
Există o oarecare variație asociată cu un model standard de cel mai mic pătrat. Tehnicile de regularizare reduc varianța modelului fără a crește semnificativ părtinirea la pătrat. Iar valoarea parametrului de reglare, λ, orchestrează acest echilibru fără a elimina proprietățile critice ale datelor. Penalizarea nu are efect atunci când valoarea lui λ este zero, ceea ce este cazul unei regresii obișnuite cu cele mai mici pătrate.
Varianta scade doar pe măsură ce valoarea lui λ crește. Dar acest lucru se întâmplă doar până la un anumit punct, după care părtinirea poate începe să crească. Prin urmare, selectarea valorii acestui factor de contracție este unul dintre cei mai critici pași în regularizare.
Concluzie
În acest articol, am aflat despre regularizarea în învățarea automată și despre avantajele acesteia și am explorat metode precum regresia ridge și lasso. În cele din urmă, am înțeles cum tehnicile de regularizare ajută la îmbunătățirea acurateței modelelor de regresie. Dacă tocmai ați început regularizarea, aceste resurse vă vor clarifica elementele de bază și vă vor încuraja să faceți primul pas!
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Care sunt opțiunile dvs. de muncă după ce ați învățat Machine Learning?
Învățarea automată este una dintre cele mai recente și mai promițătoare căi de carieră în domeniul tehnologiei. Pe măsură ce învățarea automată continuă să avanseze și să se extindă, deschide noi oportunități de angajare pentru persoanele care aspiră să-și facă o carieră în acest domeniu al tehnologiei. Studenții și profesioniștii care doresc să lucreze ca ingineri de învățare automată pot aștepta cu nerăbdare experiențe de învățare pline de satisfacții și palpitante și, desigur, se pot aștepta să obțină locuri de muncă cu organizații de top care plătesc bine. Pornind de la oamenii de știință de date și inginerii de învățare automată până la lingviști computaționali și designeri de învățare automată centrați pe om și nu numai, există multe posturi interesante pe care le puteți ocupa în funcție de abilitățile și experiența dvs.
Cât salariu are un inginer de învățare automată pe an?
În India, salariul mediu câștigat de un inginer de învățare automată de nivel junior poate varia între aproximativ 6 INR și 8,2 lakhs pe an. Dar pentru profesioniștii cu experiență de lucru de nivel mediu, compensația poate varia în medie între 13 și 15 lakh INR sau chiar mai mult. Acum, venitul mediu anual al inginerilor de învățare automată va depinde de o multitudine de factori, cum ar fi experiența de lucru relevantă, setul de abilități, experiența generală de lucru, certificările și chiar locația, printre altele. Profesioniștii seniori în învățarea automată pot câștiga aproximativ 1 crore INR pe an.
Care este setul de abilități necesare pentru învățarea automată?
O înțelegere de bază și un anumit nivel de confort în anumite subiecte sunt benefice dacă aspirați să vă construiți o carieră de succes în învățarea automată. În primul rând, trebuie să înțelegeți probabilitatea și statisticile. Crearea modelelor de învățare automată și estimarea rezultatelor necesită cunoștințe despre statistici și probabilități. În continuare, ar trebui să fiți familiarizat cu limbaje de programare precum Python și R, care sunt utilizate pe scară largă în învățarea automată. Unele cunoștințe despre modelarea datelor pentru analiza datelor și abilități puternice de proiectare software sunt, de asemenea, necesare pentru a învăța învățarea automată.