Regresia liniară în învățarea automată: tot ce trebuie să știți

Publicat: 2020-04-28

Diferite tehnologii de învățare automată sunt folosite în mai multe domenii ale vieții noastre de zi cu zi pentru a găsi soluții la problemele de zi cu zi într-un mod care este susținut de date, analize și experiență. Acești algoritmi de învățare automată joacă un rol foarte important nu numai în identificarea textului, imaginilor și videoclipurilor, dar sunt esențiale în îmbunătățirea soluțiilor medicale, a securității cibernetice, a marketingului, a serviciilor pentru clienți și în multe alte aspecte sau domenii care ne preocupă viața obișnuită.

Există în principal două tipuri de algoritmi de învățare automată în care sunt împărțiți toți algoritmii. Aceștia sunt algoritmi de învățare automată supravegheați și nesupravegheați. Accentul nostru în acest blog va fi doar pe algoritmii de învățare automată supravegheați și mai ales pe regresia liniară. Să începem prin a înțelege algoritmii de învățare automată supravegheați.

Cuprins

Ce sunt algoritmii de învățare supravegheată?

Acești algoritmi de învățare automată sunt cei pe care îi antrenăm pentru a prezice o ieșire bine stabilită, care depinde de datele introduse de utilizator. Algoritmul antrenează modelul pentru a furniza rezultate pentru un set de date dat. La început, sistemul are acces la datele de intrare și de ieșire. Sarcina sistemului este de a defini regulile care vor mapa intrarea la ieșire.

Antrenamentul modelului continuă până când performanța este la nivelul optim. După antrenament, sistemul este capabil să atribuie obiecte de ieșire pe care nu le-a întâlnit în timp ce era antrenat. În scenariul ideal, acest proces este destul de precis și nu necesită mult timp. Există două tipuri de algoritmi de învățare supravegheată , și anume, clasificarea și regresia.

Le vom discuta pe scurt pe ambele, înainte de a trece direct la subiectul nostru principal de discuție.

1. Clasificare

Aceștia sunt algoritmi de învățare automată supravegheați care au un obiectiv simplu de a reproduce temele de clasă. Tehnica de învățare este adesea luată în considerare pentru situațiile în care este necesară separarea datelor. Separă datele în clase prin predicția răspunsurilor. De exemplu, prognoza meteo pentru o anumită zi, identificarea unui anumit tip de fotografie dintr-un album și separarea spam-ului de e-mail.

2. Regresia

Tehnica de învățare este utilizată pentru a servi obiectivului de reproducere a valorilor de ieșire. Cu alte cuvinte, este folosit în situații în care trebuie să potrivim datele la o anumită valoare. De exemplu, este adesea folosit pentru a estima prețul diferitelor articole. Regresia poate fi folosită pentru a prezice mai multe lucruri decât vă puteți imagina.

Tipuri de regresii

Regresiile logistice și liniare sunt cele mai importante două tipuri de regresie care există în lumea modernă a învățării automate și a științei datelor. Cu toate acestea, există și altele, dar sunt folosite destul de puțin. Nu se poate nega faptul că putem efectua numeroase regresii pe un anumit set de date sau folosim pentru diferite situații.

Fiecare formă de regresie are avantajele și dezavantajele sale și este potrivită pentru anumite condiții. Deși ne vom concentra doar pe agresiunea liniară, trebuie să cunoașteți fundalul complet pentru a vă familiariza cu funcționarea acesteia.

Acesta este motivul pentru care luăm discuția pas cu pas.

Ce este analiza de regresie?

Analiza regresiei nu este altceva decât o metodologie de modelare predictivă care urmărește să investigheze relația care există între variabile sau predictori independente și variabile sau ținte dependente. Această analiză este utilizată într-o serie de lucruri diferite, inclusiv modelarea seriilor temporale, prognoza și altele.

De exemplu, dacă doriți să studiați relația dintre accidentele rutiere și conducerea ocazională, nu există o tehnică mai bună decât analiza de regresie pentru acest loc de muncă. Joacă un rol foarte important atât în ​​analiza, cât și în modelarea datelor. Acest lucru se realizează prin potrivirea unei linii sau a unei curbe la diferite puncte de date, astfel încât să putem minimiza diferența dintre distanțe ale punctelor de date față de linie sau curbă.

Care este nevoie de analiza de regresie?

Analiza de regresie este folosită pentru a prezice relația dintre variabile, numai dacă acestea sunt două sau mai multe la număr. Să înțelegem cum funcționează acest lucru cu un exemplu simplu. Să presupunem că vi se încredințează o sarcină care presupune să veniți cu o estimare a creșterii vânzărilor unei companii pentru o anumită perioadă, ținând cont de condițiile economice existente.

Acum, datele companiei vă spun că vânzările au crescut de aproximativ două ori mai mult decât creșterea economiei. Putem folosi aceste date pentru a estima creșterea vânzărilor companiei în viitor, luând informații din informațiile trecute și actuale.

Utilizarea analizei de regresie vă poate oferi o serie de beneficii atunci când lucrați cu date sau faceți o predicție asupra setului de date. Poate fi folosit pentru a indica relațiile semnificative dintre variabilele independente și dependente. Este folosit pentru a indica impactul experiențelor variabile dependente din mai multe variabile independente.

Permite compararea efectelor diferitelor variabile care aparțin unor scări de măsurare diferite. Aceste lucruri ajută în mare măsură oamenii de știință, cercetătorii și analiștii de date să construiască modele predictive bazate pe cel mai potrivit set de variabile.

Citiți: Idei și subiecte pentru proiecte de învățare automată

De ce trebuie să aveți în vedere pentru a alege modelul de regresie potrivit?

Ei bine, lucrurile sunt de obicei mult mai ușoare atunci când ai doar două sau trei tehnici din care să alegi. Cu toate acestea, dacă avem atâtea opțiuni la dispoziție, atunci decizia devine mult mai copleșitoare. Acum nu puteți alege doar regresia liniară, deoarece rezultatul este continuu. Sau alegeți regresia logistică dacă rezultatul este binar. Sunt mai multe lucruri de luat în considerare atunci când alegem un model de regresie pentru problema noastră.

După cum am menționat deja, există mai multe modele de regresie disponibile, atunci ne putem descurca. Deci, ce ar trebui să ținem cont atunci când facem selecția? Există câteva lucruri care sunt importante – dimensionalitatea datelor, tipul de variabilă dependentă și independentă și alte proprietăți ale datelor în cauză. Iată câteva lucruri importante de luat în considerare atunci când alegeți modelul de regresie potrivit:

Explorarea datelor este cheia construirii modelelor predictive. Nu e de mirare că trebuie să fie printre primul lucru pe care ar trebui să-l faci înainte de a face selecția. Explorați datele pentru a identifica impactul variabil și relația.

Evaluați diferite modele de regresie pentru predicție prin validare încrucișată. Separați setul de date în grupuri de instruire și validare. Diferența medie pătratică dintre valorile prezise și cele observate va oferi o perspectivă asupra acurateței predicției.

Utilizați Ridge, ElasticNet și alte metode de regularizare a regresiei pentru a alege modelul potrivit pentru seturile de date care au variabile cu multicolinearitate și dimensionalitate ridicate.

Pentru a face o comparație între diferite modele de regresie și adecvarea lor, putem analiza parametri, cum ar fi AIC, BIC, R-pătrat, termen de eroare și alții. Mai există un criteriu, care se numește Mallow's Cp. Acesta compară modelul cu diferite submodele pentru a căuta părtinire.

Nu utilizați niciodată metoda de selecție automată a modelului dacă setul de date cu care lucrați are o serie de variabile încurcate. Dacă o faci, te-ai îndrepta către introducerea acelor variabile în model dintr-o dată.

Obiectivul dumneavoastră este, de asemenea, important pentru selectarea modelului de regresie corect. Dacă aveți nevoie de un model puternic, unul simplu sau unul semnificativ statistic, va depinde de obiectivul dvs.

Ce este regresia liniară?

Să știm mai multe despre ce este regresia liniară. Este una dintre tehnicile de învățare automată care se încadrează în învățarea supravegheată. Creșterea cererii și a utilizării tehnicilor de învățare automată se află în spatele creșterii bruște a utilizării regresiei liniare în mai multe domenii. Știați că straturile de perceptron multistrat sunt cunoscute că efectuează regresie liniară? Să aruncăm acum puțină lumină asupra ipotezelor pe care se știe că regresia liniară le face cu privire la seturile de date cărora le este aplicată.

1. Autocorelare:

Această ipoteză făcută prin regresie liniară indică o autocorelare mică sau deloc în date. Autocorelația are loc atunci când erorile reziduale sunt dependente una de cealaltă într-unul sau altul.

2. Multi-colinearitate:

Această ipoteză spune că multi-colinearitatea datelor fie nu există deloc, fie este prezentă rare. Multi-colinearitatea apare atunci când caracteristicile sau variabilele independente prezintă o anumită dependență.

3. Relație variabilă:

Modelul presupune că există o relație liniară între caracteristicile și variabilele de răspuns.

Câteva cazuri în care puteți folosi regresia liniară includ estimarea prețului unei case în funcție de numărul de camere pe care le are, determinarea cât de bine va crește o plantă în funcție de cât de des este udată și așa mai departe. Pentru toate aceste cazuri, ați avea deja o idee despre tipul de relație care există între diferite variabile.

Când utilizați analiza de regresie liniară, vă susțineți ideea sau ipoteza cu date. Când dezvoltați o mai bună înțelegere a relației dintre diferite variabile, sunteți într-o poziție mai bună de a face predicții puternice. Dacă nu știți deja, permiteți-ne să vă spunem că regresia liniară este o tehnică de învățare automată supravegheată, precum și un model statistic.

În termeni de învățare automată, modelul de regresie este mașina dvs., iar învățarea se referă la acest model care este antrenat pe un set de date, ceea ce îl ajută să învețe relația dintre variabile și îi permite să facă predicții bazate pe date.

Cum funcționează regresia liniară?

Înainte de a efectua analiza, să presupunem că avem două tipuri de echipe – cele care își îndeplinesc bine meseria și cele care nu. Există mai multe motive pentru care o echipă nu este bună în ceea ce face. Ar putea fi pentru că nu are setul de abilități potrivite sau nu are experiența necesară pentru a îndeplini anumite sarcini la locul de muncă. Dar, nu poți fi niciodată sigur despre ce este.

Putem folosi regresia liniară pentru a afla candidații care au tot ceea ce este necesar pentru a fi cei mai potriviti pentru o anumită echipă care este implicată într-o anumită linie de lucru. Acest lucru ne va ajuta în selectarea candidaților care sunt foarte probabil să fie buni la locurile lor de muncă.

Obiectivul pe care îl servește analiza de regresie este crearea unei curbe de tendință sau a unei linii adecvate pentru datele în cauză. Acest lucru ne ajută să aflăm cum un parametru (variabile independente) este legat de celălalt parametru (variabile dependente).

Înainte de orice, trebuie să aruncăm o privire mai atentă asupra tuturor atributelor diferiților candidați și să aflăm dacă acestea sunt corelate într-un fel sau altul. Dacă găsim unele corelații, putem începe să facem predicții pe baza acestor atribute.

Explorarea relațiilor în date se face folosind o curbă sau o linie de tendință și trasarea datelor. Curba sau linia ne va arăta dacă există vreo corelație. Acum putem folosi regresia liniară pentru a respinge sau accepta relații. Când relația este confirmată, putem folosi algoritmul de regresie pentru a afla relația lui. Acest lucru ne va permite să facem predicțiile corecte. Vom putea prezice mai precis dacă un candidat este potrivit pentru post sau nu.

Importanța antrenării unui model

Procesul implicat în formarea unui model de regresie liniară este similar în multe privințe cu modul în care sunt antrenate alte modele de învățare automată. Trebuie să lucrăm la un set de date de antrenament și să modelăm relația dintre variabilele sale într-un mod care să nu afecteze capacitatea modelului de a prezice noi eșantioane de date. Modelul este antrenat pentru a vă îmbunătăți în mod continuu ecuația de predicție.

Se realizează prin bucla iterativă prin setul de date dat. De fiecare dată când repeți această acțiune, actualizați simultan valoarea părtinirii și ponderii în direcția pe care o indică funcția de gradient sau de cost. Etapa de finalizare a instruirii este atinsă atunci când se atinge un prag de eroare sau când nu există nicio reducere a costului cu iterațiile de instruire care urmează.

Înainte de a începe să antrenăm modelul, există câteva lucruri pe care trebuie să le pregătim. Trebuie să setăm numărul de iterații necesare, precum și rata de învățare. În afară de aceasta, trebuie să setăm și valori implicite pentru greutățile noastre. De asemenea, înregistrați progresul pe care îl putem realiza cu fiecare repetare.

Ce este regularizarea?

Dacă vorbim despre variantele de regresie liniară care sunt preferate altora, atunci va trebui să le menționăm pe cele care au adăugată regularizare. Regularizarea presupune penalizarea acelor ponderi dintr-un model care au valori absolute mai mari decât altele.

Regularizarea se face pentru a limita supraadaptarea, ceea ce face adesea un model, deoarece reproduce prea aproape relațiile de date de antrenament. Nu permite modelului să generalizeze mostre nemaivăzute înainte, așa cum ar trebui să facă.

Când folosim regresia liniară?

Puterea regresiei liniare constă în cât de simplă este. Înseamnă că poate fi folosit pentru a găsi răspunsuri la aproape fiecare întrebare. Înainte de a utiliza un algoritm de regresie liniară, trebuie să vă asigurați că setul de date îndeplinește condițiile necesare în care funcționează.

Cea mai importantă dintre aceste condiții este existența unei relații liniare între variabilele setului dumneavoastră de date. Acest lucru le permite să fie ușor de trasat. Trebuie să vedeți diferența care există între valorile prezise și valoarea obținută în realitate sunt constante. Valorile prezise ar trebui să fie în continuare independente, iar corelația dintre predictori ar trebui să fie prea apropiată pentru confort.

Puteți pur și simplu să vă reprezentați datele de-a lungul unei linii și apoi să le studiați structura în detaliu pentru a vedea dacă setul dvs. de date îndeplinește condițiile dorite sau nu.

Utilizări de regresie liniară

Simplitatea prin care agresiunea liniară ușurează interpretările la nivel molecular este unul dintre cele mai mari avantaje ale sale. Regresia liniară poate fi aplicată tuturor acelor seturi de date în care variabilele au o relație liniară.

Companiile pot folosi algoritmul de regresie liniară pentru datele lor de vânzări. Să presupunem că sunteți o companie care intenționează să lanseze un nou produs. Dar, nu sunteți cu adevărat sigur la ce preț ar trebui să vindeți acest produs. Puteți verifica modul în care clienții dvs. răspund la produsul dvs. vânzându-l la câteva puncte de preț bine gândite. Acest lucru vă va permite să generalizați relația dintre vânzările de produse și preț. Cu regresia liniară, veți putea determina un punct de preț pe care clienții sunt mai probabil să îl accepte.

Citește și: Salariul Machine Learning în India

Regresia liniară poate fi utilizată și în diferite etape ale aprovizionării și producției unui produs. Aceste modele sunt utilizate pe scară largă în domeniile academic, științific și medical. De exemplu, fermierii pot modela un sistem care le permite să folosească condițiile de mediu în beneficiul lor. Acest lucru îi va ajuta să lucreze cu elementele astfel încât să producă daune minime asupra recoltei și profitului lor.

În plus față de acestea, poate fi folosit în asistență medicală, arheologie și muncă, printre alte domenii. este modul în care se interpretează pe un model liniar

Concluzie

Analiza de regresie este un instrument adoptat pe scară largă care utilizează matematica pentru a sorta variabilele care pot avea un impact direct sau indirect asupra datelor finale. Este important să-l țineți cont în timp ce analiza este în joc! Regresia liniară este unul dintre cei mai obișnuiți algoritmi utilizați de oamenii de știință pentru a stabili relații liniare între variabilele setului de date, iar modelul său matematic este necesar pentru analiza predictivă.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Regresia liniară are limitări sau demerite?

Regresia liniară este o metodă populară folosită pentru a înțelege relația dintre o variabilă dependentă și una sau mai multe variabile independente. Chiar dacă modelul de regresie liniară este utilizat pe scară largă pentru a dezvolta modele de învățare automată, acesta are anumite limitări. De exemplu, acest algoritm de regresie presupune că toate relațiile dintre variabile sunt liniare, ceea ce poate induce adesea în eroare. Apoi, ia în considerare întotdeauna valoarea medie a variabilei dependente în timp ce examinează relațiile acesteia cu variabilele independente. În continuare, regresia liniară presupune întotdeauna că datele se exclud reciproc, adică independente de valorile altora, ceea ce poate fi incorect. În plus, regresia liniară este în general sensibilă la valori aberante sau la date neașteptate.

Care sunt motivele pentru popularitatea analizei de regresie?

Analiza regresiei este una dintre cele mai utile și puternice tehnici statistice utilizate în învățarea automată. Există diverse motive care explică popularitatea sa. În primul rând, analiza de regresie vine cu o gamă largă de aplicații datorită versatilității sale extraordinare. Modelul de analiză de regresie este foarte simplu de implementat și interpretat, adică puteți explica cu ușurință cum funcționează și interpreta rezultatele. Înțelegerea analizei de regresie oferă o stăpânire solidă asupra modelelor statistice de învățare automată. De asemenea, vă ajută să dezvoltați modele de învățare automată mai eficiente folosind limbaje de programare precum R și Python. Mai mult, această tehnică oferă o integrabilitate excelentă cu rețelele neuronale artificiale pentru a face predicții utile.

Cum pot companiile să aplice regresia liniară în avantajul lor?

Companiile pot folosi regresia liniară pentru a examina și a genera date utile asupra comportamentului consumatorilor care afectează profitabilitatea. De asemenea, poate ajuta companiile să facă estimări și să evalueze tendințele pieței. Specialiştii în marketing pot folosi regresia liniară pentru a evalua eficienţa strategiilor lor de marketing care implică promoţii şi stabilirea preţurilor produselor. Companiile financiare și de asigurări pot evalua în mod eficient riscurile și pot formula decizii de afaceri critice. Companiile de carduri de credit pot urmări să-și minimizeze portofoliul de risc cu cei care ne plătesc plăți folosind modele de regresie liniară.