Bagare vs Boosting în Machine Learning: Diferența dintre Bagare și Boosting

Publicat: 2020-11-12

Datorită proliferării aplicațiilor de învățare automată și a creșterii puterii de calcul, oamenii de știință în date au implementat în mod inerent algoritmi pentru seturile de date. Cheia pentru care este implementat un algoritm este modul în care sunt produse părtinirea și varianța. Modelele cu părtinire scăzută sunt în general preferate.

Organizațiile folosesc tehnici de învățare automată supravegheată, cum ar fi arbori de decizie, pentru a lua decizii mai bune și pentru a genera mai multe profituri. Arborii de decizie diferiți, atunci când sunt combinați, formează metode de ansamblu și oferă rezultate predictive.

Scopul principal al utilizării unui model de ansamblu este de a grupa un set de elevi slabi și de a forma un elev puternic. Modul în care se face este definit în cele două tehnici: Bagging și Boosting care funcționează diferit și sunt folosite interschimbabil pentru a obține rezultate mai bune, cu precizie și acuratețe ridicate și mai puține erori. Cu metodele de ansamblu, mai multe modele sunt reunite pentru a produce un model puternic.

Această postare pe blog va introduce diverse concepte de învățare prin ansamblu. În primul rând, înțelegerea metodei ansamblului va deschide căi către metodele legate de învățare și proiectarea de soluții adaptate. În continuare, vom discuta despre conceptele extinse de Bagare și Boosting pentru a avea o idee clară pentru cititori despre modul în care aceste două metode diferă, aplicațiile lor de bază și rezultatele predictive obținute din ambele.

Alăturați-vă cursurilor online de învățare automată de la cele mai bune universități din lume – masterat, programe executive postuniversitare și program de certificat avansat în ML și AI pentru a vă accelera cariera.

Cuprins

Ce este o metodă de ansamblu?

Ansamblul este o metodă utilizată în algoritmul de învățare automată. În această metodă, mai multe modele sau „învățători slabi” sunt instruiți pentru a remedia aceeași problemă și integrate pentru a obține rezultatele dorite. Modelele slabe combinate oferă pe bună dreptate modele precise.

În primul rând, modelele de bază sunt necesare pentru a configura o metodă de învățare de ansamblu care va fi grupată ulterior. În algoritmii Bagging și Boosting, este utilizat un singur algoritm de învățare de bază. Motivul din spatele acestui lucru este că vom avea la îndemână cursanți omogene și slabi, care vor fi instruiți în moduri diferite.

Modelul de ansamblu realizat astfel se va numi în cele din urmă un model omogen. Dar povestea nu se termină aici. Există câteva metode în care diferite tipuri de algoritmi de învățare de bază sunt, de asemenea, implicate, cu elevii slabi eterogene care creează un „model de ansamblu eterogen”. Dar în acest blog ne vom ocupa doar de fostul model de ansamblu și vom discuta cele mai populare două metode de ansamblu.

Bagajul este un model omogen de elevi slabi care învață unul de la celălalt în mod independent în paralel și le combină pentru a determina media modelului.
Boostingul este, de asemenea, un model omogen de elevi slabi, dar funcționează diferit de Bagging. În acest model, cursanții învață secvențial și adaptiv pentru a îmbunătăți predicțiile model ale unui algoritm de învățare.

Asta a fost Bagging and Boosting dintr-o privire. Să le privim pe ambele în detaliu. Unii dintre factorii care cauzează erori în învățare sunt zgomotul, părtinirea și variația. Metoda ansamblului este aplicată pentru a reduce acești factori rezultând stabilitatea și acuratețea rezultatului.

Citește și: Idei de proiecte de învățare automată

Ambalare

Bagging este un acronim pentru „Bootstrap Aggregation” și este folosit pentru a reduce varianța în modelul de predicție. Bagarea este o metodă paralelă care se potrivește diferiților, considerați învațători independent unul de celălalt, făcând posibilă antrenamentul simultan.

Bagajul generează date suplimentare pentru antrenament din setul de date. Acest lucru se realizează prin eșantionare aleatorie cu înlocuire din setul de date original. Eșantionarea cu înlocuire poate repeta unele observații în fiecare nou set de date de antrenament. Fiecare element din Bagging este la fel de probabil să apară într-un nou set de date.

Aceste seturi de date multiple sunt folosite pentru a antrena mai multe modele în paralel. Se calculează media tuturor predicțiilor din diferite modele de ansamblu. Votul majoritar obținut din mecanismul de vot este luat în considerare atunci când se face clasificarea. Bagarea scade varianța și adaptează predicția la un rezultat așteptat.

Exemplu de ambalare:

Modelul Random Forest utilizează Bagging, unde sunt prezente modele de arbore de decizie cu varianță mai mare. Face selecția aleatorie a caracteristicilor pentru a crește copacii. Mai mulți copaci aleatoriu formează o pădure aleatorie.

Amplificare

Amplificarea este o metodă de ansamblu secvenţial care ajustează în mod iterativ ponderea observaţiei conform ultimei clasificări. Dacă o observație este clasificată incorect, aceasta crește ponderea acelei observații. Termenul „Boosting” într-un limbaj profan se referă la algoritmi care convertesc un cursant slab într-unul mai puternic. Reduce eroarea de părtinire și construiește modele predictive puternice.

Punctele de date estimate greșit în fiecare iterație sunt identificate, iar ponderile lor sunt crescute. Algoritmul Boosting alocă ponderi fiecărui model rezultat în timpul antrenamentului. Un cursant cu rezultate bune de predicție a datelor de antrenament i se va atribui o pondere mai mare. Atunci când evaluează un nou cursant, Boosting ține evidența erorilor cursantului.

Exemplu de stimulare:

AdaBoost folosește tehnici de Boosting, în care este necesară o eroare cu 50% mai mică pentru a menține modelul. Aici, Boosting poate păstra sau elimina un singur cursant. În caz contrar, iterația se repetă până la obținerea unui elev mai bun.

Asemănări și diferențe între ambalare și stimulare

Ambele și Boosting, ambele fiind metode populare, au o asemănare universală de a fi clasificate ca metode de ansamblu. Aici vom evidenția mai multe asemănări între ele, urmate de diferențele pe care le au unul față de celălalt. Să începem mai întâi cu asemănările, deoarece înțelegerea acestora va ușura înțelegerea diferențelor.

Însăcire și creștere: asemănări

Bagging și Boosting sunt metode de ansamblu concentrate pe obținerea a N cursanți de la un singur cursant.
Bagging și Boosting fac eșantionare aleatorie și generează mai multe seturi de date de antrenament
Bagging și Boosting ajung la decizia finală făcând o medie de N cursanți sau luând rangul de vot acordat de majoritatea dintre ei.
Bagarea și Boostingul reduc variația și oferă o stabilitate mai mare cu minimizarea erorilor.

Citiți: Modelele de învățare automată explicate

Însăcirea și creșterea: diferențe

După cum am spus deja,

Bagarea este o metodă de îmbinare a aceluiași tip de predicții. Boosting-ul este o metodă de îmbinare a diferitelor tipuri de predicții.

Bagarea în pungă scade varianța, nu părtinirea și rezolvă problemele de supraadaptare într-un model. Boostingul scade părtinirea, nu varianța.

În Bagging, fiecare model primește o greutate egală. În Boosting, modelele sunt cântărite în funcție de performanța lor.

Modelele sunt construite independent în Bagging. Modelele noi sunt afectate de performanța unui model construit anterior în Boosting.

În Bagging, subseturile de date de antrenament sunt desenate aleatoriu cu un înlocuitor pentru setul de date de antrenament. În Boosting, fiecare subset nou cuprinde elementele care au fost clasificate greșit de modelele anterioare.

Bagajul se aplică de obicei acolo unde clasificatorul este instabil și are o variație mare. Boostingul este de obicei aplicat acolo unde clasificatorul este stabil și simplu și are părtinire mare.

Punerea în pungă și amplificarea: un rezumat concludent

Acum, că am descris în detaliu conceptele de Bagare și Boosting, am ajuns la sfârșitul articolului și putem concluziona că ambele sunt la fel de importante în Data Science și unde să fie aplicate într-un model depinde de seturile de date date, lor. simulare și circumstanțele date. Astfel, pe de o parte, într-un model de pădure aleatorie, se folosește Bagging, iar modelul AdaBoost implică algoritmul Boosting.

Performanța unui model de învățare automată este calculată prin compararea preciziei sale de antrenament cu acuratețea validării, care este obținută prin împărțirea datelor în două seturi: setul de antrenament și setul de validare. Setul de antrenament este folosit pentru a antrena modelul, iar setul de validare este utilizat pentru evaluare.

Puteți verifica programul Executive PG al IIT Delhi în învățarea automată în asociere cu upGrad . IIT Delhi este una dintre cele mai prestigioase instituții din India. Cu mai mult de 500 de membri ai facultății interne, care sunt cei mai buni în materie.

De ce este mai bine împachetarea în sac decât stimularea?

Din setul de date, bagajul creează date suplimentare pentru antrenament. Eșantionarea aleatoare și înlocuirea din setul de date inițial sunt utilizate pentru a realiza acest lucru. În fiecare nou set de date de antrenament, eșantionarea cu înlocuire poate repeta anumite observații. Fiecare element Bagging are aceeași șansă de a apărea într-un set de date proaspăt. Mai multe modele sunt antrenate în paralel folosind aceste seturi de date multiple. Este media tuturor prognozelor din mai multe modele de ansamblu. La stabilirea încadrării se ia în considerare votul majoritar obținut prin procesul de vot. Bagarea în sac reduce variația și ajustează predicția la rezultatul dorit.

Cum sunt principalele diferențe de îmbogățire și amplificare?

Bagarea este o tehnică de reducere a variației de predicție prin producerea de date suplimentare pentru antrenament dintr-un set de date prin combinarea repetărilor cu combinații pentru a crea mai multe seturi de date originale. Boosting-ul este o strategie iterativă pentru ajustarea ponderii unei observații pe baza clasificării anterioare. Încearcă să mărească greutatea unei observații dacă aceasta a fost clasificată în mod eronat. Boostingul creează modele predictive bune în general.

Care sunt asemănările dintre ambalare și boosting?

Bagarea și stimularea sunt strategii de ansamblu care urmăresc să producă N cursanți dintr-un singur cursant. Ei eșantionează la întâmplare și creează multe seturi de date de antrenament. Ei ajung la decizia lor finală făcând o medie a voturilor a N cursanților sau selectând rangul de vot al majorității acestora. Acestea reduc varianța și cresc stabilitatea, reducând în același timp erorile.