Regresia în data mining: diferite tipuri de tehnici de regresie [2022]

Publicat: 2021-01-01

Învățarea supravegheată este o învățare în care antrenați algoritmul de învățare automată folosind date care sunt deja etichetate. Aceasta înseamnă că răspunsul corect este deja cunoscut pentru toate datele de antrenament. După antrenament, acesta este furnizat cu un nou set de date necunoscute pe care algoritmul de învățare supravegheat le analizează și apoi produce un rezultat corect pe baza datelor de antrenament etichetate.

Învățarea nesupravegheată este locul în care algoritmul este antrenat folosind informații, pentru care nu se cunoaște eticheta corectă. Aici, mașina trebuie să grupeze informații în funcție de diferitele modele sau orice corelații fără a fi instruit în prealabil cu privire la date.

Regresia este o formă de tehnică de învățare automată supravegheată care încearcă să prezică orice atribut evaluat continuu. Acesta analizează relația dintre o variabilă țintă (dependentă) și variabila predictor (independentă). Regresia este un instrument important pentru analiza datelor care poate fi utilizat pentru modelarea seriilor temporale, prognoză și altele.

Regresia implică procesul de ajustare a unei curbe sau a unei linii drepte pe diferite puncte de date. Se face în așa fel încât distanțele dintre curbă și punctele de date să iasă la minim.

Deși regresiile liniare și logistice sunt cele mai populare tipuri, există multe alte tipuri de regresie care pot fi aplicate în funcție de performanța lor pe un anumit set de date. Aceste tipuri diferite variază din cauza numărului și tipului tuturor variabilelor dependente și, de asemenea, în funcție de tipul de curbă de regresie formată.

Verificați: Diferența dintre Data Science și Data Mining

Cuprins

Regresie liniara

Regresia liniară formează o relație între variabila țintă (dependentă) și una sau mai multe variabile independente folosind o linie dreaptă de cea mai bună potrivire.

Este reprezentat de ecuația:

Y = a + b*X + e ,

unde a este interceptul, b este panta dreptei de regresie și e este eroarea. X și Y sunt variabilele predictoare și, respectiv, țintă. Când X este alcătuit din mai multe variabile (sau caracteristici), se numește regresie liniară multiplă.

Linia cea mai potrivită este obținută folosind metoda celor mai mici pătrate. Această metodă minimizează suma pătratelor abaterilor de la fiecare dintre punctele de date la linia de regresie. Distanțele negative și pozitive nu sunt anulate aici, deoarece toate abaterile sunt la pătrat.

Regresia polinomială

În regresia polinomială, puterea variabilei independente este mai mare decât 1 în ecuația de regresie. Mai jos este un exemplu:

Y = a + b*X^2

În această regresie specială, linia de cea mai bună potrivire nu este o linie dreaptă ca în Regresia liniară. Cu toate acestea, este o curbă care se potrivește tuturor punctelor de date.

Implementarea regresiei polinomiale poate duce la supra-adaptare atunci când sunteți tentat să vă reduceți erorile făcând curba mai complexă. Prin urmare, încercați întotdeauna să potriviți curba generalizându-l la problemă.

Regresie logistică

Regresia logistică este utilizată atunci când variabila dependentă este de natură binară (adevărat sau fals, 0 sau 1, succes sau eșec). Aici valoarea țintă (Y) variază de la 0 la 1 și este folosită în mod obișnuit pentru probleme de tip de clasificare. Regresia logistică nu necesită ca variabilele dependente și independente să aibă o relație liniară, așa cum este cazul în regresia liniară.

Citiți : Idei de proiecte de exploatare a datelor

Regresia crestei

Regresia Ridge este o tehnică folosită pentru a analiza datele regresiei multiple care au problema multicoliniarității. Multicolinearitatea este existența unei corelații aproape liniare între oricare două variabile independente.

Apare atunci când estimările celor mai mici pătrate au o părtinire scăzută, dar au varianță mare, deci sunt foarte diferite de valoarea adevărată. Astfel, prin adăugarea unui grad de părtinire la valoarea estimată a regresiei, erorile standard sunt mult reduse prin implementarea regresiei de creste.

Regresia Lasso

A S S O Termenul „LASSO” înseamnă Operator Selecție A Este un tip de regresie liniară care folosește contracția . În aceasta, toate punctele de date sunt coborâte (sau micșorate) către un punct central, numit și medie. Procedura lasso este cea mai potrivită pentru modelele simple și rare, care au comparativ mai puțini parametri. Acest tip de regresie este, de asemenea, potrivit pentru modelele care suferă de multicoliniaritate (la fel ca o creastă).

Obțineți certificare în știința datelor de la cele mai bune universități din lume. Alăturați-vă programelor noastre Executive PG, Programelor de certificate avansate sau Programelor de master pentru a vă accelera cariera.

Concluzie

Analiza de regresie vă permite practic să comparați efectele diferitelor tipuri de variabile caracteristice măsurate pe o gamă largă de scale. Cum ar fi predicția prețurilor caselor în funcție de suprafața totală, localitate, vârstă, mobilier etc. Aceste rezultate beneficiază în mare măsură cercetătorii de piață sau analiștii de date pentru a elimina orice caracteristici inutile și pentru a evalua cel mai bun set de caracteristici pentru a construi modele predictive precise.

Dacă sunteți curios să aflați despre știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Ce este regresia liniară?

Regresia liniară stabilește relația dintre variabila țintă sau variabila dependentă și una sau mai multe variabile independente. Când avem mai mult de un predictor în ecuația noastră, acesta devine regresie multiplă.

Metoda celor mai mici pătrate este considerată a fi cea mai bună metodă pentru a obține cea mai bună potrivire, deoarece această metodă minimizează suma pătratelor abaterilor de la fiecare dintre punctele de date la linia de regresie.

Ce sunt tehnicile de regresie și de ce sunt necesare?

Acestea sunt tehnicile de estimare sau predicție a relațiilor dintre variabile. Relația se găsește între două variabile, una este țintă și cealaltă este variabila predictor (cunoscută și ca variabile x și y).

Pentru a identifica această relație, pot fi utilizate diferite tehnici, cum ar fi liniară, logistică, în trepte, polinomială, lasso și creasta. Acest lucru se face pentru a genera prognoze folosind colecții de date și pentru a reprezenta grafice între ele.

Cum diferă tehnica regresiei liniare de tehnica regresiei logistice?

Diferența dintre ambele tehnici de regresie constă în tipul variabilei dependente. Dacă variabila dependentă este continuă, atunci se utilizează regresia liniară, în timp ce dacă variabila dependentă este categorială, atunci se utilizează regresia logistică.

După cum sugerează și numele, o linie liniară sau dreaptă este identificată în tehnica liniară. În timp ce, în tehnica logistică, o curbă S este identificată ca variabilă independentă fiind un polinom. Rezultatele în cazul liniarului sunt continue, în timp ce, în cazul tehnicii logistice, rezultatele pot fi în categorii precum Adevărat sau Fals, 0 sau 1 etc.