Model de regresie liniară: ce este și cum funcționează?
Publicat: 2020-12-16Cuprins
Introducere
Analiza regresiei este un instrument important pentru modelarea și analiza datelor; este esenţial să se găsească relaţia dintre două sau mai multe variabile. Regresia ajută la plasarea punctelor de date într-o curbă care ajută la modelarea și analiza datelor. Regresia permite măsurarea și caracterizarea variabilelor pe diferite scale pentru evaluarea modelelor predictive și a seturilor de date.
Trebuie citit: Idei de proiecte de regresie liniară
Model de regresie
Modelul implică valorile coeficientului care sunt utilizate în reprezentarea datelor. Include proprietățile statistice care sunt utilizate pentru estimarea acelor coeficienți; este o amalgamare a tuturor abaterilor standard, covarianțele și corelațiile. Toate datele trebuie să fie disponibile.
Modelul de regresie este o condiție liniară care consolidează un anumit aranjament de valori informative (x) răspunsul pentru care este rezultatul anticipat pentru acel set de valori informaționale (y). Atât valorile informațiilor (x) cât și rezultatul sunt numerice.
Ecuația liniară alocă un factor de scară fiecărei valori sau segmente informaționale, numit coeficient și notat cu litera greacă mare Beta (B). De asemenea, se adaugă un coeficient suplimentar, oferind liniei un nivel suplimentar de oportunitate (de exemplu, trecerea peste tot pe o diagramă bidimensională) și acesta este adesea numit coeficient de captare sau de înclinare.
De exemplu, într-o regresie de bază (un x simplu și un y simplu), tipul modelului ar fi:

y = B0 + B1*x
În măsurătorile superioare, când avem mai multe informații (x), linia este cunoscută ca plan sau hiperplan. Reprezentarea de-a lungul acestor linii este tipul stării și calitățile particulare utilizate pentru coeficienți (de exemplu B0 și B1 în modelul de mai sus).
Nu este neașteptat să discutăm despre natura multifațetă a unui model de recidivă, cum ar fi regresia. Aceasta face aluzie la numărul de coeficienți utilizați în model.
În momentul în care un coeficient devine zero, acesta elimină în mod adecvat impactul variabilei informaționale asupra modelului și, ulterior, din prognoza produsă folosind modelul (0 * x = 0). Acest lucru este pertinent în cazul în care aruncați o privire asupra tehnicilor de regularizare care schimbă calculul învățării pentru a reduce natura multifațetă a modelelor de recidivă prin stoarcerea dimensiunii supreme a coeficienților, conducând unii la zero.
Regresia este cel mai bine reprezentată cu o linie dreaptă în care una sau mai multe variabile sunt folosite pentru a stabili o relație.
Logica din spatele modelului:
Deoarece modelul de regresie folosește ecuația y=mx+c
Unde y= variabilă independentă
m= pantă
c= interceptarea unei linii date
Pentru a calcula mai multe variabile independente, modelele de regresie multiple ar fi puse în aplicare. Iată procesul pentru crearea unui model funcțional perfect
- Importați biblioteci - Există parametri esențiali care gravitează în jurul implementării modelelor de învățare automată. Prima bibliotecă ar trebui să includă sklearn, deoarece este biblioteca oficială de învățare automată în python. Numpy este folosit pentru a converti datele în matrice și pentru a accesa fișierele pentru setul de date, Pandas sunt implementate.
- Încărcați setul de date relativ - Se realizează cu ajutorul unei variabile Panda importate anterior.
- Împărțiți variabilele - Specificați și definiți numărul de variabile independente sau variabile dependente care sunt necesare pentru elementele matricei.
- Împărțirea datelor de testare și antrenament - Întregul set de date este împărțit în domenii de instruire și testare pentru a permite și a facilita valorile aleatorii luate din setul de date.
- Alegeți modelul potrivit - Alegerea potrivită ar necesita un proces de încercare și eroare în care același set de date ar fi implicat cu alte modele.
- Predicție de ieșire - Modelul ar rula pe variabila dependentă susținută de valorile de testare din variabila independentă, metodele încorporate pentru aceste modele fac calculul calitativ pentru fiecare valoare prezentată.
Aceasta inițiază implementarea modelului de regresie liniară. Funcțiile de predictor liniar sunt implementate pentru modelarea relațiilor, așa cum sa menționat mai devreme. Media condiționată a răspunsului oferă modelului predictorii necesari pentru a muta media condiționată a răspunsului.

Scopul unei astfel de predicții și prognoze este de a acomoda variabile suplimentare fără a adăuga o valoare de răspuns însoțitoare; modelul adaptat ar fi implementat pentru a face predicția necesară pentru acel răspuns.
Modelele de regresie liniară sunt utilizate cel mai preferabil cu abordarea celor mai mici pătrate, unde implementarea ar putea necesita alte modalități prin minimizarea abaterilor și a funcțiilor de cost, de exemplu. Modelele liniare generale includ o variabilă de răspuns care este de natură vectorială și nu direct scalară. Linearitatea condiționată este încă presupusă pozitivă în procesul de modelare. Ele variază pe o scară mare, dar sunt descrise mai bine ca distribuție anormală, care este legată de distribuția log-normală.

Citiți: Tipuri de modele de regresie în învățarea automată
Avertizări
Având în vedere că cele două variabile sunt legate, acest lucru nu exclude caracteristica pe care una o provoacă pe cealaltă.
Dacă se încearcă o ecuație de regresie liniară pentru un set de date și funcționează, nu înseamnă neapărat că ecuația se potrivește perfect, ar putea exista și alte iterații cu o perspectivă similară. Pentru a vă asigura că tehnica este autentică, încercați să trasați o linie cu punctele de date pentru a găsi liniaritatea ecuației.
A sumariza
Este dovedit că metoda regresiei liniare oferă o metodă mult mai bună, puternică și statistică, care permite creșterea șanselor și găsirea predictibilității evenimentelor și a relațiilor dintre două sau mai multe variabile de interes în materie.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Menționați câteva probleme cu care se poate confrunta în timpul utilizării unui model de regresie liniară.
Regresia liniară ajută la prezicerea relației dintre media variabilei dependente și factorii independenți. Acest lucru devine problematic, deoarece uneori singura modalitate de a rezolva o problemă este să se uite la valoarea extremă a variabilei dependente. Regresia cuantilă, pe de altă parte, poate fi folosită pentru a rezolva această problemă. În plus, regresia liniară presupune că datele prezentate sunt independente, ceea ce este incorect în cazul problemelor de grupare.
Ce este un coeficient de corelație liniară în regresie?
Coeficientul de corelație este doar un aspect al analizei relației dintre variabile în regresia liniară simplă. De fapt, este una dintre cele mai puternice și utilizate metode statistice de analiză. Coeficientul de corelație produs-moment Pearson, care este practic o statistică care ne informează cât de strâns sunt conectate două variabile, este cel mai frecvent utilizat coeficient de corelație. Coeficientul de corelație liniară evaluează puterea asocierii liniare dintre două variabile. O conexiune liniară perfectă este aceea în care o modificare a unei variabile determină o schimbare identică a unității în cealaltă variabilă.
Cum este utilă analiza de regresie în orice afacere?
Analiza regresiei ajută o organizație să înțeleagă ce reprezintă punctele sale de date și să le aplice abordări analitice de afaceri pentru a lua decizii mai bune. Acest instrument statistic sofisticat este folosit de analiștii de afaceri și de profesioniștii în date pentru a elimina variabilele inutile și pentru a le alege pe cele mai relevante. Organizațiile folosesc luarea deciziilor bazată pe date, care elimină tehnicile vechi, cum ar fi ghicitul sau asumarea unei ipoteze și, ca rezultat, crește performanța la muncă.
