Ipoteze de regresie liniară: 5 ipoteze cu exemple
Publicat: 2020-12-22Regresia este folosită pentru a măsura și cuantifica relațiile cauză-efect. Analiza de regresie este o tehnică statistică utilizată pentru a înțelege amploarea și direcția unei posibile relații cauzale dintre un model observat și variabilele presupuse care influențează modelul observat dat.
De exemplu, dacă există o reducere cu 20% a prețului unui produs, să zicem, o cremă hidratantă, este posibil ca oamenii să-l cumpere, iar vânzările sunt probabil să crească.
Aici, modelul observat este o creștere a vânzărilor (numită și variabilă dependentă). Variabila presupusă că influențează vânzările este prețul (numită și variabilă independentă).
Cuprins
Ce este regresia liniară?
Regresia liniară este o tehnică statistică care modelează amploarea și direcția unui impact asupra variabilei dependente explicată de variabilele independente. Regresia liniară este folosită în mod obișnuit în analiza predictivă.
Regresia liniară explică două aspecte importante ale variabilelor, care sunt după cum urmează:
- Setul de variabile independente explică în mod semnificativ variabila dependentă?
- Care variabile sunt cele mai semnificative în explicarea dependenței disponibile? În ce mod influențează ele variabila dependentă? Impactul este de obicei determinat de mărimea și semnul coeficienților beta din ecuație.
Acum, să ne uităm la ipotezele regresiei liniare, care sunt esențiale de înțeles înainte de a rula un model de regresie liniară.

Citește mai mult: Model de regresie liniară și cum funcționează?
Ipotezele regresiei liniare
Relație liniară
Una dintre cele mai importante presupuneri este că se spune că există o relație liniară între variabilele dependente și cele independente. Dacă încercați să încadrați o relație liniară într-un set de date neliniar, algoritmul propus nu va capta tendința ca un grafic liniar, rezultând un model ineficient. Astfel, ar avea ca rezultat predicții inexacte.
Cum puteți determina dacă ipoteza este îndeplinită?
Modul simplu de a determina dacă această ipoteză este îndeplinită sau nu este prin crearea unui grafic de dispersie x vs y. Dacă punctele de date cad pe o linie dreaptă în grafic, există o relație liniară între variabilele dependente și independente, iar ipoteza este valabilă.
Ce ar trebui să faceți dacă această presupunere este încălcată?
Dacă nu există o relație liniară între variabilele dependente și cele independente, atunci aplicați o transformare neliniară, cum ar fi logaritmică, exponențială, rădăcină pătrată sau reciprocă, fie variabilei dependente, variabilei independente sau ambelor.
Fără auto-corelare sau independență
Reziduurile (termenii de eroare) sunt independente unul de celălalt. Cu alte cuvinte, nu există nicio corelație între termenii de eroare consecutivi ai datelor din seria temporală. Prezența corelației în termenii de eroare reduce drastic acuratețea modelului. Dacă termenii de eroare sunt corelați, eroarea standard estimată încearcă să dezumfle eroarea standard adevărată.
Cum să determinați dacă ipoteza este îndeplinită?
Efectuați un test statistic Durbin-Watson (DW). Valorile ar trebui să se încadreze între 0-4. Dacă DW=2, nu există auto-corelare; dacă DW se află între 0 și 2, înseamnă că există o corelație pozitivă. Dacă DW se află între 2 și 4, înseamnă că există o corelație negativă. O altă metodă este să reprezentați un grafic în funcție de reziduuri în funcție de timp și să vedeți modele în valorile reziduale.
Ce ar trebui să faceți dacă această presupunere este încălcată?
Dacă ipoteza este încălcată, luați în considerare următoarele opțiuni:
- Pentru o corelație pozitivă, luați în considerare adăugarea de decalaje la variabilele dependente sau independente sau ambele.
- Pentru corelația negativă, verificați dacă niciuna dintre variabile nu este prea diferențiată.
- Pentru corelarea sezonieră, luați în considerare adăugarea de câteva variabile sezoniere la model.
Fără multicoliniaritate
Variabilele independente nu ar trebui corelate. Dacă există multicoliniaritate între variabilele independente, este o provocare să prezicem rezultatul modelului. În esență, este dificil de explicat relația dintre variabilele dependente și cele independente. Cu alte cuvinte, nu este clar care variabile independente explică variabila dependentă.

Erorile standard tind să se umfle cu variabilele corelate, lărgind astfel intervalele de încredere conducând la estimări imprecise.
Cum să determinați dacă ipoteza este îndeplinită?
Utilizați un grafic de dispersie pentru a vizualiza corelația dintre variabile. O altă modalitate este de a determina VIF (Variance Inflation Factor). VIF<=4 nu implică multicoliniaritate, în timp ce VIF>=10 implică multicoliniaritate serioasă.
Ce ar trebui să faceți dacă această presupunere este încălcată?
Reduceți corelația dintre variabile fie prin transformarea, fie prin combinarea variabilelor corelate.
Trebuie citit: Tipuri de modele de regresie în ML
Homoscedasticitatea
Homoscedasticitatea înseamnă că reziduurile au o variație constantă la fiecare nivel de x. Absența acestui fenomen este cunoscută sub numele de heteroscedasticitate. Heteroscedasticitatea apare în general în prezența valorilor aberante și a valorilor extreme.
Cum să determinați dacă ipoteza este îndeplinită?
Creați un grafic de dispersie care arată valoarea reziduală vs ajustată. Dacă punctele de date sunt răspândite în mod egal, fără un model proeminent, înseamnă că reziduurile au o variație constantă (homoscedasticitate). În caz contrar, dacă se vede un model în formă de pâlnie, înseamnă că reziduurile nu sunt distribuite în mod egal și prezintă o variație neconstantă (heteroscedasticitate).
Ce ar trebui să faceți dacă această presupunere este încălcată?
- Transformă variabila dependentă
- Redefiniți variabila dependentă
- Utilizați regresia ponderată
Distribuția normală a termenilor de eroare
Ultima ipoteză care trebuie verificată pentru regresia liniară este distribuția normală a termenilor de eroare. Dacă termenii de eroare nu urmează o distribuție normală, intervalele de încredere pot deveni prea largi sau înguste.
Cum să determinați dacă ipoteza este îndeplinită?
Verificați ipoteza folosind un diagramă QQ (Cantil-Quantile). Dacă punctele de date din grafic formează o linie diagonală dreaptă, ipoteza este îndeplinită.

De asemenea, puteți verifica normalitatea termenilor de eroare folosind teste statistice precum testul Kolmogorov-Smironov sau Shapiro-Wilk.
Ce ar trebui să faceți dacă această presupunere este încălcată?
- Verificați dacă valorile aberante au un impact asupra distribuției. Asigurați-vă că sunt valori reale și nu erori de introducere a datelor.
- Aplicați transformarea neliniară sub formă de log, rădăcină pătrată sau reciprocă variabilelor dependente, independente sau ambelor.
Concluzie
Valorificați adevărata putere a regresiei prin aplicarea tehnicilor discutate mai sus pentru a vă asigura că ipotezele nu sunt încălcate. Este într-adevăr fezabil să înțelegem impactul variabilelor independente asupra variabilei dependente dacă sunt îndeplinite toate ipotezele regresiei liniare.
Conceptul de regresie liniară este un element indispensabil al științei datelor și al programelor de învățare automată.
Dacă sunteți interesat să aflați mai multe despre modelele de regresie și mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz. și misiuni, statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
De ce este necesară homoscedasticitatea în regresia liniară?
Homoscedasticitatea descrie cât de similare sau cât de departe se abate datele de la medie. Aceasta este o presupunere importantă de făcut, deoarece testele statistice parametrice sunt sensibile la diferențe. Heteroscedasticitatea nu induce părtinire în estimările coeficienților, dar reduce precizia acestora. Cu o precizie mai mică, este mai probabil ca estimările coeficienților să fie îndepărtate de valoarea corectă a populației. Pentru a evita acest lucru, homoscedasticitatea este o presupunere crucială de afirmat.
Care sunt cele două tipuri de multicoliniaritate în regresia liniară?
Datele și multicoliniaritatea structurală sunt cele două tipuri de bază de multicoliniaritate. Când facem un termen model din alți termeni, obținem multicoliniaritate structurală. Cu alte cuvinte, mai degrabă decât să fie prezent în datele în sine, este un rezultat al modelului pe care îl oferim. În timp ce multicoliniaritatea datelor nu este un artefact al modelului nostru, este prezentă în datele în sine. Multicolinearitatea datelor este mai frecventă în investigațiile observaționale.
Care sunt dezavantajele utilizării testului t pentru teste independente?
Există probleme cu repetarea măsurătorilor în loc de diferențe între modelele de grup atunci când se utilizează teste t eșantion pereche, ceea ce duce la efecte de transfer. Din cauza erorilor de tip I, testul t nu poate fi utilizat pentru comparații multiple. Va fi dificil să respingem ipoteza nulă atunci când faceți un test t pereche pe un set de eșantioane. Obținerea subiecților pentru datele eșantionului este un aspect consumator de timp și costisitor al procesului de cercetare.