Multicolinearitatea în analiza regresiei: tot ce trebuie să știți

Publicat: 2020-12-23

Cuprins

Introducere

Regresia încearcă să determine caracterul și puterea relației dintre o variabilă dependentă și o serie de alte variabile independente. Ajută la evaluarea puterii relației dintre diferite variabile și la realizarea unui model al relațiilor viitoare dintre ele. „Multicoliniaritatea” în regresie se referă la predictorul care se corelează cu ceilalți predictori,

Ce este multicoliniaritatea?

Ori de câte ori corelațiile dintre două sau mai multe variabile predictoare sunt mari, apare multicoliniaritatea în regresie. Cu cuvinte simple, o variabilă predictor, numită și predictor multicoliniar, poate fi folosită pentru a prezice cealaltă variabilă. Acest lucru duce la crearea de informații redundante, care deformează rezultatele în modelul de regresie.

Exemplele de predictori multicoliniari ar fi prețul de vânzare și vârsta unei mașini, greutatea, înălțimea unei persoane sau venitul anual și anii de educație.

Calcularea coeficienților de corelație este cea mai ușoară modalitate de a detecta multicoliniaritatea pentru toate perechile de valori de predictor. Dacă r, acel coeficient de corelație este exact +1 sau -1, se numește multicoliniaritate perfectă. Dacă coeficientul de corelație este exact sau aproape de +1 sau -1, atunci una dintre variabile trebuie eliminată din model numai în cazul în care este posibil.

Este rar cu datele experimentale, dar este foarte comun ca multicoliniaritatea să-și ridice capul urât atunci când vine vorba de studii observaționale. Poate duce la o estimare nesigură și instabilă a regresiei atunci când condiția este prezentă. Cu ajutorul analizei rezultatului, alte câteva probleme pot fi interferate precum:

  • Statistica t va fi de obicei destul de mică, iar intervalele de încredere ale coeficientului vor fi largi. Înseamnă că devine dificil să respingi ipoteza nulă.
  • Ar putea exista o modificare a mărimii și/sau semnului coeficienților de regresie parțială pe măsură ce aceștia sunt transferați de la probă la probă.
  • Erorile standard pot fi mari, iar estimarea coeficientului de regresie parțială poate fi imprecisă.
  • Devine dificil de măsurat efectul asupra variabilelor dependente de variabile independente din cauza multicoliniarității.

Citiți: Tipuri de modele de regresie în învățarea automată

De ce este multicoliniaritatea o problemă?

Modificarea unei singure variabile poate provoca o modificare a restului variabilelor, ceea ce se întâmplă atunci când variabilele independente sunt foarte corelate. Deci, modelul duce la un rezultat semnificativ fluctuant. Deoarece rezultatele modelului vor fi instabile și foarte variate, chiar și atunci când are loc chiar și o mică modificare a datelor, aceasta va constitui următoarele probleme:

  • Estimarea coeficientului ar fi instabilă și ar fi dificil de interpretat modelul. Adică, nu puteți prezice scara diferențelor în ieșire dacă chiar și unul dintre factorii dumneavoastră de predicție a modificărilor cu 1 unitate.
  • Ar fi dificil de selectat lista de variabile semnificative pentru model dacă acesta dă rezultate diferite de fiecare dată.
  • Suprapotrivirea poate fi cauzată din cauza naturii instabile a modelului. Veți observa că acuratețea a scăzut semnificativ dacă aplicați același model la un alt eșantion de date în comparație cu acuratețea pe care ați obținut-o cu setul de date de antrenament.

Având în vedere situația, ar putea să nu fie deranjant pentru modelul dvs. dacă apar doar probleme de coliniaritate moderate. Cu toate acestea, se sugerează întotdeauna să se rezolve problema dacă există o problemă gravă în coliniaritate.

Care este cauza multicoliniarității?

Există două tipuri:

  1. Multicoliniaritate structurală în regresie: Aceasta este cauzată de obicei de cercetător sau de dvs. în timp ce creați noi variabile predictoare.
  2. Multicoliniaritate bazată pe date în regresie: aceasta este cauzată în general din cauza experimentelor proiectate prost, a metodelor de colectare a datelor care nu pot fi manipulate sau a datelor pur observaționale. În câteva cazuri, variabilele pot fi foarte corelate datorită colectării datelor din studii observaționale 100% și nu există nicio eroare din partea cercetătorului. Din acest motiv, se sugerează întotdeauna să se efectueze experimentele ori de câte ori este posibil prin setarea în avans a nivelului variabilei predictoare.

Citește și: Idei și subiecte pentru proiecte de regresie liniară

Celelalte cauze pot include, de asemenea

  1. Lipsa de date. În câteva cazuri, colectarea unei cantități mari de date poate ajuta la rezolvarea problemei.
  2. Variabilele utilizate ca fictive ar putea fi utilizate incorect. De exemplu, cercetătorul poate eșua să adauge o variabilă inactivă pentru fiecare categorie sau să excludă o categorie.
  3. Luând în considerare o variabilă în regresie, care este o combinație a celorlalte variabile din regresie - de exemplu, luând în considerare „venitul total din investiții” atunci când este venit din economisirea dobânzii + venit din obligațiuni și acțiuni.
  4. Inclusiv două variabile aproape sau complet identice. De exemplu, venituri din obligațiuni/economii și venituri din investiții, greutatea în kilograme și greutatea în lire sterline.

Pentru a verifica dacă a apărut multicoliniaritate

Puteți reprezenta matricea de corelație a tuturor variabilelor independente. Alternativ, puteți utiliza VIF, adică factorul de inflație al variației pentru fiecare variabilă independentă. Măsoară multicoliniaritatea în setul de variabile de regresie multiplă. Valoarea VIF este proporțională cu corelația dintre această variabilă și restul. Aceasta înseamnă că, cu cât valoarea VIF este mai mare, cu atât este mai mare corelația.

Cum putem rezolva problema multicolinearității?

  1. Selectarea variabilei: Cea mai ușoară modalitate este de a elimina câteva variabile care se corelează foarte mult între ele și de a le lăsa în set doar pe cele mai semnificative.
  2. Transformarea variabilei: A doua metodă este o transformare a variabilei, care va reduce corelația și va reuși totuși să mențină caracteristica.
  3. Analiza componentei principale: Analiza componentei principale este de obicei utilizată pentru a reduce dimensiunea datelor prin descompunerea datelor într-un număr de factori independenți. Are o mulțime de aplicații precum calculul modelului care poate fi simplificat prin reducerea numărului de factori de predicție.

Citiți înrudite: Regresia liniară în învățarea automată

Concluzie

Înainte de a construi modelul de regresie, ar trebui să verificați întotdeauna problema multicolinearității. Pentru a privi cu ușurință fiecare variabilă independentă, se recomandă VIF pentru a vedea dacă au o corelație considerabilă cu restul. Matricea de corelație poate ajuta la alegerea factorilor importanți atunci când nu sunteți sigur ce variabile ar trebui să selectați. De asemenea, ajută la înțelegerea de ce câteva variabile au o valoare mare a VIF.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce se înțelege prin termenul de regresie ordinală în învățarea automată?

Regresia ordinală este un tip de analiză de regresie care aparține familiei de analize de regresie. Regresia ordinală analizează datele și explică relația dintre o variabilă dependentă și două sau mai multe variabile independente ca studiu predictiv. Regresia ordinală este folosită pentru a prezice variabila dependentă atunci când există numeroase categorii „ordonate” și factori independenți. Cu alte cuvinte, permite variabilelor dependente cu diferite niveluri ordonate să interacționeze mai ușor cu una sau mai multe variabile independente.

Prezența multicolinearității afectează arborii de decizie?

Dacă două caracteristici sunt foarte asociate într-un model specific de învățare automată, arborele de decizie ar selecta totuși doar una dintre ele în timpul despărțirii. Dacă datele sunt distorsionate sau dezechilibrate, un singur arbore duce la o abordare lacomă, dar metodele de învățare în ansamblu, cum ar fi pădurile aleatorii și arborii de creștere a gradientului, fac predicția impermeabilă la multicoliniaritate. Ca urmare, pădurile aleatorii și arborii de decizie nu sunt afectați de multicoliniaritate.

Cum este regresia logistică diferită de regresia liniară?

În unele aspecte, regresia liniară diferă de regresia logistică. Regresia logică produce observații și constatări discrete, dar regresia liniară produce o ieșire continuă și continuă. În regresia liniară se calculează eroarea pătrată medie, dar în regresia logistică se calculează estimarea probabilității maxime. În cele din urmă, scopul regresiei liniare este de a identifica cea mai bună linie pentru a se potrivi cu datele, dar regresia logistică rămâne înainte prin potrivirea datelor la o curbă sigmoidă.