Implementarea regresiei liniare în Python: un ghid complet
Publicat: 2019-11-18Indiferent dacă studiați învățarea automată sau statisticile cu Python, veți întâlni regresia liniară. Regresia liniară este una dintre părțile importante ale cursului de certificare a învățării automate.
Ce este? Cum efectuezi regresia liniară cu Python?
În acest articol, vom descoperi răspunsuri la aceste întrebări. După ce ați citit acest articol, v-ați familiariza cu:
- Regresiile și ce sunt acestea
- Ce este regresia liniară
- Cum se antrenează un model de regresie liniară
- Aplicații ale regresiei liniare
Să începem.
Cuprins
Ce este regresia?
Analiza de regresie se referă la procese statistice specifice pe care le utilizați pentru estimarea relațiilor dintre o variabilă dependentă și o variabilă independentă.
Este popular în mai multe industrii, cum ar fi finanțele și bancare. Folosind analiza de regresie, puteți înțelege relația dintre două variabile într-un mediu specific.

Să presupunem că doriți să găsiți prețurile caselor dintr-o anumită zonă. În acest scop, va trebui să observați orașul zonei, numărul de rezidenți, disponibilitatea facilităților și multe alte lucruri.
Lucrurile de care vor depinde prețurile caselor se numesc caracteristici . Iar problema în care factorii sunt legați de costul fiecărei locuințe este o observație. În acest exemplu, se presupune că locația, facilitățile și alți factori afectează prețul fiecărei case.
În termeni mai simpli, faci câteva observații cu privire la un anumit subiect în analiza de regresie. Observațiile tale au câteva trăsături și câteva prezumții înainte de a începe să formați o relație între ele.
Există două tipuri de caracteristici în analiza regresiei. Sunt:
- Caracteristici dependente, care sunt numite ieșiri dependente, variabile sau răspunsuri
- Caracteristici independente, care sunt numite rezultate independente, variabile sau răspunsuri
În general, o problemă de regresie are o variabilă dependentă continuă. Intrările variază.
Puteți nota ieșirile cu y și intrările cu x. Nu există reguli stricte și rapide pentru aceasta, dar este o practică generală să folosiți y și x pentru a indica aceste ieșiri și intrări.
Dacă aveți mai multe variabile independente, puteți reprezenta ca x = (x1,…,xr), unde r denotă numărul de intrări.
Obțineți cele mai bune cursuri de învățare automată online de la cele mai bune universități din lume – masterat, programe executive postuniversitare și program de certificat avansat în ML și AI pentru a vă accelera cariera.
Ce este o regresie liniară?
Regresia liniară este cel mai popular tip de regresie. Este o metodă statistică de modelare a relațiilor dintre o ieșire dependentă și un grup de ieșiri independente.
În acest articol, vom numi ieșirile independente „funcții” și ieșirile dependente „răspunsuri”.
Dacă o regresie liniară are o singură caracteristică, se numește regresie liniară univariată. În mod similar, dacă are mai multe caracteristici, l-ai numi regresie liniară multiplă.
Cel mai notabil avantaj al regresiilor liniare este ușurința de a interpreta rezultatele acestora. Întrebări de interviu de regresie liniară
Este cea mai simplă formă de regresie.
Ipoteză
Dacă y este valoarea prezisă, 0 este termenul de părtinire, xn și sunt valorile caracteristicilor și ați reprezenta modelul de regresie liniară prin următoarea ecuație:
Y = 0 + 1 x 1 + 2 x 2 +…. + n x n
Aici n desemnează parametrii modelului.
Codul Python de regresie liniară
Pentru a crea un model de regresie liniară, veți avea nevoie și de un set de date pentru început. Există mai multe moduri în care puteți utiliza codul Python pentru regresia liniară.
Vă sugerăm să studiați Python și să vă familiarizați cu bibliotecile Python înainte de a începe să lucrați în acest sens.
Vă poate ajuta să creați un model de regresie liniară de bază.
Antrenarea modelului de regresie
Va trebui să găsiți parametrii necesari pentru model, astfel încât să se potrivească cel mai bine cu datele. Va trebui să găsiți linia cea mai potrivită (sau linia de regresie).
Linia de regresie este cea pentru care eroarea dintre cifrele observate și cifrele prezise este minimă. Un alt nume pentru aceste erori este reziduurile.

Pentru a măsura eroarea, va trebui să definiți funcția de cost:
J ( ) = 1 2m i=1 m (h( x i ) – y i ) 2
Aici, h(x) reprezintă funcția de ipoteză, care este notă prin ecuația pe care am discutat mai înainte:
h(x) = 0 + 1 x 1 + 2 x 2 +…. + i x i
m reprezintă numărul total de exemple din setul nostru de date.
Folosind aceste ecuații și un algoritm de optimizare, vă puteți antrena modelul de regresie liniară.
Există multe alte metode de a efectua analiza regresiei Python, despre care le-am discutat mai jos:
Efectuarea regresiei liniare cu pachete Python
Puteți utiliza NumPy, care este un pachet Python larg răspândit și fundamental. Este folosit pentru efectuarea de operațiuni de înaltă performanță. Este open-source și are multe rutine matematice disponibile.
Puteți consulta ghidul utilizatorului NumPy pentru a afla mai multe informații despre acesta. Ar trebui să învățați și despre scikit-learn, care este o bibliotecă populară Python bazată pe NumPy. Este folosit în mod popular pentru învățarea automată și activități similare.
Pentru a dezvolta modele de regresie liniară și pentru a le implementa, ar trebui să învățați și despre modelele statistice. Este un alt pachet Python puternic, care este folosit pentru efectuarea de teste și estimarea modelelor statistice.
Care sunt aplicațiile regresiei liniare?
Regresia liniară își găsește utilizări în multe industrii. Iată câteva aplicații ale regresiei liniare:
1) Înțelegerea tendințelor
Regresia liniară poate ajuta companiile să înțeleagă tendințele pieței. În acest fel, își pot planifica mai bine strategiile și pot evita să facă greșeli. În afară de companii, comercianții, precum și organizațiile de cercetare pot folosi și această tehnică pentru evaluarea tendințelor.
2) Analizarea modificărilor de preț
Schimbările de preț la mărfuri pot avea un impact semnificativ asupra profiturilor întreprinderilor de produse. Regresia liniară poate ajuta companiile în această sarcină, deoarece pot găsi relații între modificările de preț și factorii care contribuie la acestea.

3) Evaluarea riscurilor
Companiile de asigurări, precum și investitorii, pot folosi regresia liniară pentru a descoperi anomalii. Investitorii își pot găsi investițiile slabe și își pot planifica strategiile în consecință, reducând în același timp riscul.
Gânduri de încheiere
Regresia liniară este unul dintre algoritmii importanți AI și sperăm că ați găsit util acest ghid despre regresia liniară cu Python. Regresia Python poate fi destul de descurajantă pentru un începător. De aceea, vă recomandăm să vă familiarizați mai întâi cu pachetele și algoritmii Python.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Programul Executive PG de la IIIT-B și upGrad în Învățare automată și IA, care este conceput pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini, IIIT -B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Cunoașterea doar despre cei doi vă va beneficia foarte mult în implementarea regresiei liniare.
Când folosim regresia?
Atunci când într-o problemă sunt prezente mai multe variabile, am putea dori să înțelegem relația dintre toate. Putem folosi matrice pentru a afla relațiile potențiale dintre perechi specifice de variabile. Folosind metode de corelare, putem măsura relația liniară dintre orice pereche de variabile. Cu toate acestea, această metodă nu este adecvată atunci când dorim să aflăm relații complexe care implică mai multe variabile. În astfel de cazuri, regresia este o metodă mai eficientă de înțelegere a asociațiilor complexe dintre mai multe variabile. Regresia ne ajută să știm care variabile influențează un răspuns specific și cum acestea pot explica un anumit rezultat.
Câte tipuri de regresie sunt utilizate în învățarea automată?
Regresia este o tehnică prin care putem prezice rezultate viitoare între o variabilă țintă și una sau mai multe variabile predictoare independente. Regresia este foarte frecvent utilizată în învățarea automată pentru modelarea seriilor temporale, prognoza și înțelegerea relațiilor cauză-efect dintre diferite variabile. Diferite tipuri de regresie utilizate în învățarea automată sunt regresia liniară, regresia logistică, regresia ridge, regresia polinomială și regresia lasso. Puteți întâlni mai multe tipuri de metode de analiză de regresie utilizate în învățarea automată. Cu toate acestea, acestea sunt cele mai utilizate metode dintre toate celelalte.
Care sunt avantajele utilizării Python?
Python este unul dintre cele mai frecvent utilizate limbaje de programare în învățarea automată. Vine cu mai multe avantaje. În primul rând, sintaxa lui Python este simplă. Este ușor de învățat și de înțeles, ceea ce îl face extrem de popular atât printre începători, cât și printre programatorii experimentați. În continuare, este open-source și gratuit de utilizat și vine cu o comunitate masivă de dezvoltatori și cercetători activi. Biblioteca extinsă de funcții încorporată în nucleul Python oferă suport cuprinzător pentru dezvoltatori, astfel încât nu este nevoie să depindeți de biblioteci externe sau terțe. În plus, Python este foarte flexibil și independent de sistem, spre deosebire de alte limbaje de programare, cum ar fi C și C++.