33 Întrebări și răspunsuri la interviu de învățare automată – Regresie logistică
Publicat: 2018-07-05Bun venit la a doua parte a seriei de întrebări frecvente de interviu bazate pe algoritmi de învățare automată. Sperăm că secțiunea anterioară despre regresia liniară v-a fost de ajutor.
Cuprins
Să găsim răspunsurile la întrebările despre regresia logistică:
1. Ce este o funcție logistică? Care este intervalul de valori al unei funcții logistice?
f(z) = 1/(1+e -z )
Valorile unei funcții logistice vor varia de la 0 la 1. Valorile lui Z vor varia de la -infinit la +infinit.
2. De ce este foarte populară regresia logistică?
Regresia logistică este renumită deoarece poate converti valorile logits (logodds), care pot varia de la -infinit la +infinit la un interval între 0 și 1. Deoarece funcțiile logistice scot probabilitatea de apariție a unui eveniment, aceasta poate fi aplicată la multe scenarii din viața reală. Din acest motiv, modelul de regresie logistică este foarte popular.
3. Care este formula pentru funcția de regresie logistică?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
Diferența dintre Data Science, Machine Learning și Big Data!
4. Cum poate fi exprimată probabilitatea unui model de regresie logistică ca probabilitate condiționată?
P(Valoarea discretă a variabilei țintă | X1, X2, X3….Xk). Este probabilitatea ca variabila țintă să preia o valoare discretă (fie 0, fie 1 în cazul problemelor de clasificare binară) atunci când sunt date valorile variabilelor independente. De exemplu, probabilitatea ca un angajat să se atrite (variabila țintă) având în vedere atributele sale, cum ar fi vârsta, salariul, KRA-urile etc.
5. Care sunt cotele?
Este raportul dintre probabilitatea ca un eveniment să se producă și probabilitatea ca evenimentul să nu se producă. De exemplu, să presupunem că probabilitatea de a câștiga la loterie este 0,01. Apoi, probabilitatea de a nu câștiga este 1- 0,01 = 0,99.
Șansele de a câștiga la loterie = (Probabilitatea de a câștiga)/(probabilitatea de a nu câștiga)
Şansele de a câştiga la loterie = 0,01/0,99
Șansele de a câștiga la loterie sunt de 1 la 99, iar șansele de a nu câștiga la loterie sunt de 99 la 1.
6. Care sunt rezultatele modelului logistic și ale funcției logistice?
Modelul logistic emite logit-urile, adică log odds; iar funcția logistică emite probabilitățile.
Model logistic = α+1X1+2X2+….+kXk. Ieșirea acestuia va fi logits.
Funcția logistică = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . Rezultatul, în acest caz, va fi probabilitățile.

7. Cum se interpretează rezultatele unui model de regresie logistică? Sau, care sunt semnificațiile alfa și beta într-un model de regresie logistică?
Alpha este linia de bază într-un model de regresie logistică. Este cota de jurnal pentru o instanță în care toate atributele (X1, X2,………….Xk) sunt zero. În scenariile practice, probabilitatea ca toate atributele să fie zero este foarte mică. Într-o altă interpretare, Alpha este cota de jurnal pentru un caz în care niciunul dintre atribute nu este luat în considerare.
Beta este valoarea cu care cotele de jurnal se modifică printr-o modificare de unitate a unui anumit atribut, păstrând toate celelalte atribute fixe sau neschimbate (variabile de control).
8. Ce este odds ratio?
Raportul cotelor este raportul cotelor dintre două grupuri. De exemplu, să presupunem că încercăm să constatăm eficacitatea unui medicament. Am administrat acest medicament grupului „intervenție” și un placebo grupului „control”.
Odds ratio (OR) = (cote pentru grupul de intervenție)/(cote pentru grupul de control)
Interpretare
Dacă odds ratio = 1, atunci nu există nicio diferență între grupul de intervenție și grupul de control
Dacă raportul de șanse este mai mare de 1, atunci grupul de control este mai bun decât grupul de intervenție
Dacă raportul de șanse este mai mic de 1, atunci grupul de intervenție este mai bun decât grupul de control.
5 aplicații revoluționare ale învățării automate
9. Care este formula de calcul a cotelor?
În formula de mai sus, X 1 și X 0 reprezintă două grupuri diferite pentru care trebuie calculat cota. X 1 i reprezintă instanța „ i ” din grupul X 1 . X o i reprezintă instanța „ i ” din grupul X 0 . reprezintă coeficientul modelului de regresie logistică. Rețineți că linia de bază nu este inclusă în această formulă.
10. De ce nu poate fi folosită regresia liniară în locul regresiei logistice pentru clasificarea binară?
Motivele pentru care regresiile liniare nu pot fi utilizate în cazul clasificării binare sunt următoarele:
Distribuția termenilor de eroare : Distribuția datelor în cazul regresiei liniare și logistice este diferită. Regresia liniară presupune că termenii de eroare sunt distribuiți în mod normal. În cazul clasificării binare, această ipoteză nu este adevărată.
Ieșirea modelului : în regresia liniară, rezultatul este continuu. În cazul clasificării binare, o ieșire cu o valoare continuă nu are sens. Pentru problemele de clasificare binară, regresia liniară poate prezice valori care pot depăși 0 și 1. Dacă dorim rezultatul sub formă de probabilități, care pot fi mapate la două clase diferite, atunci intervalul său ar trebui limitat la 0 și 1. modelul de regresie logistică poate scoate probabilități cu funcție logistică/sigmoidă, este de preferat regresiei liniare.
Varianța erorilor reziduale : Regresia liniară presupune că varianța erorilor aleatoare este constantă. Această ipoteză este încălcată și în cazul regresiei logistice.
11. Este limita de decizie liniară sau neliniară în cazul unui model de regresie logistică?
Limita de decizie este o linie care separă variabilele țintă în diferite clase. Limita de decizie poate fi fie liniară, fie neliniară. În cazul unui model de regresie logistică, granița de decizie este o linie dreaptă.
Formula modelului de regresie logistică = α+1X1+2X2+….+kXk. Aceasta reprezintă în mod clar o linie dreaptă. Regresia logistică este potrivită numai în cazurile în care o linie dreaptă este capabilă să separe diferitele clase. Dacă o linie dreaptă nu poate face acest lucru, atunci algoritmi neliniari ar trebui să fie utilizați pentru a obține rezultate mai bune.
12. Care este funcția de probabilitate?
Funcția de probabilitate este probabilitatea comună de a observa datele. De exemplu, să presupunem că o monedă este aruncată de 100 de ori și vrem să știm probabilitatea de a obține 60 de capete de la aruncări. Acest exemplu urmează formula de distribuție binomială.
p = Probabilitatea capetelor de la o singură aruncare de monede
n = 100 (numărul de aruncări de monede)
x = 60 (numărul de capete – succes)
nx = 30 (numărul de cozi)
Pr(X=60 |n = 100, p)
Funcția de probabilitate este probabilitatea ca numărul de capete primite să fie de 60 într-o urmă de 100 de aruncări de monede, unde probabilitatea de capete primite la fiecare aruncare de monede este p. Aici rezultatul aruncării monedelor urmează o distribuție binomială.
Aceasta poate fi reîncadrată după cum urmează:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = constantă
p = parametru necunoscut
Funcția de probabilitate oferă probabilitatea de a observa rezultatele utilizând parametri necunoscuți.
13. Care este estimatorul de probabilitate maximă (MLE)?
MLE alege acele seturi de parametri necunoscuți (estimator) care maximizează funcția de probabilitate. Metoda de a găsi MLE este de a folosi calculul și de a seta derivata funcției logistice cu privire la un parametru necunoscut la zero, iar rezolvarea acestuia va da MLE. Pentru un model binom, acest lucru va fi ușor, dar pentru un model logistic, calculele sunt complexe. Programele de calculator sunt utilizate pentru derivarea MLE pentru modele logistice.
(Iată o altă abordare pentru a răspunde la întrebare.)
MLE este o abordare statistică pentru estimarea parametrilor unui model matematic. MLE și estimarea pătratului obișnuit dau aceleași rezultate pentru regresia liniară dacă se presupune că variabila dependentă este distribuită normal. MLE nu presupune nimic despre variabile independente.
14. Care sunt diferitele metode de MLE și când este preferată fiecare metodă?
În cazul regresiei logistice, există două abordări ale MLE. Sunt metode condiționate și necondiționate. Metodele condiționate și necondiționate sunt algoritmi care utilizează diferite funcții de probabilitate. Formula necondiționată folosește probabilitatea comună de pozitive (de exemplu, abandon) și negative (de exemplu, non-churn). Formula condiționată este raportul dintre probabilitatea datelor observate și probabilitatea tuturor configurațiilor posibile.
Metoda necondiționată este de preferat dacă numărul de parametri este mai mic comparativ cu numărul de instanțe. Dacă numărul de parametri este mare în comparație cu numărul de instanțe, atunci MLE condiționat este de preferat. Statisticienii sugerează că MLE condiționat trebuie utilizat atunci când aveți îndoieli. MLE condiționată va oferi întotdeauna rezultate imparțiale.
Aceste 6 tehnici de învățare automată îmbunătățesc asistența medicală
15. Care sunt avantajele și dezavantajele metodelor condiționate și necondiționate ale MLE?
Metodele condiționate nu estimează parametrii nedoriți. Metodele necondiționate estimează și valorile parametrilor nedoriți. Formulele necondiționate pot fi dezvoltate direct cu probabilități comune. Acest lucru nu se poate face cu probabilitate condiționată. Dacă numărul de parametri este mare în raport cu numărul de instanțe, atunci metoda necondiționată va da rezultate părtinitoare. Rezultatele condiționate vor fi nepărtinitoare în astfel de cazuri.
16. Care este rezultatul unui program MLE standard?
Rezultatul unui program MLE standard este după cum urmează:
Valoarea probabilității maxime : Aceasta este valoarea numerică obținută prin înlocuirea valorilor parametrilor necunoscute în funcția de probabilitate cu estimatorul de parametri MLE.
Matricea varianță-covarianță estimată : diagonala acestei matrice constă din variațiile estimate ale estimărilor ML. În afara diagonalei constă din covarianțele perechilor estimărilor ML.

17. De ce nu putem folosi Eroare pătrată medie (MSE) ca funcție de cost pentru regresia logistică?
În regresia logistică, folosim funcția sigmoidă și efectuăm o transformare neliniară pentru a obține probabilitățile. Pătratarea acestei transformări neliniare va duce la non-convexitate cu minimele locale. Găsirea minimului global în astfel de cazuri folosind coborârea în gradient nu este posibilă. Din acest motiv, MSE nu este potrivit pentru regresia logistică. Entropia încrucișată sau pierderea în log este utilizată ca funcție de cost pentru regresia logistică. În funcția de cost pentru regresia logistică, predicțiile greșite sigure sunt penalizate puternic. Predicțiile corecte încrezătoare sunt răsplătite mai puțin. Prin optimizarea acestei funcții de cost se realizează convergența.
18. De ce acuratețea nu este o măsură bună pentru problemele de clasificare?
Precizia nu este o măsură bună pentru problemele de clasificare, deoarece acordă o importanță egală atât falselor pozitive, cât și falselor negative. Cu toate acestea, acest lucru poate să nu fie cazul în majoritatea problemelor de afaceri. De exemplu, în cazul predicției cancerului, declararea cancerului ca fiind benign este mai gravă decât informarea greșită a pacientului că suferă de cancer. Precizia acordă o importanță egală ambelor cazuri și nu poate face diferența între ele.
19. Care este importanța unei linii de bază într-o problemă de clasificare?
Majoritatea problemelor de clasificare se referă la seturi de date dezechilibrate. Exemplele includ renunțarea la telecomunicații, uzura angajaților, predicția cancerului, detectarea fraudei, direcționarea reclamelor online și așa mai departe. În toate aceste probleme, numărul claselor pozitive va fi foarte scăzut în comparație cu clasele negative. În unele cazuri, este obișnuit să existe clase pozitive care reprezintă mai puțin de 1% din eșantionul total. În astfel de cazuri, o precizie de 99% poate suna foarte bine, dar, în realitate, poate să nu fie.
Aici, negativele sunt de 99% și, prin urmare, linia de bază va rămâne aceeași. Dacă algoritmii prezic toate cazurile ca fiind negative, atunci și acuratețea va fi de 99%. În acest caz, toate aspectele pozitive vor fi prezise greșit, ceea ce este foarte important pentru orice afacere. Chiar dacă toate aspectele pozitive sunt prezise greșit, se obține o precizie de 99%. Deci, linia de bază este foarte importantă, iar algoritmul trebuie evaluat în raport cu linia de bază.
20. Ce sunt fals pozitive și false negative?
Falsele pozitive sunt acele cazuri în care negativele sunt prezise greșit ca pozitive. De exemplu, prezicerea faptului că un client va pierde atunci când, de fapt, nu se va agita.
False negative sunt acele cazuri în care pozitivele sunt prezise în mod greșit ca negative. De exemplu, prezicerea faptului că un client nu va pierde atunci când, de fapt, el face.
21. Care sunt rata pozitivă adevărată (TPR), rata negativă adevărată (TNR), rata pozitivă fals (FPR) și rata negativă fals (FNR)?
TPR se referă la raportul de pozitive prezis corect din toate etichetele adevărate. Cu cuvinte simple, este frecvența etichetelor adevărate prezise corect.
TPR = TP/TP+FN
TNR se referă la raportul de negative prezis corect din toate etichetele false. Este frecvența etichetelor false prezise corect.
TNR = TN/TN+FP
FPR se referă la raportul de pozitive prezis incorect din toate etichetele adevărate. Este frecvența etichetelor false prezise incorect.
FPR = FP/TN+FP
FNR se referă la raportul de negative prezis incorect din toate etichetele false. Este frecvența etichetelor adevărate prezise incorect.
FNR = FN/TP+FN
22. Ce sunt precizia și reamintirea?
Precizia este proporția de pozitive adevărate din pozitivele prezise. Cu alte cuvinte, este exactitatea predicției. Este cunoscută și ca „valoare predictivă pozitivă”.
Precizie = TP/TP+FP
Rechemarea este aceeași cu rata pozitivă reală (TPR).
Cum funcționează învățarea automată nesupravegheată?
23. Ce este măsura F?
Este mijlocul armonic al preciziei și reamintirii. În unele cazuri, va exista un compromis între precizie și rechemare. În astfel de cazuri, măsura F va scădea. Va fi mare atunci când atât precizia, cât și reamintirea sunt mari. În funcție de cazul de afaceri în cauză și de scopul analizei datelor, ar trebui selectată o măsurătoare adecvată.
Măsura F = 2 X (Precizie X Recall) / (Precizie+Recall)
24. Ce este acuratețea?
Este numărul de predicții corecte din toate predicțiile făcute.
Precizie = (TP+TN)/(Numărul total de predicții)
25. Ce sunt sensibilitatea și specificitatea?
Specificitatea este aceeași cu rata negativă adevărată sau este egală cu 1 - rata fals pozitivă.
Specificitatea = TN/TN + FP.
Sensibilitatea este adevărata rată pozitivă.
Sensibilitate = TP/TP + FN
26. Cum să alegeți un punct de limită în cazul unui model de regresie logistică?
Punctul de limitare depinde de obiectivul afacerii. În funcție de obiectivele afacerii dvs., trebuie selectat punctul limită. De exemplu, să luăm în considerare incapacitatea de plată a împrumuturilor. Dacă obiectivul de afaceri este reducerea pierderii, atunci specificul trebuie să fie ridicat. Dacă scopul este de a crește profiturile, atunci este o cu totul altă chestiune. Este posibil să nu fie cazul ca profiturile să crească prin evitarea acordării de împrumuturi tuturor cazurilor de neplată prezise. Dar se poate întâmpla ca afacerea să fie nevoită să acorde împrumuturi pentru cazurile de neplată care sunt puțin mai puțin riscante pentru a crește profiturile. Într-un astfel de caz, va fi necesar un punct de limită diferit, care maximizează profitul. În majoritatea cazurilor, întreprinderile vor funcționa în jurul multor constrângeri. Punctul de limită care satisface obiectivul de afaceri nu va fi același cu și fără limitări. Punctul de tăiere trebuie selectat luând în considerare toate aceste puncte. Ca regulă generală, alegeți o valoare limită care este echivalentă cu proporția de elemente pozitive dintr-un set de date.
Ce este Machine Learning și de ce contează27. Cum gestionează regresia logistică variabilele categoriale?
Intrările pentru un model de regresie logistică trebuie să fie numerice. Algoritmul nu poate gestiona direct variabilele categorice. Deci, acestea trebuie convertite într-un format care este potrivit pentru procesarea algoritmului. Diverselor niveluri ale unei variabile categoriale li se va atribui o valoare numerică unică cunoscută sub numele de variabilă dummy. Aceste variabile fictive sunt gestionate de modelul de regresie logistică ca orice altă valoare numerică.
28. Ce este o curbă de răspuns cumulat (CRV)?
Pentru a transmite conducerii rezultatele unei analize, se folosește o „curbă de răspuns cumulat”, care este mai intuitivă decât curba ROC. O curbă ROC este foarte greu de înțeles pentru cineva din afara domeniului științei datelor. Un CRV constă din rata pozitivă adevărată sau procentul de pozitive clasificate corect pe axa Y și procentul populației vizate pe axa X. Este important de menționat că procentul populației va fi clasat de model în ordine descrescătoare (fie probabilitățile, fie valorile așteptate). Dacă modelul este bun, atunci prin țintirea unei părți de sus a listei clasate, toate procentele mari de pozitive vor fi capturate. Ca și în cazul curbei ROC, va exista o linie diagonală care reprezintă performanța aleatorie. Să înțelegem această performanță aleatorie ca exemplu. Presupunând că 50% din listă este vizată, se așteaptă ca aceasta să capteze 50% dintre elementele pozitive. Această așteptare este surprinsă de linia diagonală, care este similară cu curba ROC.
29. Care sunt curbele de ridicare?
Creșterea este îmbunătățirea performanței modelului (creșterea ratei adevărate pozitive) în comparație cu performanța aleatorie. Performanța aleatorie înseamnă că, dacă 50% dintre instanțe sunt vizate, atunci este de așteptat că va detecta 50% dintre aspectele pozitive. Ridicarea este în comparație cu performanța aleatorie a unui model. Dacă performanța unui model este mai bună decât performanța sa aleatorie, atunci creșterea acestuia va fi mai mare de 1.
Într-o curbă de ridicare, ridicarea este reprezentată pe axa Y și procentul populației (sortat în ordine descrescătoare) pe axa X. La un anumit procent din populația țintă, se preferă un model cu o putere mare.
30. Ce algoritm este mai bun pentru a gestiona valorile aberante de regresie logistică sau SVM?
Regresia logistică va găsi o limită liniară dacă există pentru a se adapta valorilor aberante. Regresia logistică va deplasa granița liniară pentru a adapta valorile aberante. SVM este insensibil la mostrele individuale. Nu va exista o schimbare majoră a graniței liniare pentru a găzdui un aberant. SVM vine cu controale de complexitate încorporate, care se ocupă de supraadaptare. Acest lucru nu este adevărat în cazul regresiei logistice.
31. Cum veți face față problemei de clasificare multiclasă folosind regresia logistică?
Cea mai faimoasă metodă de a trata clasificarea multiclasă folosind regresia logistică este utilizarea abordării unu-vs-toți. În cadrul acestei abordări, sunt antrenate un număr de modele, care este egal cu numărul de clase. Modelele funcționează într-un mod specific. De exemplu, primul model clasifică punctul de date în funcție de faptul dacă aparține clasei 1 sau unei alte clase; al doilea model clasifică punctul de date în clasa 2 sau într-o altă clasă. În acest fel, fiecare punct de date poate fi verificat peste toate clasele.
32. Explicați utilizarea curbelor ROC și AUC-ului unei curbe ROC.
O curbă ROC (Receiver Operating Characteristic) ilustrează performanța unui model de clasificare binar. Este practic o curbă TPR versus FPR (rata adevărată pozitivă versus rata fals-pozitivă) pentru toate valorile de prag cuprinse între 0 și 1. Într-o curbă ROC, fiecare punct din spațiul ROC va fi asociat cu o matrice de confuzie diferită. O linie diagonală din stânga jos spre dreapta sus pe graficul ROC reprezintă ghicirea aleatorie. Aria de sub curbă (AUC) indică cât de bun este modelul de clasificare. Dacă valoarea AUC este mare (aproape de 1), atunci modelul funcționează satisfăcător, în timp ce dacă valoarea este scăzută (aproximativ 0,5), atunci modelul nu funcționează corect și doar ghicește aleatoriu.
33. Cum puteți utiliza conceptul de ROC într-o clasificare multiclasă?
Conceptul de curbe ROC poate fi utilizat cu ușurință pentru clasificarea multiclasă folosind abordarea one-vs-all. De exemplu, să presupunem că avem trei clase „a”, „b” și „c”. Apoi, prima clasă cuprinde clasa „a” (clasa adevărată), iar a doua clasă cuprinde atât clasa „b” cât și clasa „c” împreună (clasa falsă). Astfel, este trasată curba ROC. În mod similar, pentru toate cele trei clase, vom reprezenta trei curbe ROC și vom efectua analiza AUC.
Până acum am acoperit cei mai de bază doi algoritmi ML, regresia liniară și logistică și sperăm că ați găsit aceste resurse utile.
Învață cursul ML de la cele mai bune universități din lume. Câștigă programe de masterat, Executive PGP sau Advanced Certificate pentru a-ți accelera cariera.

Următoarea parte a acestei serii se bazează pe un alt algoritm ML foarte important, Clustering . Simțiți-vă liber să vă postați îndoielile și întrebările în secțiunea de comentarii de mai jos.
Coautor – Ojas Agarwal
Care sunt graficele de câștig și creștere cumulate?
O diagramă de câștig și creștere este o abordare vizuală pentru a evalua eficiența mai multor modele de învățare automată în diferite moduri. Pe lângă faptul că vă ajută să evaluați cât de reușit este modelul dvs. de predicție, acestea arată vizual modul în care rata de răspuns a unui grup țintă diferă de cea a unui grup ales aleatoriu. Aceste diagrame sunt valoroase în setările corporative, cum ar fi marketingul țintă. Ele pot fi aplicate și în alte domenii, cum ar fi modelarea riscului, analiza lanțului de aprovizionare și așa mai departe. Cu alte cuvinte, diagramele de câștig și creștere sunt două moduri de a face față dificultăților de clasificare care implică seturi de date dezechilibrate.
Care sunt unele dintre ipotezele făcute în timpul utilizării regresiei logistice?
Unele ipoteze sunt făcute în timpul utilizării regresiei logistice. Una dintre ele este că predictorii continui nu au valori influente (valori extreme sau valori aberante). Regresia logistică, care este împărțită în două clase, presupune ca variabila dependentă să fie binară, în timp ce regresia logistică ordonată necesită ca variabila dependentă să fie ordonată. De asemenea, se presupune că nu există intercorelații substanțiale (adică multicoliniaritate) între predictori. De asemenea, consideră că observațiile sunt independente unele de altele.
Pot obține un loc de muncă în domeniul științei datelor dacă am cunoștințe corecte despre învățarea automată?
Un Data Scientist colectează, analizează și interpretează volume enorme de date folosind tehnologii de analiză sofisticate, cum ar fi Machine Learning și Predictive Modeling. Acestea sunt apoi utilizate de liderii companiei pentru a face cele mai bune alegeri de afaceri. Astfel, pe lângă alte abilități, cum ar fi data mining și înțelegerea metodologiilor de cercetare statistică, Machine Learning este o competență critică pentru un Data Scientist. Dar dacă doriți să lucrați ca Data Scientist, trebuie să fiți familiarizat și cu platformele și tehnologiile mari de date precum Hadoop, Pig, Hive, Spark și altele, precum și cu limbaje de programare precum SQL, Python și altele.