Întrebări și răspunsuri la interviu de regresie logistică [Pentru cei proaspăți și cu experiență]

Publicat: 2020-09-24

Când vine vorba de învățare automată, mai precis de clasificare, regresia logistică este poate cel mai simplu și mai utilizat algoritm. Deoarece regresia logistică este foarte ușor de înțeles și de implementat, acest algoritm este perfect pentru începători și pentru cei care abia își încep călătoria de învățare automată sau știință a datelor.

Deși numele de regresie logistică ar putea suna ca algoritmul pe care s-ar putea folosi pentru a implementa regresia, adevărul este departe de el. Regresia logistică, din cauza nuanțelor sale, este mai potrivită pentru a clasifica efectiv instanțele în clase bine definite decât pentru a efectua sarcini de regresie.

Pe scurt, acest algoritm preia rezultatul regresiei liniare și aplică o funcție de activare înainte de a ne oferi rezultatul. Funcția de activare pe care o folosește regresia logistică este cea a funcției sigmoide (cunoscută și ca funcție logistică). Aderând la proprietățile unei funcții sigmoid, în loc să ofere valori continue, dă doar un număr în intervalul zero și unu. După stabilirea unei valori de prag, realizarea clasificării din rezultatul regresiei logistice devine ușor.

Știm cu toții cum evoluează domeniul științei datelor și al învățării automate. Zilnic se creează mai multe oportunități. Așadar, în această lume competitivă, să vă asigurați că aveți cunoștințele potrivite este cheia pentru a vă asigura o plasare bună în compania visurilor tale. Pentru a vă ajuta în acest demers al dvs., am pregătit o listă de întrebări de interviu de regresie logistică care ar trebui să vă ajute să vă pregătiți pentru călătoria de a deveni un profesionist în știință de date sau un profesionist în învățarea automată.

Cuprins

Întrebări și răspunsuri la interviu de regresie logistică

Î1. Răspundeți folosind fie TRUE, fie FALS. Este regresia logistică un tip de algoritm de învățare automată supravegheat?

Ans. Da, răspunsul la această întrebare ar fi ADEVĂRAT deoarece, într-adevăr, regresia logistică este un algoritm de învățare automată supravegheat. Motivul simplu constă în modul în care funcționează acest algoritm. Pentru a obține rezultate din regresia logistică, mai întâi va trebui să-l alimentați cu date.

Va trebui să furnizați instanțele și etichetarea corectă a acestor instanțe pentru ca acesta să poată învăța din ele și să facă predicții precise. Un algoritm de învățare automată supravegheat ar avea nevoie atât de o variabilă țintă (Y), cât și de instanțele de clasă sau de variabila utilizată pentru a furniza informații de intrare (X) pentru a putea antrena și face predicții cu succes.

Q2. Răspundeți folosind fie TRUE, fie FALS. Este regresia logistică utilizată în principal pentru clasificare?

Ans. Da, răspunsul la această întrebare este ADEVĂRAT. Într-adevăr, regresia logistică este utilizată în primul rând pentru sarcini de clasificare, mai degrabă decât pentru efectuarea regresiei reale. Pentru regresie folosim regresia liniară. Datorită asemănării dintre cele două, este ușor să te confuzi. Nu faceți această greșeală. În regresia logistică, folosim funcția logistică, care nu este altceva decât o funcție de activare a sigmoidului, care face sarcinile de clasificare mult mai confortabile.

Q3. Răspundeți la această întrebare folosind TRUE sau FALSE. Poate fi implementată o rețea neuronală, care imită comportamentul unui algoritm de regresie logistică?

Ans. Da, răspunsul ar fi ADEVĂRAT. Rețelele neuronale sunt cunoscute și ca aproximatori universali. Ele pot fi folosite pentru a imita aproape orice algoritm de învățare automată. Pentru a pune lucrurile în perspectivă, dacă utilizați API-ul Keras din TensorFlow 2.0, tot ce ar trebui să fie să adăugați un strat în modelul secvențial și să faceți acest strat cu o funcție de activare sigmoid.

Î4. Răspundeți la această întrebare folosind fie TRUE, fie FALSE. Putem folosi regresia logistică pentru a rezolva o problemă de clasificare cu mai multe clase?

Ans. Răspunsul scurt ar fi ADEVĂRAT. Răspunsul lung, totuși, te-ar pune pe gânduri puțin. Nu există nicio modalitate prin care puteți implementa o clasificare multiclasă folosind doar un singur model de regresie logistică. Va trebui fie să utilizați o rețea neuronală cu o funcție de activare softmax, fie să utilizați un algoritm complex de învățare automată pentru a prezice cu succes multe clase ale variabilei dvs. de intrare.

Cu toate acestea, există o modalitate prin care puteți utiliza de fapt regresia logistică pentru a rezolva o problemă de clasificare cu mai multe clase. Asta ar fi prin utilizarea unei abordări unul împotriva tuturor. Va trebui să antrenezi n clasificatori (unde n este numărul de clase), fiecare dintre ei prezicând doar o clasă. Deci, într-un caz de clasificare în trei clase (să spunem A, B și C), va trebui să antrenați doi clasificatori unul pentru a prezice A și nu A, altul pentru a prezice B și nu B și clasificatorul final prezicerea C și nu C. Apoi va trebui să luați rezultatele din toate aceste trei modele să le integrați împreună pentru a putea face o clasificare multiclasă folosind nimic altceva decât regresia logistică.

Î5. Alegeți una dintre opțiunile din lista de mai jos. Care este metoda de bază care este utilizată pentru a încadra datele de antrenament în algoritmul de regresie logistică?

Distanța Jaccard
Probabilitate maximă
Eroare cel mai mic pătrat
Niciuna dintre opțiunile menționate mai sus.

Ans. Răspunsul este B. Este ușor să selectați opțiunea C, care este eroarea celui mai mic pătrat, deoarece aceasta este aceeași metodă care este utilizată în regresia liniară. Cu toate acestea, în regresia logistică, nu folosim aproximarea celui mai mic pătrat pentru a încadra instanțele de antrenament în model; folosim în schimb Probabilitate maximă.

Checkout: Idei de proiecte de învățare automată

Î6. Alegeți una dintre opțiunile din lista de mai jos. Ce măsură nu am putea folosi pentru a măsura corectitudinea unui model de regresie logistică?

Aria de sub curba caracteristicilor de funcționare a receptorului (sau scorul AUC-ROC)
Pierdere de bușteni
Eroare pătratică medie (sau MSE)
Precizie

Ans. Opțiunea corectă pe care ar trebui să o alegeți este C, adică Eroare medie pătratică sau MSE. Deoarece algoritmul de regresie logistică este de fapt un algoritm de clasificare mai degrabă decât un algoritm de regresie de bază, nu putem folosi eroarea Meas Square pentru a determina performanța modelului de regresie logistică pe care l-am scris. Motivul principal este din cauza rezultatelor pe care o primim de la model și a incapacității de a atribui o valoare numerică semnificativă unei instanțe de clasă.

Î7. Alegeți una dintre opțiunile din lista de mai jos. AIC se întâmplă să fie o măsură excelentă pentru a judeca performanța modelului de regresie logistică. AIC este foarte similar cu metoda R-pătrat care este utilizată pentru a determina performanța unui algoritm de regresie liniară. Ce este de fapt adevărat despre acest AIC?

Modelul cu un scor AIC scăzut este în general preferat.
Modelul care are un scor mare AIC este de fapt preferat.
Alegerea modelului doar pe baza scorului AIC depinde foarte mult de situație.
Niciuna dintre opțiunile menționate mai sus.

Ans. Se preferă modelul care are cea mai mică valoare a AIC. Deci, răspunsul la întrebare ar fi opțiunea A. Principalul motiv pentru care alegem modelul cu cea mai mică valoare posibilă a AIC este că penalizarea, care se adaugă pentru a reglementa performanța modelului, de fapt nu încurajează potrivirea la fi terminat. Da, AIC sau Akaike Information Criterion este acea măsurătoare în care cu cât valoarea este mai mică, cu atât se potrivește mai bine.

În practică, preferăm modelele care nu sunt nici sub-adaptate (adică nu se poate generaliza bine, deoarece modelul pe care l-am ales nu este suficient de complex pentru a găsi complexitățile prezente în date) și nici supra-adaptate (adică modelul s-a potrivit perfect antrenamentului). date și și-a pierdut capacitatea de a face predicții mai generale). Așadar, alegem un scor rezonabil de scăzut pentru a evita atât subpotrivirea cât și supraajustarea.

Î8. Răspundeți folosind fie TRUE, fie FALS. Trebuie să standardizăm valorile prezente în coloanele de caracteristici înainte de a introduce datele într-un model de regresie logistică de antrenament?

Ans. Nu, nu trebuie să standardizăm valorile prezente în spațiul de caracteristici, pe care trebuie să le folosim pentru a antrena modelul de regresie logistică. Deci, răspunsul la această întrebare ar fi FALS. Alegem să standardizăm toate valorile noastre pentru a ajuta funcția (de obicei coborârea gradientului), care este responsabilă pentru ca algoritmul să convergă spre o valoare. Deoarece acest algoritm este relativ simplu, nu are nevoie de sumele care urmează să fie scalate pentru ca acesta să aibă de fapt o diferență semnificativă în performanța sa.

Aflați: Top 5 modele de învățare automată explicate pentru începători

Q9. Alegeți una dintre opțiunile din lista de mai jos. Care este tehnica pe care o folosim pentru a îndeplini sarcina de selecție a variabilelor?

Regresia crestei
Regresia LASSO
Niciuna dintre opțiunile menționate
Atât LASSO, cât și regresia Ridge

Ans. Răspunsul la această întrebare este regresia B. LASSO. Motivul este simplu, penalitatea l2, care este suportată în funcția de regresie LASSO, are capacitatea de a face ca coeficientul unor caracteristici să fie zero. Deoarece coeficientul este zero, ceea ce înseamnă că nu vor avea niciun efect asupra rezultatului final al funcției. Aceasta înseamnă că aceste variabile nu sunt atât de importante pe cât credeam că sunt și în acest fel, cu ajutorul regresiei LASSO, putem efectua o selecție de variabile.

Q10. Alegeți una dintre opțiunile din lista de mai jos. Să presupunem că aveți o monedă corectă în posesia dvs. cu scopul de a afla șansele de a obține capete. Care ar fi cotele tale calculate?

Oare șansele de a obține cap ar fi 0
Oare șansele de a obține cap ar fi 1
Şansele de a obţine cap ar fi de 0,5
Niciuna dintre opțiunile menționate mai sus.

Ans. Pentru a răspunde cu succes la această întrebare, ar trebui să înțelegeți semnificația și definiția cotelor. Cotele sunt de fapt definite ca raportul dintre două probabilități - probabilitatea de a se întâmpla și probabilitatea de a nu avea loc un anumit eveniment. În cazul oricărei monede, ceea ce este corect, posibilitatea de cap și probabilitatea de a nu face cap sunt aceleași. Deci, șansele de a obține capete sunt una.

Q11. Alegeți răspunsul corect dintre opțiunile de mai jos. Funcția logit este definită ca jurnalul funcției de cote. Care credeți că este intervalul acestei funcții logit în domeniul [0,1]?

(-infinit, +infinit)
(0, +infinit)
(-infinit, 0)
(0, 1)

Ans. Funcția de probabilitate ia valoarea cu care este transmisă și o transformă într-o probabilitate. Înseamnă că intervalul oricărei funcții este fixat între zero și unu. Cu toate acestea, funcția de cote face un lucru: ia valoarea din funcția de probabilitate și face intervalul acesteia de la zero la infinit.

Deci, intrarea efectivă în funcția log ar fi de la zero la infinit. Știm că intervalul funcției log din acest domeniu este întreaga linie numerică reală sau infinitul negativ până la infinitul pozitiv. Deci, răspunsul la această întrebare este opțiunea A.

Q12. Alegeți opțiunea care credeți că este ADEVĂRATĂ din lista de mai jos:

Valorile de eroare în cazul regresiei liniare trebuie să urmeze o distribuție normală, dar în cazul regresiei logistice, valorile nu trebuie să urmeze o distribuție normală standard.
Valorile de eroare în cazul regresiei logistice trebuie să urmeze o distribuție normală, dar în cazul regresiei liniare, valorile nu trebuie să urmeze o distribuție normală standard.
Valorile de eroare atât în cazul regresiei liniare, cât și al regresiei logistice trebuie să urmeze o distribuție normală.
Valorile de eroare atât în cazul regresiei liniare, cât și al regresiei logistice nu trebuie să urmeze o distribuție normală.

Ans. Singura afirmație adevărată din mulțimea acestor afirmații este prima. Deci, răspunsul la întrebare devine opțiunea A.

Q13. Alegeți opțiunea(e) corectă(e) din lista de opțiuni de mai jos. Deci, să spunem că ați aplicat modelul de regresie logistică în orice date date. Rezultatele de acuratețe pe care le-ați obținut sunt X pentru setul de antrenament și Y pentru setul de testare. Acum, doriți să adăugați mai multe puncte de date la modelul dvs. Deci, după tine, ce ar trebui să se întâmple?

Precizia X, pe care am primit-o în datele de antrenament, ar trebui să crească.
Precizia X, pe care am obținut-o din datele de antrenament, ar trebui să scadă.
Precizia Y, pe care am obținut-o din datele de testare, ar trebui să scadă.
Precizia Y, pe care am obținut-o din datele de testare, ar trebui să crească sau să rămână aceeași.

Ans. Precizia antrenamentului depinde în mare măsură de potrivirea modelului cu datele, pe care le-a văzut și le-a învățat deja. Deci, să presupunem că creștem numărul de caracteristici introduse în model, precizia de antrenament X crește. În acest caz, precizia antrenamentului va crește, deoarece modelul va trebui să devină mai complicat pentru a potrivi corect datele cu un număr crescut de caracteristici.

În timp ce acuratețea testării va crește doar dacă caracteristica care este adăugată în model este o caracteristică excelentă și semnificativă sau dacă precizia modelului în timpul testării va rămâne mai mult sau mai puțin aceeași. Deci, răspunsul la această întrebare ar fi ambele opțiuni A și D.

Q14. Alegeți opțiunea potrivită din următoarea opțiune în ceea ce privește metoda one vs all din punct de vedere al regresiei logistice.

Am avea nevoie de un total de n modele pentru a clasifica corect între n număr de clase.
Am avea nevoie de un număr n-1 de modele pentru a clasifica între n număr de clase.
Am avea nevoie de un singur model pentru a clasifica cu succes între n număr de clase.
Niciuna dintre opțiunile menționate mai sus.

Ans. Pentru a clasifica între n clase diferite, vom avea nevoie de n modele într-o abordare One vs.

Q15. Priviți graficul de mai jos și răspundeți la întrebare alegând o opțiune dintre opțiunile enumerate mai jos. Câte minime locale vezi în grafic?

Există doar o minimă locală în grafic.
Există două minime locale în acest grafic.
Există trei minime locale în acest grafic.
Există patru minime locale în acest grafic.

Ans. Deoarece panta graficului devine zero în patru puncte distincte (unde graficul are formă de U), este sigur să spunem că va avea patru minime locale, astfel încât răspunsul ar fi D.

Citește și: Regresia liniară vs. Regresie logistică

Ce urmează?

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Este regresia logistică dificil de învățat?

Când vine vorba de știința datelor, atât regresia logistică, cât și regresia liniară sunt utilizate pe scară largă pentru a rezolva diferite tipuri de probleme de calcul. Și pentru a lucra eficient în domeniul științei datelor, ar trebui să înțelegeți și să vă simțiți confortabil cu ambele tipuri de modele de regresie. Ați putea ghici din nume că regresia logistică folosește un model mai avansat de ecuații. Deci este mai greu de învățat în comparație cu regresia liniară. Cu toate acestea, dacă aveți o înțelegere de bază a modului în care funcționează matematica, puteți construi pe ea pentru a crea pachete în programarea R sau Python.

Cât de importantă este regresia logistică în știința datelor?

Pentru a deveni un om de știință a datelor de succes, este esențial să înțelegeți modul de achiziție și procesare a datelor, înțelegerea datelor și construirea unui model, evaluarea rezultatelor și implementarea acestuia. Iar regresia logistică este de neprețuit pentru înțelegerea întregului concept de conductă. Când înțelegeți regresia logistică, dezvoltați automat o înțelegere mult mai bună a conceptelor de învățare automată. Mai mult, uneori puteți rezolva cu ușurință probleme extrem de complicate folosind doar regresia logistică, în special pentru problemele neliniare. Regresia logistică este un instrument statistic vital, iar statisticile este o parte inseparabilă a învățării automate. Și dacă doriți să studiați rețelele neuronale, cunoașterea regresiei logistice vă va oferi un avantaj excelent.

Este regresia logistică cu adevărat utilă?

În ciuda numelui său, regresia logistică este un cadru de clasificare, în realitate, mai mult decât regresia. Prezintă o metodă sau un algoritm mai eficient și mai simplu care poate fi folosit pentru a rezolva probleme de clasificare binară în învățarea automată. Puteți realiza cu ușurință acest lucru și puteți obține performanțe excelente pentru clasele care sunt separabile liniar. Cu toate acestea, atunci când există mai multe limite de decizie care sunt neliniare, regresia logistică are tendința de a avea performanțe slabe. În unele cazuri, se spune că algoritmi mai compacti, cum ar fi rețelele neuronale, sunt mai eficienți și mai puternici.