Domande e risposte sull'intervista sulla regressione logistica [per neofiti ed esperti]

Pubblicato: 2020-09-24

Quando si tratta di machine learning, più specificamente di classificazione, la regressione logistica è forse l'algoritmo più semplice e più utilizzato. Poiché la regressione logistica è molto facile da comprendere e implementare, questo algoritmo è perfetto per i principianti e per le persone che stanno appena iniziando il loro percorso di apprendimento automatico o scienza dei dati.

Sebbene il nome regressione logistica possa suonare come l'algoritmo che si potrebbe usare per implementare la regressione, la verità è tutt'altro che credibile. La regressione logistica, a causa delle sue sfumature, è più adatta a classificare effettivamente le istanze in classi ben definite piuttosto che eseguire effettivamente attività di regressione.

In poche parole, questo algoritmo prende l'output di regressione lineare e applica una funzione di attivazione prima di fornirci il risultato. La funzione di attivazione utilizzata dalla regressione logistica è quella della funzione sigmoidea (nota anche come funzione logistica). Aderendo alle proprietà di una funzione sigmoide, invece di fornire valori continui, fornisce semplicemente un numero compreso tra zero e uno. Dopo aver impostato un valore di soglia, effettuare la classificazione dall'output della regressione logistica diventa un gioco da ragazzi.

Sappiamo tutti come si sta evolvendo il campo della scienza dei dati e dell'apprendimento automatico. Ogni giorno vengono create più opportunità. Quindi, in questo mondo competitivo e spietato, assicurarsi di avere le giuste conoscenze è la chiave per garantire un buon posizionamento nella compagnia dei tuoi sogni. Per aiutarti in questa tua impresa, abbiamo preparato un elenco di domande del colloquio di regressione logistica che dovrebbero aiutarti a prepararti per il viaggio per diventare un data scientist professionista o un professionista dell'apprendimento automatico.

Sommario

Domande e risposte sull'intervista sulla regressione logistica

Q1. Rispondi usando VERO o FALSO. La regressione logistica è un tipo di algoritmo di apprendimento automatico supervisionato?

Ans. Sì, la risposta a questa domanda sarebbe VERA perché, in effetti, la regressione logistica è un algoritmo di apprendimento automatico supervisionato. Il semplice motivo risiede nel modo in cui funziona questo algoritmo. Per ottenere l'output dalla regressione logistica, dovrai prima alimentarlo con i dati.

Dovrai fornire le istanze e l'etichettatura corretta di queste istanze affinché possa imparare da esse e fare previsioni accurate. Un algoritmo di apprendimento automatico supervisionato richiederebbe sia una variabile di destinazione (Y) sia le istanze della classe o la variabile utilizzata per fornire informazioni di input (X) per essere in grado di addestrare e fare previsioni con successo.

Q2. Rispondi usando VERO o FALSO. La regressione logistica viene utilizzata principalmente per la classificazione?

Ans. Sì, la risposta a questa domanda è VERA. In effetti, la regressione logistica viene utilizzata principalmente per attività di classificazione piuttosto che per eseguire la regressione effettiva. Usiamo la regressione lineare per la regressione. A causa della somiglianza tra i due, è facile confondersi. Non fare questo errore. Nella regressione logistica, utilizziamo la funzione logistica, che non è altro che una funzione di attivazione sigmoidea, che rende i compiti di classificazione molto più comodi.

Q3. Rispondi a questa domanda usando VERO o FALSO. È possibile implementare una rete neurale che imita il comportamento di un algoritmo di regressione logistica?

Ans. Sì, la risposta sarebbe VERA. Le reti neurali sono anche conosciute come approssimatori universali. Possono essere utilizzati per imitare quasi tutti gli algoritmi di apprendimento automatico. Per mettere le cose in prospettiva, se stai usando l'API Keras di TensorFlow 2.0, tutto ciò che dovresti sarebbe aggiungere un livello nel modello sequenziale e creare questo livello con una funzione di attivazione del sigmoide.

Q4. Rispondi a questa domanda usando VERO o FALSO. Possiamo usare la regressione logistica per risolvere un problema di classificazione multiclasse?

Ans. La risposta breve sarebbe VERO. La risposta lunga, tuttavia, ti farebbe pensare un po'. Non è possibile implementare una classificazione multiclasse utilizzando un solo modello di regressione logistica. Dovrai utilizzare una rete neurale con una funzione di attivazione softmax o utilizzare un complesso algoritmo di apprendimento automatico per prevedere con successo molte classi della tua variabile di input.

Tuttavia, esiste un modo in cui puoi effettivamente utilizzare la regressione logistica per risolvere un problema di classificazione multi-classe. Ciò sarebbe utilizzando un approccio uno contro tutti. Dovrai addestrare n classificatori (dove n è il numero di classi), ognuno dei quali prevede una sola classe. Quindi, in un caso di classificazione a tre classi (diciamo A, B e C), dovrai addestrare due classificatori uno per prevedere A e non A, un altro per prevedere B e non B e il classificatore finale predire C e non C. Quindi dovrai prendere gli output di tutti e tre i modelli integrandoli insieme per essere in grado di eseguire una classificazione multiclasse usando nient'altro che la regressione logistica.

Q5. Scegli una delle opzioni dall'elenco sottostante. Qual è il metodo sottostante utilizzato per adattare i dati di addestramento nell'algoritmo di regressione logistica?

  1. Jaccad distanza
  2. Massima Probabilità
  3. Errore dei minimi quadrati
  4. Nessuna delle opzioni sopra menzionate.

Ans. La risposta è B. È facile selezionare l'opzione C, che è l'errore dei minimi quadrati perché questo è lo stesso metodo utilizzato nella regressione lineare. Tuttavia, nella regressione logistica, non utilizziamo l'approssimazione dei minimi quadrati per adattare le istanze di addestramento al modello; usiamo invece la massima verosimiglianza.

Checkout: idee per progetti di apprendimento automatico

Q6. Scegli una delle opzioni dall'elenco sottostante. Quale metrica non saremmo in grado di utilizzare per misurare la correttezza di un modello di regressione logistica?

  1. L'area sotto la curva delle caratteristiche operative del ricevitore (o punteggio AUC-ROC)
  2. Log-perdita
  3. Errore quadratico medio (o MSE)
  4. Precisione

Ans. L'opzione corretta che dovresti scegliere è C, cioè Errore quadratico medio o MSE. Poiché l'algoritmo di regressione logistica è in realtà un algoritmo di classificazione piuttosto che un algoritmo di regressione di base, non possiamo utilizzare l'errore Meas Square per determinare le prestazioni del modello di regressione logistica che abbiamo scritto. Il motivo principale è dovuto all'output che riceviamo dal modello e all'impossibilità di assegnare un valore numerico significativo a un'istanza di classe.

Q7. Scegli una delle opzioni dall'elenco sottostante. AIC sembra essere una metrica eccellente per giudicare le prestazioni del modello di regressione logistica. AIC è molto simile al metodo R-quadrato utilizzato per determinare le prestazioni di un algoritmo di regressione lineare. Cosa c'è di vero in questa AIC?

  1. Il modello con un punteggio AIC basso è generalmente preferito.
  2. Il modello che ha un punteggio AIC enorme è in realtà preferito.
  3. La scelta del modello solo sulla base del punteggio AIC dipende fortemente dalla situazione.
  4. Nessuna delle opzioni sopra menzionate.

Ans. Si preferisce il modello che ha il minor valore di AIC. Quindi, la risposta alla domanda sarebbe l'opzione A. Il motivo principale per cui scegliamo il modello con il valore di AIC più basso possibile è perché la sanzione, che viene aggiunta per regolare le prestazioni del modello, in realtà non incoraggia l'adattamento a essere finito. Sì, l'AIC o Akaike Information Criterion è quella metrica in cui più basso è il valore, migliore è l'adattamento.

In pratica, preferiamo i modelli che non sono né underfitting (il che significa che non può generalizzare bene perché il modello che abbiamo scelto non è abbastanza complesso da trovare le complessità presenti nei dati) né overfitting (il che significa che il modello si è adattato perfettamente al training dati e ha perso la capacità di fare previsioni più generali). Quindi, scegliamo un punteggio ragionevolmente basso per evitare sia l'underfitting che l'overfitting.

Q8. Rispondi usando VERO o FALSO. È necessario standardizzare i valori presenti nelle colonne delle funzionalità prima di inserire i dati in un modello di regressione logistica di addestramento?

Ans. No, non è necessario standardizzare i valori presenti nello spazio delle caratteristiche, che dobbiamo utilizzare per addestrare il modello di regressione logistica. Quindi, la risposta a questa domanda sarebbe FALSA. Scegliamo di standardizzare tutti i nostri valori per aiutare la funzione (di solito la discesa del gradiente), che è responsabile della convergenza dell'algoritmo su un valore. Poiché questo algoritmo è relativamente semplice, non è necessario ridimensionare gli importi per avere effettivamente una differenza significativa nelle sue prestazioni.

Impara: i 5 migliori modelli di machine learning spiegati per i principianti

Q9. Scegli una delle opzioni dall'elenco sottostante. Qual è la tecnica che utilizziamo per svolgere il compito di selezione delle variabili?

  1. Regressione della cresta
  2. Regressione LASSO
  3. Nessuna delle opzioni citate
  4. Sia LASSO che Ridge Regression

Ans. La risposta a questa domanda è la regressione di B. LASSO. Il motivo è semplice, la penalità l2, che si verifica nella funzione di regressione LASSO, ha la capacità di rendere nullo il coefficiente di alcune caratteristiche. Poiché il coefficiente è zero, significa che non avranno alcun effetto sul risultato finale della funzione. Ciò significa che queste variabili non sono così importanti come pensavamo e in questo modo, con l'aiuto della regressione LASSO, possiamo eseguire una selezione di variabili.

Q10. Scegli una delle opzioni dall'elenco sottostante. Assumiamo di avere una discreta moneta in vostro possesso con l'obiettivo di scoprire le probabilità di ottenere testa. Quali sarebbero le tue quote calcolate?

  1. Le probabilità di ottenere la testa sarebbero 0
  2. Le probabilità di ottenere la testa sarebbero 1
  3. Le probabilità di ottenere la testa sarebbero 0,5
  4. Nessuna delle opzioni sopra menzionate.

Ans. Per rispondere con successo a questa domanda, dovresti capire il significato e la definizione delle quote. Le probabilità sono in realtà definite come il rapporto di due probabilità: la probabilità che accada e la probabilità che non si verifichi un evento particolare. Nel caso di qualsiasi moneta, il che è giusto, la possibilità di testa e la probabilità di non testa sono le stesse. Quindi, le probabilità di ottenere testa sono una.

Q11. Scegli la risposta corretta tra le opzioni seguenti. La funzione logit è definita come il log della funzione odds. Quale pensi che l'intervallo di questa funzione logit sia nel dominio di [0,1]?

  1. (-infinito, +infinito)
  2. (0, +infinito)
  3. (-infinito, 0)
  4. (0, 1)

Ans. La funzione di probabilità prende il valore con cui è passata e lo trasforma in una probabilità. Ciò significa che l'intervallo di qualsiasi funzione è compreso tra zero e uno. Tuttavia, la funzione di probabilità fa una cosa: prende il valore dalla funzione di probabilità e ne fa l'intervallo da zero all'infinito.

Quindi, l'input effettivo per la funzione log sarebbe da zero a infinito. Sappiamo che l'intervallo della funzione logaritmica in questo dominio è l'intera linea dei numeri reali o dall'infinito negativo all'infinito positivo. Quindi, la risposta a questa domanda è l'opzione A.

Q12. Scegli l'opzione che ritieni VERO dall'elenco seguente:

  1. I valori di errore nel caso della regressione lineare devono seguire una distribuzione normale, ma nel caso della regressione logistica i valori non devono seguire una distribuzione normale standard.
  2. I valori di errore nel caso della regressione logistica devono seguire una distribuzione normale, ma nel caso della regressione lineare i valori non devono seguire una distribuzione normale standard.
  3. I valori di errore sia nel caso della regressione lineare che della regressione logistica devono seguire una distribuzione normale.
  4. I valori di errore sia nel caso della regressione lineare che della regressione logistica non devono seguire una distribuzione normale.

Ans. L'unica affermazione veritiera nel gruppo di queste affermazioni è la prima. Quindi, la risposta alla domanda diventa l'opzione A.

Q13. Scegli l'opzione o le opzioni corrette dall'elenco di opzioni in basso. Quindi, supponiamo che tu abbia applicato il modello di regressione logistica a qualsiasi dato dato. I risultati di precisione che hai ottenuto sono X per il set di addestramento e Y per il set di test. Ora vorresti aggiungere più punti dati al tuo modello. Quindi, cosa, secondo te, dovrebbe succedere?

  1. L'accuratezza X, che abbiamo ottenuto nei dati di allenamento, dovrebbe aumentare.
  2. L'accuratezza X, che abbiamo ottenuto dai dati di allenamento, dovrebbe diminuire.
  3. L'accuratezza Y, che abbiamo ottenuto dai dati del test, dovrebbe diminuire.
  4. La precisione Y, che abbiamo ottenuto dai dati del test, dovrebbe aumentare o rimanere la stessa.

Ans. L'accuratezza dell'allenamento dipende fortemente dall'adattamento che il modello ha sui dati, che ha già visto e appreso. Quindi, supponiamo di aumentare il numero di funzioni inserite nel modello, l'accuratezza dell'allenamento X aumenta. In tal caso, l'accuratezza dell'addestramento aumenterà perché il modello dovrà diventare più complicato per adattare correttamente i dati con un numero maggiore di funzionalità.

Considerando che l'accuratezza del test aumenterà solo se la caratteristica aggiunta al modello è una caratteristica eccellente e significativa, oppure l'accuratezza del modello durante il test rimarrà più o meno la stessa. Quindi, la risposta a questa domanda sarebbe entrambe le opzioni A e D.

Q14. Scegli l'opzione giusta tra quelle seguenti per quanto riguarda il metodo uno contro tutti in termini di regressione logistica.

  1. Avremmo bisogno di un totale di n modelli per classificare correttamente tra n numero di classi.
  2. Avremmo bisogno di un numero n-1 di modelli per classificare tra n numero di classi.
  3. Avremmo bisogno di un solo modello per classificare con successo tra n numero di classi.
  4. Nessuna delle opzioni sopra menzionate.

Ans. Per classificare tra n classi diverse, avremo bisogno di n modelli in un approccio Uno contro Tutti.

Q15. Osserva il grafico sottostante e rispondi alla domanda scegliendo un'opzione tra quelle elencate di seguito. Quanti minimi locali vedi nel grafico?

  1. C'è solo un minimo locale nel grafico.
  2. Ci sono due minimi locali in questo grafico.
  3. Ci sono tre minimi locali in questo grafico.
  4. Ci sono quattro minimi locali in questo grafico.

Ans. Poiché la pendenza del grafico diventa zero in quattro punti distinti (dove il grafico è a forma di U), è sicuro dire che avrà quattro minimi locali in modo che la risposta sia D.

Leggi anche: Regressione lineare vs. Regressione logistica

Cosa succede dopo?

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

La regressione logistica è difficile da imparare?

Quando si tratta di scienza dei dati, sia la regressione logistica che lineare sono ampiamente utilizzate per risolvere diversi tipi di problemi computazionali. E per lavorare in modo efficiente nel campo della scienza dei dati, dovresti comprendere e sentirti a tuo agio con entrambi questi tipi di modelli di regressione. Si potrebbe intuire dal nome che la regressione logistica utilizza un modello di equazioni più avanzato. Quindi è un po' più difficile da imparare rispetto alla regressione lineare. Tuttavia, se hai una conoscenza di base di come funziona la matematica, puoi basarti su di essa per creare pacchetti nella programmazione R o Python.

Quanto è importante la regressione logistica nella scienza dei dati?

Per diventare un data scientist di successo, è essenziale comprendere la pipeline di acquisizione ed elaborazione dei dati, comprensione dei dati e costruzione di un modello, valutazione dei risultati e distribuzione. E la regressione logistica è preziosa per comprendere l'intero concetto di pipeline. Quando comprendi la regressione logistica, sviluppi automaticamente una comprensione molto migliore dei concetti di apprendimento automatico. Inoltre, a volte puoi risolvere facilmente problemi molto complicati usando solo la regressione logistica, specialmente per problemi non lineari. La regressione logistica è uno strumento statistico fondamentale e le statistiche sono una parte inseparabile dell'apprendimento automatico. E se desideri studiare le reti neurali, conoscere la regressione logistica offrirà un eccellente vantaggio.

La regressione logistica è effettivamente utile?

Nonostante il nome, la regressione logistica è un quadro di classificazione, in realtà, più della regressione. Presenta un metodo o un algoritmo più efficiente e più semplice che può essere utilizzato per risolvere problemi di classificazione binaria nell'apprendimento automatico. Puoi facilmente realizzarlo e ottenere prestazioni eccellenti per classi separabili linearmente. Tuttavia, quando ci sono diversi limiti decisionali non lineari, la regressione logistica tende a sottoperformare. In alcuni casi, si dice che algoritmi più compatti come le reti neurali siano più efficienti e potenti.