33 Domande e risposte sull'intervista sull'apprendimento automatico – Regressione logistica
Pubblicato: 2018-07-05Benvenuti nella seconda parte della serie di domande frequenti del colloquio basate su algoritmi di apprendimento automatico. Ci auguriamo che la sezione precedente sulla regressione lineare ti sia stata utile.
Sommario
Troviamo le risposte alle domande sulla regressione logistica:
1. Che cos'è una funzione logistica? Qual è l'intervallo di valori di una funzione logistica?
f(z) = 1/(1+e -z )
I valori di una funzione logistica varieranno da 0 a 1. I valori di Z varieranno da -infinito a +infinito.
2. Perché la regressione logistica è molto popolare?
La regressione logistica è famosa perché può convertire i valori di logits (logodds), che possono variare da -infinity a +infinity in un intervallo compreso tra 0 e 1. Poiché le funzioni logistiche emettono la probabilità di occorrenza di un evento, può essere applicata a molti scenari di vita reale. È per questo motivo che il modello di regressione logistica è molto popolare.
3. Qual è la formula per la funzione di regressione logistica?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
La differenza tra data science, machine learning e big data!
4. Come si può esprimere la probabilità di un modello di regressione logistica come probabilità condizionata?
P(Valore discreto della variabile Target | X1, X2, X3….Xk). È la probabilità che la variabile target assuma un valore discreto (o 0 o 1 in caso di problemi di classificazione binaria) quando vengono forniti i valori di variabili indipendenti. Ad esempio, la probabilità che un dipendente si attriti (variabile target) date le sue caratteristiche come età, stipendio, KRA, ecc.
5. Cosa sono le quote?
È il rapporto tra la probabilità che un evento si verifichi e la probabilità che l'evento non si verifichi. Ad esempio, supponiamo che la probabilità di vincere una lotteria sia 0,01. Quindi, la probabilità di non vincere è 1- 0,01 = 0,99.
Le probabilità di vincita alla lotteria = (Probabilità di vincita)/(Probabilità di non vincita)
Le probabilità di vincita alla lotteria = 0,01/0,99
La probabilità di vincita alla lotteria è da 1 a 99 e la probabilità di non vincere alla lotteria è di 99 a 1.
6. Quali sono gli output del modello logistico e della funzione logistica?
Il modello logistico emette i logit, ovvero log odds; e la funzione logistica restituisce le probabilità.
Modello logistico = α+1X1+2X2+….+kXk. L'output dello stesso sarà logit.
Funzione logistica = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . L'output, in questo caso, saranno le probabilità.

7. Come interpretare i risultati di un modello di regressione logistica? Oppure, quali sono i significati di alfa e beta in un modello di regressione logistica?
Alpha è la linea di base in un modello di regressione logistica. Sono le quote log per un'istanza in cui tutti gli attributi (X1, X2,………….Xk) sono zero. In scenari pratici, la probabilità che tutti gli attributi siano zero è molto bassa. In un'altra interpretazione, Alpha è la quota di registro per un'istanza in cui nessuno degli attributi viene preso in considerazione.
Beta è il valore in base al quale le quote log cambiano di un'unità cambia in un particolare attributo mantenendo tutti gli altri attributi fissi o invariati (variabili di controllo).
8. Che cos'è l'odds ratio?
Odds ratio è il rapporto tra le quote tra due gruppi. Ad esempio, supponiamo che stiamo cercando di accertare l'efficacia di un medicinale. Abbiamo somministrato questo medicinale al gruppo di "intervento" e un placebo al gruppo di "controllo".
Odds ratio (OR) = (quote del gruppo di intervento)/(quote del gruppo di controllo)
Interpretazione
Se odds ratio = 1, non c'è differenza tra il gruppo di intervento e il gruppo di controllo
Se l'odds ratio è maggiore di 1, il gruppo di controllo è migliore del gruppo di intervento
Se l'odds ratio è inferiore a 1, il gruppo di intervento è migliore del gruppo di controllo.
5 Applicazioni rivoluzionarie dell'apprendimento automatico
9. Qual è la formula per calcolare l'odds ratio?
Nella formula sopra, X 1 e X 0 rappresentano due diversi gruppi per i quali è necessario calcolare l'odds ratio. X 1 i sta per l'istanza ' i ' nel gruppo X 1 . X o i sta per l'istanza ' i ' nel gruppo X 0 . sta per il coefficiente del modello di regressione logistica. Si noti che la linea di base non è inclusa in questa formula.
10. Perché non è possibile utilizzare la regressione lineare al posto della regressione logistica per la classificazione binaria?
I motivi per cui le regressioni lineari non possono essere utilizzate in caso di classificazione binaria sono i seguenti:
Distribuzione dei termini di errore : La distribuzione dei dati in caso di regressione lineare e logistica è diversa. La regressione lineare presuppone che i termini di errore siano normalmente distribuiti. In caso di classificazione binaria, questa ipotesi non vale.
Output del modello : nella regressione lineare, l'output è continuo. In caso di classificazione binaria, un'uscita di un valore continuo non ha senso. Per problemi di classificazione binaria, la regressione lineare può prevedere valori che possono andare oltre 0 e 1. Se vogliamo l'output sotto forma di probabilità, che possono essere mappate a due classi diverse, il suo intervallo dovrebbe essere limitato a 0 e 1. Come il modello di regressione logistica può produrre probabilità con funzione logistica/sigmoide, è preferito alla regressione lineare.
Varianza degli errori residui : la regressione lineare presuppone che la varianza degli errori casuali sia costante. Questa ipotesi è violata anche in caso di regressione logistica.
11. Il confine decisionale è lineare o non lineare nel caso di un modello di regressione logistica?
Il confine decisionale è una linea che separa le variabili target in classi diverse. Il limite di decisione può essere lineare o non lineare. Nel caso di un modello di regressione logistica, il confine decisionale è una linea retta.
Formula del modello di regressione logistica = α+1X1+2X2+….+kXk. Questo rappresenta chiaramente una linea retta. La regressione logistica è adatta solo nei casi in cui una retta è in grado di separare le diverse classi. Se una linea retta non è in grado di farlo, è necessario utilizzare algoritmi non lineari per ottenere risultati migliori.
12. Qual è la funzione di verosimiglianza?
La funzione di verosimiglianza è la probabilità congiunta di osservare i dati. Ad esempio, supponiamo che una moneta venga lanciata 100 volte e vogliamo conoscere la probabilità di ottenere 60 teste dai lanci. Questo esempio segue la formula della distribuzione binomiale.
p = Probabilità di testa da un singolo lancio di monete
n = 100 (il numero di lanci di monete)
x = 60 (il numero di teste – successo)
nx = 30 (il numero di code)
Pr(X=60 |n = 100, p)
La funzione di verosimiglianza è la probabilità che il numero di teste ricevute sia 60 in una scia di 100 lanci di monete, dove la probabilità di teste ricevute in ogni lancio di monete è p. Qui il risultato del lancio della moneta segue una distribuzione binomiale.
Questo può essere riformulato come segue:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = costante
p = parametro sconosciuto
La funzione di verosimiglianza fornisce la probabilità di osservare i risultati utilizzando parametri sconosciuti.
13. Qual è lo stimatore di massima verosimiglianza (MLE)?
Il MLE sceglie quegli insiemi di parametri sconosciuti (stimatore) che massimizzano la funzione di verosimiglianza. Il metodo per trovare il MLE consiste nell'usare il calcolo e impostare a zero la derivata della funzione logistica rispetto a un parametro sconosciuto e risolverlo darà il MLE. Per un modello binomiale, questo sarà facile, ma per un modello logistico i calcoli sono complessi. I programmi per computer vengono utilizzati per derivare MLE per modelli logistici.
(Ecco un altro approccio per rispondere alla domanda.)
MLE è un approccio statistico alla stima dei parametri di un modello matematico. MLE e la stima quadrata ordinaria danno gli stessi risultati per la regressione lineare se si presume che la variabile dipendente sia distribuita normalmente. MLE non presuppone nulla sulle variabili indipendenti.
14. Quali sono i diversi metodi di MLE e quando è preferito ciascun metodo?
In caso di regressione logistica, ci sono due approcci di MLE. Sono metodi condizionali e incondizionati. I metodi condizionali e incondizionati sono algoritmi che utilizzano diverse funzioni di verosimiglianza. La formula incondizionata utilizza la probabilità congiunta di positivi (ad esempio, abbandono) e negativi (ad esempio, non abbandono). La formula condizionale è il rapporto tra la probabilità dei dati osservati e la probabilità di tutte le possibili configurazioni.
Il metodo incondizionato è preferito se il numero di parametri è inferiore rispetto al numero di istanze. Se il numero di parametri è elevato rispetto al numero di istanze, è preferibile l'MLE condizionale. Gli statistici suggeriscono che l'MLE condizionale deve essere utilizzato in caso di dubbio. Il MLE condizionale fornirà sempre risultati imparziali.
Queste 6 tecniche di apprendimento automatico stanno migliorando l'assistenza sanitaria
15. Quali sono i vantaggi e gli svantaggi dei metodi condizionali e incondizionati del MLE?
I metodi condizionali non stimano i parametri indesiderati. I metodi incondizionati stimano anche i valori dei parametri indesiderati. Le formule incondizionate possono essere sviluppate direttamente con probabilità congiunte. Questo non può essere fatto con probabilità condizionata. Se il numero di parametri è elevato rispetto al numero di istanze, il metodo incondizionato darà risultati distorti. I risultati condizionali saranno imparziali in questi casi.
16. Qual è l'output di un programma MLE standard?
L'output di un programma MLE standard è il seguente:
Valore di verosimiglianza massimizzato : questo è il valore numerico ottenuto sostituendo i valori dei parametri sconosciuti nella funzione di verosimiglianza con lo stimatore del parametro MLE.
Matrice varianza-covarianza stimata : la diagonale di questa matrice è costituita dalle varianze stimate delle stime ML. La fuori diagonale è costituita dalle covarianze delle coppie delle stime ML.

17. Perché non possiamo utilizzare l'errore quadratico medio (MSE) come funzione di costo per la regressione logistica?
Nella regressione logistica, utilizziamo la funzione sigmoidea ed eseguiamo una trasformazione non lineare per ottenere le probabilità. La quadratura di questa trasformazione non lineare porterà alla non convessità con i minimi locali. Non è possibile trovare il minimo globale in questi casi utilizzando la discesa del gradiente. Per questo motivo, MSE non è adatto per la regressione logistica. L'entropia incrociata o la perdita di registro viene utilizzata come funzione di costo per la regressione logistica. Nella funzione di costo per la regressione logistica, le previsioni errate sicure sono fortemente penalizzate. Le previsioni giuste e sicure vengono premiate meno. Ottimizzando questa funzione di costo, si ottiene la convergenza.
18. Perché l'accuratezza non è una buona misura per i problemi di classificazione?
L'accuratezza non è una buona misura per i problemi di classificazione perché attribuisce uguale importanza sia ai falsi positivi che ai falsi negativi. Tuttavia, questo potrebbe non essere il caso nella maggior parte dei problemi aziendali. Ad esempio, in caso di previsione del cancro, dichiarare il cancro come benigno è più grave che informare erroneamente il paziente che è malato di cancro. L'accuratezza dà uguale importanza a entrambi i casi e non può differenziarli.
19. Qual è l'importanza di una linea di base in un problema di classificazione?
La maggior parte dei problemi di classificazione riguarda set di dati sbilanciati. Gli esempi includono l'abbandono delle telecomunicazioni, il logoramento dei dipendenti, la previsione del cancro, il rilevamento di frodi, il targeting di annunci pubblicitari online e così via. In tutti questi problemi, il numero delle classi positive sarà molto basso rispetto alle classi negative. In alcuni casi, è comune avere classi positive inferiori all'1% del campione totale. In questi casi, una precisione del 99% può suonare molto buona ma, in realtà, potrebbe non esserlo.
Qui, i negativi sono del 99% e, quindi, la linea di base rimarrà la stessa. Se gli algoritmi prevedono che tutte le istanze siano negative, anche l'accuratezza sarà del 99%. In questo caso, tutti gli aspetti positivi verranno previsti in modo errato, il che è molto importante per qualsiasi azienda. Anche se tutti gli aspetti positivi sono previsti in modo errato, si ottiene un'accuratezza del 99%. Quindi, la linea di base è molto importante e l'algoritmo deve essere valutato rispetto alla linea di base.
20. Cosa sono i falsi positivi e i falsi negativi?
I falsi positivi sono quei casi in cui i negativi sono erroneamente previsti come positivi. Ad esempio, prevedendo che un cliente si ritirerà quando, in realtà, non sta cambiando.
I falsi negativi sono quei casi in cui gli aspetti positivi sono erroneamente previsti come negativi. Ad esempio, prevedere che un cliente non si ritirerà quando, in realtà, si ritirerà.
21. Quali sono il tasso di veri positivi (TPR), il tasso di veri negativi (TNR), il tasso di falsi positivi (FPR) e il tasso di falsi negativi (FNR)?
TPR si riferisce al rapporto di positivi previsti correttamente da tutte le vere etichette. In parole semplici, è la frequenza delle etichette vere correttamente previste.
TPR = TP/TP+FN
TNR si riferisce al rapporto di negativi correttamente previsto da tutte le false etichette. È la frequenza delle false etichette correttamente previste.
TNR = TN/TN+FP
FPR si riferisce al rapporto di positivi erroneamente previsto da tutte le etichette vere. È la frequenza delle false etichette previste in modo errato.
FPR = FP/TN+FP
FNR si riferisce al rapporto di negativi erroneamente previsto da tutte le false etichette. È la frequenza delle etichette vere previste in modo errato.
FNR = FN/TP+FN
22. Cosa sono la precisione e il richiamo?
La precisione è la proporzione di veri positivi rispetto a quelli previsti. Per dirla in un altro modo, è l'accuratezza della previsione. È anche noto come "valore predittivo positivo".
Precisione = TP/TP+FP
Il richiamo è uguale al tasso di vero positivo (TPR).
Come funziona l'apprendimento automatico senza supervisione?
23. Che cos'è la misura F?
È il mezzo armonico di precisione e richiamo. In alcuni casi, ci sarà un compromesso tra la precisione e il richiamo. In questi casi, la misura F diminuirà. Sarà alto quando sia la precisione che il richiamo sono elevati. A seconda del business case e dell'obiettivo dell'analisi dei dati, è necessario selezionare una metrica appropriata.
Misura F = 2 X (Richiamo X di precisione) / (Richiamo di precisione + Richiamo)
24. Che cos'è l'accuratezza?
È il numero di previsioni corrette su tutte le previsioni fatte.
Precisione = (TP+TN)/(Il numero totale di pronostici)
25. Cosa sono la sensibilità e la specificità?
La specificità è la stessa del tasso di vero negativo, oppure è uguale a 1 – tasso di falsi positivi.
Specificità = TN/TN + FP.
La sensibilità è il vero tasso positivo.
Sensibilità = TP/TP + FN
26. Come scegliere un punto di cutoff nel caso di un modello di regressione logistica?
Il punto di interruzione dipende dall'obiettivo aziendale. A seconda degli obiettivi della tua attività, è necessario selezionare il punto di interruzione. Consideriamo ad esempio le inadempienze sui prestiti. Se l'obiettivo aziendale è ridurre la perdita, la specificità deve essere elevata. Se l'obiettivo è aumentare i profitti, allora è una questione completamente diversa. Potrebbe non essere il caso che i profitti aumenteranno evitando di concedere prestiti a tutti i casi di default previsti. Ma può essere il caso che l'azienda debba erogare prestiti a casi di insolvenza leggermente meno rischiosi per aumentare i profitti. In tal caso, sarà richiesto un punto di cutoff diverso, che massimizza il profitto. Nella maggior parte dei casi, le aziende opereranno attorno a molti vincoli. Il punto di cutoff che soddisfa l'obiettivo aziendale non sarà lo stesso con e senza limitazioni. Il punto di cutoff deve essere selezionato considerando tutti questi punti. Come regola generale, scegli un valore di cutoff equivalente alla proporzione di positivi in un set di dati.
Cos'è l'apprendimento automatico e perché è importante27. In che modo la regressione logistica gestisce le variabili categoriali?
Gli input per un modello di regressione logistica devono essere numerici. L'algoritmo non può gestire direttamente le variabili categoriali. Quindi, devono essere convertiti in un formato adatto all'elaborazione dell'algoritmo. Ai vari livelli di una variabile categoriale verrà assegnato un valore numerico univoco noto come variabile fittizia. Queste variabili fittizie vengono gestite dal modello di regressione logistica come qualsiasi altro valore numerico.
28. Che cos'è una curva di risposta cumulativa (CRV)?
Per trasmettere i risultati di un'analisi alla direzione, viene utilizzata una 'curva di risposta cumulativa', che è più intuitiva della curva ROC. Una curva ROC è molto difficile da capire per qualcuno al di fuori del campo della scienza dei dati. Un CRV è costituito dal tasso di veri positivi o dalla percentuale di positivi correttamente classificati sull'asse Y e dalla percentuale della popolazione targetizzata sull'asse X. È importante notare che la percentuale della popolazione sarà classificata dal modello in ordine decrescente (o le probabilità oi valori attesi). Se il modello è valido, prendendo di mira una parte superiore dell'elenco classificato, verranno acquisite tutte le alte percentuali di positivi. Come con la curva ROC, ci sarà una linea diagonale che rappresenta la performance casuale. Comprendiamo questa performance casuale come esempio. Supponendo che il 50% dell'elenco sia preso di mira, si prevede che catturerà il 50% degli aspetti positivi. Questa aspettativa è catturata dalla linea diagonale, che è simile alla curva ROC.
29. Quali sono le curve di portanza?
L'incremento è il miglioramento delle prestazioni del modello (aumento del tasso di veri positivi) rispetto alle prestazioni casuali. Performance casuali significa che se viene preso di mira il 50% delle istanze, si prevede che rileverà il 50% dei positivi. Lift è in confronto alle prestazioni casuali di un modello. Se la prestazione di un modello è migliore della sua prestazione casuale, la sua portanza sarà maggiore di 1.
In una curva di portanza, la portanza viene tracciata sull'asse Y e la percentuale della popolazione (ordinata in ordine decrescente) sull'asse X. A una data percentuale della popolazione target, è preferito un modello con un elevato incremento.
30. Quale algoritmo è più adatto a gestire la regressione logistica dei valori anomali o SVM?
La regressione logistica troverà un confine lineare se esiste per accogliere i valori anomali. La regressione logistica sposterà il confine lineare per accogliere i valori anomali. SVM è insensibile ai singoli campioni. Non ci sarà uno spostamento importante nel confine lineare per accogliere un valore anomalo. SVM viene fornito con controlli di complessità integrati, che si occupano dell'overfitting. Questo non è vero in caso di regressione logistica.
31. Come affronterai il problema della classificazione multiclasse usando la regressione logistica?
Il metodo più famoso per gestire la classificazione multiclasse utilizzando la regressione logistica è l'approccio uno contro tutti. Con questo approccio, viene addestrato un numero di modelli, che è uguale al numero di classi. I modelli funzionano in un modo specifico. Ad esempio, il primo modello classifica il datapoint a seconda che appartenga alla classe 1 oa qualche altra classe; il secondo modello classifica il datapoint nella classe 2 o in un'altra classe. In questo modo, ogni punto dati può essere controllato su tutte le classi.
32. Spiegare l'uso delle curve ROC e l'AUC di una curva ROC.
Una curva ROC (Receiver Operating Characteristic) illustra le prestazioni di un modello di classificazione binaria. È fondamentalmente una curva TPR contro FPR (tasso di vero positivo contro tasso di falsi positivi) per tutti i valori di soglia compresi tra 0 e 1. In una curva ROC, ogni punto nello spazio ROC sarà associato a una matrice di confusione diversa. Una linea diagonale dalla parte inferiore sinistra alla parte superiore destra del grafico ROC rappresenta un'ipotesi casuale. L'area sotto la curva (AUC) indica quanto è buono il modello di classificazione. Se il valore dell'AUC è alto (vicino a 1), il modello funziona in modo soddisfacente, mentre se il valore è basso (intorno a 0,5), il modello non funziona correttamente e si limita a indovinare in modo casuale.
33. Come puoi utilizzare il concetto di ROC in una classificazione multiclasse?
Il concetto di curve ROC può essere facilmente utilizzato per la classificazione multiclasse utilizzando l'approccio uno contro tutti. Ad esempio, supponiamo di avere tre classi 'a', 'b' e 'c'. Quindi, la prima classe comprende la classe "a" (classe vera) e la seconda classe comprende sia la classe "b" che la classe "c" insieme (classe falsa). Pertanto, viene tracciata la curva ROC. Allo stesso modo, per tutte e tre le classi, tracceremo tre curve ROC ed eseguiremo la nostra analisi dell'AUC.
Finora abbiamo trattato i due algoritmi ML più basilari, Regressione lineare e logistica, e speriamo che queste risorse siano state utili.
Impara il corso ML dalle migliori università del mondo. Guadagna master, Executive PGP o programmi di certificazione avanzati per accelerare la tua carriera.

La parte successiva di questa serie si basa su un altro algoritmo ML molto importante, Clustering . Sentiti libero di pubblicare i tuoi dubbi e domande nella sezione commenti qui sotto.
Co-autore di – Ojas Agarwal
Quali sono i grafici cumulativi di Guadagno e Incremento?
Un grafico di guadagno e aumento è un approccio visivo per valutare l'efficienza di diversi modelli di apprendimento automatico in vari modi. Oltre ad assisterti nella valutazione del successo del tuo modello di previsione, mostrano visivamente come il tasso di risposta di un gruppo mirato differisce da quello di un gruppo scelto a caso. Questi diagrammi sono preziosi in contesti aziendali, come il marketing target. Possono essere applicati anche in altri campi, come la modellazione del rischio, l'analisi della catena di approvvigionamento e così via. In altre parole, i grafici Gain e Lift sono due modi per affrontare le difficoltà di classificazione che coinvolgono set di dati sbilanciati.
Quali sono alcune delle ipotesi fatte durante l'utilizzo della regressione logistica?
Alcune ipotesi vengono fatte utilizzando la regressione logistica. Uno di questi è che i predittori continui non hanno valori influenti (valori estremi o valori anomali). La regressione logistica, che è divisa in due classi, presuppone che la variabile dipendente sia binaria, mentre la regressione logistica ordinata richiede che la variabile dipendente sia ordinata. Si presume inoltre che non vi siano intercorrelazioni sostanziali (cioè multicollinearità) tra i predittori. Ritiene inoltre che le osservazioni siano indipendenti l'una dall'altra.
Posso ottenere un lavoro come data scientist se ho una discreta conoscenza del Machine Learning?
Un Data Scientist raccoglie, analizza e interpreta enormi volumi di dati utilizzando sofisticate tecnologie di analisi come Machine Learning e Predictive Modeling. Questi vengono quindi utilizzati dai leader aziendali per fare le migliori scelte aziendali. Pertanto, oltre ad altre abilità come il data mining e la comprensione delle metodologie di ricerca statistica, il Machine Learning è una competenza fondamentale per un Data Scientist. Ma se vuoi lavorare come Data Scientist, devi anche avere familiarità con piattaforme e tecnologie di big data come Hadoop, Pig, Hive, Spark e altri, oltre a linguaggi di programmazione come SQL, Python e altri.