33 Perguntas e Respostas da Entrevista de Aprendizado de Máquina - Regressão Logística
Publicados: 2018-07-05Bem-vindo à segunda parte da série de perguntas mais frequentes em entrevistas baseadas em algoritmos de aprendizado de máquina. Esperamos que a seção anterior sobre Regressão Linear tenha sido útil para você.
Índice
Vamos encontrar as respostas para perguntas sobre regressão logística:
1. O que é uma função logística? Qual é o intervalo de valores de uma função logística?
f(z) = 1/(1+e -z )
Os valores de uma função logística variam de 0 a 1. Os valores de Z variam de -infinito a +infinito.
2. Por que a regressão logística é tão popular?
A regressão logística é famosa porque pode converter os valores de logits (logodds), que podem variar de -infinity a +infinity a um intervalo entre 0 e 1. Como as funções logísticas produzem a probabilidade de ocorrência de um evento, ela pode ser aplicada a muitos cenários da vida real. É por esta razão que o modelo de regressão logística é muito popular.
3. Qual é a fórmula da função de regressão logística?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
A diferença entre Data Science, Machine Learning e Big Data!
4. Como a probabilidade de um modelo de regressão logística pode ser expressa como probabilidade condicional?
P(Valor discreto da variável Target | X1, X2, X3….Xk). É a probabilidade da variável alvo assumir um valor discreto (0 ou 1 no caso de problemas de classificação binária) quando os valores das variáveis independentes são fornecidos. Por exemplo, a probabilidade de um funcionário ser dispensado (variável de destino) devido a seus atributos, como idade, salário, KRAs, etc.
5. O que são probabilidades?
É a razão entre a probabilidade de um evento ocorrer e a probabilidade de o evento não ocorrer. Por exemplo, vamos supor que a probabilidade de ganhar na loteria seja 0,01. Então, a probabilidade de não ganhar é 1- 0,01 = 0,99.
As chances de ganhar na loteria = (Probabilidade de ganhar)/(Probabilidade de não ganhar)
As chances de ganhar na loteria = 0,01/0,99
As chances de ganhar na loteria são de 1 a 99, e as chances de não ganhar na loteria são de 99 a 1.
6. Quais são as saídas do modelo logístico e da função logística?
O modelo logístico gera os logits, ou seja, as probabilidades dos logs; e a função logística gera as probabilidades.
Modelo logístico = α+1X1+2X2+….+kXk. A saída do mesmo será logits.
Função logística = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . A saída, neste caso, serão as probabilidades.

7. Como interpretar os resultados de um modelo de regressão logística? Ou, quais são os significados de alfa e beta em um modelo de regressão logística?
Alfa é a linha de base em um modelo de regressão logística. São as probabilidades de log para uma instância quando todos os atributos (X1, X2,………….Xk) são zero. Em cenários práticos, a probabilidade de todos os atributos serem zero é muito baixa. Em outra interpretação, Alpha é o log das probabilidades para uma instância em que nenhum dos atributos é levado em consideração.
Beta é o valor pelo qual as probabilidades de log mudam por uma mudança de unidade em um atributo específico, mantendo todos os outros atributos fixos ou inalterados (variáveis de controle).
8. O que é odds ratio?
A razão de chances é a razão de chances entre dois grupos. Por exemplo, vamos supor que estamos tentando verificar a eficácia de um medicamento. Administramos este medicamento ao grupo 'intervenção' e um placebo ao grupo 'controle'.
Odds ratio (OR) = (odds do grupo de intervenção)/(odds do grupo controle)
Interpretação
Se odds ratio = 1, então não há diferença entre o grupo de intervenção e o grupo de controle
Se a razão de chances for maior que 1, o grupo controle é melhor que o grupo intervenção
Se a razão de chances for menor que 1, o grupo intervenção é melhor que o grupo controle.
5 aplicativos inovadores de aprendizado de máquina
9. Qual é a fórmula para calcular a razão de chances?
Na fórmula acima, X 1 e X 0 representam dois grupos diferentes para os quais a razão de chances precisa ser calculada. X 1 i representa a instância ' i ' no grupo X 1 . X o i representa a instância ' i ' no grupo X 0 . representa o coeficiente do modelo de regressão logística. Observe que a linha de base não está incluída nesta fórmula.
10. Por que a regressão linear não pode ser usada no lugar da regressão logística para classificação binária?
As razões pelas quais as regressões lineares não podem ser usadas no caso de classificação binária são as seguintes:
Distribuição dos termos de erro : A distribuição dos dados no caso de regressão linear e logística é diferente. A regressão linear assume que os termos de erro são normalmente distribuídos. No caso de classificação binária, esta suposição não é verdadeira.
Saída do modelo : Na regressão linear, a saída é contínua. No caso de classificação binária, uma saída de valor contínuo não faz sentido. Para problemas de classificação binária, a regressão linear pode prever valores que podem ir além de 0 e 1. Se quisermos a saída na forma de probabilidades, que podem ser mapeadas para duas classes diferentes, seu intervalo deve ser restrito a 0 e 1. Como o modelo de regressão logística pode produzir probabilidades com função logística/sigmóide, é preferível à regressão linear.
Variação dos erros residuais : A regressão linear assume que a variação dos erros aleatórios é constante. Essa suposição também é violada no caso de regressão logística.
11. O limite de decisão é linear ou não linear no caso de um modelo de regressão logística?
O limite de decisão é uma linha que separa as variáveis de destino em diferentes classes. O limite de decisão pode ser linear ou não linear. No caso de um modelo de regressão logística, o limite de decisão é uma linha reta.
Fórmula do modelo de regressão logística = α+1X1+2X2+….+kXk. Isso representa claramente uma linha reta. A regressão logística só é adequada nos casos em que uma linha reta é capaz de separar as diferentes classes. Se uma linha reta não for capaz de fazer isso, algoritmos não lineares devem ser usados para obter melhores resultados.
12. Qual é a função de verossimilhança?
A função de verossimilhança é a probabilidade conjunta de observar os dados. Por exemplo, vamos supor que uma moeda seja lançada 100 vezes e queremos saber a probabilidade de obter 60 caras nos lançamentos. Este exemplo segue a fórmula de distribuição binomial.
p = Probabilidade de sair cara em um único lançamento de moeda
n = 100 (o número de lançamentos de moedas)
x = 60 (o número de caras – sucesso)
nx = 30 (o número de caudas)
Pr(X=60 |n = 100, p)
A função de verossimilhança é a probabilidade de que o número de caras recebidas seja 60 em uma trilha de 100 lançamentos de moedas, onde a probabilidade de caras recebidas em cada lançamento de moedas é p. Aqui o resultado do lançamento da moeda segue uma distribuição binomial.
Isso pode ser reformulado da seguinte forma:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = constante
p = parâmetro desconhecido
A função de verossimilhança dá a probabilidade de observar os resultados usando parâmetros desconhecidos.
13. O que é o Estimador de Máxima Verossimilhança (MLE)?
O MLE escolhe aqueles conjuntos de parâmetros desconhecidos (estimador) que maximizam a função de verossimilhança. O método para encontrar o MLE é usar o cálculo e definir a derivada da função logística em relação a um parâmetro desconhecido para zero, e resolvê-lo fornecerá o MLE. Para um modelo binomial, isso será fácil, mas para um modelo logístico, os cálculos são complexos. Programas de computador são usados para derivar MLE para modelos logísticos.
(Aqui está outra abordagem para responder à pergunta.)
MLE é uma abordagem estatística para estimar os parâmetros de um modelo matemático. A estimativa de MLE e de quadrados ordinários dão os mesmos resultados para regressão linear se a variável dependente for considerada normalmente distribuída. O MLE não assume nada sobre variáveis independentes.
14. Quais são os diferentes métodos de MLE e quando cada método é preferido?
No caso de regressão logística, existem duas abordagens de MLE. São métodos condicionais e incondicionais. Métodos condicionais e incondicionais são algoritmos que usam diferentes funções de verossimilhança. A fórmula incondicional emprega probabilidade conjunta de positivos (por exemplo, churn) e negativos (por exemplo, não churn). A fórmula condicional é a razão entre a probabilidade dos dados observados e a probabilidade de todas as configurações possíveis.
O método incondicional é preferido se o número de parâmetros for menor em comparação com o número de instâncias. Se o número de parâmetros for alto em comparação com o número de instâncias, a MLE condicional deve ser preferida. Os estatísticos sugerem que a MLE condicional deve ser usada em caso de dúvida. A MLE condicional sempre fornecerá resultados imparciais.
Estas 6 técnicas de aprendizado de máquina estão melhorando a saúde
15. Quais são as vantagens e desvantagens dos métodos condicionais e incondicionais de MLE?
Os métodos condicionais não estimam parâmetros indesejados. Os métodos incondicionais também estimam os valores de parâmetros indesejados. Fórmulas incondicionais podem ser desenvolvidas diretamente com probabilidades conjuntas. Isso não pode ser feito com probabilidade condicional. Se o número de parâmetros for alto em relação ao número de instâncias, o método incondicional fornecerá resultados tendenciosos. Os resultados condicionais serão imparciais nesses casos.
16. Qual é a saída de um programa MLE padrão?
A saída de um programa MLE padrão é a seguinte:
Valor de verossimilhança maximizado : Este é o valor numérico obtido pela substituição dos valores de parâmetros desconhecidos na função de verossimilhança pelo estimador de parâmetros MLE.
Matriz de variância-covariância estimada : A diagonal desta matriz consiste em variâncias estimadas das estimativas ML. A fora da diagonal consiste nas covariâncias dos pares das estimativas ML.

17. Por que não podemos usar o Mean Square Error (MSE) como função de custo para regressão logística?
Na regressão logística, usamos a função sigmóide e realizamos uma transformação não linear para obter as probabilidades. A quadratura dessa transformação não linear levará à não convexidade com mínimos locais. Encontrar o mínimo global nesses casos usando gradiente descendente não é possível. Por esse motivo, o MSE não é adequado para regressão logística. A entropia cruzada ou perda de log é usada como uma função de custo para regressão logística. Na função de custo para regressão logística, as previsões erradas confiantes são fortemente penalizadas. As previsões certas confiantes são recompensadas menos. Ao otimizar esta função de custo, a convergência é alcançada.
18. Por que a precisão não é uma boa medida para problemas de classificação?
A precisão não é uma boa medida para problemas de classificação porque dá igual importância a falsos positivos e falsos negativos. No entanto, isso pode não ser o caso na maioria dos problemas de negócios. Por exemplo, em caso de previsão de câncer, declarar o câncer como benigno é mais grave do que informar erroneamente ao paciente que ele está sofrendo de câncer. A precisão dá igual importância a ambos os casos e não pode diferenciá-los.
19. Qual é a importância de uma linha de base em um problema de classificação?
A maioria dos problemas de classificação lida com conjuntos de dados desequilibrados. Exemplos incluem rotatividade de telecomunicações, desgaste de funcionários, previsão de câncer, detecção de fraude, segmentação de anúncios online e assim por diante. Em todos esses problemas, o número de classes positivas será muito baixo quando comparado às classes negativas. Em alguns casos, é comum ter classes positivas que sejam inferiores a 1% do total da amostra. Nesses casos, uma precisão de 99% pode parecer muito boa, mas, na realidade, pode não ser.
Aqui, os negativos são 99% e, portanto, a linha de base permanecerá a mesma. Se os algoritmos preverem todas as instâncias como negativas, a precisão também será de 99%. Nesse caso, todos os aspectos positivos serão previstos de forma errada, o que é muito importante para qualquer negócio. Mesmo que todos os positivos sejam previstos incorretamente, uma precisão de 99% é alcançada. Portanto, a linha de base é muito importante e o algoritmo precisa ser avaliado em relação à linha de base.
20. O que são falsos positivos e falsos negativos?
Os falsos positivos são aqueles casos em que os negativos são erroneamente previstos como positivos. Por exemplo, prever que um cliente irá chur quando, na verdade, ele não está desligando.
Os falsos negativos são aqueles casos em que os positivos são erroneamente previstos como negativos. Por exemplo, prever que um cliente não irá se desligar quando, na verdade, ele se desligar.
21. Quais são a taxa de verdadeiro positivo (TPR), taxa de verdadeiro negativo (TNR), taxa de falso-positivo (FPR) e taxa de falso-negativo (FNR)?
TPR refere-se à proporção de positivos corretamente previstos de todos os rótulos verdadeiros. Em palavras simples, é a frequência de rótulos verdadeiros corretamente previstos.
TPR = TP/TP+FN
TNR refere-se à proporção de negativos corretamente previstos de todos os rótulos falsos. É a frequência de rótulos falsos corretamente previstos.
TNR = TN/TN+FP
FPR refere-se à proporção de positivos previstos incorretamente de todos os rótulos verdadeiros. É a frequência de rótulos falsos previstos incorretamente.
FPR = FP/TN+FP
FNR refere-se à proporção de negativos previstos incorretamente de todos os rótulos falsos. É a frequência de rótulos verdadeiros previstos incorretamente.
FNR = FN/TP+FN
22. O que são precisão e recall?
Precisão é a proporção de verdadeiros positivos de positivos previstos. Dito de outra forma, é a precisão da previsão. Também é conhecido como o 'valor preditivo positivo'.
Precisão = TP/TP+FP
O recall é o mesmo que a taxa de verdadeiro positivo (TPR).
Como funciona o aprendizado de máquina não supervisionado?
23. O que é a medida F?
É a média harmônica de precisão e recall. Em alguns casos, haverá um trade-off entre a precisão e o recall. Nesses casos, a medida F cairá. Será alto quando a precisão e o recall forem altos. Dependendo do caso de negócios em questão e do objetivo da análise de dados, uma métrica apropriada deve ser selecionada.
F-measure = 2 X (Precisão X Recall) / (Precisão+Recall)
24. O que é precisão?
É o número de previsões corretas de todas as previsões feitas.
Precisão = (TP+TN)/(O número total de previsões)
25. O que são sensibilidade e especificidade?
A especificidade é igual à taxa de verdadeiro negativo, ou é igual a 1 – taxa de falso-positivo.
Especificidade = TN/TN + FP.
A sensibilidade é a taxa de verdadeiro positivo.
Sensibilidade = TP/TP + FN
26. Como escolher um ponto de corte no caso de um modelo de regressão logística?
O ponto de corte depende do objetivo do negócio. Dependendo dos objetivos do seu negócio, o ponto de corte precisa ser selecionado. Por exemplo, vamos considerar inadimplência de empréstimos. Se o objetivo do negócio é reduzir a perda, então a especificidade precisa ser alta. Se o objetivo é aumentar os lucros, então é uma questão totalmente diferente. Pode não ser o caso de os lucros aumentarem evitando conceder empréstimos a todos os casos de inadimplência previstos. Mas pode ser que a empresa tenha que desembolsar empréstimos para casos de inadimplência que são um pouco menos arriscados para aumentar os lucros. Nesse caso, será necessário um ponto de corte diferente, que maximize o lucro. Na maioria dos casos, as empresas operarão em torno de muitas restrições. O ponto de corte que satisfaça o objetivo do negócio não será o mesmo com e sem limitações. O ponto de corte precisa ser selecionado considerando todos esses pontos. Como regra geral, escolha um valor de corte que seja equivalente à proporção de positivos em um conjunto de dados.
O que é Machine Learning e por que é importante27. Como a regressão logística trata as variáveis categóricas?
As entradas para um modelo de regressão logística precisam ser numéricas. O algoritmo não pode manipular variáveis categóricas diretamente. Portanto, eles precisam ser convertidos em um formato adequado para o algoritmo processar. Os vários níveis de uma variável categórica receberão um valor numérico exclusivo conhecido como variável fictícia. Essas variáveis fictícias são tratadas pelo modelo de regressão logística como qualquer outro valor numérico.
28. O que é uma curva de resposta cumulativa (CRV)?
Para transmitir os resultados de uma análise à gestão, é utilizada uma 'curva de resposta cumulativa', que é mais intuitiva do que a curva ROC. Uma curva ROC é muito difícil de entender para alguém fora do campo da ciência de dados. Um CRV consiste na taxa de verdadeiros positivos ou na porcentagem de positivos classificados corretamente no eixo Y e na porcentagem da população visada no eixo X. É importante notar que a porcentagem da população será classificada pelo modelo em ordem decrescente (as probabilidades ou os valores esperados). Se o modelo for bom, ao segmentar uma parte superior da lista classificada, todas as altas porcentagens de positivos serão capturadas. Assim como na curva ROC, haverá uma linha diagonal que representa o desempenho aleatório. Vamos entender esse desempenho aleatório como um exemplo. Supondo que 50% da lista seja direcionada, espera-se que ela capture 50% dos positivos. Essa expectativa é capturada pela linha diagonal, que é semelhante à curva ROC.
29. Quais são as curvas de sustentação?
O aumento é a melhoria no desempenho do modelo (aumento na taxa de verdadeiro positivo) quando comparado ao desempenho aleatório. Desempenho aleatório significa que se 50% das instâncias forem direcionadas, espera-se que ele detecte 50% dos positivos. O aumento é em comparação com o desempenho aleatório de um modelo. Se o desempenho de um modelo for melhor que seu desempenho aleatório, seu aumento será maior que 1.
Em uma curva de elevação, a elevação é plotada no eixo Y e a porcentagem da população (classificada em ordem decrescente) no eixo X. Em uma determinada porcentagem da população-alvo, é preferível um modelo com alta elevação.
30. Qual algoritmo é melhor para lidar com regressão logística de outliers ou SVM?
A regressão logística encontrará um limite linear se existir para acomodar os outliers. A regressão logística mudará o limite linear para acomodar os valores discrepantes. O SVM é insensível a amostras individuais. Não haverá uma grande mudança no limite linear para acomodar um outlier. O SVM vem com controles de complexidade embutidos, que cuidam do overfitting. Isso não é verdade no caso de regressão logística.
31. Como você lidará com o problema de classificação multiclasse usando regressão logística?
O método mais famoso de lidar com classificação multiclasse usando regressão logística é usar a abordagem um contra todos. Sob esta abordagem, um número de modelos são treinados, que é igual ao número de classes. Os modelos funcionam de uma maneira específica. Por exemplo, o primeiro modelo classifica o ponto de dados dependendo se pertence à classe 1 ou alguma outra classe; o segundo modelo classifica o ponto de dados na classe 2 ou alguma outra classe. Desta forma, cada ponto de dados pode ser verificado em todas as classes.
32. Explique o uso de curvas ROC e a AUC de uma curva ROC.
Uma curva ROC (Receiver Operating Characteristic) ilustra o desempenho de um modelo de classificação binária. É basicamente uma curva TPR versus FPR (taxa de verdadeiro positivo versus taxa de falso-positivo) para todos os valores de limiar que variam de 0 a 1. Em uma curva ROC, cada ponto no espaço ROC será associado a uma matriz de confusão diferente. Uma linha diagonal do canto inferior esquerdo ao canto superior direito no gráfico ROC representa uma adivinhação aleatória. A Área Sob a Curva (AUC) significa quão bom é o modelo do classificador. Se o valor da AUC for alto (próximo de 1), então o modelo está funcionando satisfatoriamente, enquanto se o valor for baixo (cerca de 0,5), então o modelo não está funcionando corretamente e apenas adivinhando aleatoriamente.
33. Como você pode usar o conceito de ROC em uma classificação multiclasse?
O conceito de curvas ROC pode ser facilmente usado para classificação multiclasse usando a abordagem um contra todos. Por exemplo, digamos que temos três classes 'a', 'b' e 'c'. Então, a primeira classe compreende a classe 'a' (classe verdadeira) e a segunda classe compreende tanto a classe 'b' quanto a classe 'c' juntas (classe falsa). Assim, a curva ROC é traçada. Da mesma forma, para todas as três classes, traçaremos três curvas ROC e realizaremos nossa análise de AUC.
Até agora, abordamos os dois algoritmos de ML mais básicos, regressão linear e logística, e esperamos que você tenha achado esses recursos úteis.
Aprenda ML Course das melhores universidades do mundo. Ganhe Masters, Executive PGP ou Advanced Certificate Programs para acelerar sua carreira.

A próxima parte desta série é baseada em outro algoritmo de ML muito importante, Clustering . Sinta-se à vontade para postar suas dúvidas e perguntas na seção de comentários abaixo.
Co-autoria de – Ojas Agarwal
Quais são os gráficos cumulativos de ganho e elevação?
Um gráfico de ganho e elevação é uma abordagem visual para avaliar a eficiência de vários modelos de aprendizado de máquina de várias maneiras. Além de ajudá-lo a avaliar o sucesso do seu modelo de previsão, eles exibem visualmente como a taxa de resposta de um grupo-alvo difere daquela de um grupo escolhido aleatoriamente. Esses diagramas são valiosos em ambientes corporativos, como marketing de destino. Eles também podem ser aplicados em outros campos, como modelagem de risco, análise da cadeia de suprimentos e assim por diante. Em outras palavras, os gráficos de ganho e elevação são duas maneiras de lidar com as dificuldades de classificação envolvendo conjuntos de dados desbalanceados.
Quais são algumas das suposições feitas ao usar a regressão logística?
Algumas suposições são feitas ao usar a regressão logística. Uma delas é que os preditores contínuos não possuem valores influentes (valores extremos ou outliers). A regressão logística, que é dividida em duas classes, pressupõe que a variável dependente seja binária, enquanto a regressão logística ordenada exige que a variável dependente seja ordenada. Também é assumido que não há intercorrelações substanciais (ou seja, multicolinearidade) entre os preditores. Considera também que as observações são independentes umas das outras.
Posso conseguir um emprego de cientista de dados se tiver um conhecimento razoável de Machine Learning?
Um Cientista de Dados coleta, analisa e interpreta enormes volumes de dados usando tecnologias analíticas sofisticadas, como Machine Learning e Predictive Modeling. Estes são então utilizados pelos líderes da empresa para fazer as melhores escolhas de negócios. Assim, além de outras habilidades como mineração de dados e compreensão de metodologias de pesquisa estatística, Machine Learning é uma competência crítica para um Cientista de Dados. Mas se você deseja trabalhar como Cientista de Dados, também deve estar familiarizado com plataformas e tecnologias de big data como Hadoop, Pig, Hive, Spark e outras, além de linguagens de programação como SQL, Python e outras.