Perguntas e respostas da entrevista de regressão logística [para calouros e experientes]

Publicados: 2020-09-24

Quando se trata de aprendizado de máquina, mais especificamente classificação, a regressão logística é talvez o algoritmo mais direto e mais utilizado. Como a regressão logística é muito fácil de entender e implementar, esse algoritmo é perfeito para iniciantes e pessoas que estão começando sua jornada de aprendizado de máquina ou ciência de dados.

Embora o nome regressão logística possa soar como o algoritmo que se pode usar para implementar a regressão, a verdade está longe disso. A regressão logística, devido às suas nuances, é mais adequada para classificar instâncias em classes bem definidas do que realmente realizar tarefas de regressão.

Em poucas palavras, esse algoritmo obtém a saída de regressão linear e aplica uma função de ativação antes de nos fornecer o resultado. A função de ativação que a regressão logística usa é a função sigmóide (também conhecida como função logística). Aderindo às propriedades de uma função sigmóide, em vez de fornecer valores contínuos, ela apenas fornece um número na faixa de zero e um. Depois de definir um valor limite, fazer a classificação a partir da saída da regressão logística se torna muito fácil.

Todos sabemos como o campo da ciência de dados e do aprendizado de máquina está evoluindo. Mais oportunidades estão sendo criadas diariamente. Portanto, neste mundo competitivo e implacável, garantir que você tenha o conhecimento certo é fundamental para garantir uma boa colocação na empresa dos seus sonhos. Para ajudá-lo nesse seu empreendimento, preparamos uma lista de perguntas de entrevista de regressão logística que devem ajudá-lo a se preparar para a jornada para se tornar um cientista de dados profissional ou um profissional de aprendizado de máquina.

Índice

Perguntas e respostas da entrevista de regressão logística

Q1. Responda usando VERDADEIRO ou FALSO. A regressão logística é um tipo de algoritmo de aprendizado de máquina supervisionado?

Resp. Sim, a resposta a essa pergunta seria VERDADEIRA porque, de fato, a regressão logística é um algoritmo de aprendizado de máquina supervisionado. A razão simples para isso está na maneira como esse algoritmo funciona. Para obter a saída da regressão logística, você terá que alimentá-la com dados primeiro.

Você terá que fornecer as instâncias e a rotulagem correta dessas instâncias para que ele possa aprender com elas e fazer previsões precisas. Um algoritmo de aprendizado de máquina supervisionado precisaria de uma variável de destino (Y) e as instâncias de classe ou a variável usada para fornecer informações de entrada (X) para poder treinar e fazer previsões com sucesso.

Q2. Responda usando VERDADEIRO ou FALSO. A regressão logística é usada principalmente para classificação?

Resp. Sim, a resposta a esta pergunta é VERDADEIRA. De fato, a regressão logística é usada principalmente para tarefas de classificação, em vez de realizar a regressão real. Usamos regressão linear para regressão. Devido à semelhança entre os dois, é fácil ficar confuso. Não cometa este erro. Na regressão logística, usamos a função logística, que nada mais é do que uma função de ativação sigmóide, o que torna as tarefas de classificação muito mais confortáveis.

Q3. Responda a esta pergunta usando VERDADEIRO ou FALSO. Uma rede neural pode ser implementada, que imita o comportamento de um algoritmo de regressão logística?

Resp. Sim, a resposta seria VERDADEIRO. As redes neurais também são conhecidas como aproximadores universais. Eles podem ser usados para imitar quase qualquer algoritmo de aprendizado de máquina. Para colocar as coisas em perspectiva, se você estiver usando a API Keras do TensorFlow 2.0, tudo o que você precisaria seria adicionar uma camada ao modelo sequencial e criar essa camada com uma função de ativação sigmóide.

Q4. Responda a esta pergunta usando VERDADEIRO ou FALSO. Podemos usar a regressão logística para resolver um problema de classificação multiclasse?

Resp. A resposta curta seria VERDADEIRO. A resposta longa, no entanto, faria você pensar um pouco. Não há como implementar uma classificação multiclasse usando apenas um único modelo de regressão logística. Você precisará usar uma rede neural com uma função de ativação softmax ou usar um algoritmo de aprendizado de máquina complexo para prever com sucesso muitas classes de sua variável de entrada.

No entanto, existe uma maneira pela qual você pode realmente usar a regressão logística para resolver um problema de classificação multiclasse. Isso seria usando uma abordagem um contra todos. Você precisará treinar n classificadores (onde n é o número de classes), cada um deles prevendo apenas uma classe. Então, em um caso de classificação de três classes (digamos A, B e C), você precisará treinar dois classificadores, um para prever A e não A, outro para prever B e não B, e o classificador final prevendo C e não C. Então você terá que pegar as saídas de todos esses três modelos integrá-los juntos para poder fazer uma classificação multiclasse usando nada além de regressão logística.

Q5. Escolha uma das opções da lista abaixo. Qual é o método subjacente que é usado para ajustar os dados de treinamento no algoritmo de regressão logística?

Distância de Jaccard
Probabilidade máxima
Erro do Mínimo Quadrado
Nenhuma das opções mencionadas acima.

Resp. A resposta é B. É fácil selecionar a opção C, que é o erro do Mínimo Quadrado porque este é o mesmo método usado na regressão linear. No entanto, na regressão logística, não usamos a aproximação dos mínimos quadrados para ajustar as instâncias de treinamento no modelo; em vez disso, usamos a máxima verossimilhança.

Checkout: ideias de projetos de aprendizado de máquina

Q6. Escolha uma das opções da lista abaixo. Qual métrica não poderíamos usar para medir a exatidão de um modelo de regressão logística?

A área sob a curva de características operacionais do receptor (ou pontuação AUC-ROC)
Perda de registro
Erro quadrático médio (ou MSE)
Precisão

Resp. A opção correta que você deve escolher é C, ou seja, Erro Quadrado Médio ou MSE. Como o algoritmo de regressão logística é na verdade um algoritmo de classificação em vez de um algoritmo básico de regressão, não podemos usar o erro Meas Square para determinar o desempenho do modelo de regressão logística que escrevemos. A principal razão é a saída que recebemos do modelo e a incapacidade de atribuir um valor numérico significativo a uma instância de classe.

Q7. Escolha uma das opções da lista abaixo. AIC passa a ser uma excelente métrica para julgar o desempenho do modelo de regressão logística. AIC é muito semelhante ao método R-quadrado que é usado para determinar o desempenho de um algoritmo de regressão linear. O que é realmente verdade sobre este AIC?

O modelo com uma pontuação AIC baixa é geralmente o preferido.
O modelo que tem uma pontuação AIC enorme é realmente o preferido.
A escolha do modelo apenas com base na pontuação AIC depende muito da situação.
Nenhuma das opções mencionadas acima.

Resp. O modelo que tem o menor valor de AIC é o preferido. Assim, a resposta para a pergunta seria a opção A. A principal razão pela qual escolhemos o modelo com o menor valor possível de AIC é porque a penalidade, que é adicionada para regular o desempenho do modelo, na verdade não incentiva o ajuste a acabar. Sim, o Critério de Informação AIC ou Akaike é aquela métrica em que quanto menor o valor, melhor o ajuste.

Na prática, preferimos os modelos que não são subajustados (o que significa que não podem generalizar bem porque o modelo que escolhemos não é complexo o suficiente para encontrar as complexidades presentes nos dados) nem superajustados (o que significa que o modelo se ajustou perfeitamente ao treinamento). dados e perdeu a capacidade de fazer previsões mais gerais). Então, escolhemos uma pontuação razoavelmente baixa para evitar tanto underfitting quanto overfitting.

Q8. Responda usando VERDADEIRO ou FALSO. Precisamos padronizar os valores presentes nas colunas de recursos antes de alimentarmos os dados em um modelo de regressão logística de treinamento?

Resp. Não, não precisamos padronizar os valores presentes no espaço de características, que temos que usar para treinar o modelo de regressão logística. Portanto, a resposta a esta pergunta seria FALSE. Optamos por padronizar todos os nossos valores para ajudar a função (geralmente gradiente descendente), que é responsável por fazer o algoritmo convergir em um valor. Como esse algoritmo é relativamente simples, ele não precisa que os valores sejam dimensionados para que realmente tenha uma diferença significativa em seu desempenho.

Aprenda: os 5 principais modelos de aprendizado de máquina explicados para iniciantes

Q9. Escolha uma das opções da lista abaixo. Qual é a técnica que usamos para realizar a tarefa de seleção de variáveis?

Regressão do cume
Regressão LASSO
Nenhuma das opções mencionadas
Ambos LASSO e Ridge Regression

Resp. A resposta a esta pergunta é regressão B. LASSO. A razão é simples, a penalidade l2, que é incorrida na função de regressão LASSO, tem a capacidade de fazer com que o coeficiente de algumas características seja zero. Como o coeficiente é zero, significa que eles não terão nenhum efeito no resultado final da função. Isso significa que essas variáveis não são tão importantes quanto pensávamos e, dessa forma, com a ajuda da regressão LASSO, podemos realizar uma seleção de variáveis.

Q10. Escolha uma das opções da lista abaixo. Suponha que você tenha uma moeda honesta em sua posse com o objetivo de descobrir as chances de obter cara. Quais seriam suas probabilidades calculadas?

As chances de obter cabeça seriam 0
As chances de obter cabeça seriam 1
As chances de obter cabeça seriam de 0,5
Nenhuma das opções mencionadas acima.

Resp. Para responder com sucesso a esta pergunta, você precisa entender o significado e a definição de probabilidades. As probabilidades são, na verdade, definidas como a razão de duas probabilidades – a probabilidade de acontecer com a probabilidade de não acontecer de nenhum evento específico. No caso de qualquer moeda, o que é justo, a possibilidade de cara e a probabilidade de não cara são as mesmas. Então, as chances de tirar cara é uma.

Q11. Escolha a resposta correta entre as opções abaixo. A função logit é definida como o log da função odds. Qual você acha que o intervalo dessa função logit está no domínio de [0,1]?

(-infinito, +infinito)
(0, + infinito)
(-infinito, 0)
(0, 1)

Resp. A função de probabilidade pega o valor com o qual é passado e o transforma em uma probabilidade. O que significa que a faixa de qualquer função é fixada entre zero e um. No entanto, a função de probabilidades faz uma coisa: pega o valor da função de probabilidade e faz o intervalo dela de zero a infinito.

Assim, a entrada efetiva para a função log seria de zero a infinito. Sabemos que o intervalo da função logarítmica neste domínio é toda a reta numérica real ou infinito negativo a infinito positivo. Portanto, a resposta a esta pergunta é a opção A.

Q12. Escolha a opção que você considera VERDADEIRA na lista abaixo:

Os valores de erro no caso de regressão linear têm que seguir uma distribuição normal, mas no caso de regressão logística, os valores não precisam seguir uma distribuição normal padrão.
Os valores de erro no caso de regressão logística devem seguir uma distribuição normal, mas no caso de regressão linear, os valores não precisam seguir uma distribuição normal padrão.
Os valores de erro no caso de regressão linear e regressão logística devem seguir uma distribuição normal.
Os valores de erro no caso de regressão linear e regressão logística não precisam seguir uma distribuição normal.

Resp. A única afirmação verdadeira no grupo dessas afirmações é a primeira. Assim, a resposta à pergunta passa a ser a opção A.

Q13. Escolha a(s) opção(ões) correta(s) na lista de opções abaixo. Então, digamos que você aplicou o modelo de regressão logística em qualquer dado. Os resultados de precisão obtidos são X para o conjunto de treinamento e Y para o conjunto de teste. Agora, você gostaria de adicionar mais pontos de dados ao seu modelo. Então, o que, segundo você, deve acontecer?

A Precisão X, que obtivemos nos dados de treinamento, deve aumentar.
A Precisão X, que obtivemos dos dados de treinamento, deve diminuir.
A Precisão Y, que obtivemos dos dados de teste, deve diminuir.
A precisão Y, que obtivemos dos dados de teste, deve aumentar ou permanecer a mesma.

Resp. A precisão do treinamento depende muito do ajuste que o modelo tem nos dados, que ele já viu e aprendeu. Então, suponha que aumentamos o número de recursos alimentados no modelo, a precisão de treinamento X aumenta. Nesse caso, a precisão do treinamento aumentará porque o modelo terá que se tornar mais complicado para ajustar adequadamente os dados com um número maior de recursos.

Considerando que a precisão do teste só aumentará se o recurso que é adicionado ao modelo for um recurso excelente e significativo, ou então a precisão do modelo durante o teste permanecerá mais ou menos a mesma. Assim, a resposta a esta pergunta seria ambas as opções A e D.

Q14. Escolha a opção correta da seguinte opção em relação ao método de um vs. todos em termos de regressão logística.

Precisaríamos de um total de n modelos para classificar corretamente entre n número de classes.
Precisaríamos de um número n-1 de modelos para classificar entre um número n de classes.
Precisaríamos de apenas um único modelo para classificar entre n número de classes com sucesso.
Nenhuma das opções mencionadas acima.

Resp. Para classificar entre n classes diferentes, vamos precisar de n modelos em uma abordagem One vs. All.

Q15. Observe o gráfico abaixo e responda à pergunta escolhendo uma das opções listadas abaixo. Quantos mínimos locais você vê no gráfico?

Há apenas um mínimo local no gráfico.
Existem dois mínimos locais neste gráfico.
Existem três mínimos locais neste gráfico.
Existem quatro mínimos locais neste gráfico.

Resp. Como a inclinação do gráfico se torna zero em quatro pontos distintos (onde o gráfico tem a forma de U), é seguro dizer que ele terá quatro mínimos locais para que a resposta seja D.

Leia também: Regressão Linear vs. Regressão Logística

Qual o proximo?

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

A regressão logística é difícil de aprender?

Quando se trata de ciência de dados, tanto a regressão logística quanto a linear são usadas extensivamente para resolver diferentes tipos de problemas computacionais. E para trabalhar com eficiência no campo da ciência de dados, você deve entender e se sentir confortável com esses dois tipos de modelos de regressão. Você pode adivinhar pelo nome que a regressão logística usa um modelo de equações mais avançado. Portanto, é um pouco mais difícil de aprender em comparação com a regressão linear. No entanto, se você tiver um entendimento básico de como a matemática funciona, poderá criá-la para criar pacotes em programação R ou Python.

Qual a importância da regressão logística na ciência de dados?

Para se tornar um cientista de dados bem-sucedido, é essencial entender o pipeline de aquisição e processamento de dados, compreensão de dados e construção de um modelo, avaliação de resultados e implantação. E a regressão logística é inestimável para entender todo esse conceito de pipeline. Quando você entende a regressão logística, desenvolve automaticamente uma compreensão muito melhor dos conceitos de aprendizado de máquina. Além disso, às vezes você pode resolver facilmente problemas altamente complicados usando apenas regressão logística, especialmente para problemas não lineares. A regressão logística é uma ferramenta estatística vital, e a estatística é uma parte inseparável do aprendizado de máquina. E se você deseja estudar redes neurais, conhecer a regressão logística oferecerá uma excelente vantagem.

A regressão logística é realmente útil?

Apesar do nome, a regressão logística é um quadro de classificação, na realidade, mais do que regressão. Apresenta um método ou algoritmo mais eficiente e simples que pode ser usado para resolver problemas de classificação binária em aprendizado de máquina. Você pode facilmente perceber isso e obter um excelente desempenho para classes que são linearmente separáveis. No entanto, quando existem vários limites de decisão que não são lineares, a regressão logística tende a ter um desempenho inferior. Em alguns casos, algoritmos mais compactos, como redes neurais, são considerados mais eficientes e poderosos.