Preguntas y respuestas de la entrevista de regresión logística [para principiantes y experimentados]

Publicado: 2020-09-24

Cuando se trata de aprendizaje automático, más específicamente clasificación, la regresión logística es quizás el algoritmo más sencillo y más utilizado. Dado que la regresión logística es muy fácil de entender e implementar, este algoritmo es perfecto para principiantes y personas que recién comienzan su viaje de aprendizaje automático o ciencia de datos.

Aunque el nombre de regresión logística puede sonar como el algoritmo que uno podría usar para implementar la regresión, la verdad está lejos de serlo. La regresión logística, debido a sus matices, es más adecuada para clasificar instancias en clases bien definidas que para realizar tareas de regresión.

En pocas palabras, este algoritmo toma la salida de regresión lineal y aplica una función de activación antes de darnos el resultado. La función de activación que utiliza la regresión logística es la función sigmoidea (también conocida como función logística). Siguiendo las propiedades de una función sigmoidea, en lugar de proporcionar valores continuos, solo da un número en el rango de cero y uno. Después de establecer un valor de umbral, hacer la clasificación a partir de la salida de la regresión logística se vuelve pan comido.

Todos sabemos cómo está evolucionando el campo de la ciencia de datos y el aprendizaje automático. Cada día se crean más oportunidades. Por lo tanto, en este mundo competitivo y feroz, asegurarse de tener los conocimientos adecuados es clave para garantizar una buena ubicación en la empresa de sus sueños. Para ayudarlo en este esfuerzo suyo, hemos preparado una lista de preguntas de entrevista de regresión logística que deberían ayudarlo a prepararse para el viaje para convertirse en un científico de datos profesional o un profesional de aprendizaje automático.

Tabla de contenido

Preguntas y respuestas de la entrevista de regresión logística

Q1. Responda con VERDADERO o FALSO. ¿Es la regresión logística un tipo de algoritmo de aprendizaje automático supervisado?

Respuesta Sí, la respuesta a esta pregunta sería VERDADERA porque, de hecho, la regresión logística es un algoritmo de aprendizaje automático supervisado. La razón simple por la cual radica en la forma en que funciona este algoritmo. Para obtener el resultado de la regresión logística, primero deberá alimentarlo con datos.

Deberá proporcionar las instancias y el etiquetado correcto de estas instancias para que pueda aprender de ellas y hacer predicciones precisas. Un algoritmo de aprendizaje automático supervisado necesitaría tanto una variable de destino (Y) como las instancias de clase o la variable utilizada para proporcionar información de entrada (X) para poder entrenar y hacer predicciones con éxito.

Q2. Responda con VERDADERO o FALSO. ¿Se utiliza principalmente la regresión logística para la clasificación?

Respuesta Sí, la respuesta a esta pregunta es VERDADERA. De hecho, la regresión logística se usa principalmente para tareas de clasificación en lugar de realizar una regresión real. Usamos la regresión lineal para la regresión. Debido a la similitud entre los dos, es fácil confundirse. No cometas este error. En la regresión logística utilizamos la función logística, que no es más que una función de activación sigmoidea, lo que hace que las tareas de clasificación sean mucho más cómodas.

Q3. Responda esta pregunta usando VERDADERO o FALSO. ¿Se puede implementar una red neuronal que imite el comportamiento de un algoritmo de regresión logística?

Respuesta Sí, la respuesta sería VERDADERA. Las redes neuronales también se conocen como aproximadores universales. Se pueden usar para imitar casi cualquier algoritmo de aprendizaje automático. Para poner las cosas en perspectiva, si está utilizando la API de Keras de TensorFlow 2.0, todo lo que tendría que hacer sería agregar una capa al modelo secuencial y hacer que esta capa tenga una función de activación sigmoidea.

Q4. Responda esta pregunta usando VERDADERO o FALSO. ¿Podemos usar la regresión logística para resolver un problema de clasificación de clases múltiples?

Respuesta La respuesta corta sería VERDADERO. La respuesta larga, sin embargo, te haría pensar un poco. No hay forma de implementar una clasificación de clases múltiples con solo usar un solo modelo de regresión logística. Deberá usar una red neuronal con una función de activación softmax o usar un algoritmo complejo de aprendizaje automático para predecir con éxito muchas clases de su variable de entrada.

Sin embargo, hay una forma en la que puede usar la regresión logística para resolver un problema de clasificación de clases múltiples. Eso sería mediante el uso de un enfoque de uno contra todos. Necesitará entrenar n clasificadores (donde n es el número de clases), cada uno de ellos prediciendo solo una clase. Entonces, en el caso de una clasificación de tres clases (digamos A, B y C), necesitará entrenar dos clasificadores, uno para predecir A y no A, otro para predecir B y no B, y el clasificador final prediciendo C y no C. Luego tendrá que tomar los resultados de estos tres modelos e integrarlos para poder hacer una clasificación multiclase usando nada más que regresión logística.

P5. Elija una de las opciones de la lista a continuación. ¿Cuál es el método subyacente que se utiliza para ajustar los datos de entrenamiento en el algoritmo de regresión logística?

Distancia Jaccard
Máxima verosimilitud
Error de mínimos cuadrados
Ninguna de las opciones que se mencionan anteriormente.

Respuesta La respuesta es B. Es fácil seleccionar la opción C, que es el error de mínimos cuadrados porque es el mismo método que se usa en la regresión lineal. Sin embargo, en la regresión logística, no usamos la aproximación de mínimos cuadrados para ajustar las instancias de entrenamiento en el modelo; en su lugar, usamos Máxima probabilidad.

Pago: Ideas de proyectos de aprendizaje automático

P6. Elija una de las opciones de la lista a continuación. ¿Qué métrica no podríamos usar para medir la corrección de un modelo de regresión logística?

El área bajo la curva de características operativas del receptor (o puntuación AUC-ROC)
Pérdida de registro
Error cuadrático medio (o MSE)
Exactitud

Respuesta La opción correcta que debe elegir es C, es decir, Error cuadrático medio o MSE. Dado que el algoritmo de regresión logística es en realidad un algoritmo de clasificación en lugar de un algoritmo de regresión básico, no podemos usar el error cuadrático medido para determinar el rendimiento del modelo de regresión logística que escribimos. La razón principal se debe a la salida que recibimos del modelo y la incapacidad de asignar un valor numérico significativo a una instancia de clase.

P7. Elija una de las opciones de la lista a continuación. AIC pasa a ser una excelente métrica para juzgar el rendimiento del modelo de regresión logística. AIC es muy similar al método R-cuadrado que se utiliza para determinar el rendimiento de un algoritmo de regresión lineal. ¿Qué es realmente cierto acerca de este AIC?

Generalmente se prefiere el modelo con una puntuación AIC baja.
En realidad, se prefiere el modelo que tiene una gran puntuación AIC.
La elección del modelo solo a partir de la puntuación AIC depende en gran medida de la situación.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta Se prefiere el modelo que tiene el menor valor de AIC. Entonces, la respuesta a la pregunta sería la opción A. La razón principal por la que elegimos el modelo con el valor más bajo posible de AIC es porque la penalización, que se agrega para regular el rendimiento del modelo, en realidad no fomenta el ajuste a acabarse. Sí, el AIC o Akaike Information Criterion es esa métrica en la que cuanto menor sea el valor, mejor será el ajuste.

En la práctica, preferimos los modelos que no están infraajustados (lo que significa que no se pueden generalizar bien porque el modelo que hemos elegido no es lo suficientemente complejo como para encontrar las complejidades presentes en los datos) ni sobreajustados (lo que significa que el modelo se ha ajustado perfectamente al entrenamiento). datos y ha perdido la capacidad de hacer predicciones más generales). Por lo tanto, elegimos una puntuación razonablemente baja para evitar tanto el ajuste insuficiente como el excesivo.

P8. Responda con VERDADERO o FALSO. ¿Necesitamos estandarizar los valores presentes en las columnas de características antes de introducir los datos en un modelo de regresión logística de entrenamiento?

Respuesta No, no necesitamos estandarizar los valores presentes en el espacio de características, que tenemos que usar para entrenar el modelo de regresión logística. Entonces, la respuesta a esta pregunta sería FALSO. Elegimos estandarizar todos nuestros valores para ayudar a la función (generalmente descenso de gradiente), que es responsable de hacer que el algoritmo converja en un valor. Dado que este algoritmo es relativamente simple, no necesita escalar las cantidades para que realmente tenga una diferencia significativa en su rendimiento.

Aprender: los 5 mejores modelos de aprendizaje automático explicados para principiantes

P9. Elija una de las opciones de la lista a continuación. ¿Cuál es la técnica que utilizamos para realizar la tarea de selección de variables?

Regresión de cresta
regresión LASSO
Ninguna de las opciones que se mencionan
Tanto LASSO como Ridge Regression

Respuesta La respuesta a esta pregunta es B. regresión LASSO. La razón es simple, la penalización l2, en la que se incurre en la función de regresión LASSO, tiene la capacidad de hacer que el coeficiente de algunas características sea cero. Dado que el coeficiente es cero, significa que no tendrán ningún efecto en el resultado final de la función. Esto significa que estas variables no son tan importantes como pensábamos, y de esta manera, con la ayuda de la regresión LASSO, podemos realizar una selección de variables.

P10. Elija una de las opciones de la lista a continuación. Suponga que tiene una moneda justa en su poder con el objetivo de averiguar las probabilidades de obtener cara. ¿Cuáles serían sus probabilidades calculadas?

¿Sería 0 la probabilidad de obtener cara?
¿Sería la probabilidad de obtener cara de 1?
¿Sería la probabilidad de obtener cara de 0,5
Ninguna de las opciones que se mencionan anteriormente.

Respuesta Para responder con éxito a esta pregunta, debe comprender el significado y la definición de probabilidades. Las probabilidades en realidad se definen como la relación de dos probabilidades: la probabilidad de que suceda con la probabilidad de que no suceda un evento en particular. En el caso de cualquier moneda, que es justa, la posibilidad de cara y la probabilidad de no cara son las mismas. Entonces, la probabilidad de obtener cara es una.

P11. Elija la respuesta correcta de las opciones a continuación. La función logit se define como el logaritmo de la función de probabilidades. ¿Cuál crees que sea el rango de esta función logit en el dominio de [0,1]?

(-infinito, +infinito)
(0, +infinito)
(-infinito, 0)
(0, 1)

Respuesta La función de probabilidad toma el valor con el que se pasa y lo convierte en una probabilidad. Lo que significa que el rango de cualquier función está sujeto entre cero y uno. Sin embargo, la función de probabilidades hace una cosa: toma el valor de la función de probabilidad y hace que su rango sea de cero a infinito.

Entonces, la entrada efectiva a la función de registro sería de cero a infinito. Sabemos que el rango de la función logarítmica en este dominio es toda la recta numérica real o infinito negativo a infinito positivo. Entonces, la respuesta a esta pregunta es la opción A.

P12. Elige la opción que creas que es VERDADERA de la siguiente lista:

Los valores de error en el caso de la regresión lineal tienen que seguir una distribución normal, pero en el caso de la regresión logística, los valores no tienen que seguir una distribución normal estándar.
Los valores de error en el caso de la regresión logística tienen que seguir una distribución normal, pero en el caso de la regresión lineal, los valores no tienen que seguir una distribución normal estándar.
Los valores de error en el caso de la regresión lineal y la regresión logística deben seguir una distribución normal.
Los valores de error en el caso de la regresión lineal y la regresión logística no tienen que seguir una distribución normal.

Respuesta La única declaración verdadera en el montón de estas declaraciones es la primera. Entonces, la respuesta a la pregunta se convierte en la opción A.

P13. Elija la(s) opción(es) correcta(s) de la lista de opciones a continuación. Entonces, digamos que ha aplicado el modelo de regresión logística a cualquier dato dado. Los resultados de precisión que obtuvo son X para el conjunto de entrenamiento e Y para el conjunto de prueba. Ahora, le gustaría agregar más puntos de datos a su modelo. Entonces, ¿qué, según usted, debería suceder?

La Precisión X, que obtuvimos en los datos de entrenamiento, debería aumentar.
La Precisión X, que obtuvimos de los datos de entrenamiento, debería disminuir.
La Precisión Y, que obtuvimos de los datos de prueba, debería disminuir.
La precisión Y, que obtuvimos de los datos de prueba, debería aumentar o permanecer igual.

Respuesta La precisión del entrenamiento depende en gran medida del ajuste que tenga el modelo a los datos, que ya ha visto y aprendido. Entonces, supongamos que aumentamos la cantidad de características que se introducen en el modelo, la precisión del entrenamiento X aumenta. En ese caso, la precisión del entrenamiento aumentará porque el modelo tendrá que volverse más complicado para ajustar correctamente los datos con un mayor número de características.

Mientras que la precisión de la prueba solo aumentará si la característica que se agrega al modelo es una característica excelente y significativa o, de lo contrario, la precisión del modelo durante la prueba permanecerá más o menos igual. Entonces, la respuesta a esta pregunta sería tanto la opción A como la D.

P14. Elija la opción correcta de la siguiente opción con respecto al método de uno contra todos en términos de regresión logística.

Necesitaríamos un total de n modelos para clasificar correctamente entre n número de clases.
Necesitaríamos un número n-1 de modelos para clasificar entre un número n de clases.
Necesitaríamos un solo modelo para clasificar entre n número de clases con éxito.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta Para clasificar entre n clases diferentes, vamos a necesitar n modelos en un enfoque Uno contra Todos.

P15. Mire el gráfico a continuación y responda la pregunta eligiendo una opción de las opciones enumeradas a continuación. ¿Cuántos mínimos locales ves en el gráfico?

Solo hay un mínimo local en el gráfico.
Hay dos mínimos locales en este gráfico.
Hay tres mínimos locales en este gráfico.
Hay cuatro mínimos locales en este gráfico.

Respuesta Dado que la pendiente del gráfico se vuelve cero en cuatro puntos distintos (donde el gráfico tiene forma de U), es seguro decir que tendrá cuatro mínimos locales, por lo que la respuesta sería D.

Lea también: Regresión lineal vs. Regresión logística

¿Qué sigue?

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Es la regresión logística difícil de aprender?

Cuando se trata de ciencia de datos, tanto la regresión logística como la lineal se utilizan ampliamente para resolver diferentes tipos de problemas computacionales. Y para trabajar de manera eficiente en el campo de la ciencia de datos, debe comprender y sentirse cómodo con estos dos tipos de modelos de regresión. Puede adivinar por el nombre que la regresión logística utiliza un modelo de ecuaciones más avanzado. Por lo tanto, es un poco más difícil de aprender en comparación con la regresión lineal. Sin embargo, si tiene una comprensión básica de cómo funcionan las matemáticas, puede desarrollarlas para crear paquetes en programación R o Python.

¿Qué importancia tiene la regresión logística en la ciencia de datos?

Para convertirse en un científico de datos exitoso, es esencial comprender la canalización de adquisición y procesamiento de datos, comprensión de datos y construcción de un modelo, evaluación de resultados e implementación. Y la regresión logística es invaluable para comprender todo este concepto de tubería. Cuando comprende la regresión logística, automáticamente desarrolla una comprensión mucho mejor de los conceptos de aprendizaje automático. Además, a veces puede resolver fácilmente problemas muy complicados usando solo la regresión logística, especialmente para problemas no lineales. La regresión logística es una herramienta estadística vital, y las estadísticas son una parte inseparable del aprendizaje automático. Y si desea estudiar redes neuronales, conocer la regresión logística le ofrecerá una excelente ventaja inicial.

¿La regresión logística es realmente útil?

A pesar de su nombre, la regresión logística es un marco de clasificación, en realidad, más que una regresión. Presenta un método o algoritmo más eficiente y simple que se puede utilizar para resolver problemas de clasificación binaria en el aprendizaje automático. Puede realizarlo fácilmente y lograr un rendimiento excelente para las clases que son linealmente separables. Sin embargo, cuando hay varios límites de decisión que no son lineales, la regresión logística tiende a tener un rendimiento inferior. En algunos casos, se dice que los algoritmos más compactos, como las redes neuronales, son más eficientes y potentes.