33 Preguntas y respuestas de la entrevista sobre aprendizaje automático: regresión logística
Publicado: 2018-07-05Bienvenido a la segunda parte de la serie de preguntas de entrevistas más frecuentes basadas en algoritmos de aprendizaje automático. Esperamos que la sección anterior sobre Regresión lineal le haya sido útil.
Tabla de contenido
Encontremos las respuestas a las preguntas sobre regresión logística:
1. ¿Qué es una función logística? ¿Cuál es el rango de valores de una función logística?
f(z) = 1/(1+e -z )
Los valores de una función logística variarán de 0 a 1. Los valores de Z variarán de -infinito a +infinito.
2. ¿Por qué es tan popular la regresión logística?
La regresión logística es famosa porque puede convertir los valores de logits (logodds), que pueden variar de -infinito a +infinito a un rango entre 0 y 1. Como las funciones logísticas generan la probabilidad de ocurrencia de un evento, se puede aplicar a muchos escenarios de la vida real. Es por esta razón que el modelo de regresión logística es muy popular.
3. ¿Cuál es la fórmula de la función de regresión logística?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
¡La diferencia entre ciencia de datos, aprendizaje automático y Big Data!
4. ¿Cómo se puede expresar como probabilidad condicional la probabilidad de un modelo de regresión logística?
P(Valor discreto de la variable objetivo | X1, X2, X3….Xk). Es la probabilidad de que la variable objetivo tome un valor discreto (ya sea 0 o 1 en caso de problemas de clasificación binaria) cuando se dan los valores de las variables independientes. Por ejemplo, la probabilidad de que un empleado abandone (variable objetivo) dados sus atributos como su edad, salario, KRA, etc.
5. ¿Qué son las probabilidades?
Es la relación entre la probabilidad de que ocurra un evento y la probabilidad de que no ocurra. Por ejemplo, supongamos que la probabilidad de ganar la lotería es 0,01. Entonces, la probabilidad de no ganar es 1- 0.01 = 0.99.
Las probabilidades de ganar la lotería = (Probabilidad de ganar)/(probabilidad de no ganar)
Las probabilidades de ganar la lotería = 0.01/0.99
Las probabilidades de ganar la lotería son de 1 a 99 y las probabilidades de no ganar la lotería son de 99 a 1.
6. ¿Cuáles son los resultados del modelo logístico y la función logística?
El modelo logístico genera los logits, es decir, probabilidades logarítmicas; y la función logística genera las probabilidades.
Modelo logístico = α+1X1+2X2+….+kXk. La salida del mismo será logits.
Función logística = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . La salida, en este caso, serán las probabilidades.

7. ¿Cómo interpretar los resultados de un modelo de regresión logística? O, ¿cuáles son los significados de alfa y beta en un modelo de regresión logística?
Alpha es la línea de base en un modelo de regresión logística. Son las probabilidades logarítmicas de una instancia en la que todos los atributos (X1, X2,………….Xk) son cero. En escenarios prácticos, la probabilidad de que todos los atributos sean cero es muy baja. En otra interpretación, Alfa es el logaritmo de probabilidades para una instancia en la que ninguno de los atributos se tiene en cuenta.
Beta es el valor por el cual las probabilidades logarítmicas cambian por un cambio de unidad en un atributo en particular manteniendo todos los demás atributos fijos o sin cambios (variables de control).
8. ¿Qué es la razón de probabilidades?
La razón de probabilidades es la razón de probabilidades entre dos grupos. Por ejemplo, supongamos que estamos tratando de determinar la eficacia de un medicamento. Administramos este medicamento al grupo de "intervención" y un placebo al grupo de "control".
Odds ratio (OR) = (odds del grupo de intervención)/(odds del grupo de control)
Interpretación
Si la razón de probabilidad = 1, entonces no hay diferencia entre el grupo de intervención y el grupo de control
Si la razón de probabilidades es mayor que 1, entonces el grupo de control es mejor que el grupo de intervención
Si la razón de probabilidades es menor que 1, entonces el grupo de intervención es mejor que el grupo de control.
5 aplicaciones innovadoras del aprendizaje automático
9. ¿Cuál es la fórmula para calcular la razón de probabilidades?
En la fórmula anterior, X 1 y X 0 representan dos grupos diferentes para los que se debe calcular la razón de probabilidades. X 1 i representa la instancia ' i ' en el grupo X 1 . X o i representa la instancia ' i ' en el grupo X 0 . representa el coeficiente del modelo de regresión logística. Tenga en cuenta que la línea de base no está incluida en esta fórmula.
10. ¿Por qué no se puede usar la regresión lineal en lugar de la regresión logística para la clasificación binaria?
Las razones por las que no se pueden utilizar regresiones lineales en caso de clasificación binaria son las siguientes:
Distribución de términos de error : La distribución de datos en caso de regresión lineal y logística es diferente. La regresión lineal supone que los términos de error se distribuyen normalmente. En el caso de la clasificación binaria, esta suposición no se cumple.
Salida del modelo : en la regresión lineal, la salida es continua. En caso de clasificación binaria, una salida de un valor continuo no tiene sentido. Para problemas de clasificación binaria, la regresión lineal puede predecir valores que pueden ir más allá de 0 y 1. Si queremos la salida en forma de probabilidades, que pueden asignarse a dos clases diferentes, entonces su rango debe restringirse a 0 y 1. Como el modelo de regresión logística puede generar probabilidades con función logística/sigmoidea, es preferible a la regresión lineal.
Varianza de errores residuales : la regresión lineal asume que la varianza de los errores aleatorios es constante. Esta suposición también se viola en caso de regresión logística.
11. ¿El límite de decisión es lineal o no lineal en el caso de un modelo de regresión logística?
El límite de decisión es una línea que separa las variables objetivo en diferentes clases. El límite de decisión puede ser lineal o no lineal. En el caso de un modelo de regresión logística, el límite de decisión es una línea recta.
Fórmula del modelo de regresión logística = α+1X1+2X2+….+kXk. Esto representa claramente una línea recta. La regresión logística solo es adecuada en aquellos casos en los que una línea recta puede separar las diferentes clases. Si una línea recta no puede hacerlo, entonces se deben usar algoritmos no lineales para lograr mejores resultados.
12. ¿Qué es la función de probabilidad?
La función de verosimilitud es la probabilidad conjunta de observar los datos. Por ejemplo, supongamos que se lanza una moneda 100 veces y queremos saber la probabilidad de obtener 60 caras en los lanzamientos. Este ejemplo sigue la fórmula de distribución binomial.
p = Probabilidad de cara en el lanzamiento de una sola moneda
n = 100 (el número de lanzamientos de monedas)
x = 60 (el número de caras – éxito)
nx = 30 (el número de cruces)
Pr(X=60 | n = 100, p)
La función de verosimilitud es la probabilidad de que el número de caras recibidas sea 60 en una secuencia de 100 lanzamientos de moneda, donde la probabilidad de cara recibida en cada lanzamiento de moneda es p. Aquí el resultado del lanzamiento de la moneda sigue una distribución binomial.
Esto se puede reformular de la siguiente manera:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = constante
p = parámetro desconocido
La función de verosimilitud da la probabilidad de observar los resultados utilizando parámetros desconocidos.
13. ¿Qué es el Estimador de Máxima Verosimilitud (MLE)?
El MLE elige aquellos conjuntos de parámetros desconocidos (estimador) que maximizan la función de verosimilitud. El método para encontrar el MLE es usar cálculo y establecer la derivada de la función logística con respecto a un parámetro desconocido a cero, y resolverlo dará el MLE. Para un modelo binomial, esto será fácil, pero para un modelo logístico, los cálculos son complejos. Los programas de computadora se utilizan para derivar MLE para modelos logísticos.
(Aquí hay otro enfoque para responder la pregunta).
MLE es un enfoque estadístico para estimar los parámetros de un modelo matemático. MLE y la estimación del cuadrado ordinario dan los mismos resultados para la regresión lineal si se supone que la variable dependiente se distribuye normalmente. MLE no asume nada acerca de las variables independientes.
14. ¿Cuáles son los diferentes métodos de MLE y cuándo se prefiere cada método?
En caso de regresión logística, hay dos enfoques de MLE. Son métodos condicionales e incondicionales. Los métodos condicionales e incondicionales son algoritmos que utilizan diferentes funciones de probabilidad. La fórmula incondicional emplea probabilidad conjunta de positivos (por ejemplo, abandono) y negativos (por ejemplo, no abandono). La fórmula condicional es la relación entre la probabilidad de los datos observados y la probabilidad de todas las configuraciones posibles.
Se prefiere el método incondicional si el número de parámetros es menor en comparación con el número de instancias. Si el número de parámetros es alto en comparación con el número de instancias, entonces se prefiere MLE condicional. Los estadísticos sugieren que se debe usar MLE condicional en caso de duda. El MLE condicional siempre proporcionará resultados imparciales.
Estas 6 técnicas de aprendizaje automático están mejorando la atención médica
15. ¿Cuáles son las ventajas y desventajas de los métodos condicionales e incondicionales de MLE?
Los métodos condicionales no estiman parámetros no deseados. Los métodos incondicionales también estiman los valores de los parámetros no deseados. Las fórmulas incondicionales se pueden desarrollar directamente con probabilidades conjuntas. Esto no se puede hacer con probabilidad condicional. Si el número de parámetros es alto en relación con el número de instancias, el método incondicional dará resultados sesgados. Los resultados condicionales serán imparciales en tales casos.
16. ¿Cuál es el resultado de un programa MLE estándar?
La salida de un programa MLE estándar es la siguiente:
Valor de verosimilitud maximizado : Este es el valor numérico obtenido reemplazando los valores de los parámetros desconocidos en la función de verosimilitud con el estimador de parámetros MLE.
Matriz de varianza-covarianza estimada : La diagonal de esta matriz consta de varianzas estimadas de las estimaciones de ML. La fuera de la diagonal consta de las covarianzas de los pares de estimaciones de ML.

17. ¿Por qué no podemos usar el error cuadrático medio (MSE) como una función de costo para la regresión logística?
En la regresión logística, usamos la función sigmoidea y realizamos una transformación no lineal para obtener las probabilidades. Elevar al cuadrado esta transformación no lineal conducirá a la no convexidad con mínimos locales. No es posible encontrar el mínimo global en tales casos usando descenso de gradiente. Por esta razón, MSE no es adecuado para la regresión logística. La entropía cruzada o pérdida logarítmica se utiliza como una función de costo para la regresión logística. En la función de costo para la regresión logística, las predicciones erróneas confiables se penalizan fuertemente. Las predicciones correctas seguras son recompensadas menos. Al optimizar esta función de costo, se logra la convergencia.
18. ¿Por qué la precisión no es una buena medida para los problemas de clasificación?
La precisión no es una buena medida para los problemas de clasificación porque le da la misma importancia a los falsos positivos ya los falsos negativos. Sin embargo, este puede no ser el caso en la mayoría de los problemas de negocios. Por ejemplo, en caso de predicción de cáncer, declarar que el cáncer es benigno es más grave que informar erróneamente al paciente que padece cáncer. La precisión da igual importancia a ambos casos y no puede diferenciar entre ellos.
19. ¿Cuál es la importancia de una línea base en un problema de clasificación?
La mayoría de los problemas de clasificación tienen que ver con conjuntos de datos desequilibrados. Los ejemplos incluyen la rotación de empresas de telecomunicaciones, el abandono de empleados, la predicción del cáncer, la detección de fraudes, la orientación de anuncios en línea, etc. En todos estos problemas, el número de clases positivas será muy bajo en comparación con las clases negativas. En algunos casos, es común tener clases positivas que son menos del 1% de la muestra total. En tales casos, una precisión del 99% puede parecer muy buena pero, en realidad, puede no serlo.
Aquí, los negativos son del 99% y, por lo tanto, la línea de base seguirá siendo la misma. Si los algoritmos predicen todas las instancias como negativas, entonces también la precisión será del 99 %. En este caso, todos los aspectos positivos se predecirán incorrectamente, lo cual es muy importante para cualquier negocio. Aunque todos los positivos se pronostican incorrectamente, se logra una precisión del 99%. Por lo tanto, la línea de base es muy importante y el algoritmo debe evaluarse en relación con la línea de base.
20. ¿Qué son los falsos positivos y los falsos negativos?
Los falsos positivos son aquellos casos en los que los negativos se predicen erróneamente como positivos. Por ejemplo, predecir que un cliente abandonará cuando, de hecho, no lo está.
Los falsos negativos son aquellos casos en los que los positivos se predicen erróneamente como negativos. Por ejemplo, predecir que un cliente no abandonará cuando, de hecho, abandonará.
21. ¿Qué son la tasa de verdaderos positivos (TPR), la tasa de verdaderos negativos (TNR), la tasa de falsos positivos (FPR) y la tasa de falsos negativos (FNR)?
TPR se refiere a la proporción de positivos pronosticados correctamente a partir de todas las etiquetas verdaderas. En palabras simples, es la frecuencia de etiquetas verdaderas predichas correctamente.
TPR = TP/TP+FN
TNR se refiere a la proporción de negativos pronosticados correctamente a partir de todas las etiquetas falsas. Es la frecuencia de etiquetas falsas predichas correctamente.
TNR = TN/TN+FP
FPR se refiere a la proporción de positivos pronosticados incorrectamente a partir de todas las etiquetas verdaderas. Es la frecuencia de etiquetas falsas predichas incorrectamente.
FPR = FP/TN+FP
FNR se refiere a la proporción de negativos pronosticados incorrectamente a partir de todas las etiquetas falsas. Es la frecuencia de etiquetas verdaderas predichas incorrectamente.
FNR = FN/TP+FN
22. ¿Qué son la precisión y el recuerdo?
La precisión es la proporción de verdaderos positivos de los positivos predichos. Para decirlo de otra manera, es la precisión de la predicción. También se conoce como el 'valor predictivo positivo'.
Precisión = TP/TP+FP
La recuperación es la misma que la tasa de verdaderos positivos (TPR).
¿Cómo funciona el aprendizaje automático no supervisado?
23. ¿Qué es la medida F?
Es el medio armónico de precisión y recuerdo. En algunos casos, habrá un equilibrio entre la precisión y la recuperación. En tales casos, la medida F caerá. Será alto cuando tanto la precisión como la recuperación sean altas. Según el caso de negocio en cuestión y el objetivo del análisis de datos, se debe seleccionar una métrica adecuada.
Medida F = 2 X (Precisión X Recuperación) / (Precisión+Recuperación)
24. ¿Qué es la precisión?
Es el número de predicciones correctas de todas las predicciones realizadas.
Precisión = (TP+TN)/(El número total de predicciones)
25. ¿Qué son la sensibilidad y la especificidad?
La especificidad es lo mismo que la tasa de verdaderos negativos, o es igual a 1: tasa de falsos positivos.
Especificidad = TN/TN + FP.
La sensibilidad es la verdadera tasa positiva.
Sensibilidad = TP/TP + FN
26. ¿Cómo elegir un punto de corte en caso de un modelo de regresión logística?
El punto de corte depende del objetivo comercial. Dependiendo de los objetivos de su negocio, se debe seleccionar el punto de corte. Por ejemplo, consideremos los impagos de préstamos. Si el objetivo comercial es reducir la pérdida, entonces la especificidad debe ser alta. Si el objetivo es aumentar las ganancias, entonces es un asunto completamente diferente. Puede que no sea el caso que las ganancias aumenten al evitar otorgar préstamos en todos los casos de incumplimiento previstos. Pero puede darse el caso de que la empresa tenga que desembolsar préstamos para casos de incumplimiento que son un poco menos riesgosos para aumentar las ganancias. En tal caso, se requerirá un punto de corte diferente, que maximice las ganancias. En la mayoría de los casos, las empresas operarán con muchas limitaciones. El punto de corte que satisface el objetivo de negocio no será el mismo con y sin limitaciones. El punto de corte debe seleccionarse teniendo en cuenta todos estos puntos. Como regla general, elija un valor límite que sea equivalente a la proporción de positivos en un conjunto de datos.
Qué es el aprendizaje automático y por qué es importante27. ¿Cómo maneja la regresión logística las variables categóricas?
Las entradas de un modelo de regresión logística deben ser numéricas. El algoritmo no puede manejar variables categóricas directamente. Por lo tanto, deben convertirse a un formato que sea adecuado para que el algoritmo los procese. A los distintos niveles de una variable categórica se les asignará un valor numérico único conocido como variable ficticia. Estas variables ficticias son manejadas por el modelo de regresión logística como cualquier otro valor numérico.
28. ¿Qué es una curva de respuesta acumulada (CRV)?
Para transmitir los resultados de un análisis a la dirección, se utiliza una 'curva de respuesta acumulativa', que es más intuitiva que la curva ROC. Una curva ROC es muy difícil de entender para alguien fuera del campo de la ciencia de datos. Un CRV consiste en la tasa de verdaderos positivos o el porcentaje de positivos clasificados correctamente en el eje Y y el porcentaje de la población objetivo en el eje X. Es importante tener en cuenta que el modelo clasificará el porcentaje de la población en orden descendente (ya sea las probabilidades o los valores esperados). Si el modelo es bueno, al apuntar a la parte superior de la lista clasificada, se capturarán todos los porcentajes altos de positivos. Al igual que con la curva ROC, habrá una línea diagonal que representa el rendimiento aleatorio. Entendamos este rendimiento aleatorio como un ejemplo. Suponiendo que se apunta al 50% de la lista, se espera que capte el 50% de los positivos. Esta expectativa es capturada por la línea diagonal, que es similar a la curva ROC.
29. ¿Qué son las curvas de elevación?
El aumento es la mejora en el rendimiento del modelo (aumento en la tasa positiva verdadera) en comparación con el rendimiento aleatorio. El rendimiento aleatorio significa que si se apunta al 50 % de las instancias, se espera que detecte el 50 % de las positivas. La elevación se compara con el rendimiento aleatorio de un modelo. Si el rendimiento de un modelo es mejor que su rendimiento aleatorio, su elevación será mayor que 1.
En una curva de elevación, la elevación se representa en el eje Y y el porcentaje de la población (ordenado en orden descendente) en el eje X. En un porcentaje dado de la población objetivo, se prefiere un modelo con una gran elevación.
30. ¿Qué algoritmo es mejor para manejar la regresión logística de valores atípicos o SVM?
La regresión logística encontrará un límite lineal, si existe, para acomodar los valores atípicos. La regresión logística cambiará el límite lineal para acomodar los valores atípicos. SVM es insensible a las muestras individuales. No habrá un cambio importante en el límite lineal para acomodar un valor atípico. SVM viene con controles de complejidad incorporados, que se encargan del sobreajuste. Esto no es cierto en el caso de la regresión logística.
31. ¿Cómo resolverá el problema de clasificación multiclase utilizando la regresión logística?
El método más famoso para lidiar con la clasificación multiclase mediante la regresión logística es el enfoque de uno contra todos. Bajo este enfoque, se entrena una cantidad de modelos, que es igual a la cantidad de clases. Los modelos funcionan de una manera específica. Por ejemplo, el primer modelo clasifica el punto de datos dependiendo de si pertenece a la clase 1 oa alguna otra clase; el segundo modelo clasifica el punto de datos en la clase 2 o alguna otra clase. De esta manera, cada punto de datos se puede verificar en todas las clases.
32. Explique el uso de las curvas ROC y el AUC de una curva ROC.
Una curva ROC (Receiver Operating Characteristic) ilustra el rendimiento de un modelo de clasificación binaria. Es básicamente una curva TPR versus FPR (tasa de verdaderos positivos versus tasa de falsos positivos) para todos los valores de umbral que van de 0 a 1. En una curva ROC, cada punto en el espacio ROC estará asociado con una matriz de confusión diferente. Una línea diagonal desde la parte inferior izquierda hasta la parte superior derecha en el gráfico ROC representa una suposición aleatoria. El área bajo la curva (AUC) indica qué tan bueno es el modelo clasificador. Si el valor de AUC es alto (cerca de 1), entonces el modelo funciona satisfactoriamente, mientras que si el valor es bajo (alrededor de 0,5), entonces el modelo no funciona correctamente y solo adivina aleatoriamente.
33. ¿Cómo puedes usar el concepto de ROC en una clasificación multiclase?
El concepto de curvas ROC se puede usar fácilmente para la clasificación multiclase usando el enfoque de uno contra todos. Por ejemplo, digamos que tenemos tres clases 'a', 'b' y 'c'. Entonces, la primera clase comprende la clase 'a' (clase verdadera) y la segunda clase comprende tanto la clase 'b' como la clase 'c' juntas (clase falsa). Por lo tanto, se traza la curva ROC. De manera similar, para las tres clases, trazaremos tres curvas ROC y realizaremos nuestro análisis de AUC.
Hasta ahora hemos cubierto los dos algoritmos de ML más básicos, la regresión lineal y logística, y esperamos que estos recursos le hayan resultado útiles.
Aprenda el curso ML de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

La siguiente parte de esta serie se basa en otro algoritmo de aprendizaje automático muy importante, el agrupamiento . Siéntase libre de publicar sus dudas y preguntas en la sección de comentarios a continuación.
Co-escrito por – Ojas Agarwal
¿Qué son los gráficos de ganancia y elevación acumulativos?
Un gráfico de ganancia y elevación es un enfoque visual para evaluar la eficiencia de varios modelos de aprendizaje automático de varias maneras. Además de ayudarlo a evaluar qué tan exitoso es su modelo de predicción, muestran visualmente cómo la tasa de respuesta de un grupo objetivo difiere de la de un grupo elegido al azar. Estos diagramas son valiosos en entornos corporativos, como el marketing de destino. También se pueden aplicar en otros campos, como el modelado de riesgos, el análisis de la cadena de suministro, etc. En otras palabras, los gráficos de ganancia y elevación son dos formas de lidiar con las dificultades de clasificación que involucran conjuntos de datos desequilibrados.
¿Cuáles son algunas de las suposiciones hechas al usar la regresión logística?
Se hacen algunas suposiciones al usar la regresión logística. Una de ellas es que los predictores continuos no tienen valores influyentes (valores extremos o atípicos). La regresión logística, que se divide en dos clases, presupone que la variable dependiente sea binaria, mientras que la regresión logística ordenada requiere que la variable dependiente esté ordenada. También se supone que no hay intercorrelaciones sustanciales (es decir, multicolinealidad) entre los predictores. También considera que las observaciones son independientes entre sí.
¿Puedo obtener un trabajo de científico de datos si tengo un conocimiento justo de Machine Learning?
Un científico de datos recopila, analiza e interpreta enormes volúmenes de datos utilizando tecnologías analíticas sofisticadas como el aprendizaje automático y el modelado predictivo. Estos son luego utilizados por los líderes de la empresa para tomar las mejores decisiones comerciales. Por lo tanto, además de otras habilidades como la extracción de datos y la comprensión de las metodologías de investigación estadística, el aprendizaje automático es una competencia fundamental para un científico de datos. Pero si desea trabajar como científico de datos, también debe estar familiarizado con las plataformas y tecnologías de big data como Hadoop, Pig, Hive, Spark y otros, así como con lenguajes de programación como SQL, Python y otros.