33 Questions et réponses d'entrevue sur l'apprentissage automatique - Régression logistique
Publié: 2018-07-05Bienvenue dans la deuxième partie de la série de questions d'entretien fréquemment posées basées sur des algorithmes d'apprentissage automatique. Nous espérons que la section précédente sur la régression linéaire vous a été utile.
Table des matières
Trouvons les réponses aux questions sur la régression logistique :
1. Qu'est-ce qu'une fonction logistique ? Quelle est la plage de valeurs d'une fonction logistique ?
f(z) = 1/(1+e -z )
Les valeurs d'une fonction logistique vont de 0 à 1. Les valeurs de Z vont varier de -infini à +infini.
2. Pourquoi la régression logistique est-elle si populaire ?
La régression logistique est célèbre car elle peut convertir les valeurs des logits (logodds), qui peuvent aller de -infinity à +infinity dans une plage comprise entre 0 et 1. Comme les fonctions logistiques produisent la probabilité d'occurrence d'un événement, elle peut être appliquée à de nombreux scénarios réels. C'est pour cette raison que le modèle de régression logistique est très populaire.
3. Quelle est la formule de la fonction de régression logistique ?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
La différence entre Data Science, Machine Learning et Big Data !
4. Comment la probabilité d'un modèle de régression logistique peut-elle être exprimée en probabilité conditionnelle ?
P(Valeur discrète de la variable cible | X1, X2, X3….Xk). C'est la probabilité que la variable cible prenne une valeur discrète (0 ou 1 en cas de problèmes de classification binaire) lorsque les valeurs des variables indépendantes sont données. Par exemple, la probabilité qu'un employé attrite (variable cible) compte tenu de ses attributs tels que son âge, son salaire, ses KRA, etc.
5. Que sont les cotes ?
C'est le rapport entre la probabilité qu'un événement se produise et la probabilité que l'événement ne se produise pas. Par exemple, supposons que la probabilité de gagner à la loterie est de 0,01. Ensuite, la probabilité de ne pas gagner est de 1- 0,01 = 0,99.
Les chances de gagner à la loterie = (probabilité de gagner)/(probabilité de ne pas gagner)
Les chances de gagner à la loterie = 0,01/0,99
Les chances de gagner à la loterie sont de 1 contre 99 et les chances de ne pas gagner à la loterie sont de 99 contre 1.
6. Quels sont les résultats du modèle logistique et de la fonction logistique ?
Le modèle logistique génère les logits, c'est-à-dire les probabilités logarithmiques ; et la fonction logistique génère les probabilités.
Modèle logistique = α+1X1+2X2+….+kXk. La sortie de la même chose sera des logs.
Fonction logistique = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . La sortie, dans ce cas, sera les probabilités.

7. Comment interpréter les résultats d'un modèle de régression logistique ? Ou quelles sont les significations d'alpha et de bêta dans un modèle de régression logistique ?
Alpha est la ligne de base dans un modèle de régression logistique. Il s'agit de la cote logarithmique d'une instance lorsque tous les attributs (X1, X2,………….Xk) sont nuls. Dans des scénarios pratiques, la probabilité que tous les attributs soient nuls est très faible. Dans une autre interprétation, Alpha est la cote du journal pour une instance lorsqu'aucun des attributs n'est pris en considération.
Le bêta est la valeur par laquelle les probabilités logarithmiques changent d'un changement d'unité dans un attribut particulier en gardant tous les autres attributs fixes ou inchangés (variables de contrôle).
8. Qu'est-ce que le rapport de cotes ?
Le rapport de cotes est le rapport des cotes entre deux groupes. Par exemple, supposons que nous essayons de vérifier l'efficacité d'un médicament. Nous avons administré ce médicament au groupe « intervention » et un placebo au groupe « contrôle ».
Odds ratio (OR) = (odds ratio du groupe d'intervention)/(odds ratio du groupe témoin)
Interprétation
Si l'odds ratio = 1, alors il n'y a pas de différence entre le groupe d'intervention et le groupe témoin
Si l'odds ratio est supérieur à 1, alors le groupe témoin est meilleur que le groupe d'intervention
Si l'odds ratio est inférieur à 1, alors le groupe d'intervention est meilleur que le groupe témoin.
5 applications révolutionnaires de l'apprentissage automatique
9. Quelle est la formule pour calculer l'odds ratio ?
Dans la formule ci-dessus, X 1 et X 0 représentent deux groupes différents pour lesquels l'odds ratio doit être calculé. X 1 i représente l'instance ' i ' dans le groupe X 1 . X o i représente l'instance ' i ' dans le groupe X 0 . représente le coefficient du modèle de régression logistique. Notez que la ligne de base n'est pas incluse dans cette formule.
10. Pourquoi la régression linéaire ne peut-elle pas être utilisée à la place de la régression logistique pour la classification binaire ?
Les raisons pour lesquelles les régressions linéaires ne peuvent pas être utilisées en cas de classification binaire sont les suivantes :
Distribution des termes d'erreur : La distribution des données en cas de régression linéaire et logistique est différente. La régression linéaire suppose que les termes d'erreur sont normalement distribués. En cas de classification binaire, cette hypothèse n'est pas vraie.
Sortie du modèle : En régression linéaire, la sortie est continue. En cas de classification binaire, une sortie d'une valeur continue n'a pas de sens. Pour les problèmes de classification binaire, la régression linéaire peut prédire des valeurs qui peuvent aller au-delà de 0 et 1. Si nous voulons la sortie sous forme de probabilités, qui peuvent être mappées à deux classes différentes, alors sa plage doit être limitée à 0 et 1. Comme le modèle de régression logistique peut produire des probabilités avec une fonction logistique/sigmoïde, il est préféré à la régression linéaire.
Variance des erreurs résiduelles : la régression linéaire suppose que la variance des erreurs aléatoires est constante. Cette hypothèse est également violée en cas de régression logistique.
11. La frontière de décision est-elle linéaire ou non linéaire dans le cas d'un modèle de régression logistique ?
La frontière de décision est une ligne qui sépare les variables cibles en différentes classes. La frontière de décision peut être linéaire ou non linéaire. Dans le cas d'un modèle de régression logistique, la frontière de décision est une ligne droite.
Formule du modèle de régression logistique = α+1X1+2X2+….+kXk. Cela représente clairement une ligne droite. La régression logistique ne convient que dans les cas où une ligne droite est capable de séparer les différentes classes. Si une ligne droite n'est pas capable de le faire, des algorithmes non linéaires doivent être utilisés pour obtenir de meilleurs résultats.
12. Quelle est la fonction de vraisemblance ?
La fonction de vraisemblance est la probabilité conjointe d'observer les données. Par exemple, supposons qu'une pièce de monnaie est lancée 100 fois et que nous voulons connaître la probabilité d'obtenir 60 faces sur les lancers. Cet exemple suit la formule de distribution binomiale.
p = Probabilité de faire face à un seul tirage au sort
n = 100 (le nombre de lancers de pièces)
x = 60 (le nombre de têtes – succès)
nx = 30 (le nombre de queues)
Pr(X=60 |n = 100, p)
La fonction de vraisemblance est la probabilité que le nombre de faces reçues soit de 60 dans une série de 100 lancers de pièces, où la probabilité de faces reçues à chaque pile ou face est p. Ici, le résultat du tirage au sort suit une distribution binomiale.
Cela peut être recadré comme suit :
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = constante
p = paramètre inconnu
La fonction de vraisemblance donne la probabilité d'observer les résultats en utilisant des paramètres inconnus.
13. Qu'est-ce que l'estimateur du maximum de vraisemblance (MLE) ?
Le MLE choisit les ensembles de paramètres inconnus (estimateur) qui maximisent la fonction de vraisemblance. La méthode pour trouver le MLE consiste à utiliser le calcul et à définir la dérivée de la fonction logistique par rapport à un paramètre inconnu à zéro, et sa résolution donnera le MLE. Pour un modèle binomial, ce sera facile, mais pour un modèle logistique, les calculs sont complexes. Des programmes informatiques sont utilisés pour dériver MLE pour les modèles logistiques.
(Voici une autre approche pour répondre à la question.)
MLE est une approche statistique pour estimer les paramètres d'un modèle mathématique. L'EML et l'estimation par le carré ordinaire donnent les mêmes résultats pour la régression linéaire si la variable dépendante est supposée être normalement distribuée. MLE ne présume rien sur les variables indépendantes.
14. Quelles sont les différentes méthodes de MLE et quand chaque méthode est-elle préférée ?
En cas de régression logistique, il existe deux approches de MLE. Ce sont des méthodes conditionnelles et inconditionnelles. Les méthodes conditionnelles et inconditionnelles sont des algorithmes qui utilisent différentes fonctions de vraisemblance. La formule inconditionnelle utilise la probabilité conjointe des positifs (par exemple, le taux de désabonnement) et des négatifs (par exemple, le non-désabonnement). La formule conditionnelle est le rapport de la probabilité des données observées à la probabilité de toutes les configurations possibles.
La méthode inconditionnelle est préférée si le nombre de paramètres est inférieur par rapport au nombre d'instances. Si le nombre de paramètres est élevé par rapport au nombre d'instances, alors le MLE conditionnel est à privilégier. Les statisticiens suggèrent que le MLE conditionnel doit être utilisé en cas de doute. Le MLE conditionnel fournira toujours des résultats impartiaux.
Ces 6 techniques d'apprentissage automatique améliorent les soins de santé
15. Quels sont les avantages et les inconvénients des méthodes conditionnelles et inconditionnelles de MLE ?
Les méthodes conditionnelles n'estiment pas les paramètres indésirables. Les méthodes inconditionnelles estiment également les valeurs des paramètres indésirables. Les formules inconditionnelles peuvent être directement développées avec des probabilités conjointes. Cela ne peut pas être fait avec une probabilité conditionnelle. Si le nombre de paramètres est élevé par rapport au nombre d'instances, la méthode inconditionnelle donnera des résultats biaisés. Les résultats conditionnels seront impartiaux dans de tels cas.
16. Quelle est la sortie d'un programme MLE standard ?
La sortie d'un programme MLE standard est la suivante :
Valeur de vraisemblance maximisée : Il s'agit de la valeur numérique obtenue en remplaçant les valeurs des paramètres inconnus dans la fonction de vraisemblance par l'estimateur du paramètre MLE.
Matrice variance-covariance estimée : La diagonale de cette matrice est constituée des variances estimées des estimations ML. La hors-diagonale est constituée des covariances des paires d'estimations ML.

17. Pourquoi ne pouvons-nous pas utiliser l'erreur quadratique moyenne (MSE) comme fonction de coût pour la régression logistique ?
Dans la régression logistique, nous utilisons la fonction sigmoïde et effectuons une transformation non linéaire pour obtenir les probabilités. La quadrature de cette transformation non linéaire conduira à une non-convexité avec les minimums locaux. Trouver le minimum global dans de tels cas en utilisant la descente de gradient n'est pas possible. Pour cette raison, MSE ne convient pas à la régression logistique. L'entropie croisée ou perte logarithmique est utilisée comme fonction de coût pour la régression logistique. Dans la fonction de coût pour la régression logistique, les prédictions erronées confiantes sont lourdement pénalisées. Les bonnes prédictions confiantes sont moins récompensées. En optimisant cette fonction de coût, la convergence est atteinte.
18. Pourquoi la précision n'est-elle pas une bonne mesure pour les problèmes de classification ?
La précision n'est pas une bonne mesure pour les problèmes de classification car elle accorde une importance égale aux faux positifs et aux faux négatifs. Cependant, cela peut ne pas être le cas dans la plupart des problèmes commerciaux. Par exemple, en cas de prédiction de cancer, déclarer un cancer bénin est plus grave que d'informer à tort le patient qu'il est atteint d'un cancer. La précision accorde une importance égale aux deux cas et ne peut pas les différencier.
19. Quelle est l'importance d'une ligne de base dans un problème de classification ?
La plupart des problèmes de classification concernent des ensembles de données déséquilibrés. Les exemples incluent le désabonnement des télécommunications, l'attrition des employés, la prédiction du cancer, la détection des fraudes, le ciblage des publicités en ligne, etc. Dans tous ces problèmes, le nombre de classes positives sera très faible par rapport aux classes négatives. Dans certains cas, il est courant d'avoir des classes positives qui représentent moins de 1 % de l'échantillon total. Dans de tels cas, une précision de 99 % peut sembler très bonne mais, en réalité, ce n'est peut-être pas le cas.
Ici, les négatifs sont de 99 % et, par conséquent, la ligne de base restera la même. Si les algorithmes prédisent que toutes les instances sont négatives, la précision sera également de 99 %. Dans ce cas, tous les éléments positifs seront prédits à tort, ce qui est très important pour toute entreprise. Même si tous les positifs sont prédits à tort, une précision de 99 % est atteinte. Ainsi, la ligne de base est très importante et l'algorithme doit être évalué par rapport à la ligne de base.
20. Que sont les faux positifs et les faux négatifs ?
Les faux positifs sont les cas dans lesquels les négatifs sont prédits à tort comme positifs. Par exemple, prédire qu'un client va se désabonner alors qu'en fait, il ne se désengage pas.
Les faux négatifs sont les cas dans lesquels les positifs sont prédits à tort comme négatifs. Par exemple, prédire qu'un client ne se désabonnera pas alors qu'en fait, il se désabonnera.
21. Quels sont le taux de vrais positifs (TPR), le taux de vrais négatifs (TNR), le taux de faux positifs (FPR) et le taux de faux négatifs (FNR) ?
Le TPR fait référence au rapport des positifs correctement prédits à partir de toutes les vraies étiquettes. En termes simples, c'est la fréquence des vraies étiquettes correctement prédites.
TPR = TP/TP+FN
Le TNR fait référence au ratio de négatifs correctement prédits à partir de toutes les fausses étiquettes. C'est la fréquence des fausses étiquettes correctement prédites.
TNR = VN/VN+FP
FPR fait référence au ratio de positifs prédits de manière incorrecte à partir de toutes les vraies étiquettes. C'est la fréquence des fausses étiquettes mal prédites.
FPR = FP/TN+FP
FNR fait référence au ratio de négatifs prédits de manière incorrecte à partir de toutes les fausses étiquettes. C'est la fréquence des vraies étiquettes mal prédites.
FNR = FN/TP+FN
22. Qu'est-ce que la précision et le rappel ?
La précision est la proportion de vrais positifs par rapport aux positifs prédits. Autrement dit, c'est l'exactitude de la prédiction. Elle est également connue sous le nom de « valeur prédictive positive ».
Précision = TP/TP+FP
Le rappel est le même que le taux de vrais positifs (TPR).
Comment fonctionne l'apprentissage automatique non supervisé ?
23. Qu'est-ce que la mesure F ?
C'est la moyenne harmonique de la précision et du rappel. Dans certains cas, il y aura un compromis entre la précision et le rappel. Dans de tels cas, la mesure F chutera. Il sera élevé lorsque la précision et le rappel seront élevés. En fonction de l'analyse de rentabilisation en cours et de l'objectif de l'analyse des données, une métrique appropriée doit être sélectionnée.
F-mesure = 2 X (Précision X Rappel) / (Précision + Rappel)
24. Qu'est-ce que la précision ?
C'est le nombre de prédictions correctes sur toutes les prédictions faites.
Précision = (TP+TN)/(Le nombre total de prédictions)
25. Qu'est-ce que la sensibilité et la spécificité ?
La spécificité est la même que le taux de vrais négatifs, ou elle est égale à 1 – taux de faux positifs.
Spécificité = VN/VN + FP.
La sensibilité est le vrai taux positif.
Sensibilité = TP/TP + FN
26. Comment choisir un seuil dans le cas d'un modèle de régression logistique ?
Le point limite dépend de l'objectif commercial. Selon les objectifs de votre entreprise, le point limite doit être sélectionné. Par exemple, considérons les défauts de paiement sur les prêts. Si l'objectif commercial est de réduire les pertes, la spécificité doit être élevée. Si l'objectif est d'augmenter les profits, alors c'est une toute autre affaire. Il se peut que les bénéfices n'augmentent pas en évitant d'accorder des prêts à tous les cas de défaut prévus. Mais il se peut que l'entreprise doive débourser des prêts en cas de défaut de paiement légèrement moins risqués pour augmenter les bénéfices. Dans un tel cas, un seuil différent, qui maximise le profit, sera nécessaire. Dans la plupart des cas, les entreprises fonctionneront autour de nombreuses contraintes. Le seuil qui satisfait l'objectif commercial ne sera pas le même avec et sans limites. Le point limite doit être sélectionné en tenant compte de tous ces points. En règle générale, choisissez une valeur seuil équivalente à la proportion de positifs dans un ensemble de données.
Qu'est-ce que l'apprentissage automatique et pourquoi c'est important27. Comment la régression logistique gère-t-elle les variables catégorielles ?
Les entrées d'un modèle de régression logistique doivent être numériques. L'algorithme ne peut pas gérer directement les variables catégorielles. Ils doivent donc être convertis dans un format adapté à l'algorithme à traiter. Les différents niveaux d'une variable catégorielle se verront attribuer une valeur numérique unique connue sous le nom de variable fictive. Ces variables fictives sont traitées par le modèle de régression logistique comme n'importe quelle autre valeur numérique.
28. Qu'est-ce qu'une courbe de réponse cumulée (CRV) ?
Afin de transmettre les résultats d'une analyse au management, une « courbe de réponse cumulée » est utilisée, plus intuitive que la courbe ROC. Une courbe ROC est très difficile à comprendre pour quelqu'un en dehors du domaine de la science des données. Un CRV se compose du taux de vrais positifs ou du pourcentage de positifs correctement classés sur l'axe des ordonnées et du pourcentage de la population ciblée sur l'axe des abscisses. Il est important de noter que le pourcentage de la population sera classé par le modèle par ordre décroissant (soit les probabilités, soit les valeurs attendues). Si le modèle est bon, alors en ciblant une partie supérieure de la liste classée, tous les pourcentages élevés de positifs seront capturés. Comme pour la courbe ROC, il y aura une ligne diagonale qui représente les performances aléatoires. Comprenons cette performance aléatoire comme un exemple. En supposant que 50 % de la liste est ciblée, on s'attend à ce qu'elle capture 50 % des points positifs. Cette attente est capturée par la ligne diagonale, qui est similaire à la courbe ROC.
29. Quelles sont les courbes de portance ?
L'amélioration correspond à l'amélioration des performances du modèle (augmentation du taux de vrais positifs) par rapport aux performances aléatoires. Les performances aléatoires signifient que si 50 % des instances sont ciblées, on s'attend à ce qu'elles détectent 50 % des points positifs. L'ascenseur est en comparaison avec les performances aléatoires d'un modèle. Si les performances d'un modèle sont meilleures que ses performances aléatoires, alors son lift sera supérieur à 1.
Dans une courbe d'augmentation, l'augmentation est tracée sur l'axe Y et le pourcentage de la population (trié par ordre décroissant) sur l'axe X. A un pourcentage donné de la population cible, un modèle avec un ascenseur élevé est préféré.
30. Quel algorithme est le meilleur pour gérer la régression logistique des valeurs aberrantes ou SVM ?
La régression logistique trouvera une limite linéaire si elle existe pour tenir compte des valeurs aberrantes. La régression logistique déplacera la frontière linéaire afin de tenir compte des valeurs aberrantes. SVM est insensible aux échantillons individuels. Il n'y aura pas de changement majeur dans la limite linéaire pour tenir compte d'une valeur aberrante. SVM est livré avec des contrôles de complexité intégrés, qui prennent en charge le surajustement. Ce n'est pas vrai en cas de régression logistique.
31. Comment allez-vous traiter le problème de classification multiclasse en utilisant la régression logistique ?
La méthode la plus connue pour traiter la classification multiclasse à l'aide de la régression logistique consiste à utiliser l'approche un contre tous. Dans cette approche, un certain nombre de modèles sont entraînés, ce qui est égal au nombre de classes. Les modèles fonctionnent d'une manière spécifique. Par exemple, le premier modèle classe le point de données selon qu'il appartient à la classe 1 ou à une autre classe ; le deuxième modèle classe le point de données dans la classe 2 ou une autre classe. De cette façon, chaque point de données peut être vérifié sur toutes les classes.
32. Expliquez l'utilisation des courbes ROC et l'AUC d'une courbe ROC.
Une courbe ROC (Receiver Operating Characteristic) illustre les performances d'un modèle de classification binaire. Il s'agit essentiellement d'une courbe TPR versus FPR (taux de vrais positifs versus taux de faux positifs) pour toutes les valeurs de seuil allant de 0 à 1. Dans une courbe ROC, chaque point de l'espace ROC sera associé à une matrice de confusion différente. Une ligne diagonale du bas à gauche vers le haut à droite sur le graphique ROC représente une estimation aléatoire. L'aire sous la courbe (AUC) indique la qualité du modèle de classificateur. Si la valeur de l'AUC est élevée (proche de 1), le modèle fonctionne de manière satisfaisante, tandis que si la valeur est faible (autour de 0,5), le modèle ne fonctionne pas correctement et ne fait que deviner au hasard.
33. Comment utiliser le concept de ROC dans une classification multiclasse ?
Le concept de courbes ROC peut facilement être utilisé pour la classification multiclasse en utilisant l'approche un contre tous. Par exemple, disons que nous avons trois classes 'a', 'b' et 'c'. Ensuite, la première classe comprend la classe 'a' (vraie classe) et la deuxième classe comprend à la fois la classe 'b' et la classe 'c' ensemble (fausse classe). Ainsi, la courbe ROC est tracée. De même, pour les trois classes, nous allons tracer trois courbes ROC et effectuer notre analyse de l'AUC.
Jusqu'à présent, nous avons couvert les deux algorithmes de ML les plus élémentaires, la régression linéaire et logistique, et nous espérons que vous avez trouvé ces ressources utiles.
Apprenez le cours ML des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

La prochaine partie de cette série est basée sur un autre algorithme ML très important, Clustering . N'hésitez pas à poster vos doutes et questions dans la section des commentaires ci-dessous.
Co-écrit par - Ojas Agarwal
Que sont les graphiques Gain et Lift cumulés ?
Un graphique Gain et Lift est une approche visuelle permettant d'évaluer l'efficacité de plusieurs modèles d'apprentissage automatique de différentes manières. En plus de vous aider à évaluer le succès de votre modèle de prédiction, ils affichent visuellement la différence entre le taux de réponse d'un groupe ciblé et celui d'un groupe choisi au hasard. Ces diagrammes sont précieux dans les contextes d'entreprise, tels que le marketing ciblé. Ils peuvent également être appliqués dans d'autres domaines, tels que la modélisation des risques, l'analyse de la chaîne d'approvisionnement, etc. En d'autres termes, les graphiques Gain et Lift sont deux façons de traiter les difficultés de classification impliquant des ensembles de données déséquilibrés.
Quelles sont certaines des hypothèses formulées lors de l'utilisation de la régression logistique ?
Certaines hypothèses sont faites lors de l'utilisation de la régression logistique. L'un d'eux est que les prédicteurs continus n'ont pas de valeurs influentes (valeurs extrêmes ou valeurs aberrantes). La régression logistique, qui est divisée en deux classes, suppose que la variable dépendante soit binaire, tandis que la régression logistique ordonnée nécessite que la variable dépendante soit ordonnée. On suppose également qu'il n'y a pas d'intercorrélations substantielles (c'est-à-dire de multicolinéarité) entre les prédicteurs. Elle considère également que les observations sont indépendantes les unes des autres.
Puis-je obtenir un emploi de data scientist si j'ai une bonne connaissance de l'apprentissage automatique ?
Un Data Scientist collecte, analyse et interprète d'énormes volumes de données à l'aide de technologies d'analyse sophistiquées telles que l'apprentissage automatique et la modélisation prédictive. Ceux-ci sont ensuite utilisés par les chefs d'entreprise pour faire les meilleurs choix commerciaux. Ainsi, en plus d'autres compétences telles que l'exploration de données et la compréhension des méthodologies de recherche statistique, l'apprentissage automatique est une compétence essentielle pour un scientifique des données. Mais si vous souhaitez travailler en tant que Data Scientist, vous devez également être familiarisé avec les plates-formes et technologies Big Data telles que Hadoop, Pig, Hive, Spark et autres, ainsi que les langages de programmation tels que SQL, Python et autres.