Questions et réponses d'entrevue de régression logistique [Pour les débutants et les expérimentés]

Publié: 2020-09-24

En matière d'apprentissage automatique, plus précisément de classification, la régression logistique est peut-être l'algorithme le plus simple et le plus largement utilisé. Étant donné que la régression logistique est très facile à comprendre et à mettre en œuvre, cet algorithme est parfait pour les débutants et les personnes qui commencent tout juste leur parcours en apprentissage automatique ou en science des données.

Bien que le nom de régression logistique puisse ressembler à l'algorithme que l'on pourrait utiliser pour implémenter la régression, la vérité est loin d'être la bonne. La régression logistique, en raison de ses nuances, est plus adaptée pour classer réellement les instances dans des classes bien définies que pour effectuer réellement des tâches de régression.

En un mot, cet algorithme prend une sortie de régression linéaire et applique une fonction d'activation avant de nous donner le résultat. La fonction d'activation utilisée par la régression logistique est celle de la fonction sigmoïde (également appelée fonction logistique). Adhérant aux propriétés d'une fonction sigmoïde, au lieu de fournir des valeurs continues, elle donne simplement un nombre compris entre zéro et un. Après avoir défini une valeur seuil, la classification à partir de la sortie de la régression logistique devient un jeu d'enfant.

Nous savons tous comment le domaine de la science des données et de l'apprentissage automatique évolue. Plus d'opportunités sont créées quotidiennement. Ainsi, dans ce monde compétitif et acharné, s'assurer que vous avez les bonnes connaissances est essentiel pour vous assurer un bon placement dans l'entreprise de vos rêves. Pour vous aider dans cette entreprise, nous avons préparé une liste de questions d'entretien de régression logistique qui devraient vous aider à vous préparer au parcours pour devenir un data scientist professionnel ou un professionnel de l'apprentissage automatique.

Table des matières

Questions et réponses d'entrevue de régression logistique

Q1. Répondez par VRAI ou FAUX. La régression logistique est-elle un type d'algorithme d'apprentissage automatique supervisé ?

Rép. Oui, la réponse à cette question serait VRAI car, en effet, la régression logistique est un algorithme d'apprentissage automatique supervisé. La simple raison réside dans le fonctionnement de cet algorithme. Pour obtenir la sortie de la régression logistique, vous devrez d'abord l'alimenter avec des données.

Vous devrez fournir les instances et l'étiquetage correct de ces instances pour qu'il puisse en tirer des leçons et faire des prédictions précises. Un algorithme d'apprentissage automatique supervisé aurait besoin à la fois d'une variable cible (Y) et des instances de classe ou de la variable utilisée pour fournir des informations d'entrée (X) pour pouvoir s'entraîner et faire des prédictions avec succès.

Q2. Répondez par VRAI ou FAUX. La régression logistique est-elle principalement utilisée pour la classification ?

Rép. Oui, la réponse à cette question est VRAI. En effet, la régression logistique est principalement utilisée pour les tâches de classification plutôt que pour effectuer une régression réelle. Nous utilisons la régression linéaire pour la régression. En raison de la similitude entre les deux, il est facile de se confondre. Ne faites pas cette erreur. Dans la régression logistique, nous utilisons la fonction logistique, qui n'est rien d'autre qu'une fonction d'activation sigmoïde, ce qui rend les tâches de classification beaucoup plus confortables.

Q3. Répondez à cette question en utilisant VRAI ou FAUX. Peut-on implémenter un réseau de neurones qui imite le comportement d'un algorithme de régression logistique ?

Rép. Oui, la réponse serait VRAI. Les réseaux de neurones sont également appelés approximateurs universels. Ils peuvent être utilisés pour imiter presque tous les algorithmes d'apprentissage automatique. Pour mettre les choses en perspective, si vous utilisez l'API Keras de TensorFlow 2.0, il vous suffirait d'ajouter une couche dans le modèle séquentiel et de créer cette couche avec une fonction d'activation sigmoïde.

Q4. Répondez à cette question en utilisant VRAI ou FAUX. Peut-on utiliser la régression logistique pour résoudre un problème de classification multi-classes ?

Rép. La réponse courte serait VRAI. La réponse longue, cependant, vous ferait réfléchir un peu. Il n'y a aucun moyen d'implémenter une classification multi-classes à partir d'un seul modèle de régression logistique. Vous devrez soit utiliser un réseau de neurones avec une fonction d'activation softmax, soit utiliser un algorithme complexe d'apprentissage automatique pour prédire avec succès de nombreuses classes de votre variable d'entrée.

Cependant, il existe une manière d'utiliser la régression logistique pour résoudre un problème de classification multi-classes. Ce serait en utilisant une approche un contre tous. Vous devrez former n classificateurs (où n est le nombre de classes), chacun d'eux prédisant une seule classe. Ainsi, dans le cas d'une classification à trois classes (disons A, B et C), vous devrez former deux classificateurs un pour prédire A et non A, un autre pour prédire B et non B, et le classificateur final prédire C et non C. Ensuite, vous devrez prendre les sorties de ces trois modèles et les intégrer ensemble pour pouvoir faire une classification multi-classes en utilisant uniquement la régression logistique.

Q5. Choisissez l'une des options dans la liste ci-dessous. Quelle est la méthode sous-jacente utilisée pour ajuster les données d'apprentissage dans l'algorithme de régression logistique ?

Jaccard Distance
Plausibilité maximum
Erreur des moindres carrés
Aucune des options mentionnées ci-dessus.

Rép. La réponse est B. Il est facile de sélectionner l'option C, qui est l'erreur des moindres carrés, car il s'agit de la même méthode que celle utilisée dans la régression linéaire. Cependant, dans la régression logistique, nous n'utilisons pas l'approximation des moindres carrés pour ajuster les instances d'apprentissage dans le modèle ; nous utilisons plutôt le maximum de vraisemblance.

Paiement : Idées de projets d'apprentissage automatique

Q6. Choisissez l'une des options dans la liste ci-dessous. Quelle métrique ne pourrions-nous pas utiliser pour mesurer l'exactitude d'un modèle de régression logistique ?

L'aire sous la courbe des caractéristiques de fonctionnement du récepteur (ou score AUC-ROC)
Log-perte
Erreur quadratique moyenne (ou MSE)
Précision

Rép. L'option correcte que vous devez choisir est C, c'est-à-dire l'erreur quadratique moyenne ou MSE. Étant donné que l'algorithme de régression logistique est en fait un algorithme de classification plutôt qu'un algorithme de régression de base, nous ne pouvons pas utiliser l'erreur carrée de mesure pour déterminer les performances du modèle de régression logistique que nous avons écrit. La raison principale est la sortie que nous recevons du modèle et l'incapacité d'attribuer une valeur numérique significative à une instance de classe.

Q7. Choisissez l'une des options dans la liste ci-dessous. L'AIC se trouve être une excellente mesure pour juger de la performance du modèle de régression logistique. L'AIC est très similaire à la méthode R au carré utilisée pour déterminer les performances d'un algorithme de régression linéaire. Qu'est-ce qui est réellement vrai à propos de cet AIC ?

Le modèle avec un faible score AIC est généralement préféré.
Le modèle qui a un score AIC énorme est en fait préféré.
Le choix du modèle uniquement sur la base du score AIC dépend fortement de la situation.
Aucune des options mentionnées ci-dessus.

Rép. Le modèle qui a la plus petite valeur d'AIC est préféré. Ainsi, la réponse à la question serait l'option A. La principale raison pour laquelle nous choisissons le modèle avec la valeur d'AIC la plus faible possible est que la pénalité, qui est ajoutée pour réguler les performances du modèle, n'encourage en fait pas l'ajustement à être fini. Oui, le critère d'information AIC ou Akaike est cette métrique dans laquelle plus la valeur est faible, meilleur est l'ajustement.

En pratique, nous préférons les modèles qui ne sont ni sous-ajustés (c'est-à-dire qu'ils ne peuvent pas bien généraliser car le modèle que nous avons choisi n'est pas assez complexe pour trouver les subtilités présentes dans les données) ni sur-ajustés (c'est-à-dire que le modèle s'est parfaitement adapté à la formation données et il a perdu la capacité de faire des prédictions plus générales). Nous choisissons donc un score raisonnablement bas pour éviter à la fois le sous-ajustement et le sur-ajustement.

Q8. Répondez par VRAI ou FAUX. Avons-nous besoin de normaliser les valeurs présentes dans les colonnes de caractéristiques avant d'introduire les données dans un modèle de régression logistique de formation ?

Rép. Non, nous n'avons pas besoin de normaliser les valeurs présentes dans l'espace des caractéristiques, que nous devons utiliser pour former le modèle de régression logistique. Donc, la réponse à cette question serait FAUX. Nous choisissons de standardiser toutes nos valeurs pour aider la fonction (généralement descente de gradient), qui est chargée de faire converger l'algorithme sur une valeur. Étant donné que cet algorithme est relativement simple, il n'a pas besoin que les quantités soient mises à l'échelle pour qu'il ait réellement une différence significative dans ses performances.

Apprendre : les 5 meilleurs modèles d'apprentissage automatique expliqués aux débutants

Q9. Choisissez l'une des options dans la liste ci-dessous. Quelle est la technique que nous utilisons pour effectuer la tâche de sélection de variables ?

Régression de crête
Régression LASSO
Aucune des options mentionnées
LASSO et Ridge Regression

Rép. La réponse à cette question est la régression de B. LASSO. La raison est simple, la pénalité l2, qui est encourue dans la fonction de régression LASSO, a la capacité de rendre le coefficient de certaines caractéristiques égal à zéro. Puisque le coefficient est nul, cela signifie qu'ils n'auront aucun effet sur le résultat final de la fonction. Cela signifie que ces variables ne sont pas aussi importantes que nous le pensions, et de cette façon, avec l'aide de la régression LASSO, nous pouvons effectuer une sélection de variables.

Q10. Choisissez l'une des options dans la liste ci-dessous. Supposons que vous ayez une pièce équitable en votre possession dans le but de connaître les chances d'obtenir face. Quelle serait votre cote calculée ?

Les chances d'avoir la tête seraient-elles de 0
Les chances d'avoir la tête seraient-elles de 1
Les chances d'avoir la tête seraient-elles de 0,5
Aucune des options mentionnées ci-dessus.

Rép. Pour répondre avec succès à cette question, vous devez comprendre la signification et la définition des cotes. Les chances sont en fait définies comme le rapport de deux probabilités - la probabilité de se produire à la probabilité de ne pas se produire d'un événement particulier. Dans le cas de n'importe quelle pièce, qui est juste, la possibilité de face et la probabilité de ne pas face sont les mêmes. Ainsi, les chances d'obtenir des têtes sont de un.

Q11. Choisissez la bonne réponse parmi les options ci-dessous. La fonction logit est définie comme le logarithme de la fonction de cotes. Que pensez-vous que la plage de cette fonction logit soit dans le domaine de [0,1] ?

(-infini, +infini)
(0, +infini)
(-infini, 0)
(0, 1)

Rép. La fonction de probabilité prend la valeur avec laquelle elle est transmise et la transforme en probabilité. Cela signifie que la plage de toute fonction est limitée entre zéro et un. Cependant, la fonction de cotes fait une chose, elle prend la valeur de la fonction de probabilité et en fait la plage de zéro à l'infini.

Ainsi, l'entrée effective de la fonction log serait de zéro à l'infini. Nous savons que la plage de la fonction logarithmique dans ce domaine est la droite entière des nombres réels ou l'infini négatif à l'infini positif. Donc, la réponse à cette question est l'option A.

Q12. Choisissez l'option que vous pensez être VRAIE dans la liste ci-dessous :

Les valeurs d'erreur dans le cas de la régression linéaire doivent suivre une distribution normale, mais dans le cas de la régression logistique, les valeurs ne doivent pas suivre une distribution normale standard.
Les valeurs d'erreur dans le cas de la régression logistique doivent suivre une distribution normale, mais dans le cas de la régression linéaire, les valeurs ne doivent pas suivre une distribution normale standard.
Les valeurs d'erreur dans le cas de la régression linéaire et de la régression logistique doivent suivre une distribution normale.
Les valeurs d'erreur dans le cas de la régression linéaire et de la régression logistique n'ont pas à suivre une distribution normale.

Rép. La seule déclaration véridique dans le groupe de ces déclarations est la première. Ainsi, la réponse à la question devient l'option A.

Q13. Choisissez la ou les bonnes options dans la liste d'options ci-dessous. Alors, disons que vous avez appliqué le modèle de régression logistique à des données données. Les résultats de précision que vous avez obtenus sont X pour l'ensemble d'apprentissage et Y pour l'ensemble de test. Maintenant, vous souhaitez ajouter plus de points de données à votre modèle. Alors, selon vous, que devrait-il se passer ?

La précision X, que nous avons obtenue dans les données d'entraînement, devrait augmenter.
La précision X, que nous avons obtenue à partir des données d'entraînement, devrait diminuer.
La précision Y, que nous avons obtenue à partir des données de test, devrait diminuer.
La précision Y, que nous avons obtenue à partir des données de test, devrait augmenter ou rester la même.

Rép. La précision de la formation dépend fortement de l'ajustement du modèle aux données, qu'il a déjà vues et apprises. Donc, supposons que nous augmentions le nombre de caractéristiques introduites dans le modèle, la précision d'apprentissage X augmente. Dans ce cas, la précision de la formation augmentera car le modèle devra devenir plus compliqué pour ajuster correctement les données avec un nombre accru de fonctionnalités.

Alors que la précision des tests n'augmentera que si la fonctionnalité ajoutée au modèle est une fonctionnalité excellente et significative, sinon la précision du modèle lors des tests restera plus ou moins la même. Ainsi, la réponse à cette question serait à la fois les options A et D.

Q14. Choisissez la bonne option parmi les options suivantes concernant la méthode du un contre tous en termes de régression logistique.

Nous aurions besoin d'un total de n modèles pour classer correctement entre n nombre de classes.
Nous aurions besoin d'un nombre n-1 de modèles pour classer entre n nombre de classes.
Nous n'aurions besoin que d'un seul modèle pour classer avec succès entre n nombre de classes.
Aucune des options mentionnées ci-dessus.

Rép. Pour classer entre n classes différentes, nous allons avoir besoin de n modèles dans une approche One vs. All.

Q15. Regardez le graphique ci-dessous et répondez à la question en choisissant une option parmi les options énumérées ci-dessous. Combien de minima locaux voyez-vous dans le graphique ?

Il n'y a qu'un seul minima local dans le graphe.
Il y a deux minima locaux dans ce graphique.
Il y a trois minima locaux dans ce graphique.
Il y a quatre minima locaux dans ce graphique.

Rép. Étant donné que la pente du graphique devient nulle en quatre points distincts (où le graphique est en forme de U), il est sûr de dire qu'il aura quatre minima locaux de sorte que la réponse serait D.

Lisez aussi: Régression linéaire Vs. Régression logistique

Et ensuite ?

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

La régression logistique est-elle difficile à apprendre ?

En matière de science des données, la régression logistique et linéaire est largement utilisée pour résoudre différents types de problèmes de calcul. Et pour travailler efficacement dans le domaine de la science des données, vous devez comprendre et être à l'aise avec ces deux types de modèles de régression. Vous pourriez deviner d'après le nom que la régression logistique utilise un modèle d'équations plus avancé. Il est donc un peu plus difficile à apprendre par rapport à la régression linéaire. Cependant, si vous avez une compréhension de base du fonctionnement des mathématiques, vous pouvez vous en servir pour créer des packages en programmation R ou Python.

Quelle est l'importance de la régression logistique dans la science des données ?

Pour devenir un data scientist performant, il est essentiel de comprendre le pipeline d'acquisition et de traitement des données, de comprendre les données et de construire un modèle, d'évaluer les résultats et de le déployer. Et la régression logistique est inestimable pour comprendre tout ce concept de pipeline. Lorsque vous comprenez la régression logistique, vous développez automatiquement une bien meilleure compréhension des concepts d'apprentissage automatique. De plus, vous pouvez parfois résoudre facilement des problèmes très compliqués en utilisant uniquement la régression logistique, en particulier pour les problèmes non linéaires. La régression logistique est un outil statistique essentiel, et les statistiques font partie intégrante de l'apprentissage automatique. Et si vous souhaitez étudier les réseaux de neurones, connaître la régression logistique vous offrira une excellente longueur d'avance.

La régression logistique est-elle vraiment utile ?

Malgré son nom, la régression logistique est un cadre de classification, en réalité, plus qu'une régression. Il présente une méthode ou un algorithme plus efficace et plus simple qui peut être utilisé pour résoudre des problèmes de classification binaire dans l'apprentissage automatique. Vous pouvez facilement le réaliser et obtenir d'excellentes performances pour les classes linéairement séparables. Cependant, lorsqu'il existe plusieurs limites de décision non linéaires, la régression logistique a tendance à sous-performer. Dans certains cas, des algorithmes plus compacts comme les réseaux de neurones sont dits plus efficaces et plus puissants.