Fragen und Antworten zum Vorstellungsgespräch zur logistischen Regression [Für Neueinsteiger und Erfahrene]

Veröffentlicht: 2020-09-24

Wenn es um maschinelles Lernen geht, genauer gesagt um die Klassifizierung, ist die logistische Regression vielleicht der einfachste und am weitesten verbreitete Algorithmus. Da die logistische Regression sehr einfach zu verstehen und zu implementieren ist, eignet sich dieser Algorithmus perfekt für Anfänger und Menschen, die gerade erst mit ihrem maschinellen Lernen oder ihrer Reise in die Datenwissenschaft beginnen.

Obwohl der Name logistische Regression wie der Algorithmus klingen mag, den man zur Implementierung der Regression verwenden könnte, ist die Wahrheit weit davon entfernt. Die logistische Regression ist aufgrund ihrer Nuancen besser geeignet, Instanzen tatsächlich in wohldefinierte Klassen zu klassifizieren, als Regressionsaufgaben tatsächlich auszuführen.

Kurz gesagt, dieser Algorithmus nimmt eine lineare Regressionsausgabe und wendet eine Aktivierungsfunktion an, bevor er uns das Ergebnis liefert. Die Aktivierungsfunktion, die die logistische Regression verwendet, ist die Sigmoidfunktion (auch als logistische Funktion bekannt). In Anlehnung an die Eigenschaften einer Sigmoidfunktion gibt sie statt kontinuierlicher Werte nur eine Zahl im Bereich von null bis eins an. Nach dem Festlegen eines Schwellenwerts wird die Klassifizierung anhand der Ausgabe der logistischen Regression zum Kinderspiel.

Wir alle wissen, wie sich der Bereich der Datenwissenschaft und des maschinellen Lernens entwickelt. Täglich werden mehr Gelegenheiten geschaffen. In dieser hart umkämpften Welt ist es also der Schlüssel, sicherzustellen, dass Sie über das richtige Wissen verfügen, um eine gute Platzierung im Unternehmen Ihrer Träume zu gewährleisten. Um Sie bei diesem Unterfangen zu unterstützen, haben wir eine Liste mit Interviewfragen zur logistischen Regression zusammengestellt, die Ihnen bei der Vorbereitung auf den Weg zum professionellen Datenwissenschaftler oder zum Experten für maschinelles Lernen helfen sollen.

Inhaltsverzeichnis

Fragen und Antworten zum Vorstellungsgespräch zur logistischen Regression

Q1. Antworten Sie entweder mit WAHR oder FALSCH. Ist die logistische Regression eine Art überwachter Algorithmus für maschinelles Lernen?

Ans. Ja, die Antwort auf diese Frage wäre WAHR, denn die logistische Regression ist in der Tat ein überwachter maschineller Lernalgorithmus. Der einfache Grund dafür liegt in der Funktionsweise dieses Algorithmus. Um die Ausgabe der logistischen Regression zu erhalten, müssen Sie sie zuerst mit Daten füttern.

Sie müssen die Instanzen und die korrekte Bezeichnung dieser Instanzen bereitstellen, damit es aus ihnen lernen und genaue Vorhersagen treffen kann. Ein überwachter Algorithmus für maschinelles Lernen würde sowohl eine Zielvariable (Y) als auch die Klasseninstanzen oder die Variable benötigen, die verwendet wird, um Eingabeinformationen (X) bereitzustellen, um erfolgreich trainieren und Vorhersagen treffen zu können.

Q2. Antworten Sie entweder mit WAHR oder FALSCH. Wird die logistische Regression hauptsächlich zur Klassifizierung verwendet?

Ans. Ja, die Antwort auf diese Frage ist WAHR. Tatsächlich wird die logistische Regression hauptsächlich für Klassifizierungsaufgaben verwendet, anstatt eine tatsächliche Regression durchzuführen. Für die Regression verwenden wir die lineare Regression. Aufgrund der Ähnlichkeit zwischen den beiden ist es leicht zu verwechseln. Machen Sie diesen Fehler nicht. Bei der logistischen Regression verwenden wir die logistische Funktion, die nichts anderes als eine sigmoidale Aktivierungsfunktion ist, was Klassifikationsaufgaben viel komfortabler macht.

Q3. Beantworten Sie diese Frage mit WAHR oder FALSCH. Kann ein neuronales Netzwerk implementiert werden, das das Verhalten eines logistischen Regressionsalgorithmus nachahmt?

Ans. Ja, die Antwort wäre WAHR. Neuronale Netze werden auch als universelle Approximatoren bezeichnet. Sie können verwendet werden, um fast jeden maschinellen Lernalgorithmus nachzuahmen. Um die Dinge ins rechte Licht zu rücken: Wenn Sie die Keras-API von TensorFlow 2.0 verwenden, müssten Sie lediglich eine Ebene zum sequentiellen Modell hinzufügen und diese Ebene mit einer Sigmoid-Aktivierungsfunktion erstellen.

Q4. Beantworten Sie diese Frage entweder mit WAHR oder FALSCH. Können wir die logistische Regression verwenden, um ein Klassifikationsproblem mit mehreren Klassen zu lösen?

Ans. Die kurze Antwort wäre WAHR. Die lange Antwort würde Sie jedoch ein wenig zum Nachdenken anregen. Es gibt keine Möglichkeit, eine Mehrklassenklassifizierung nur mit einem einzigen logistischen Regressionsmodell zu implementieren. Sie müssen entweder ein neuronales Netzwerk mit einer Softmax-Aktivierungsfunktion verwenden oder einen komplexen maschinellen Lernalgorithmus verwenden, um viele Klassen Ihrer Eingabevariablen erfolgreich vorherzusagen.

Es gibt jedoch eine Möglichkeit, wie Sie die logistische Regression tatsächlich verwenden können, um ein Klassifizierungsproblem mit mehreren Klassen zu lösen. Das wäre durch die Verwendung eines Eins-gegen-alle-Ansatzes. Sie müssen n Klassifikatoren trainieren (wobei n die Anzahl der Klassen ist), von denen jeder nur eine Klasse vorhersagt. Im Fall einer Drei-Klassen-Klassifizierung (sagen wir A, B und C) müssen Sie also zwei Klassifikatoren trainieren, einen, um A und nicht A vorherzusagen, einen anderen, um B und nicht B vorherzusagen, und den letzten Klassifikator Vorhersage von C und nicht C. Dann müssen Sie die Ausgaben von all diesen drei Modellen integrieren, um sie zusammen zu integrieren, um eine Mehrklassenklassifizierung nur mit logistischer Regression durchführen zu können.

Q5. Wählen Sie eine der Optionen aus der Liste unten. Welche Methode wird zugrunde gelegt, um die Trainingsdaten in den Algorithmus der logistischen Regression einzupassen?

Jaccard-Distanz
Maximale Wahrscheinlichkeit
Fehler der kleinsten Quadrate
Keine der oben genannten Optionen.

Ans. Die Antwort ist B. Es ist einfach, Option C auszuwählen, die den Fehler der kleinsten Quadrate darstellt, da dies dieselbe Methode ist, die bei der linearen Regression verwendet wird. Bei der logistischen Regression verwenden wir jedoch nicht die Näherung der kleinsten Quadrate, um die Trainingsinstanzen in das Modell einzupassen; wir verwenden stattdessen Maximum Likelihood.

Kasse: Projektideen für maschinelles Lernen

F6. Wählen Sie eine der Optionen aus der Liste unten. Welche Metrik könnten wir nicht verwenden, um die Korrektheit eines logistischen Regressionsmodells zu messen?

Die Fläche unter der Empfängerbetriebskennlinie (oder AUC-ROC-Score)
Log-Verlust
Mittlerer quadratischer Fehler (oder MSE)
Genauigkeit

Ans. Die richtige Option, die Sie wählen sollten, ist C, dh Mean Squared Error oder MSE. Da der logistische Regressionsalgorithmus eher ein Klassifizierungsalgorithmus als ein grundlegender Regressionsalgorithmus ist, können wir den Meas Square Error nicht verwenden, um die Leistung des von uns geschriebenen logistischen Regressionsmodells zu bestimmen. Der Hauptgrund liegt in der Ausgabe, die wir vom Modell erhalten, und in der Unfähigkeit, einer Klasseninstanz einen aussagekräftigen numerischen Wert zuzuweisen.

Q7. Wählen Sie eine der Optionen aus der Liste unten. AIC ist zufällig eine ausgezeichnete Metrik, um die Leistung des logistischen Regressionsmodells zu beurteilen. AIC ist der R-Quadrat-Methode sehr ähnlich, die verwendet wird, um die Leistung eines linearen Regressionsalgorithmus zu bestimmen. Was ist eigentlich wahr an diesem AIC?

Das Modell mit niedrigem AIC-Score wird im Allgemeinen bevorzugt.
Das Modell, das einen großen AIC-Score hat, wird tatsächlich bevorzugt.
Die Wahl des Modells allein anhand des AIC-Scores hängt stark von der Situation ab.
Keine der oben genannten Optionen.

Ans. Das Modell mit dem geringsten AIC-Wert wird bevorzugt. Die Antwort auf die Frage wäre also Option A. Der Hauptgrund, warum wir das Modell mit dem geringstmöglichen AIC-Wert wählen, liegt darin, dass die Strafe, die hinzugefügt wird, um die Leistung des Modells zu regulieren, die Anpassung tatsächlich nicht fördert vorbei sein. Ja, das AIC- oder Akaike-Informationskriterium ist die Metrik, bei der je niedriger der Wert, desto besser die Anpassung.

In der Praxis bevorzugen wir Modelle, die weder unterangepasst sind (was bedeutet, dass sie nicht gut verallgemeinern können, weil das von uns gewählte Modell nicht komplex genug ist, um die in den Daten vorhandenen Feinheiten zu finden) noch überangepasst sind (was bedeutet, dass das Modell perfekt an das Training angepasst ist). Daten und es hat die Fähigkeit verloren, allgemeinere Vorhersagen zu treffen). Daher wählen wir eine relativ niedrige Punktzahl, um sowohl eine Unter- als auch eine Überanpassung zu vermeiden.

Q8. Antworten Sie entweder mit WAHR oder FALSCH. Müssen wir die in den Feature-Spalten vorhandenen Werte standardisieren, bevor wir die Daten in ein trainingslogistisches Regressionsmodell einspeisen?

Ans. Nein, wir müssen die im Merkmalsraum vorhandenen Werte nicht standardisieren, die wir verwenden müssen, um das logistische Regressionsmodell zu trainieren. Die Antwort auf diese Frage wäre also FALSCH. Wir haben uns dafür entschieden, alle unsere Werte zu standardisieren, um die Funktion (normalerweise Gradientenabstieg) zu unterstützen, die dafür verantwortlich ist, dass der Algorithmus auf einen Wert konvergiert. Da dieser Algorithmus relativ einfach ist, müssen die Beträge nicht skaliert werden, um tatsächlich einen signifikanten Unterschied in seiner Leistung zu haben.

Lernen: Die 5 besten Modelle für maschinelles Lernen für Anfänger erklärt

Q9. Wählen Sie eine der Optionen aus der Liste unten. Welches ist die Technik, die wir verwenden, um die Aufgabe der Variablenauswahl durchzuführen?

Ridge-Regression
LASSO-Regression
Keine der genannten Möglichkeiten
Sowohl LASSO- als auch Ridge-Regression

Ans. Die Antwort auf diese Frage ist B. LASSO-Regression. Der Grund ist einfach, die l2-Penalty, die in der LASSO-Regressionsfunktion anfällt, hat die Fähigkeit, den Koeffizienten einiger Merkmale auf Null zu setzen. Da der Koeffizient Null ist, haben sie keine Auswirkung auf das Endergebnis der Funktion. Das bedeutet, dass diese Variablen nicht so wichtig sind, wie wir dachten, und auf diese Weise können wir mit Hilfe der LASSO-Regression eine Variablenauswahl durchführen.

Q10. Wählen Sie eine der Optionen aus der Liste unten. Gehen Sie davon aus, dass Sie eine faire Münze in Ihrem Besitz haben, um herauszufinden, wie wahrscheinlich es ist, Kopf zu bekommen. Wie hoch wären Ihre berechneten Chancen?

Wäre die Wahrscheinlichkeit, Kopf zu bekommen, 0
Wäre die Wahrscheinlichkeit Kopf zu bekommen 1
Wäre die Wahrscheinlichkeit Kopf zu bekommen 0,5
Keine der oben genannten Optionen.

Ans. Um diese Frage erfolgreich zu beantworten, müssten Sie die Bedeutung und Definition von Quoten verstehen. Quoten sind eigentlich definiert als das Verhältnis zweier Wahrscheinlichkeiten – der Wahrscheinlichkeit, dass ein bestimmtes Ereignis eintritt, zu der Wahrscheinlichkeit, dass es nicht eintritt. Bei jeder Münze, die fair ist, sind die Wahrscheinlichkeit von Kopf und die Wahrscheinlichkeit von Nicht-Kopf gleich. Die Wahrscheinlichkeit, Kopf zu bekommen, ist also eins.

Q11. Wählen Sie die richtige Antwort aus den folgenden Optionen. Die Logit-Funktion ist als Log der Odds-Funktion definiert. Wie groß ist Ihrer Meinung nach der Bereich dieser Logit-Funktion im Bereich von [0,1]?

(-unendlich, +unendlich)
(0, +unendlich)
(-unendlich, 0)
(0, 1)

Ans. Die Wahrscheinlichkeitsfunktion nimmt den übergebenen Wert und wandelt ihn in eine Wahrscheinlichkeit um. Das bedeutet, dass der Bereich jeder Funktion zwischen Null und Eins eingeklemmt ist. Die Odds-Funktion macht jedoch eine Sache, sie nimmt den Wert von der Wahrscheinlichkeitsfunktion und macht den Bereich davon von null bis unendlich.

Die effektive Eingabe in die Log-Funktion wäre also von null bis unendlich. Wir wissen, dass der Log-Funktionsbereich in diesem Bereich der gesamte reelle Zahlenstrahl oder negativ unendlich bis positiv unendlich ist. Die Antwort auf diese Frage ist also Option A.

Q12. Wählen Sie aus der folgenden Liste die Option aus, die Ihrer Meinung nach WAHR ist:

Die Fehlerwerte im Fall der linearen Regression müssen einer Normalverteilung folgen, aber im Fall der logistischen Regression müssen die Werte keiner Standardnormalverteilung folgen.
Die Fehlerwerte im Fall der logistischen Regression müssen einer Normalverteilung folgen, aber im Fall der linearen Regression müssen die Werte keiner Standardnormalverteilung folgen.
Die Fehlerwerte sowohl bei der linearen Regression als auch bei der logistischen Regression müssen einer Normalverteilung folgen.
Die Fehlerwerte sowohl bei der linearen Regression als auch bei der logistischen Regression müssen keiner Normalverteilung folgen.

Ans. Die einzige wahrheitsgemäße Aussage im Haufen dieser Aussagen ist die erste. Die Antwort auf die Frage wird also zur Option A.

Q13. Wählen Sie die richtige(n) Option(en) aus der Liste der Optionen unten aus. Nehmen wir also an, Sie haben das logistische Regressionsmodell auf beliebige Daten angewendet. Die Genauigkeitsergebnisse, die Sie erhalten haben, sind X für den Trainingssatz und Y für den Testsatz. Nun möchten Sie Ihrem Modell weitere Datenpunkte hinzufügen. Also, was sollte Ihrer Meinung nach passieren?

Die Genauigkeit X, die wir in den Trainingsdaten erhalten haben, sollte steigen.
Die Genauigkeit X, die wir aus den Trainingsdaten erhalten haben, sollte abnehmen.
Die Genauigkeit Y, die wir aus den Testdaten erhalten haben, sollte abnehmen.
Die Genauigkeit Y, die wir aus den Testdaten erhalten haben, sollte steigen oder gleich bleiben.

Ans. Die Trainingsgenauigkeit hängt stark von der Anpassung des Modells an die Daten ab, die es bereits gesehen und gelernt hat. Angenommen, wir erhöhen die Anzahl der in das Modell eingespeisten Features, dann steigt die Trainingsgenauigkeit X. In diesem Fall wird die Trainingsgenauigkeit zunehmen, da das Modell komplizierter werden muss, um die Daten mit einer erhöhten Anzahl von Merkmalen richtig anzupassen.

Wohingegen die Testgenauigkeit nur erhöht wird, wenn das Merkmal, das dem Modell hinzugefügt wird, ein ausgezeichnetes und signifikantes Merkmal ist, oder die Genauigkeit des Modells während des Testens mehr oder weniger gleich bleibt. Die Antwort auf diese Frage wäre also sowohl Option A als auch D.

F14. Wählen Sie die richtige Option aus der folgenden Option in Bezug auf die Methode von One vs. All in Bezug auf die logistische Regression.

Wir bräuchten insgesamt n Modelle, um zwischen n Klassen richtig zu klassifizieren.
Wir würden eine Anzahl von n-1 Modellen benötigen, um zwischen einer Anzahl von n Klassen zu klassifizieren.
Wir würden nur ein einziges Modell benötigen, um erfolgreich zwischen einer Anzahl von n Klassen zu klassifizieren.
Keine der oben genannten Optionen.

Ans. Um zwischen n verschiedenen Klassen zu klassifizieren, benötigen wir n Modelle in einem One vs. All-Ansatz.

Q15. Sehen Sie sich die Grafik unten an und beantworten Sie die Frage, indem Sie eine Option aus den unten aufgeführten Optionen auswählen. Wie viele lokale Minima sehen Sie im Diagramm?

Es gibt nur ein lokales Minimum im Diagramm.
In diesem Diagramm gibt es zwei lokale Minima.
In diesem Diagramm gibt es drei lokale Minima.
In diesem Diagramm gibt es vier lokale Minima.

Ans. Da die Steigung des Graphen an vier verschiedenen Punkten Null wird (wo der Graph U-förmig ist), kann man mit Sicherheit sagen, dass er vier lokale Minima hat, sodass die Antwort D wäre.

Lesen Sie auch: Lineare Regression vs. Logistische Regression

Was als nächstes?

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Ist die logistische Regression schwer zu erlernen?

In der Datenwissenschaft werden sowohl die logistische als auch die lineare Regression ausgiebig verwendet, um verschiedene Arten von Rechenproblemen zu lösen. Und um effizient im Bereich Data Science arbeiten zu können, sollten Sie beide Arten von Regressionsmodellen verstehen und damit vertraut sein. Sie könnten anhand des Namens vermuten, dass die logistische Regression ein fortgeschritteneres Gleichungsmodell verwendet. Es ist also etwas schwieriger zu lernen als die lineare Regression. Wenn Sie jedoch ein grundlegendes Verständnis dafür haben, wie die Mathematik funktioniert, können Sie darauf aufbauen, um Pakete in der R- oder Python-Programmierung zu erstellen.

Wie wichtig ist die logistische Regression in der Datenwissenschaft?

Um ein erfolgreicher Datenwissenschaftler zu werden, ist es wichtig, die Pipeline zum Erfassen und Verarbeiten von Daten, zum Verstehen von Daten und zum Erstellen eines Modells, zum Bewerten der Ergebnisse und zum Bereitstellen zu verstehen. Und die logistische Regression ist für das Verständnis dieses gesamten Pipeline-Konzepts von unschätzbarem Wert. Wenn Sie die logistische Regression verstehen, entwickeln Sie automatisch ein viel besseres Verständnis der Konzepte des maschinellen Lernens. Darüber hinaus können Sie manchmal sehr komplizierte Probleme einfach lösen, indem Sie nur die logistische Regression verwenden, insbesondere bei nichtlinearen Problemen. Die logistische Regression ist ein wichtiges statistisches Werkzeug, und die Statistik ist ein untrennbarer Bestandteil des maschinellen Lernens. Und wenn Sie neuronale Netze studieren möchten, bietet Ihnen die Kenntnis der logistischen Regression einen hervorragenden Vorsprung.

Ist die logistische Regression tatsächlich sinnvoll?

Trotz ihres Namens ist die logistische Regression ein Klassifikationsrahmen, in Wirklichkeit mehr als eine Regression. Es stellt eine effizientere und einfachere Methode oder einen Algorithmus dar, der verwendet werden kann, um binäre Klassifizierungsprobleme beim maschinellen Lernen zu lösen. Sie können es leicht realisieren und eine hervorragende Leistung für Klassen erzielen, die linear trennbar sind. Wenn es jedoch mehrere Entscheidungsgrenzen gibt, die nicht linear sind, neigt die logistische Regression dazu, unterdurchschnittliche Ergebnisse zu erzielen. In einigen Fällen sollen kompaktere Algorithmen wie neuronale Netze effizienter und leistungsfähiger sein.