33 Interviewfragen und Antworten zum maschinellen Lernen – Logistische Regression
Veröffentlicht: 2018-07-05Willkommen zum zweiten Teil der Reihe häufig gestellter Interviewfragen, die auf maschinellen Lernalgorithmen basieren. Wir hoffen, dass der vorherige Abschnitt über die lineare Regression hilfreich für Sie war.
Inhaltsverzeichnis
Lassen Sie uns die Antworten auf Fragen zur logistischen Regression finden:
1. Was ist eine logistische Funktion? Was ist der Wertebereich einer logistischen Funktion?
f(z) = 1/(1+e -z )
Die Werte einer logistischen Funktion reichen von 0 bis 1. Die Werte von Z variieren von -unendlich bis +unendlich.
2. Warum ist die logistische Regression sehr beliebt?
Die logistische Regression ist berühmt, weil sie die Werte von Logits (Logodds), die von -unendlich bis +unendlich reichen können, in einen Bereich zwischen 0 und 1 umwandeln kann. Da logistische Funktionen die Eintrittswahrscheinlichkeit eines Ereignisses ausgeben, kann sie angewendet werden viele reale Szenarien. Aus diesem Grund ist das logistische Regressionsmodell sehr beliebt.
3. Wie lautet die Formel für die logistische Regressionsfunktion?
f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) )
Der Unterschied zwischen Data Science, Machine Learning und Big Data!
4. Wie kann die Wahrscheinlichkeit eines logistischen Regressionsmodells als bedingte Wahrscheinlichkeit ausgedrückt werden?
P(Diskreter Wert der Zielvariable | X1, X2, X3….Xk). Es ist die Wahrscheinlichkeit, dass die Zielvariable einen diskreten Wert annimmt (entweder 0 oder 1 bei binären Klassifikationsproblemen), wenn die Werte unabhängiger Variablen gegeben sind. Zum Beispiel die Wahrscheinlichkeit, dass ein Mitarbeiter aufgrund seiner Attribute wie Alter, Gehalt, KRAs usw. abfällt (Zielvariable).
5. Was sind Quoten?
Sie ist das Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt, zur Wahrscheinlichkeit, dass das Ereignis nicht eintritt. Nehmen wir zum Beispiel an, dass die Wahrscheinlichkeit, im Lotto zu gewinnen, 0,01 beträgt. Dann ist die Wahrscheinlichkeit, nicht zu gewinnen, 1- 0,01 = 0,99.
Die Gewinnchancen im Lotto = (Gewinnwahrscheinlichkeit)/(Nichtgewinnwahrscheinlichkeit)
Die Gewinnchancen im Lotto = 0,01/0,99
Die Wahrscheinlichkeit, im Lotto zu gewinnen, liegt bei 1 zu 99, die Wahrscheinlichkeit, im Lotto nicht zu gewinnen, liegt bei 99 zu 1.
6. Was sind die Ergebnisse des logistischen Modells und der logistischen Funktion?
Das logistische Modell gibt die Logits aus, dh Log Odds; und die logistische Funktion gibt die Wahrscheinlichkeiten aus.
Logistisches Modell = α+1X1+2X2+….+kXk. Die Ausgabe desselben wird logits sein.
Logistische Funktion = f(z) = 1/(1+e -(α+1X1+2X2+….+kXk) ) . Die Ausgabe sind in diesem Fall die Wahrscheinlichkeiten.

7. Wie interpretiert man die Ergebnisse eines logistischen Regressionsmodells? Oder was bedeuten Alpha und Beta in einem logistischen Regressionsmodell?
Alpha ist die Basislinie in einem logistischen Regressionsmodell. Es sind die Log-Chancen für eine Instanz, wenn alle Attribute (X1, X2, ………….Xk) Null sind. In praktischen Szenarien ist die Wahrscheinlichkeit, dass alle Attribute Null sind, sehr gering. In einer anderen Interpretation ist Alpha die logarithmische Quote für einen Fall, wenn keines der Attribute berücksichtigt wird.
Beta ist der Wert, um den sich die logarithmischen Quoten durch eine Einheitsänderung in einem bestimmten Attribut ändern, indem alle anderen Attribute fest oder unverändert bleiben (Kontrollvariablen).
8. Was ist das Odds Ratio?
Das Chancenverhältnis ist das Verhältnis der Chancen zwischen zwei Gruppen. Nehmen wir zum Beispiel an, dass wir versuchen, die Wirksamkeit eines Medikaments zu ermitteln. Wir verabreichten dieses Medikament der „Interventions“-Gruppe und ein Placebo der „Kontroll“-Gruppe.
Odds Ratio (OR) = (Chancen der Interventionsgruppe)/(Chancen der Kontrollgruppe)
Deutung
Wenn Odds Ratio = 1, dann gibt es keinen Unterschied zwischen der Interventionsgruppe und der Kontrollgruppe
Wenn das Odds Ratio größer als 1 ist, dann ist die Kontrollgruppe besser als die Interventionsgruppe
Wenn das Odds Ratio kleiner als 1 ist, dann ist die Interventionsgruppe besser als die Kontrollgruppe.
5 bahnbrechende Anwendungen des maschinellen Lernens
9. Wie lautet die Formel zur Berechnung des Quotenverhältnisses?
In der obigen Formel stehen X 1 und X 0 für zwei verschiedene Gruppen, für die das Quotenverhältnis berechnet werden muss. X 1 i steht für die Instanz ' i ' in der Gruppe X 1 . X o i steht für die Instanz ' i ' in der Gruppe X 0 . steht für den Koeffizienten des logistischen Regressionsmodells. Beachten Sie, dass die Basislinie nicht in dieser Formel enthalten ist.
10. Warum kann die lineare Regression nicht anstelle der logistischen Regression für die binäre Klassifikation verwendet werden?
Die Gründe, warum lineare Regressionen bei binärer Klassifikation nicht verwendet werden können, sind folgende:
Verteilung der Fehlerterme : Die Verteilung der Daten bei linearer und logistischer Regression ist unterschiedlich. Die lineare Regression geht davon aus, dass Fehlerterme normalverteilt sind. Bei einer binären Klassifikation trifft diese Annahme nicht zu.
Modellausgabe : Bei der linearen Regression ist die Ausgabe kontinuierlich. Bei binärer Klassifikation ist die Ausgabe eines kontinuierlichen Wertes nicht sinnvoll. Bei binären Klassifizierungsproblemen kann die lineare Regression Werte vorhersagen, die über 0 und 1 hinausgehen können. Wenn wir die Ausgabe in Form von Wahrscheinlichkeiten wünschen, die zwei verschiedenen Klassen zugeordnet werden können, sollte ihr Bereich auf 0 und 1 beschränkt werden Das logistische Regressionsmodell kann Wahrscheinlichkeiten mit logistischer/sigmoider Funktion ausgeben, es wird der linearen Regression vorgezogen.
Varianz der Restfehler : Die lineare Regression geht davon aus, dass die Varianz der Zufallsfehler konstant ist. Diese Annahme wird auch bei der logistischen Regression verletzt.
11. Ist die Entscheidungsgrenze bei einem logistischen Regressionsmodell linear oder nichtlinear?
Die Entscheidungsgrenze ist eine Linie, die die Zielvariablen in verschiedene Klassen trennt. Die Entscheidungsgrenze kann entweder linear oder nichtlinear sein. Bei einem logistischen Regressionsmodell ist die Entscheidungsgrenze eine Gerade.
Logistische Regressionsmodellformel = α+1X1+2X2+….+kXk. Dies stellt eindeutig eine gerade Linie dar. Die logistische Regression ist nur in solchen Fällen geeignet, in denen eine gerade Linie die verschiedenen Klassen trennen kann. Wenn eine gerade Linie dies nicht kann, sollten nichtlineare Algorithmen verwendet werden, um bessere Ergebnisse zu erzielen.
12. Was ist die Wahrscheinlichkeitsfunktion?
Die Wahrscheinlichkeitsfunktion ist die gemeinsame Wahrscheinlichkeit, die Daten zu beobachten. Nehmen wir beispielsweise an, dass eine Münze 100 Mal geworfen wird, und wir möchten die Wahrscheinlichkeit kennen, bei den Würfen 60 mal Kopf zu bekommen. Dieses Beispiel folgt der Binomialverteilungsformel.
p = Wahrscheinlichkeit von Kopf bei einem einzelnen Münzwurf
n = 100 (die Anzahl der Münzwürfe)
x = 60 (die Anzahl der Köpfe – Erfolg)
nx = 30 (die Anzahl der Schwänze)
Pr(X=60 |n = 100, p)
Die Likelihood-Funktion ist die Wahrscheinlichkeit, dass die Anzahl der erhaltenen Köpfe in einer Spur von 100 Münzwürfen 60 beträgt, wobei die Wahrscheinlichkeit der erhaltenen Köpfe bei jedem Münzwurf p ist. Hier folgt das Münzwurfergebnis einer Binomialverteilung.
Dies kann wie folgt umformuliert werden:
Pr(X=60|n=100,p) = cxp60x(1-p)100-60
c = konstant
p = unbekannter Parameter
Die Wahrscheinlichkeitsfunktion gibt die Wahrscheinlichkeit an, die Ergebnisse mit unbekannten Parametern zu beobachten.
13. Was ist der Maximum-Likelihood-Schätzer (MLE)?
Die MLE wählt diejenigen Sätze unbekannter Parameter (Schätzer) aus, die die Likelihood-Funktion maximieren. Die Methode, um die MLE zu finden, besteht darin, Kalkül zu verwenden und die Ableitung der logistischen Funktion in Bezug auf einen unbekannten Parameter auf Null zu setzen, und ihre Lösung ergibt die MLE. Für ein binomiales Modell ist dies einfach, aber für ein logistisches Modell sind die Berechnungen komplex. Computerprogramme werden zum Ableiten von MLE für logistische Modelle verwendet.
(Hier ist ein weiterer Ansatz zur Beantwortung der Frage.)
MLE ist ein statistischer Ansatz zur Schätzung der Parameter eines mathematischen Modells. MLE und gewöhnliche quadratische Schätzung liefern die gleichen Ergebnisse für die lineare Regression, wenn angenommen wird, dass die abhängige Variable normalverteilt ist. MLE nimmt nichts über unabhängige Variablen an.
14. Was sind die verschiedenen MLE-Methoden und wann wird welche Methode bevorzugt?
Im Falle einer logistischen Regression gibt es zwei Ansätze von MLE. Sie sind bedingte und unbedingte Methoden. Bedingte und unbedingte Methoden sind Algorithmen, die unterschiedliche Wahrscheinlichkeitsfunktionen verwenden. Die unbedingte Formel verwendet die gemeinsame Wahrscheinlichkeit positiver (z. B. Abwanderung) und negativer (z. B. Nicht-Abwanderung) Wahrscheinlichkeiten. Die Bedingungsformel ist das Verhältnis der Wahrscheinlichkeit beobachteter Daten zur Wahrscheinlichkeit aller möglichen Konfigurationen.
Die unbedingte Methode wird bevorzugt, wenn die Anzahl der Parameter im Vergleich zur Anzahl der Instanzen geringer ist. Wenn die Anzahl der Parameter im Vergleich zur Anzahl der Instanzen hoch ist, ist bedingtes MLE zu bevorzugen. Statistiker schlagen vor, im Zweifelsfall bedingtes MLE zu verwenden. Bedingtes MLE liefert immer unvoreingenommene Ergebnisse.
Diese 6 Techniken des maschinellen Lernens verbessern das Gesundheitswesen
15. Welche Vor- und Nachteile haben bedingte und unbedingte MLE-Methoden?
Bedingte Methoden schätzen keine unerwünschten Parameter. Unbedingte Methoden schätzen auch die Werte unerwünschter Parameter. Unbedingte Formeln können direkt mit gemeinsamen Wahrscheinlichkeiten entwickelt werden. Dies ist mit bedingter Wahrscheinlichkeit nicht möglich. Wenn die Anzahl der Parameter im Verhältnis zur Anzahl der Instanzen hoch ist, liefert die unbedingte Methode verzerrte Ergebnisse. Bedingte Ergebnisse sind in solchen Fällen unverzerrt.
16. Was ist die Ausgabe eines Standard-MLE-Programms?
Die Ausgabe eines Standard-MLE-Programms sieht wie folgt aus:
Maximierter Wahrscheinlichkeitswert : Dies ist der numerische Wert, der durch Ersetzen der unbekannten Parameterwerte in der Wahrscheinlichkeitsfunktion durch den MLE-Parameterschätzer erhalten wird.
Geschätzte Varianz-Kovarianz-Matrix : Die Diagonale dieser Matrix besteht aus geschätzten Varianzen der ML-Schätzungen. Die Nebendiagonale besteht aus den Kovarianzen der Paare der ML-Schätzungen.

17. Warum können wir den mittleren quadratischen Fehler (MSE) nicht als Kostenfunktion für die logistische Regression verwenden?
Bei der logistischen Regression verwenden wir die Sigmoidfunktion und führen eine nichtlineare Transformation durch, um die Wahrscheinlichkeiten zu erhalten. Das Quadrieren dieser nichtlinearen Transformation führt zu einer Nichtkonvexität mit lokalen Minima. Das Finden des globalen Minimums ist in solchen Fällen mittels Gradientenabstieg nicht möglich. Aus diesem Grund ist MSE nicht für die logistische Regression geeignet. Kreuzentropie oder Log-Verlust wird als Kostenfunktion für die logistische Regression verwendet. In der Kostenfunktion für die logistische Regression werden die zuverlässigen falschen Vorhersagen stark bestraft. Die zuversichtlich richtigen Vorhersagen werden weniger belohnt. Durch Optimierung dieser Kostenfunktion wird Konvergenz erreicht.
18. Warum ist Genauigkeit kein gutes Maß für Klassifizierungsprobleme?
Die Genauigkeit ist kein gutes Maß für Klassifizierungsprobleme, da sie sowohl falsch positiven als auch falsch negativen Werten die gleiche Bedeutung beimisst. Dies ist jedoch bei den meisten geschäftlichen Problemen möglicherweise nicht der Fall. Beispielsweise ist es im Falle einer Krebsvorhersage schwerwiegender, Krebs als gutartig zu deklarieren, als den Patienten fälschlicherweise darüber zu informieren, dass er an Krebs leidet. Die Genauigkeit gibt beiden Fällen die gleiche Bedeutung und kann nicht zwischen ihnen unterscheiden.
19. Welche Bedeutung hat eine Baseline bei einem Klassifikationsproblem?
Die meisten Klassifizierungsprobleme befassen sich mit unausgewogenen Datensätzen. Beispiele sind Abwanderung bei der Telekommunikation, Mitarbeiterabwanderung, Krebsvorhersage, Betrugserkennung, gezielte Online-Werbung und so weiter. Bei all diesen Problemen ist die Anzahl der positiven Klassen im Vergleich zu den negativen Klassen sehr gering. In einigen Fällen ist es üblich, positive Klassen zu haben, die weniger als 1 % der Gesamtstichprobe ausmachen. In solchen Fällen mag eine Genauigkeit von 99 % sehr gut klingen, ist es aber in der Realität möglicherweise nicht.
Hier sind die Negative 99 %, und daher bleibt die Grundlinie gleich. Wenn die Algorithmen alle Instanzen als negativ vorhersagen, beträgt die Genauigkeit ebenfalls 99 %. In diesem Fall werden alle positiven Ergebnisse falsch vorhergesagt, was für jedes Unternehmen sehr wichtig ist. Obwohl alle Positiven falsch vorhergesagt werden, wird eine Genauigkeit von 99 % erreicht. Die Baseline ist also sehr wichtig, und der Algorithmus muss relativ zur Baseline bewertet werden.
20. Was sind falsch positive und falsch negative Ergebnisse?
Falsche Positive sind jene Fälle, in denen die Negative fälschlicherweise als Positive vorhergesagt werden. Zum Beispiel die Vorhersage, dass ein Kunde abwandern wird, obwohl er in Wirklichkeit nicht abwandert.
Falsche Negative sind jene Fälle, in denen die Positiven fälschlicherweise als Negative vorhergesagt werden. Zum Beispiel die Vorhersage, dass ein Kunde nicht abwandert, wenn er tatsächlich abwandert.
21. Was sind die Richtig-Positiv-Rate (TPR), Richtig-Negativ-Rate (TNR), Falsch-Positiv-Rate (FPR) und Falsch-Negativ-Rate (FNR)?
TPR bezieht sich auf das Verhältnis von Positiven, die von allen wahren Etiketten korrekt vorhergesagt wurden. In einfachen Worten, es ist die Häufigkeit korrekt vorhergesagter wahrer Labels.
TPR = TP/TP+FN
TNR bezieht sich auf das Verhältnis von Negativen, die von allen falschen Etiketten korrekt vorhergesagt wurden. Es ist die Häufigkeit korrekt vorhergesagter falscher Etiketten.
TNR = TN/TN+FP
FPR bezieht sich auf das Verhältnis von positiven Ergebnissen, die von allen wahren Labels falsch vorhergesagt wurden. Es ist die Häufigkeit falsch vorhergesagter falscher Etiketten.
FPR = FP/TN+FP
FNR bezieht sich auf das Verhältnis von Negativen, die von allen falschen Etiketten falsch vorhergesagt wurden. Es ist die Häufigkeit falsch vorhergesagter wahrer Labels.
FNR = FN/TP+FN
22. Was sind Precision und Recall?
Präzision ist der Anteil der wahren Positiven an den vorhergesagten Positiven. Anders ausgedrückt ist es die Genauigkeit der Vorhersage. Er wird auch als „positiver prädiktiver Wert“ bezeichnet.
Präzision = TP/TP+FP
Der Recall ist derselbe wie die True-Positive-Rate (TPR).
Wie funktioniert unüberwachtes maschinelles Lernen?
23. Was ist F-Maß?
Es ist das harmonische Mittel aus Präzision und Recall. In einigen Fällen wird es einen Kompromiss zwischen der Genauigkeit und dem Rückruf geben. In solchen Fällen fällt das F-Maß ab. Es wird hoch sein, wenn sowohl die Präzision als auch der Abruf hoch sind. Abhängig vom vorliegenden Business Case und dem Ziel der Datenanalyse sollte eine geeignete Metrik ausgewählt werden.
F-Maß = 2 X (Precision X Recall) / (Precision+Recall)
24. Was ist Genauigkeit?
Es ist die Anzahl der richtigen Vorhersagen aus allen getroffenen Vorhersagen.
Genauigkeit = (TP+TN)/(Die Gesamtzahl der Vorhersagen)
25. Was sind Sensitivität und Spezifität?
Die Spezifität ist gleich der richtig-negativ-Rate oder gleich 1 – falsch-positiv-Rate.
Spezifität = TN/TN + FP.
Sensitivität ist die wahre positive Rate.
Empfindlichkeit = TP/TP + FN
26. Wie wähle ich einen Cutoff-Punkt im Falle eines logistischen Regressionsmodells?
Der Cutoff-Punkt hängt vom Geschäftsziel ab. Abhängig von den Zielen Ihres Unternehmens muss der Cutoff-Punkt ausgewählt werden. Betrachten wir zum Beispiel Kreditausfälle. Wenn das Geschäftsziel darin besteht, den Verlust zu reduzieren, muss die Spezifität hoch sein. Wenn es darum geht, den Gewinn zu steigern, dann ist das eine ganz andere Sache. Es muss nicht sein, dass die Gewinne steigen, wenn die Kreditvergabe an alle prognostizierten Ausfallfälle vermieden wird. Es kann aber sein, dass das Unternehmen Kredite an etwas risikoärmere Ausfallfälle auszahlen muss, um den Gewinn zu steigern. In einem solchen Fall ist ein anderer Cutoff-Punkt erforderlich, der den Gewinn maximiert. In den meisten Fällen werden Unternehmen mit vielen Einschränkungen operieren. Der Cutoff-Punkt, der das Geschäftsziel erfüllt, wird mit und ohne Einschränkungen nicht derselbe sein. Der Cutoff-Punkt muss unter Berücksichtigung all dieser Punkte ausgewählt werden. Wählen Sie als Faustregel einen Grenzwert, der dem Anteil der Positiven in einem Datensatz entspricht.
Was ist maschinelles Lernen und warum ist es wichtig?27. Wie geht die logistische Regression mit kategorialen Variablen um?
Die Eingaben für ein logistisches Regressionsmodell müssen numerisch sein. Der Algorithmus kann kategoriale Variablen nicht direkt verarbeiten. Sie müssen also in ein Format konvertiert werden, das für die Verarbeitung durch den Algorithmus geeignet ist. Den verschiedenen Ebenen einer kategorialen Variablen wird ein eindeutiger numerischer Wert zugewiesen, der als Dummy-Variable bekannt ist. Diese Dummy-Variablen werden vom logistischen Regressionsmodell wie jeder andere numerische Wert behandelt.
28. Was ist eine kumulative Reaktionskurve (CRV)?
Um dem Management die Ergebnisse einer Analyse zu vermitteln, wird eine „kumulative Response-Kurve“ verwendet, die intuitiver ist als die ROC-Kurve. Eine ROC-Kurve ist für jemanden außerhalb der Datenwissenschaft sehr schwer zu verstehen. Ein CRV besteht aus der True-Positive-Rate oder dem Prozentsatz der korrekt klassifizierten Positiven auf der Y-Achse und dem Prozentsatz der Zielpopulation auf der X-Achse. Es ist wichtig zu beachten, dass der Prozentsatz der Population vom Modell in absteigender Reihenfolge (entweder die Wahrscheinlichkeiten oder die erwarteten Werte) eingestuft wird. Wenn das Modell gut ist, werden durch die Ausrichtung auf einen oberen Teil der Rangliste alle hohen Prozentsätze positiver Ergebnisse erfasst. Wie bei der ROC-Kurve gibt es eine diagonale Linie, die die zufällige Leistung darstellt. Lassen Sie uns diese zufällige Leistung als Beispiel verstehen. Unter der Annahme, dass 50 % der Liste gezielt erfasst werden, wird erwartet, dass 50 % der positiven Ergebnisse erfasst werden. Diese Erwartung wird durch die diagonale Linie erfasst, die der ROC-Kurve ähnelt.
29. Was sind die Auftriebskurven?
Der Lift ist die Verbesserung der Modellleistung (Erhöhung der True-Positive-Rate) im Vergleich zur zufälligen Leistung. Zufällige Leistung bedeutet, dass, wenn 50 % der Instanzen angegriffen werden, erwartet wird, dass 50 % der positiven Ergebnisse erkannt werden. Lift ist im Vergleich zur zufälligen Leistung eines Modells. Wenn die Leistung eines Modells besser ist als seine zufällige Leistung, dann ist sein Lift größer als 1.
In einer Liftkurve wird der Lift auf der Y-Achse und der Prozentsatz der Bevölkerung (in absteigender Reihenfolge sortiert) auf der X-Achse aufgetragen. Bei einem bestimmten Prozentsatz der Zielpopulation wird ein Modell mit hohem Lift bevorzugt.
30. Welcher Algorithmus ist besser im Umgang mit Ausreißern, logistische Regression oder SVM?
Die logistische Regression findet eine lineare Grenze, falls vorhanden, um die Ausreißer aufzunehmen. Die logistische Regression verschiebt die lineare Grenze, um die Ausreißer aufzunehmen. SVM ist gegenüber einzelnen Proben unempfindlich. Es wird keine größere Verschiebung der linearen Grenze geben, um einen Ausreißer aufzunehmen. SVM verfügt über integrierte Komplexitätskontrollen, die eine Überanpassung verhindern. Bei der logistischen Regression ist dies nicht der Fall.
31. Wie werden Sie das Mehrklassen-Klassifikationsproblem mit logistischer Regression lösen?
Die bekannteste Methode zum Umgang mit der Mehrklassenklassifizierung mithilfe der logistischen Regression ist die Verwendung des One-vs-all-Ansatzes. Bei diesem Ansatz wird eine Anzahl von Modellen trainiert, die der Anzahl von Klassen entspricht. Die Modelle funktionieren auf eine bestimmte Weise. Beispielsweise klassifiziert das erste Modell den Datenpunkt abhängig davon, ob er zur Klasse 1 oder einer anderen Klasse gehört; das zweite Modell klassifiziert den Datenpunkt in Klasse 2 oder eine andere Klasse. So kann jeder Datenpunkt über alle Klassen hinweg überprüft werden.
32. Erklären Sie die Verwendung von ROC-Kurven und die AUC einer ROC-Kurve.
Eine ROC-Kurve (Receiver Operating Characteristic) veranschaulicht die Leistung eines binären Klassifizierungsmodells. Es handelt sich im Grunde genommen um eine TPR-gegen-FPR-Kurve (Wahr-Positiv-Rate versus Falsch-Positiv-Rate) für alle Schwellenwerte im Bereich von 0 bis 1. In einer ROC-Kurve wird jeder Punkt im ROC-Raum einer anderen Konfusionsmatrix zugeordnet. Eine diagonale Linie von links unten nach rechts oben im ROC-Diagramm steht für zufälliges Raten. Die Fläche unter der Kurve (AUC) gibt an, wie gut das Klassifikatormodell ist. Wenn der Wert für AUC hoch ist (nahe 1), dann funktioniert das Modell zufriedenstellend, während wenn der Wert niedrig ist (etwa 0,5), dann funktioniert das Modell nicht richtig und rät nur zufällig.
33. Wie können Sie das Konzept von ROC in einer Mehrklassenklassifikation verwenden?
Das Konzept der ROC-Kurven kann leicht für die Mehrklassenklassifizierung verwendet werden, indem der One-vs-all-Ansatz verwendet wird. Nehmen wir zum Beispiel an, dass wir drei Klassen „a“, „b“ und „c“ haben. Dann umfasst die erste Klasse die Klasse „a“ (wahre Klasse) und die zweite Klasse umfasst sowohl die Klasse „b“ als auch die Klasse „c“ zusammen (falsche Klasse). Somit wird die ROC-Kurve aufgetragen. In ähnlicher Weise zeichnen wir für alle drei Klassen drei ROC-Kurven und führen unsere Analyse der AUC durch.
Bisher haben wir die beiden grundlegendsten ML-Algorithmen behandelt, lineare und logistische Regression, und wir hoffen, dass Sie diese Ressourcen hilfreich fanden.
Lernen Sie ML-Kurse von den besten Universitäten der Welt. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.

Der nächste Teil dieser Serie basiert auf einem anderen sehr wichtigen ML-Algorithmus, Clustering . Fühlen Sie sich frei, Ihre Zweifel und Fragen im Kommentarbereich unten zu posten.
Co-Autor von – Ojas Agarwal
Was sind die kumulativen Gain- und Lift-Diagramme?
Ein Gain-and-Lift-Diagramm ist ein visueller Ansatz, um die Effizienz mehrerer maschineller Lernmodelle auf verschiedene Weise zu bewerten. Sie helfen Ihnen nicht nur dabei, den Erfolg Ihres Vorhersagemodells zu bewerten, sondern zeigen auch visuell an, wie sich die Rücklaufquote einer Zielgruppe von der einer zufällig ausgewählten Gruppe unterscheidet. Diese Diagramme sind in Unternehmensumgebungen, wie z. B. Zielmarketing, wertvoll. Sie können auch in anderen Bereichen wie Risikomodellierung, Lieferkettenanalyse usw. angewendet werden. Mit anderen Worten, Gain- und Lift-Diagramme sind zwei Möglichkeiten, mit Klassifizierungsschwierigkeiten bei unausgewogenen Datensätzen umzugehen.
Welche Annahmen werden bei der Verwendung der logistischen Regression getroffen?
Bei der Verwendung der logistischen Regression werden einige Annahmen getroffen. Einer davon ist, dass die kontinuierlichen Prädiktoren keine einflussreichen Werte (Extremwerte oder Ausreißer) haben. Die in zwei Klassen unterteilte logistische Regression setzt voraus, dass die abhängige Variable binär ist, während die geordnete logistische Regression erfordert, dass die abhängige Variable geordnet ist. Es wird auch angenommen, dass es keine wesentlichen Interkorrelationen (dh Multikollinearität) zwischen den Prädiktoren gibt. Sie geht auch davon aus, dass die Beobachtungen voneinander unabhängig sind.
Kann ich einen Job als Data Scientist bekommen, wenn ich über ausreichende Kenntnisse im maschinellen Lernen verfüge?
Ein Data Scientist sammelt, analysiert und interpretiert enorme Datenmengen mit ausgeklügelten Analysetechnologien wie Machine Learning und Predictive Modeling. Diese werden dann von Unternehmensleitern genutzt, um die besten Geschäftsentscheidungen zu treffen. Daher ist Maschinelles Lernen neben anderen Fähigkeiten wie Data Mining und dem Verständnis statistischer Forschungsmethoden eine entscheidende Kompetenz für einen Data Scientist. Aber wenn Sie als Data Scientist arbeiten möchten, müssen Sie sich auch mit Big-Data-Plattformen und -Technologien wie Hadoop, Pig, Hive, Spark und anderen sowie mit Programmiersprachen wie SQL, Python und anderen auskennen.