Lineare Regression beim maschinellen Lernen: Alles, was Sie wissen müssen

Veröffentlicht: 2020-04-28

Verschiedene maschinelle Lerntechnologien werden in verschiedenen Bereichen unseres täglichen Lebens eingesetzt, um Lösungen für alltägliche Probleme auf eine Weise zu finden, die auf Daten, Analysen und Erfahrungen basiert. Diese maschinellen Lernalgorithmen spielen nicht nur eine sehr wichtige Rolle bei der Identifizierung von Texten, Bildern und Videos, sondern tragen auch maßgeblich zur Verbesserung von medizinischen Lösungen, Cybersicherheit, Marketing, Kundendienst und vielen anderen Aspekten oder Bereichen bei, die unser normales Leben betreffen.

Es gibt hauptsächlich zwei Arten von maschinellen Lernalgorithmen, in die alle Algorithmen unterteilt sind. Dies sind überwachte und unüberwachte Algorithmen für maschinelles Lernen. Unser Fokus in diesem Blog wird nur auf überwachten maschinellen Lernalgorithmen und insbesondere auf linearer Regression liegen. Beginnen wir damit, überwachte Algorithmen für maschinelles Lernen zu verstehen.

Inhaltsverzeichnis

Was sind überwachte Lernalgorithmen?

Diese maschinellen Lernalgorithmen trainieren wir, um eine gut etablierte Ausgabe vorherzusagen, die von den vom Benutzer eingegebenen Daten abhängt. Der Algorithmus trainiert das Modell, um Ausgaben für einen bestimmten Datensatz zu liefern. Zu Beginn hat das System sowohl Zugriff auf Eingabe- als auch auf Ausgabedaten. Die Aufgabe des Systems besteht darin, Regeln zu definieren, die die Eingabe der Ausgabe zuordnen.

Das Training des Modells wird fortgesetzt, bis die Leistung auf ihrem optimalen Niveau ist. Nach dem Training ist das System in der Lage, Ausgangsobjekte zuzuweisen, die es während des Trainings nicht angetroffen hat. Im Idealfall ist dieser Prozess ziemlich genau und nimmt nicht viel Zeit in Anspruch. Es gibt zwei Arten von überwachten Lernalgorithmen , nämlich Klassifikation und Regression.

Wir werden beide kurz besprechen, bevor wir direkt zu unserem Hauptdiskussionsthema übergehen.

1. Klassifizierung

Dies sind überwachte maschinelle Lernalgorithmen, die ein einfaches Ziel haben, Klassenaufgaben zu reproduzieren. Die Lerntechnik wird oft für Situationen in Betracht gezogen, in denen eine Datentrennung erforderlich ist. Es trennt Daten in Klassen, indem es Antworten vorhersagt. Beispielsweise die Wettervorhersage für einen bestimmten Tag, die Identifizierung eines bestimmten Fototyps aus einem Album und die Trennung von Spam und E-Mail.

2. Rückschritt

Die Lerntechnik dient dem Ziel, Ausgabewerte zu reproduzieren. Mit anderen Worten, es wird in Situationen verwendet, in denen wir Daten an einen bestimmten Wert anpassen müssen. Beispielsweise wird es häufig verwendet, um den Preis verschiedener Artikel zu schätzen. Regression kann verwendet werden, um mehr Dinge vorherzusagen, als Sie sich vorstellen können.

Arten von Regressionen

Logistische und lineare Regressionen sind die beiden wichtigsten Regressionsarten, die es in der modernen Welt des maschinellen Lernens und der Datenwissenschaft gibt. Es gibt aber auch noch andere, die aber recht sparsam eingesetzt werden. Es lässt sich nicht leugnen, dass wir zahlreiche Regressionen an einem bestimmten Datensatz durchführen oder für verschiedene Situationen verwenden können.

Jede Form der Regression hat ihre Vor- und Nachteile und ist für bestimmte Bedingungen geeignet. Während wir uns nur auf lineare Aggression konzentrieren werden, müssen Sie den vollständigen Hintergrund kennen, um sich mit der Funktionsweise vertraut zu machen.

Das ist der Grund, warum wir die Diskussion Schritt für Schritt führen.

Was ist eine Regressionsanalyse?

Die Regressionsanalyse ist nichts anderes als eine prädiktive Modellierungsmethode, die darauf abzielt, die Beziehung zu untersuchen, die zwischen unabhängigen Variablen oder Prädiktoren und abhängigen Variablen oder Zielen besteht. Diese Analyse wird in einer Vielzahl verschiedener Dinge verwendet, einschließlich Zeitreihenmodellierung, Prognose und anderen.

Wenn Sie beispielsweise die Beziehung zwischen Verkehrsunfällen und Gelegenheitsfahrten untersuchen möchten, gibt es für diesen Job keine bessere Technik als die Regressionsanalyse. Es spielt eine sehr wichtige Rolle sowohl bei der Analyse als auch bei der Modellierung von Daten. Dies geschieht durch Anpassen einer Linie oder Kurve an verschiedene Datenpunkte in einer Weise, dass wir den Unterschied in den Datenpunktabständen von der Linie oder der Kurve minimieren können.

Wozu ist eine Regressionsanalyse erforderlich?

Die Regressionsanalyse wird verwendet, um die Beziehung zwischen Variablen vorherzusagen, nur wenn es zwei oder mehr gibt. Lassen Sie uns anhand eines einfachen Beispiels verstehen, wie dies funktioniert. Angenommen, Sie erhalten eine Aufgabe, bei der Sie das Umsatzwachstum eines Unternehmens für einen bestimmten Zeitraum unter Berücksichtigung der bestehenden wirtschaftlichen Bedingungen schätzen müssen.

Jetzt sagen Ihnen die Unternehmensdaten, dass der Umsatz etwa doppelt so stark gewachsen ist wie das Wirtschaftswachstum. Wir können diese Daten verwenden, um das Umsatzwachstum des Unternehmens in der Zukunft abzuschätzen, indem wir Erkenntnisse aus der Vergangenheit und aktuelle Informationen nutzen.

Die Verwendung der Regressionsanalyse kann Ihnen eine Reihe von Vorteilen bieten, wenn Sie mit Daten arbeiten oder eine Vorhersage für den Datensatz treffen. Es kann verwendet werden, um auf die signifikanten Beziehungen zwischen unabhängigen und abhängigen Variablen hinzuweisen. Es wird verwendet, um die Auswirkungen von Erfahrungen mit abhängigen Variablen von mehreren unabhängigen Variablen anzuzeigen.

Es ermöglicht den Vergleich der Effekte verschiedener Variablen, die zu verschiedenen Messskalen gehören. Diese Dinge tragen wesentlich dazu bei, Datenwissenschaftlern, Forschern und Datenanalysten beim Erstellen von Vorhersagemodellen auf der Grundlage des am besten geeigneten Satzes von Variablen zu helfen.

Lesen Sie: Ideen und Themen für Machine Learning-Projekte

Was müssen Sie bei der Auswahl des richtigen Regressionsmodells beachten?

Nun, die Dinge sind normalerweise viel einfacher, wenn Sie nur zwei oder drei Techniken zur Auswahl haben. Wenn uns jedoch so viele Optionen zur Verfügung stehen, wird die Entscheidung viel überwältigender. Jetzt können Sie nicht einfach die lineare Regression wählen, da das Ergebnis stetig ist. Oder entscheiden Sie sich für eine logistische Regression, wenn das Ergebnis binär ist. Es gibt noch mehr Dinge zu beachten, wenn wir ein Regressionsmodell für unser Problem auswählen.

Wie wir bereits erwähnt haben, stehen mehr Regressionsmodelle zur Verfügung, als wir uns zurechtfinden können. Was sollten wir also bei der Auswahl beachten? Es gibt ein paar Dinge, die wichtig sind – Datendimensionalität, Art der abhängigen und unabhängigen Variablen und andere Eigenschaften der betreffenden Daten. Hier sind einige wichtige Dinge, die Sie bei der Auswahl des richtigen Regressionsmodells beachten sollten:

Die Datenexploration ist der Schlüssel zum Erstellen von Vorhersagemodellen. Kein Wunder, dass dies eines der ersten Dinge sein muss, die Sie tun sollten, bevor Sie die Auswahl treffen. Untersuchen Sie Daten, um die Auswirkungen und Beziehungen von Variablen zu identifizieren.

Bewerten Sie verschiedene Regressionsmodelle für die Vorhersage durch Kreuzvalidierung. Trennen Sie Ihren Datensatz in Trainings- und Validierungsgruppen. Die mittlere quadratische Differenz zwischen vorhergesagten und beobachteten Werten gibt einen Einblick in die Vorhersagegenauigkeit.

Verwenden Sie Ridge, ElasticNet und andere Regressionsregularisierungsmethoden, um das richtige Modell für Datensätze auszuwählen, die Variablen mit hoher Multikollinearität und Dimensionalität enthalten.

Um einen Vergleich zwischen verschiedenen Regressionsmodellen und ihrer Eignung anzustellen, können wir Parameter wie AIC, BIC, R-Quadrat, Fehlerterm und andere analysieren. Es gibt noch ein weiteres Kriterium, das Mallow's Cp genannt wird. Es vergleicht das Modell mit verschiedenen Untermodellen, um auf Verzerrungen zu achten.

Verwenden Sie niemals die automatische Modellauswahlmethode, wenn der Datensatz, mit dem Sie arbeiten, eine Reihe rätselhafter Variablen enthält. Wenn Sie dies tun, würden Sie dazu übergehen, diese Variablen alle auf einmal in das Modell aufzunehmen.

Auch Ihre Zielsetzung ist wichtig für die Auswahl des richtigen Regressionsmodells. Ob Sie ein leistungsfähiges Modell, ein einfaches oder ein statistisch signifikantes Modell benötigen, hängt von Ihrem Ziel ab.

Was ist lineare Regression?

Lassen Sie uns mehr darüber erfahren, was lineare Regression ist. Es ist eine der maschinellen Lerntechniken, die unter überwachtes Lernen fallen. Der Anstieg der Nachfrage und des Einsatzes maschineller Lerntechniken ist der Grund für den plötzlichen Anstieg des Einsatzes der linearen Regression in mehreren Bereichen. Wussten Sie, dass mehrschichtige Perzeptronschichten dafür bekannt sind, eine lineare Regression durchzuführen? Lassen Sie uns nun etwas Licht in die Annahmen bringen, die die lineare Regression bekanntermaßen über die Datensätze macht, auf die sie angewendet wird.

1. Autokorrelation:

Diese durch die lineare Regression getroffene Annahme weist auf wenig bis gar keine Autokorrelation in den Daten hin. Autokorrelation findet statt, wenn Restfehler auf die eine oder andere Weise voneinander abhängig sind.

2. Multikollinearität:

Diese Annahme besagt, dass Datenmultikollinearität entweder gar nicht oder kaum vorhanden ist. Multikollinearität tritt auf, wenn unabhängige Merkmale oder Variablen eine gewisse Abhängigkeit aufweisen.

3. Variable Beziehung:

Das Modell geht von einer linearen Beziehung zwischen Merkmals- und Antwortvariablen aus.

Einige Fälle, in denen Sie die lineare Regression verwenden können, sind die Schätzung des Preises eines Hauses in Abhängigkeit von der Anzahl der Zimmer, die Bestimmung, wie gut eine Pflanze wächst, je nachdem, wie oft sie gegossen wird, und so weiter. Für all diese Fälle hätten Sie bereits eine Vorstellung von der Art der Beziehung, die zwischen verschiedenen Variablen besteht.

Wenn Sie die lineare Regressionsanalyse verwenden, untermauern Sie Ihre Idee oder Hypothese mit Daten. Wenn Sie ein besseres Verständnis der Beziehung zwischen verschiedenen Variablen entwickeln, sind Sie besser in der Lage, aussagekräftige Vorhersagen zu treffen. Wenn Sie es noch nicht wissen, lassen Sie uns Ihnen sagen, dass die lineare Regression sowohl eine Technik des überwachten maschinellen Lernens als auch ein statistisches Modell ist.

In Bezug auf maschinelles Lernen ist das Regressionsmodell Ihre Maschine, und Lernen bezieht sich darauf, dass dieses Modell auf einem Datensatz trainiert wird, was ihm hilft, die Beziehung zwischen Variablen zu lernen und datengestützte Vorhersagen zu treffen.

Wie funktioniert die lineare Regression?

Bevor wir die Analyse durchführen, gehen wir davon aus, dass wir zwei Arten von Teams haben – diejenigen, die ihre Arbeit gut erledigen, und diejenigen, die dies nicht tun. Es kann mehrere Gründe geben, warum ein Team nicht gut in dem ist, was es tut. Es könnte daran liegen, dass es nicht über die richtigen Fähigkeiten verfügt oder nicht über die erforderliche Erfahrung verfügt, um bestimmte Aufgaben bei der Arbeit auszuführen. Aber man kann nie sicher sein, was es ist.

Wir können die lineare Regression verwenden, um Kandidaten zu finden, die alles haben, was erforderlich ist, um am besten zu einem bestimmten Team zu passen, das an einem bestimmten Arbeitsbereich beteiligt ist. Dies hilft uns bei der Auswahl von Kandidaten, die mit hoher Wahrscheinlichkeit gut in ihrem Job sind.

Das Ziel der Regressionsanalyse besteht darin, eine Trendkurve oder -linie zu erstellen, die für die betreffenden Daten geeignet ist. Dies hilft uns herauszufinden, wie ein Parameter (unabhängige Variablen) mit dem anderen Parameter (abhängige Variablen) zusammenhängt.

Vor allem müssen wir uns erst einmal alle Attribute verschiedener Kandidaten genauer ansehen und herausfinden, ob sie in irgendeiner Weise korrelieren. Wenn wir einige Korrelationen finden, können wir basierend auf diesen Attributen Vorhersagen treffen.

Die Untersuchung von Beziehungen in den Daten erfolgt mithilfe einer Trendkurve oder -linie und dem Plotten der Daten. Die Kurve oder Linie zeigt uns, ob es eine Korrelation gibt. Wir können jetzt die lineare Regression verwenden, um Beziehungen zu widerlegen oder zu akzeptieren. Wenn die Beziehung bestätigt ist, können wir den Regressionsalgorithmus verwenden, um seine Beziehung zu erfahren. Dadurch können wir die richtigen Vorhersagen treffen. Wir können genauer vorhersagen, ob ein Kandidat für die Stelle geeignet ist oder nicht.

Wichtigkeit, ein Modell zu trainieren

Der Prozess des Trainierens eines linearen Regressionsmodells ähnelt in vielerlei Hinsicht dem Training anderer Modelle für maschinelles Lernen. Wir müssen an einem Trainingsdatensatz arbeiten und die Beziehung seiner Variablen so modellieren, dass die Fähigkeit des Modells, neue Datenproben vorherzusagen, nicht beeinträchtigt wird. Das Modell wird darauf trainiert, Ihre Vorhersagegleichung kontinuierlich zu verbessern.

Dies geschieht durch iteratives Durchlaufen des gegebenen Datensatzes. Jedes Mal, wenn Sie diese Aktion wiederholen, aktualisieren Sie gleichzeitig den Bias- und den Gewichtungswert in der Richtung, die die Gradienten- oder Kostenfunktion anzeigt. Das Stadium des Trainingsabschlusses ist erreicht, wenn eine Fehlerschwelle berührt wird oder bei den folgenden Trainingsiterationen keine Kostenreduzierung eintritt.

Bevor wir mit dem Training des Modells beginnen, müssen wir einige Dinge vorbereiten. Wir müssen die Anzahl der erforderlichen Iterationen sowie die Lernrate festlegen. Abgesehen davon müssen wir auch Standardwerte für unsere Gewichte festlegen. Notieren Sie auch die Fortschritte, die wir mit jeder Wiederholung erzielen können.

Was ist Regularisierung?

Wenn wir über die gegenüber anderen bevorzugten linearen Regressionsvarianten sprechen, müssen wir diejenigen erwähnen, die eine zusätzliche Regularisierung aufweisen. Bei der Regularisierung werden diejenigen Gewichte in einem Modell bestraft, die größere absolute Werte als andere haben.

Die Regularisierung wird durchgeführt, um die Überanpassung zu begrenzen, was ein Modell häufig tut, da es die Trainingsdatenbeziehungen zu genau reproduziert. Es erlaubt dem Modell nicht, nie zuvor gesehene Proben so zu verallgemeinern, wie es soll.

Wann verwenden wir die lineare Regression?

Die Stärke der linearen Regression liegt darin, wie einfach sie ist. Das bedeutet, dass es verwendet werden kann, um Antworten auf fast jede Frage zu finden. Bevor Sie einen linearen Regressionsalgorithmus verwenden, müssen Sie sicherstellen, dass Ihr Datensatz die erforderlichen Bedingungen erfüllt, unter denen er funktioniert.

Die wichtigste dieser Bedingungen ist die Existenz einer linearen Beziehung zwischen den Variablen Ihres Datensatzes. Dadurch lassen sie sich leicht plotten. Sie müssen sehen, dass die Differenz, die zwischen den vorhergesagten Werten und dem tatsächlich erzielten Wert besteht, konstant ist. Die vorhergesagten Werte sollten immer noch unabhängig sein, und die Korrelation zwischen den Prädiktoren sollte für Komfort zu eng sein.

Sie können Ihre Daten einfach entlang einer Linie zeichnen und dann ihre Struktur gründlich studieren, um zu sehen, ob Ihr Datensatz die gewünschten Bedingungen erfüllt oder nicht.

Lineare Regression verwendet

Die Einfachheit, durch die lineare Aggression Interpretationen auf molekularer Ebene erleichtert, ist einer ihrer größten Vorteile. Die lineare Regression kann auf alle Datensätze angewendet werden, bei denen Variablen eine lineare Beziehung haben.

Unternehmen können den linearen Regressionsalgorithmus für ihre Verkaufsdaten verwenden. Angenommen, Sie sind ein Unternehmen, das die Einführung eines neuen Produkts plant. Aber Sie sind sich nicht sicher, zu welchem ​​Preis Sie dieses Produkt verkaufen sollen. Sie können überprüfen, wie Ihre Kunden auf Ihr Produkt reagieren, indem Sie es zu einigen gut durchdachten Preispunkten verkaufen. Auf diese Weise können Sie die Beziehung zwischen Ihren Produktverkäufen und dem Preis verallgemeinern. Mit der linearen Regression können Sie einen Preispunkt bestimmen, den die Kunden eher akzeptieren.

Lesen Sie auch: Gehalt für maschinelles Lernen in Indien

Die lineare Regression kann auch in verschiedenen Phasen der Beschaffung und Produktion eines Produkts verwendet werden. Diese Modelle sind in akademischen, wissenschaftlichen und medizinischen Bereichen weit verbreitet. Beispielsweise können Landwirte ein System modellieren, das es ihnen ermöglicht, Umweltbedingungen zu ihrem Vorteil zu nutzen. Dies wird ihnen helfen, mit den Elementen so zu arbeiten, dass sie ihren Ernteertrag und Gewinn so wenig wie möglich schädigen.

Darüber hinaus kann es unter anderem im Gesundheitswesen, in der Archäologie und in der Arbeitswelt eingesetzt werden. ist, wie die Interpretation auf einem linearen Modell

Fazit

Die Regressionsanalyse ist ein weit verbreitetes Werkzeug, das Mathematik verwendet, um Variablen auszusortieren, die einen direkten oder indirekten Einfluss auf die endgültigen Daten haben können. Es ist wichtig, dies während der Analyse im Auge zu behalten! Die lineare Regression ist einer der häufigsten Algorithmen, die von Datenwissenschaftlern verwendet werden, um lineare Beziehungen zwischen den Variablen des Datensatzes herzustellen, und ihr mathematisches Modell ist für die Vorhersageanalyse erforderlich.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Hat die lineare Regression Einschränkungen oder Nachteile?

Die lineare Regression ist eine beliebte Methode, um die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu verstehen. Obwohl das lineare Regressionsmodell häufig zur Entwicklung von Modellen für maschinelles Lernen verwendet wird, weist es gewisse Einschränkungen auf. Dieser Regressionsalgorithmus geht beispielsweise davon aus, dass alle Beziehungen zwischen Variablen linear sind, was oft irreführend sein kann. Dann berücksichtigt es immer den Mittelwert der abhängigen Variablen, während es seine Beziehungen zu den unabhängigen Variablen untersucht. Als nächstes geht die lineare Regression immer davon aus, dass Daten sich gegenseitig ausschließen, dh unabhängig von den Werten anderer, die falsch sein können. Außerdem ist die lineare Regression im Allgemeinen empfindlich gegenüber Ausreißern oder unerwarteten Daten.

Was sind die Gründe für die Popularität der Regressionsanalyse?

Die Regressionsanalyse ist eine der nützlichsten und leistungsstärksten statistischen Techniken, die beim maschinellen Lernen verwendet werden. Es gibt verschiedene Gründe, die für seine Popularität verantwortlich sind. Erstens bietet die Regressionsanalyse aufgrund ihrer enormen Vielseitigkeit ein breites Anwendungsspektrum. Das Modell der Regressionsanalyse ist sehr einfach zu implementieren und zu interpretieren, dh Sie können seine Funktionsweise leicht erklären und die Ergebnisse interpretieren. Das Verständnis der Regressionsanalyse bietet einen soliden Überblick über statistische Modelle des maschinellen Lernens. Es hilft Ihnen auch dabei, mithilfe von Programmiersprachen wie R und Python effizientere Modelle für maschinelles Lernen zu entwickeln. Darüber hinaus bietet diese Technik eine hervorragende Integrierbarkeit mit künstlichen neuronalen Netzen, um nützliche Vorhersagen zu treffen.

Wie können Unternehmen die lineare Regression zu ihrem Vorteil anwenden?

Unternehmen können die lineare Regression verwenden, um hilfreiche Dateneinblicke in das Verbraucherverhalten zu untersuchen und zu generieren, das sich auf die Rentabilität auswirkt. Es kann Unternehmen auch dabei helfen, Schätzungen vorzunehmen und Markttrends zu bewerten. Vermarkter können die lineare Regression verwenden, um die Effektivität ihrer Marketingstrategien zu bewerten, die Werbeaktionen und Preisgestaltung von Produkten umfassen. Finanz- und Versicherungsunternehmen können Risiken effektiv einschätzen und kritische Geschäftsentscheidungen treffen. Kreditkartenunternehmen können darauf abzielen, ihr Risikoportfolio mit Zahlungsausfällen mithilfe von linearen Regressionsmodellen zu minimieren.