Die 9 besten Data-Science-Algorithmen, die jeder Data Scientist kennen sollte

Veröffentlicht: 2020-02-13

Ein Algorithmus ist ein Satz von Regeln oder Anweisungen, die von einem Computerprogramm befolgt werden, um Berechnungen zu implementieren oder andere Problemlösungsfunktionen auszuführen. Da es in der Datenwissenschaft darum geht, aussagekräftige Informationen für Datensätze zu extrahieren, stehen unzählige Algorithmen zur Verfügung, um diesen Zweck zu erfüllen.

Data-Science-Algorithmen können beim Klassifizieren, Vorhersagen, Analysieren, Erkennen von Fehlern usw. helfen. Die Algorithmen bilden auch die Grundlage von Bibliotheken für maschinelles Lernen wie scikit-learn. Es hilft also, ein solides Verständnis dafür zu haben, was unter der Oberfläche vor sich geht.

Lernen Sie Data-Science-Programme von den besten Universitäten der Welt kennen. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Lesen Sie: Algorithmen für maschinelles Lernen für die Datenwissenschaft

Inhaltsverzeichnis

Häufig verwendete Data-Science-Algorithmen

1. Klassifizierung

Es wird für diskrete Zielgrößen verwendet und die Ausgabe erfolgt in Form von Kategorien. Clustering, Assoziation und Entscheidungsbaum sind Möglichkeiten, wie die Eingabedaten verarbeitet werden können, um ein Ergebnis vorherzusagen. Beispielsweise kann ein neuer Patient unter Verwendung eines Klassifizierungsmodells als „krank“ oder „gesund“ gekennzeichnet werden.

2. Rückschritt

Die Regression wird verwendet, um eine Zielvariable vorherzusagen sowie um die Beziehung zwischen Zielvariablen zu messen, die von Natur aus kontinuierlich sind. Es ist eine unkomplizierte Methode zum Zeichnen der „Linie der besten Anpassung“ auf einem Diagramm eines einzelnen Merkmals oder einer Reihe von Merkmalen, z. B. x, und der Zielvariablen y.

Regression kann verwendet werden, um die Niederschlagsmenge basierend auf der vorherigen Korrelation zwischen den verschiedenen atmosphärischen Parametern abzuschätzen. Ein weiteres Beispiel ist die Vorhersage des Preises eines Hauses auf der Grundlage von Merkmalen wie Fläche, Ort, Alter usw.

Lassen Sie uns nun einen der grundlegendsten Bausteine von Data-Science-Algorithmen verstehen – die lineare Regression.

3. Lineare Regression

Die lineare Gleichung für einen Datensatz mit N Merkmalen kann wie folgt angegeben werden: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , wobei b 0 ist etwas konstant.

Für univariate Daten (y = b 0 + b 1 .x) besteht das Ziel darin, den Verlust oder Fehler auf den kleinstmöglichen Wert für die zurückgegebene Variable zu minimieren. Dies ist der Hauptzweck einer Kostenfunktion. Wenn Sie davon ausgehen, dass b 0 Null ist, und unterschiedliche Werte für b 1 eingeben , werden Sie feststellen, dass die Kostenfunktion der linearen Regression eine konvexe Form hat.

Mathematische Hilfsmittel unterstützen die Optimierung der beiden Parameter b 0 und b 1 und minimieren die Kostenfunktion. Einer von ihnen wird wie folgt diskutiert.

4. Die Methode der kleinsten Quadrate

Im obigen Fall ist b 1 das Gewicht von x oder die Steigung der Geraden, und b 0 ist der Schnittpunkt. Außerdem liegen alle vorhergesagten Werte von y auf der Linie. Und das Verfahren der kleinsten Quadrate versucht, den Abstand zwischen jedem Punkt zu minimieren, sagen wir (x i , y i ), die vorhergesagten Werte.

Um den Wert von b 0 zu berechnen , finde den Mittelwert aller Werte von x i heraus und multipliziere sie mit b 1 . Subtrahiere dann das Produkt vom Mittelwert aller y i . Außerdem können Sie in Python einen Code für den Wert von b 1 ausführen . Diese Werte könnten in die Kostenfunktion eingesetzt werden, und der Rückgabewert wird für Verluste und Fehler minimiert. Beispielsweise würde die Kostenfunktion für b 0 = -34,671 und b 1 = 9,102 21,801 zurückgeben.

5. Steigungsabstieg

Wenn es mehrere Merkmale gibt, wie im Fall der multiplen Regression, wird die komplexe Berechnung durch Methoden wie den Gradientenabstieg erledigt. Es ist ein iterativer Optimierungsalgorithmus, der zur Bestimmung des lokalen Minimums einer Funktion angewendet wird. Der Prozess beginnt damit, dass er einen Anfangswert für b 0 und b 1 nimmt und fortfährt, bis die Steigung der Kostenfunktion null ist.

Angenommen, Sie müssen zu einem See gehen, der am tiefsten Punkt eines Berges liegt. Wenn Sie keine Sicht haben und auf dem Gipfel des Berges stehen, würden Sie an einem Punkt beginnen, an dem das Land tendenziell abfällt. Nachdem Sie den ersten Schritt gemacht und dem Abstiegspfad gefolgt sind, werden Sie wahrscheinlich den See erreichen.

Während die Kostenfunktion ein Werkzeug ist, mit dem wir Parameter auswerten können, kann der Gradientenabstiegsalgorithmus beim Aktualisieren und Trainieren von Modellparametern helfen. Lassen Sie uns nun einen Überblick über einige andere Algorithmen für die Datenwissenschaft geben.

6. Logistische Regression

Während die Vorhersagen der linearen Regression kontinuierliche Werte sind, liefert die logistische Regression diskrete oder binäre Vorhersagen. Mit anderen Worten, die Ergebnisse in der Ausgabe gehören nach Anwendung einer Transformationsfunktion zu zwei Klassen. Beispielsweise kann die logistische Regression verwendet werden, um vorherzusagen, ob ein Schüler bestanden oder nicht bestanden hat oder ob es regnen wird oder nicht. Lesen Sie mehr über logistische Regression.

7. K-bedeutet Clusterbildung

Es ist ein iterativer Algorithmus, der ähnliche Datenpunkte Clustern zuordnet. Um dasselbe zu tun, berechnet es die Schwerpunkte von k Clustern und gruppiert die Daten basierend auf dem geringsten Abstand vom Schwerpunkt. Erfahren Sie mehr über die Clusteranalyse im Data Mining.

8. K-nächster Nachbar (KNN)

Der KNN-Algorithmus durchläuft den gesamten Datensatz, um die k-nächstgelegenen Instanzen zu finden, wenn ein Ergebnis für eine neue Dateninstanz erforderlich ist. Der Benutzer gibt den zu verwendenden Wert von k an.

9. Hauptkomponentenanalyse (PCA)

Der PCA-Algorithmus reduziert die Anzahl der Variablen, indem er die maximale Varianz in den Daten in einem neuen System von „Hauptkomponenten“ erfasst. Dies erleichtert das Erkunden und Visualisieren der Daten.

Einpacken

Das Wissen über die oben erläuterten Data-Science-Algorithmen kann sich als äußerst nützlich erweisen, wenn Sie gerade erst mit dem Bereich beginnen. Das Wesentliche zu verstehen, kann sich auch bei der Durchführung alltäglicher Data-Science-Funktionen als nützlich erweisen.

Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Welche Punkte sollten wir berücksichtigen, bevor wir uns für einen Data-Science-Algorithmus für ML entscheiden?

Auf Linearität prüfen; Die einfachste Methode dazu besteht darin, eine gerade Linie anzupassen oder eine logistische Regression oder SVM durchzuführen und nach Restfehlern zu suchen. Ein größerer Fehler zeigt an, dass die Daten nicht linear sind und dass ausgefeilte Techniken erforderlich sind, um sie anzupassen.

Naive Bayes-, lineare und logistische Regressionsalgorithmen sind einfach zu konstruieren und auszuführen. SVM, das eine Parameteranpassung erfordert, neuronale Netze mit einer schnellen Konvergenzzeit und Random Forests erfordern alle eine erhebliche Zeit, um die Daten zu trainieren. Treffen Sie daher Ihre Wahl basierend auf Ihrem bevorzugten Tempo.

Um vertrauenswürdige Vorhersagen zu erstellen, wird normalerweise empfohlen, eine große Datenmenge zu sammeln. Allerdings ist die Datenverfügbarkeit häufig ein Problem. Wenn die Trainingsdaten eingeschränkt sind oder der Datensatz weniger Beobachtungen und eine höhere Anzahl von Merkmalen enthält, wie z. B. Genetik oder Textdaten, verwenden Sie Algorithmen mit hoher Verzerrung/niedriger Varianz, wie z. B. lineare Regression oder lineare SVM.

Was sind flexible und restriktive Algorithmen?

Da sie eine begrenzte Vielfalt von Abbildungsfunktionsformen erzeugen, gelten einige Algorithmen als restriktiv. Die lineare Regression zum Beispiel ist eine begrenzte Technik, da sie nur lineare Funktionen wie Linien erzeugen kann.

Einige Algorithmen gelten als flexibel, da sie eine größere Auswahl an Abbildungsfunktionsformen erstellen können. KNN mit k = 1 ist beispielsweise sehr vielseitig, da es jeden Eingangsdatenpunkt berücksichtigt, während es die Mapping-Ausgangsfunktion generiert.

Wenn eine Funktion in der Lage ist, für eine gegebene Beobachtung einen Antwortwert vorherzusagen, der nahe am wahren Antwortwert liegt, wird dies als ihre Genauigkeit bezeichnet. Eine Technik, die hochgradig interpretierbar ist (restriktive Modelle wie die lineare Regression), bedeutet, dass jeder einzelne Prädiktor verstanden werden kann, während flexible Modelle eine höhere Genauigkeit auf Kosten einer geringen Interpretierbarkeit bieten.

Was ist der Naive-Bayes-Algorithmus?

Es handelt sich um einen Klassifizierungsalgorithmus, der auf dem Satz von Bayes und der Annahme der Prädiktorunabhängigkeit basiert. Einfach ausgedrückt besagt ein Naive-Bayes-Klassifikator, dass das Vorhandensein eines Merkmals in einer Klasse nicht mit dem Vorhandensein eines anderen Merkmals zusammenhängt. Das Naive-Bayes-Modell ist einfach zu erstellen und eignet sich besonders für große Datenmengen. Aufgrund seiner Einfachheit ist Naive Bayes dafür bekannt, selbst die leistungsstärksten Klassifizierungsalgorithmen zu besiegen.