Grundlegende Grundlagen der Statistik für Data Science

Veröffentlicht: 2018-02-27

Wenn Sie ein aufstrebender Data Scientist sind, müssen Sie mit den Kernkonzepten von Statistics for Data Science vertraut sein. Sie müssen kein Ph.D. sein. in Statistik, um sich in Data Science hervorzutun, aber Sie müssen genug wissen, um vielleicht ein paar grundlegende Algorithmen auf einer Dinnerparty zu beschreiben.

Im Folgenden führen wir Sie durch einige der Voraussetzungen in Grundlagen der Statistik für Data Science .

Wenn Sie gerade erst in die Welt der Datenwissenschaft eingetreten sind, sind Sie vielleicht auf Leute gestoßen, die „Mathematik“ als Voraussetzung für Datenwissenschaft angegeben haben. Ehrlich gesagt ist es nicht Mathematik per se, aber Sie müssen Statistik für Data Science lernen .

Heutzutage verbergen Bibliotheken wie Tensorflow fast die gesamte komplexe Mathematik vor dem Benutzer. Gut für uns, aber es ist immer noch gut, ein grundlegendes Verständnis der zugrunde liegenden Prinzipien zu haben, auf denen diese Dinge funktionieren. Ein gutes Verständnis der Datenanalyse kann Ihnen helfen, alles besser zu verstehen.

Dieser Artikel wird Sie mit einigen Theoremen, Konzepten und Gleichungen ausrüsten, die nicht nur Ihrer Sache als Data Scientist helfen, sondern Sie auch so klingen lassen, als hätten Sie den Kurs über Advanced Statistical Computing mit Bravour abgeschlossen.

Inhaltsverzeichnis

Statistische Verteilungen

Dies ist wahrscheinlich eines der wichtigsten Dinge, die Sie wissen müssen, wenn Sie sich mit den erforderlichen Statistiken für Data Science bewaffnen.

Poisson-Verteilung
Die Poisson-Verteilung ist eines der wichtigsten Werkzeuge in der Statistik. Es wird verwendet, um die Anzahl der Ereignisse zu berechnen, die wahrscheinlich in einem Zeitintervall auftreten. Zum Beispiel, wie viele Telefonanrufe wahrscheinlich in einem bestimmten Zeitraum stattfinden werden.
Das komisch aussehende Symbol in dieser Gleichung (λ) ist als Lambda bekannt . Es wird verwendet, um die durchschnittliche Anzahl von Ereignissen darzustellen, die pro Zeitintervall auftreten.
Ein weiteres gutes Beispiel, wo die Poisson-Verteilung Verwendung findet, ist die Berechnung des Verlusts in der Fertigung. Angenommen, eine Maschine produziert Bleche und hat X Fehler pro Meter. Nehmen wir zum Beispiel an, die Fehlerrate war 2 pro Yard des Bogens – dann können wir mithilfe der Poisson-Verteilung die Wahrscheinlichkeit berechnen, dass genau zwei Fehler in einem Yard auftreten.
Binomialverteilung

Wenn Sie jemals auf grundlegende Statistiken gestoßen sind, sind Sie möglicherweise auf die Binomialverteilung gestoßen.

Nehmen wir an, Sie hatten ein Experiment, bei dem Sie eine unvoreingenommene Münze dreimal geworfen haben.
Können Sie die Wahrscheinlichkeit angeben, dass die Münze bei allen drei Würfen Kopf zeigt?
Erstens können wir aus der grundlegenden Kombinatorik herausfinden, dass es acht mögliche Kombinationen von Ergebnissen gibt, wenn eine Münze dreimal geworfen wird. Jetzt können wir die Wahrscheinlichkeiten für 0, 1, 2 oder 3 Köpfe darstellen. Dieses Diagramm wird uns unsere erforderliche Binomialverteilung für dieses Problem liefern. Bei der grafischen Darstellung werden Sie feststellen, dass sie einer typischen Normalverteilungskurve sehr ähnlich sieht, theoretisch sind sich beide sehr ähnlich. Während die Binomialverteilung für diskrete Werte (eine begrenzte Anzahl von Münzwürfen) gilt, kümmert sich die Normalverteilung um kontinuierliche Werte.

Es gibt eine Reihe anderer Distributionen als die, über die wir oben gesprochen haben. Wenn Sie eine interessierte Seele sind und sich auch mit den benötigten Statistiken für Data Science besser ausrüsten möchten , empfehlen wir Ihnen, sich auch über die folgenden Distributionen zu informieren:
Geometrische Verteilung
Hypergeometrische Verteilung
Diskrete gleichmäßige Verteilung
Negative Binomialverteilung

Explorative Datenanalyse und ihre Bedeutung für Ihr Unternehmen

Einige Theoreme und Algorithmen

Wenn wir über Statistik für Data Science sprechen , können wir die grundlegenden Theoreme und Algorithmen nicht ignorieren, die die Grundlage vieler Bibliotheken bilden, an denen Sie als Data Scientist arbeiten werden. Es gibt eine Reihe von Klassifizierungsalgorithmen, Clustering-Algorithmen, neuronalen Netzwerkalgorithmen, Entscheidungsbäumen usw. In diesem Abschnitt sprechen wir über ein paar grundlegende Theoreme, die Sie kennen sollten – es wird Ihnen auch helfen, andere komplexe Theoreme mit Leichtigkeit zu verstehen.

Satz von Bayes

Dies ist einer der häufigsten Theoreme, auf die Sie stoßen werden, wenn Sie eine formelle Ausbildung in Informatik hatten. Im Laufe der Jahre gab es zahlreiche Bücher, die den Satz von Bayes und seine Konzepte in ausführlicher Weise exzessiv diskutieren.

Bayes Theorem vereinfacht komplexe Konzepte erheblich. Es erklärt viele statistische Fakten mit ein paar einfachen Variablen. Es unterstützt das Konzept der „ bedingten Wahrscheinlichkeit “ (z. B. wenn A eingetreten ist, hat es beim Eintreten von B eine Rolle gespielt). Das Bemerkenswerteste daran ist die Tatsache, dass Sie die Wahrscheinlichkeit jeder Hypothese nur anhand der gegebenen Datenpunkte vorhersagen können.

Bayes kann Ihnen helfen, die Wahrscheinlichkeit vorherzusagen, dass jemand an Krebs erkrankt, nur indem Sie sein Alter kennen. Es kann Ihnen auch anhand der Anzahl der Wörter mitteilen, ob eine E-Mail Spam ist. Dieser Satz wird im Wesentlichen verwendet, um Unsicherheiten zu beseitigen.

Fun Fact: Bayes Theorem half bei der Vorhersage der Standorte von U-Booten sowie bei der Vorhersage der Konfiguration der Enigma-Maschine zur Übersetzung der deutschen Codes im 2. Weltkrieg. Auch in der modernen Data Science findet Bayes in vielen Algorithmen umfangreiche Anwendungen.
Das Was ist was von Data Warehousing und Data Mining

K-Nächster-Nachbar-Algorithmus

Statistik für Data Science
Dies ist ein sehr einfacher Algorithmus, sowohl in Bezug auf das Verständnis als auch auf die Implementierung. So sehr, dass es als „fauler Algorithmus“ bezeichnet wird. Seine Einfachheit liegt in der Tatsache, dass es auf logischen Schlussfolgerungen basiert und nicht auf allen Grundlagen der Statistik an sich. Laienhaft ausgedrückt versucht dieser Algorithmus, Gruppen zu finden, die am nächsten beieinander liegen.

K-NN verwendet das Konzept der euklidischen Distanz. Es sucht nach lokalen Gruppen in und um eine bestimmte Anzahl von Schwerpunkten. Diese Zahl wird durch „k“ dargestellt. Es gibt viele Ansätze, um herauszufinden, wie groß der Wert von 'k' sein sollte, da dies ein vom Benutzer festgelegter Wert ist.

Dieses Konzept eignet sich hervorragend für Feature-Clustering, grundlegende Marktsegmentierung und die Suche nach Ausreißern aus einer Gruppe von Dateneinträgen. Die meisten modernen Programmiersprachen implementieren den K-NN-Algorithmus in nur zwei Codezeilen.

Bagging (Bootstrap-Aggregation)

Bagging bezieht sich im Wesentlichen auf das Erstellen von mehr als einem Modell eines einzelnen Algorithmus – wie ein Entscheidungsbaum. Jedes der Modelle wird mit unterschiedlichen Beispieldaten trainiert (dies wird als Bootstrap-Beispiel bezeichnet).

Daher wird jeder Entscheidungsbaum mit unterschiedlichen Stichprobendaten erstellt – dies löst das Problem der Überanpassung an die Stichprobengröße. Das Gruppieren von Entscheidungsbäumen wie diesem trägt im Wesentlichen dazu bei, den Gesamtfehler zu reduzieren, da die Gesamtvarianz mit jedem neu hinzugefügten Baum abnimmt. Eine Menge solcher Entscheidungsbäume wird als Random Forest bezeichnet.

Beginnen Sie mit Python mit Data Science

ROC-Kurvenanalyse

Statistik für Data Science
Der Begriff ROC steht für Receiver Operating Characteristic. Die ROC-Analysekurve findet in Data Science umfangreiche Anwendung. Es sagt voraus, wie gut ein Test voraussichtlich abschneiden wird, indem es seine Gesamtempfindlichkeit im Vergleich zu seiner Fallout-Rate misst. Die ROC-Analyse ist äußerst wichtig, wenn es darum geht, die Lebensfähigkeit eines Modells zu bestimmen.

Wie funktioniert es?

Ihr maschinelles Lernmodell liefert Ihnen möglicherweise einige ungenaue Vorhersagen. Einige von ihnen liegen daran, dass ein bestimmter Wert „true“ hätte sein sollen, aber stattdessen auf „false“ gesetzt ist, oder umgekehrt.

Wie groß ist die Wahrscheinlichkeit, dass Sie dann richtig liegen?

Anhand der ROC-Kurve können Sie sehen, wie genau Ihre Vorhersage ist. Mit den beiden unterschiedlichen Gleichnissen können Sie auch herausfinden, wo Sie Ihren Schwellenwert setzen müssen. An der Schwelle entscheiden Sie, ob die binäre Klassifikation positiv oder negativ ist – wahr oder falsch.

Wenn sich die beiden Gleichnisse nähern, tendiert die Fläche unter der Kurve gegen Null. Das bedeutet im Wesentlichen, dass Ihr Modell zu Ungenauigkeiten neigt. Je größer die Fläche, desto größer ist die Genauigkeit Ihres Modells. Dies ist einer der ersten Tests, der beim Testen von Modellen verwendet wird, da er dabei hilft, Probleme frühzeitig zu erkennen, indem festgestellt wird, ob das Modell korrekt ist oder nicht.

Ein reales Beispiel für ROC-Kurven – Sie werden verwendet, um die Verbindung/den Kompromiss zwischen klinischer Sensitivität und Spezifität für den Grenzwert für einen bestimmten Test oder eine Kombination von Tests grafisch darzustellen. Darüber hinaus gibt die Fläche unter der ROC-Kurve auch eine gute Vorstellung von den Vorteilen der Verwendung der oben genannten Tests. Daher finden ROC-Kurven umfangreiche Verwendung in der Biochemie zur Auswahl eines geeigneten Grenzwerts. Im Idealfall ist der beste Cutoff derjenige, der die niedrigste Rate falsch positiver Ergebnisse mit der höchsten Rate richtig positiver Ergebnisse zusammen aufweist.

Wie können Sie auf Datenanalyse umsteigen?

Bedeutung der Statistik in der Datenwissenschaft

Nachdem Sie sich der obigen Diskussion nun der Grundkonzepte der Statistik und der Grundlagen der Statistik bewusst sind, lassen Sie uns über die Bedeutung sprechen, Statistik für Data Science zu lernen. Die entscheidenden Tools und Technologien zum Organisieren und Gewinnen tiefer Einblicke in die Daten, zum Analysieren und Quantifizieren von Daten werden von Statistics for Data Analytics bereitgestellt.

Wir haben Ihnen einen Überblick über die Grundkonzepte der Statistik und die Auswirkungen der Statistik auf die Exploration, Analyse, Modellierung und Darstellung von Daten gegeben. Wir weisen auch auf das Problem hin, wenn es sich um eine Inkonsistenz handelt, während die Grundlagen der Statistik vernachlässigt werden. Wenn Sie daran interessiert sind, Teil der am schnellsten wachsenden Branche zu werden, besuchen Sie direkt unsere Website unter UpGrad, um unserem Tutorial „Statistiken für Data Science“ zu folgen, da wir sowohl Online- als auch Offline-Kurse anbieten. Sobald Sie Ihr Spiel in mindestens den Grundlagen der Statistik und den Grundlagen der Statistik meistern, sind Sie bereit für den Job.

Abschließend…
Die obige Themenliste ist keinesfalls eine vollständige Liste mit allem, was Sie über Statistik wissen müssen. Diese Liste soll Ihnen nur einen Vorgeschmack darauf geben, was Ihnen auf Ihrer Reise der Datenwissenschaft begegnen könnte und wie Sie sich darauf vorbereiten können.

Alles in allem stellt dieser Artikel einige der Kernkonzepte von Statistics for Data Science vor . Ein tiefes Verständnis der erklärten Konzepte wird Ihnen helfen, die anderen Konzepte leicht zu verstehen. Wenn Sie mehr erfahren und Data Science beherrschen möchten, finden Sie unsere besten Online-Data-Science-Kurse.

Welche Bedeutung hat Statistik für Data Science?

Statistik bietet die Techniken und Werkzeuge zum Identifizieren von Strukturen in Big Data und vermittelt Einzelpersonen und Organisationen ein besseres Verständnis der Realitäten, die ihre Daten offenbaren, indem geeignete statistische Methoden verwendet werden, die eine Klassifizierung und Organisation ermöglichen und bei der Berechnung der Wahrscheinlichkeitsverteilung und -schätzung helfen. und finden Sie Struktur in Daten, indem Sie Anomalien und Trends erkennen. Statistiken helfen auch bei der Datenvisualisierung und Modellierung mit Hilfe von Graphen und Netzwerken. Es hilft bei der Identifizierung von Datenclustern oder anderen Strukturen, die von Variablen beeinflusst werden, und hilft, die Anzahl der Annahmen in einem Modell zu reduzieren, wodurch es genauer und nützlicher wird.

Was sind die wichtigsten Grundkonzepte der Statistik, die für Data Science erforderlich sind?

Die Kernkonzepte der Statistik sind ein Muss für Data Science. Hier sind einige der Schlüsselkonzepte, die Ihnen den Einstieg in Ihre Data-Science-Reise erleichtern:

1. Wahrscheinlichkeit: Dies bildet die Grundlage für Data Science. Wahrscheinlichkeitstheorie ist sehr nützlich bei der Formulierung von Vorhersagen. Daten sind die Grundlage aller Wahrscheinlichkeiten und Statistiken.
2. Sampling: Data Sampling ist eine statistische Analysetechnik, bei der eine repräsentative Auswahl von Datenpunkten ausgewählt, manipuliert und analysiert wird, um Muster und Trends in einer größeren Datensammlung zu finden.
3. Tendenz und Verteilung der Daten: Die Verteilung der Daten ist ein entscheidender Faktor. Die Bedeutung einer bekannten Verteilung wie der Normalverteilung ist enorm. Daher ist die Bestimmung der Verteilung und Schiefe von Daten ein kritisches Konzept.
4. Testen von Hypothesen: Testen von Hypothesen identifiziert Situationen, in denen je nach den erwarteten Ergebnissen Maßnahmen ergriffen oder nicht ergriffen werden sollten.
5. Variationen: Dies bezieht sich auf Verzerrungen, Fehler und Verschiebungen in den Daten.
6. Regression: Sie ist für die Datenwissenschaft von entscheidender Bedeutung, da sie das Verständnis bestehender Lösungen sowie die Entdeckung neuer Innovationen unterstützt.

Wie wird Statistik in Data Science verwendet?

Data Scientists verwenden Statistiken, um Unternehmen dabei zu helfen, bessere Produktentscheidungen zu treffen, Studien zu entwerfen und zu interpretieren, die Faktoren zu bestimmen, die den Umsatz antreiben, Verkaufstrends und -muster vorherzusagen. Die visuelle Darstellung der Daten- und Algorithmusleistung hilft beim Auffinden von Ausreißern, bestimmten trivialen Mustern und Metrikzusammenfassungen.