Ein Leitfaden für Anfänger zur Datenwissenschaft und ihren Anwendungen

Veröffentlicht: 2018-02-24

Die Worte Data, Science oder Data Science reichen nicht aus, um bei den Lesern ein Gefühl der Angst oder Furcht hervorzurufen. Um ehrlich zu sein, sie sind zu süß, um auch nur abstoßend zu sein, geschweige denn schrecklich, im Gegensatz zu den Wörtern – Tessellation, k-mean, k-nächste Nachbarn, Euclidian Minimum Spanning Tree und mehr dieser Art – Wörter, die Sie ' ll begegnen auf Ihrer Reise der Data Science.
Während „Data Science“ keine Angst einflößt, erklärt es auch nichts über das Gebiet. Jeder weiß, was Daten sind; zumindest im Laiensinn. Daten sind im Wesentlichen nur rohe Informationsbits. Wissenschaft hingegen kann verwendet werden, um jede Gruppe von Aktivitäten zu bezeichnen, die einer wissenschaftlichen Methode folgen.

Ausgehend von dieser Logik können wir also den Schluss ziehen, dass Data Science ein Bereich ist, der wissenschaftliche Methoden auf große Datenmengen anwendet. Aber für was? Und was genau ist Data Science?
Das ist unser heutiges Diskussionsthema. Nachdem Sie diesen Artikel gelesen haben, können Sie die folgenden Fragen beantworten:

  • Was ist Datenwissenschaft?
  • Was sind die verschiedenen Phasen einer Data-Science-Pipeline?
  • Wo kann ich Data Science bei der Arbeit sehen?

Inhaltsverzeichnis

Was ist Datenwissenschaft?

Wikipedia, die Mutter aller Enzyklopädien, definiert Data Science als einen Bereich, der sich darauf konzentriert, mit wissenschaftlichen Methoden Wissen und Erkenntnisse aus Daten zu extrahieren. Was es Ihnen jedoch nicht sagt, ist, dass wir Menschen geborene Datenwissenschaftler sind. Wie? Mal sehen.
Sie beobachten die Welt um sich herum, egal was Sie tun. In jedem wachen Moment nehmen Sie Details aus Ihrer Umgebung auf und füttern sie Ihrem Gehirn. Sie verarbeiten diese Beobachtungen dann zu Daten und verwenden sie, um die Dinge um Sie herum zu verstehen, indem Sie Bedeutungen herausfinden und Vorhersagen darüber treffen, was wahrscheinlich als nächstes passieren wird.

Wenn Sie eine Stunde zu spät zur Arbeit kommen, rufen Sie an, um ihnen mitzuteilen, dass Sie von zu Hause aus arbeiten werden. Sie verwenden Ihre früheren Beobachtungen von Verkehr und Staus auf dem Weg, die Sie zu dem Schluss führen, dass Sie wahrscheinlich Ihre Zeit im Stau verlieren werden, als Sie im Amt gewinnen würden. Wenn Sie Ihr Zimmer betreten und Schokoladenverpackungen herumliegen sehen, wird Ihnen eine beiläufige Analyse sagen, dass jemand Ihre Pralinen in Ihrer Abwesenheit gegessen hat.
Die 4 wichtigsten Data Analytics-Rollen, auf die Sie achten sollten

Wenn Sie in jedem der genannten Fälle diese Berechnungen und Vorhersagen im Kopf machen, ohne es zu notieren, sind Sie ein normaler Mensch. Auf der anderen Seite, wenn Sie diese Datenpunkte aufzeichnen (natürlich in einem maschinenlesbaren Format) und dann versuchen, einen Algorithmus (oder Verfahren) und Computerprogramme zu entwickeln, um die Anwendung auszuführen. Wenn die Ausgabe dieses „hypothetischen“ Systems ist, dass „der Verkehr scheiße wird“ oder „Ihre Mitbewohner Ihre Pralinen gegessen haben“, dann Bingo! Sie sind Datenwissenschaftler.

Es ist genauso einfach (in der Theorie), wie die obige Analogie es klingen lässt. Am Ende des Tages haben Sie Daten, Verfahren, Algorithmen und Tools. Sie müssen nur Wissen daraus extrahieren. Um dies effizient zu tun, müssen Sie einem Workflow/einer Pipeline folgen. Sehen wir uns an, was alles in einer typischen Data-Science-Pipeline enthalten ist.

Data-Science-Pipeline

Die Data-Science-Pipeline spricht über den Ablauf des gesamten Prozesses – von der Beschaffung der gewünschten Daten bis hin zu genauen Berechnungen und Vorhersagen. Werfen wir einen Blick auf die Elemente dieser Pipeline:

Data-Science-Pipeline

Erhalten Sie Ihre Daten

Dies ist standardmäßig das erste, was Sie tun müssen, um Data Science zu praktizieren – holen Sie sich die Daten! Nur eine kleine Warnung – es gibt einige Dinge, die Sie beim Abrufen Ihrer Daten berücksichtigen müssen. Sie müssen zuerst alle Ihre Datensätze identifizieren (können aus dem Internet oder aus internen/externen Datenbanken stammen). Sie sollten die Daten dann in ein verwendbares Format (CSV, XML, JSON usw.) extrahieren.
Hier sind die wichtigsten Fähigkeiten und Tools, die Sie als Datenanalyst beherrschen sollten

Fähigkeiten benötigt

  • Datenbankverwaltung: Entweder SQL oder NoSQL, je nach Ihren Bedürfnissen und Anforderungen.
  • Abfragen dieser Datenbanken
  • Abruf unstrukturierter Daten in Form von Videos, Audios, Texten, Dokumenten etc.
  • Verteilter Speicher: Hadoop, Apache Spark oder Apache Flink.

Scrubbing / Bereinigen Ihrer Daten

Der Bereinigung der Daten sollte größte Bedeutung beigemessen werden, da die endgültige Ausgabe Ihres Systems nur so gut ist wie die Daten, die Sie darin eingeben. Bereinigung bezieht sich auf das Entfernen von Anomalien, das Ausfüllen leerer/fehlender Werte, das Prüfen, ob die Daten konsistent sind, und andere Dinge dieser Art.

Fähigkeiten benötigt

  • Skriptsprache: Python, R, SAS
  • Daten-Wrangling-Tools: Python Pandas, R
  • Verteilte Verarbeitung: Hadoop, MapReduce/Spark

Erkunden (Explorative Datenanalyse)

Jetzt, da die Daten sauber sind, werden Sie allmählich verstehen, welche Muster Ihre Daten aufweisen. In dieser Phase kommen verschiedene Arten von Visualisierungen und statistischen Modellierungen zum Einsatz. Grundsätzlich zielt diese Phase darauf ab, die verborgene Bedeutung unserer Daten abzuleiten.
Im Bereich der explorativen Datenanalyse tut sich viel. Wenn Sie das Gefühl haben, dass es Ihnen Spaß machen würde, vergessen Sie nicht, unseren Artikel darüber zu lesen.
Um in dieser Phase bessere Leistungen zu erbringen, müssen Ihre „Spitzensinne“ kribbeln. Werden Sie verrückt und entdecken Sie seltsame Muster oder Trends – halten Sie immer Ausschau nach etwas Außergewöhnlichem. Vergessen Sie dabei jedoch nicht das Problem, das Sie lösen möchten. Gehen Sie nicht zu sehr aus der Box. Explorative Datenanalyse ist eine Kunst, und ein Künstler sollte immer das Publikum im Auge behalten.

Fähigkeiten benötigt

  • Python-Bibliotheken: Numpy, Matplotlib, Pandas, Scipy
  • R-Bibliotheken: GGplot2, Dplyr
  • Inferenzstatistik
  • Datenvisualisierung
  • Experimentelles Design
Die wichtigsten Schritte zur Beherrschung der Datenwissenschaft, glauben Sie mir, ich habe sie ausprobiert!

Modellierung (maschinelles Lernen)

Das ist der lustige Teil. Modelle sind einfach allgemeine Regeln im statistischen Sinne. Ein maschinelles Lernmodell ist einfach ein Werkzeug in Ihrem Werkzeugkasten. Sie haben Zugriff auf so viele Algorithmen mit unterschiedlichen Anwendungsfällen und Zielen, dass eine einfache Recherche Sie zu einem Algorithmus führt, der Ihren Geschäftsanforderungen entspricht.
Nachdem Sie die Daten bereinigt und die wesentlichen Merkmale ermittelt haben (in der EDA-Phase), wird die Verwendung eines statistischen Modells als Vorhersagewerkzeug Ihre allgemeine Entscheidungsfindung verbessern. Anstatt zurückzublicken, um zu sehen, „was passiert ist?“, zielt Predictive Analytics darauf ab, zu beantworten, „was als nächstes?“. und "wie sollen wir vorgehen?".

Fähigkeiten benötigt

  • Maschinelles Lernen: Überwachte/unüberwachte/verstärkende Lernalgorithmen
  • Bewertungsmethoden
  • Bibliotheken für maschinelles Lernen: Python (Sci-kit Learn) / R (CARET)
  • Lineare Algebra & Multivariate Analysis

Dolmetschen (Data Storytelling)

Dies ist eine der anspruchsvolleren Aufgaben in der Pipeline. Hier zielen Sie darauf ab, Ihre Erkenntnisse durch Kommunikation zu erklären. Letztendlich geht es darum, sich mit Ihrem Publikum zu verbinden – und das macht das Geschichtenerzählen zu einem Schlüsselfaktor.
Ihre Erkenntnisse sind kaum nützlich, wenn Sie nicht in der Lage sind, ihre Bedeutung den Nicht-Technikern in Ihrem Büro oder sogar Ihrem Chef zu vermitteln. Eine gute Praxis, um die Dinge in den Griff zu bekommen, wäre, viel zu proben. Versuchen Sie, eine Geschichte über Ihre Ergebnisse zu erzählen und sie einem Laien (vorzugsweise einem Kind) zu erzählen. Wenn sie es verstehen, wird Ihr Chef es auch verstehen. Und wenn sie es nicht tun, wissen Sie, was Einstein gesagt hat:

„Wenn du es einem Sechsjährigen nicht erklären kannst, verstehst du es selbst nicht.“

Diese Phase zielt darauf ab, echte geschäftliche Erkenntnisse abzuleiten. Ihre größte Herausforderung besteht hier darin, Ihre Ergebnisse zu visualisieren und sie auf schöne und verständliche Weise darzustellen.

Fähigkeiten benötigt

  • Kenntnisse in Ihrem Geschäftsbereich
  • Datenvisualisierungstools: Tableau, D3.JS, Matplotlib, GGplot, Seaborn usw.
  • Kommunikation: Präsentationsfähigkeiten – sowohl mündlich als auch schriftlich.

Dies ist nicht das Ende unserer Pipeline. Wenn Sie wirklich das Beste aus Ihrem System herausholen möchten, müssen Sie sicherstellen, dass Sie Ihr Modell bei Bedarf aktualisieren. In Data Science passt eine Größe nicht für alle, und Sie müssen Ihr Modell immer wieder überprüfen und aktualisieren.
Datenmanipulation: Wie erkennt man Datenlügen?

Anwendungen der Datenwissenschaft

Wie inzwischen klar ist, ist Data Science ein weit gefasster Begriff, ebenso wie seine Anwendungen. Nahezu jede Anwendung auf Ihrem Smartphone lebt von Daten. Es ist also nur fair zu sagen, dass es aufgrund ihrer schieren Omnipräsenz praktisch unmöglich ist, alle Anwendungen von Data Science aufzulisten.
Werfen wir einen Blick auf die breiten Felder, die die Magie der Datenwissenschaft nutzen:

1. Internetsuche

Wie liefert Google solche *genauen* Suchergebnisse innerhalb von Sekundenbruchteilen? Datenwissenschaft!

2. Empfehlungssysteme

Von „Personen, die Sie vielleicht kennen“ auf Facebook oder LinkedIn über „Personen, die dieses Produkt gekauft haben, mochten auch …“ auf Amazon über Ihre täglich kuratierten Wiedergabelisten auf Spotify bis hin zu „empfohlenen Videos“ auf YouTube – alles wird von Data Science angetrieben.

3. Bild-/Sprach-/Zeichenerkennung

Das versteht sich eigentlich von selbst. Was ist Ihrer Meinung nach das Gehirn hinter „Siri“, wenn nicht Data Science? Und wie denkst du, erkennt Facebook deinen Freund, wenn du ein Foto mit ihm hochlädst? Es ist keine Magie; es ist Wissenschaft – Data Science.

4. Spielen

EA Sports, Sony, Nintendo, Zynga und andere Giganten in diesem Bereich haben es sich zur Aufgabe gemacht, Ihr Spielerlebnis auf ein völlig neues Niveau zu heben. Spiele werden jetzt mithilfe von maschinellen Lernalgorithmen entwickelt und verbessert, sodass sie aktualisiert werden können, wenn Sie auf höhere Ebenen aufsteigen.

5. Preisvergleichs-Websites

Diese Websites werden von Daten angetrieben. Für sie gilt: Je mehr, desto besser. Die Daten werden mithilfe von APIs von den entsprechenden Websites abgerufen. PriceGrabber, PriceRunner, Junglee, Shopzilla sind einige solcher Websites.

Beginnen Sie mit Python mit Data Science

Abschluss…

Wenn Sie einen technischen Hintergrund haben und ein bisschen was für Daten haben, dann ist Data Science Ihre wahre Berufung. Der beste Teil? In und um Data Science gibt es so viel zu tun und zu entdecken. Es ist ein Überbegriff, der eine Reihe von Tools und Technologien umfasst – die Beherrschung eines einzigen davon wird Sie zu einem Gewinn auf dem ständig wachsenden Markt der Datenwissenschaft machen. upGrad bietet verschiedene Kurse zu Data Science an, damit Sie immer einen Schritt voraus sind. Vergessen Sie nicht, sie zu überprüfen!

Welchen Umfang hat Data Science branchenübergreifend in Indien?

Data Science hat einen enormen Einfluss auf viele Branchen in Indien. Jede der unten aufgeführten Branchen ist stark auf Data Science angewiesen und bietet hervorragende Perspektiven für einen Data Scientist.

1. Gesundheitswesen: Dies ist ein Sammelbegriff für alles, was mit Medizin, Patienten und Krankheiten zu tun hat. Die Datenwissenschaft hat begonnen, in dieser Branche eine entscheidende Rolle zu spielen, die von effizienteren Diagnosen bis hin zu medizinischer Forschung reicht.
2. Banken und Versicherungen – Risikobewertung und Betrugserkennung: Banken sammeln Kundenprofile, frühere Anträge und Ausgaben sowie eine Vielzahl anderer personenbezogener Daten, insbesondere für Kredite und Versicherungen. Hier kommt die Datenwissenschaft ins Spiel, da sie den Prozess vereinfacht und zwischen Personen mit geringem Risiko und Personen mit hohem Risiko unterscheidet.
3. Marketing und Werbung – Mit allen Daten, die Ihnen zur Verfügung stehen, können Sie analysieren und bestimmen, wer Ihre Zielgruppe sein sollte, um Ihre Dienstleistung oder Ihr Produkt effektiv zu vermarkten.
4. Luftfahrtindustrie – Data Science wird in der Luftfahrtbranche zur Analyse von Flugzeugpfaden und -routen eingesetzt.

Wie können Data Scientists ihre Fähigkeiten einsetzen, um Geschäftsprobleme zu lösen?

Abhängig von den Anforderungen seines Unternehmens muss ein Data Scientist eine andere Strategie zur Lösung einer geschäftlichen Herausforderung verfolgen. Mit hybriden Modellen aus Mathematik und Informatik gewinnen Data Scientists umsetzbare Erkenntnisse aus Daten und helfen, bessere Entscheidungen zu treffen. Zu den Anwendungen der Datenwissenschaft zur Lösung realer geschäftlicher Herausforderungen gehören unter anderem die Verbesserung der Produktqualität, die Automatisierung der Platzierung digitaler Anzeigen, die Steigerung der Umsatzgenerierung durch Vorhersage von Nachfrage und Wachstumschancen, die Automatisierung von Rekrutierungsprozessen, die Festlegung von Preisen in einem dynamischen Markt und andere Anwendungsfälle.

Wie sieht die Zukunft der Datenwissenschaft aus?

Die Zukunft der Datenwissenschaft ist sehr spannend mit einem breiten Anwendungsbereich in fast allen Bereichen. Einige der besten Digital-Native-Unternehmen wie Google, Amazon, Facebook usw. haben erhebliche Investitionen in Daten getätigt. Der Aufstieg neuer Technologien in Kombination mit laufender Forschung wird in Zukunft zu innovativen Anwendungen und Anwendungsfällen führen. Aus beruflicher Sicht ist Data Science vielversprechend.