Learn Data Science – Ein ultimativer Leitfaden, um Data Scientist zu werden
Veröffentlicht: 2019-07-04Das Aufkommen von Big Data hat eine der lukrativsten Karrieren des 21. Jahrhunderts hervorgebracht – den Data Scientist. Der Begriff „Data Scientist“ macht seit geraumer Zeit Schlagzeilen.
Tatsächlich gehört Data Scientist zu den Top-3-Jobpositionen auf LinkedIn.
Die obige Tatsache spricht Bände, um die Tatsache zu bekräftigen, dass Fachleute mit unterschiedlichem Hintergrund – Mathematik, Computer, Management, Statistik – versuchen, das Beste aus dieser Gelegenheit zu machen.
Aber wie bei allem, was viel herumgeworfen wird, ist der Begriff „Data Science“ und damit der Beruf des Data Scientists weitgehend vage geworden. Bevor wir also über das eigentliche Thema sprechen, schauen wir uns an, was ein Data Scientist tut.
Inhaltsverzeichnis
Was macht ein Data Scientist
Vereinfacht gesagt ist ein Data Scientist ein Experte, der sich intensiv mit Big Data auseinandersetzt. Datenwissenschaftler verwenden eine Kombination aus maschinellem Lernen, künstlicher Intelligenz, Statistik und Analysewerkzeugen, um aussagekräftige Informationen aus riesigen Datensätzen zu extrahieren. Anders als früher, als Datensätze meist strukturiert waren, sind die uns heute zur Verfügung stehenden Daten weitgehend unstrukturiert. Daher verbringen Datenwissenschaftler natürlich einen erheblichen Teil ihrer Zeit damit, Daten zu sammeln, zu bereinigen und zu verarbeiten, um ihre Analyse und Interpretation zu ermöglichen.
Die berufliche Rolle eines Datenwissenschaftlers beinhaltet eine Verschmelzung mathematischer, statistischer, analytischer und Programmierfähigkeiten. An einem typischen Arbeitstag übernimmt ein Data Scientist im Laufe des Tages viele verschiedene Rollen – vom Software Engineer und Data Miner bis hin zum Data Analyst und Troubleshooter fungiert ein Data Scientist auch als wichtiges Kommunikationsglied zwischen der IT und die Geschäftsdomänen eines datengesteuerten Unternehmens. Es sind Data Scientists, die Business Analysten helfen, die interpretierten Daten so zu nutzen, dass der Geschäftsnutzen optimiert werden kann.
Genauer gesagt helfen Data Scientists Unternehmen dabei, Daten zu verwalten und zu interpretieren, um komplexe Geschäftsprobleme zu lösen.
Wenn Sie sich vorstellen können, sich zukünftig mit Big Data auseinanderzusetzen und so abwechslungsreiche Aufgaben zu übernehmen, ist der Beruf des Data Scientists Ihre berufliche Berufung! Um Data Scientist zu werden, müssen Sie sich jedoch zunächst die wesentlichen Fähigkeiten aneignen, die diesem Beruf eigen sind.
Wie bereits erwähnt, erfordert Data Science spezifische Fähigkeiten. Um Data Scientist zu werden, müssen Sie also über die folgenden Fähigkeiten verfügen:
- Flair in der Programmierung
Um ein Data Scientist zu werden, ist die erste Regel, ein tadelloses Händchen für die Programmierung zu haben. Sie müssen also über solide Kenntnisse sowohl in statistischen Programmiersprachen wie Python oder R oder Java als auch in Datenbankabfragesprachen wie SQL, CQL usw. verfügen. Auch Unternehmen suchen Bewerber, die mindestens zwei oder mehr als zwei Programmiersprachen beherrschen.
- Kenntnisse in Multivariablenrechnung und linearer Algebra
Sie fragen sich vielleicht, warum ein Data Scientist Multivariable Calculus & Linear Algebra beherrschen sollte. Es liegt einfach daran, dass ein solides Verständnis der Multivariablenrechnung und der linearen Algebra für datengesteuerte Organisationen von großem Vorteil ist, wo selbst eine geringfügige Änderung/Verbesserung der Algorithmusoptimierung bahnbrechende Geschäftsmöglichkeiten bieten kann.
- Vertrautheit mit den Grundlagen der Statistik
Ein großer Teil der Arbeit eines Data Scientists erfordert den Umgang mit Statistik. Jeder angehende Data Scientist muss über fundierte Kenntnisse in statistischen Konzepten wie deskriptiver Statistik (Mittelwert, Median, Bereich, Standardabweichung usw.), Wahrscheinlichkeitstheorie, Bayes-Theorem, explorative Datenanalyse, Perzentile und Ausreißer, Zufallsvariablen und kumulative Verteilungsfunktion verfügen (CDF), um nur einige zu nennen. Je besser Sie diese Konzepte verstehen, desto besser können Sie die Gültigkeit statistischer Ansätze vorhersagen.
- Ein Verständnis von künstlicher Intelligenz (KI) und maschinellem Lernen (ML)
KI und ML sind zwei wesentliche Bestandteile der Datenwissenschaft, und daher ist die Beherrschung dieser Bereiche ein Muss. Überraschenderweise sind nicht viele Data Scientists mit KI- und ML-Konzepten und -Techniken vertraut. Wenn Sie also der Konkurrenz einen Schritt voraus sein möchten, sollten Sie besser KI- und ML-Konzepte auffrischen, darunter überwachtes ML, unüberwachtes ML, verstärkendes Lernen, Verarbeitung natürlicher Sprache (NLP), Empfehlungs-Engines, Ausreißererkennung und Überlebensanalyse andere Dinge. Wenn Sie sich mit ML-Techniken wie Entscheidungsbäumen, logistischer Regression, k-Means-Clustering, Naive-Bayes-Klassifizierungsalgorithmus usw. auskennen, können Sie außerdem eine Vielzahl von Data-Science-Problemen lösen.
- Interessen am Datenwrangling
Data Scientists haben es oft mit großen, unstrukturierten/halbstrukturierten Datensätzen zu tun, die von Minute zu Minute weiter anwachsen. Infolgedessen müssen sie viel Aufwand in die Organisation und Bereinigung der unordentlichen und komplexen Datensätze stecken, um eine einfache Analyse und Interpretation zu ermöglichen. Dieser Vorgang wird als Data Wrangling bezeichnet. Was Data Scientists tun, ist, dass sie Daten manuell aus einem Rohformat in ein anderes, praktischeres Format konvertieren oder abbilden, sodass es einfach wird, die Daten organisiert und für die Interpretation und Analyse geeignet zu halten. Daher müssen Sie als angehender Data Scientist wissen, wie man mit Unvollkommenheiten und Störungen in Daten umgeht.
- Kenntnisse in Datenvisualisierung
Für Fachleute, die sich mit der geschäftlichen Seite eines Unternehmens befassen, ist es schwierig, Rohdaten zu verstehen. Hier fungieren Data Scientists als entscheidendes Bindeglied zwischen der IT und den Fachabteilungen. Nach der Analyse und Interpretation der Daten visualisieren Data Scientists die Daten mit Hilfe von Datenvisualisierungstools wie Tableau, Matplotlib, ggplot und d3.js. Darüber hinaus teilen sie ihre Ergebnisse sowohl dem technischen als auch dem nichttechnischen Personal mit, damit sie es leichter verstehen können. Mit der visuellen Darstellung von Daten wird es für die nicht-technischen Mitglieder einfacher zu verstehen, wie sie die Datenerkenntnisse nutzen können, um den Geschäftsbetrieb zu optimieren und ihren Konkurrenzunternehmen einen Schritt voraus zu sein.
- Sinn für Datenintuition
Data Intuition ist nicht nur ein äußerst praktisches tägliches Werkzeug für Data Scientists, sondern auch ein entscheidender Bestandteil von Vorstellungsgesprächen. Während der Vorstellungsgespräche werden Arbeitgeber alle Ihre Fähigkeiten auf die Probe stellen, einschließlich Ihrer intuitiven Fähigkeit, Konzepte im Zusammenhang mit Data Science zu verstehen. Das nennen wir „Datenintuition“. Es stimmt zwar, dass Sie über ausgeprägte mathematische, statistische und Visualisierungsfähigkeiten verfügen müssen, Sie sollten jedoch auch in der Lage sein, zu bestimmen, welche Methoden und Techniken zur Lösung eines bestimmten Problems verwendet werden sollen, welche Tools verwendet werden müssen und so weiter.

Nachdem Sie nun wissen, welche Fähigkeiten Sie erwerben müssen, um ein Data Scientist zu werden, schauen wir uns die Schritte an, die Sie dorthin bringen!
Data Scientists: Mythen vs. RealitätenHow to be a Data Scientist – Der Lernpfad
Der Weg zum Data Scientist ist ziemlich einfach. Es beginnt von vorne. Lass uns es dir zeigen!
- Alles zu Beginn.
Der erste Schritt besteht darin, zu verstehen, worum es bei Data Science geht. Neben dem Erlernen aller Grundkonzepte von Data Science ist dies die Phase, in der Sie Ihre erste Programmiersprache auswählen und perfektionieren. In den ersten Monaten werden Sie in der Sprache Ihrer Wahl programmieren. Sobald Sie mit dem Programmieren in einer bestimmten Sprache vertraut sind, wird das Erlernen anderer Programmiersprachen viel einfacher.
- Erlernen der Grundlagen von Mathematik und Statistik.
Mathematik und Statistik bilden die Grundlage für ML-Algorithmen. Natürlich müssen Sie die grundlegenden Konzepte von Mathematik und Statistik lernen, wie unter anderem Mittelwert, Median, Modus, Varianz, bedingte Wahrscheinlichkeit, Hypothesentest, lineare Algebra, Analysis, deskriptive Statistik und Inferenzstatistik.
- Lernen von ML-Konzepten und deren Anwendungen
Nachdem Sie die mathematischen und statistischen Konzepte gemeistert haben, ist es an der Zeit, zu einem fortgeschritteneren Bereich überzugehen – dem maschinellen Lernen. ML-Algorithmen haben in zahlreichen realen Szenarien Anwendung gefunden – von der Betrugserkennung und Empfehlungsmaschinen bis hin zur Stimmungsanalyse von Kundenfeedback. Abgesehen von den zuvor erwähnten Konzepten müssen Sie sich auch mit Deep Learning, künstlichen neuronalen Netzen, induktivem Lernen usw. Weltmodelle durch verschiedene Validierungsstrategien.
- Einführung in Deep Learning
Eine Teilmenge von ML, Deep Learning, befasst sich mit Algorithmen, die sich von der Struktur und Funktion gehirnähnlicher künstlicher neuronaler Netze inspirieren lassen. Diese künstlichen neuronalen Netze ahmen die Funktionsweise des menschlichen Gehirns nach. Deep-Learning-Modelle haben mindestens drei Schichten, wobei jede Schicht Informationen von der vorherigen Schicht erhält und an die nächste weitergibt. Sie müssen die Funktionsweise von Deep Learning vollständig verstehen, und um es zu verstehen, müssen Sie sich mit linearer und logistischer Regression auskennen.
- Deep-Learning-Architekturen
Nachdem Sie sich mit Deep Learning vertraut gemacht haben, müssen Sie sich mit fortgeschrittenen Deep-Learning-Architekturen wie AlexNet, GoogleNet, rekurrenten neuronalen Netzen (RNN), Convolutional Neural Networks (CNN), regionalbasiertem CNN (RCNN), SegNet und Generative Adversarial Network vertraut machen (GAN) usw. Da dies ziemlich umfangreiche Konzepte sind, müssen Sie einige Wochen ausschließlich dem Verständnis ihrer Funktionsweise widmen.
- Computer Vision
Computer Vision (CV) ist ein wissenschaftliches Studiengebiet, das versucht, Wege zu finden und Techniken zu entwickeln, die es Computern ermöglichen, digitale Inhalte wie Videos und Fotos zu verstehen. Es beinhaltet das „Erfassen, Verarbeiten, Analysieren und Verstehen digitaler Bilder“, um hochspezialisierte Daten aus der realen Welt zu erhalten, um weiter numerische/symbolische Informationen zu erstellen. Da es sich derzeit um eines der heißesten Forschungsgebiete handelt, muss jeder angehende Datenwissenschaftler über gute Kenntnisse in Computer Vision verfügen.
- NLP
Natural Language Processing ist ein integraler Bestandteil von Data Science. Daher muss jeder Data Scientist ein starkes Verständnis von NLP und seinen Techniken haben. In erster Linie versucht NLP, auf natürlicher Sprache basierende Daten (Text, Sprache usw.) durch eine Kombination aus ausgeklügelten Werkzeugen und Algorithmen zu verarbeiten, zu analysieren und zu verstehen. Während Sie sich mit NLP befassen, lernen Sie Datenabruf (zusammen mit Web Scraping), Text Wrangling, Named Entity Recognition, Part of Speech Tagging, Shallow Parsing, Constituency and Dependency Parsing sowie Emotion and Sentiment Analysis kennen.
Abschließende Gedanken
Jeden Tag nehmen die globalen Daten weiter zu und erweitern damit den Spielraum für Innovation und Kreation. Mit dem weiteren Vordringen der Big-Data- und Data-Science-Technologien wird sich auch das Berufsbild der Data Scientists mit der Zeit verändern. Also, wie hältst du dann Schritt? Durch Weiterbildung. Data Science ist ein dynamisches Feld, das sich immer noch entwickelt. Um ein Data Scientist zu werden, müssen Sie immer einen unstillbaren Wissens- und Lerndurst hegen. Dann steht Ihrem Glänzen im Bereich Data Science nichts mehr im Wege.
Unterscheiden sich die Begriffe Deep Learning und Machine Learning voneinander?
Maschinelles Lernen wird in vielen Apps auf unseren Telefonen verwendet, darunter Suchmaschinen, Spamfilter, Websites mit personalisierten Empfehlungen, Banksoftware, die ungewöhnliche Transaktionen erkennt, und Spracherkennung. Deep Learning ist eine Art maschinelles Lernen, bei dem Algorithmen in Schichten organisiert werden, um ein „künstliches neuronales Netzwerk“ aufzubauen, das selbstständig lernen und Entscheidungen treffen kann. Deep Learning ist eine Teilmenge des maschinellen Lernens im praktischen Sinne. Eigentlich ist Deep Learning eine Art maschinelles Lernen, das ähnlich wie traditionelles maschinelles Lernen funktioniert. Infolgedessen werden die Namen gelegentlich synonym verwendet. Einfache Modelle für maschinelles Lernen verbessern sich zwar im Laufe der Zeit bei jeder Aufgabe, die ihnen gestellt wird, aber sie erfordern immer noch eine gewisse Überwachung. Mithilfe eines Deep-Learning-Modells kann ein Algorithmus mithilfe seines neuronalen Netzwerks beurteilen, ob eine Vorhersage richtig ist oder nicht.
Ist Natural Language Processing (NLP) in der Data Science wichtig?
Die Kunst und Wissenschaft, Informationen aus Text zu sammeln und sie in Berechnungen und Algorithmen einzufügen, ist als Natural Language Processing (NLP) bekannt. Angesichts der Verbreitung von Daten im Internet und in den sozialen Medien bleibt es ein Muss für alle Datenwissenschaftler. NLP ist von entscheidender Bedeutung, da es bei der Auflösung sprachlicher Mehrdeutigkeiten hilft und Daten eine wertvolle mathematische Struktur für eine Vielzahl nachgelagerter Anwendungen wie Spracherkennung und Textanalyse bietet. Wenn Sie mit der Aufgabe konfrontiert werden, Modelle aus Textdaten zu analysieren und zu konstruieren, müssen Sie mit grundlegenden Data Science-Aufgaben vertraut sein.
Was sollte ein Data-Science-Portfolio enthalten?
Starke Data-Science-Portfolios zeigen im Allgemeinen die technischen Talente eines Bewerbers, die Originalität bei der Entwicklung von Forschungsthemen, die Fähigkeit, Daten zu analysieren und Schlussfolgerungen zu ziehen, den Wunsch, mit anderen zusammenzuarbeiten, und die Fähigkeit, ihre Ergebnisse einem nicht technisch versierten Publikum klar zu erklären. Ihr Portfolio sollte im Allgemeinen Ihre besten oder neuesten Arbeiten hervorheben. Während Datenanalyse-Portfolios oft verwendet werden, um Ihre Arbeit zu präsentieren, sollten sie auch Ihre Persönlichkeit, Ihre Kommunikationsfähigkeiten und Ihre persönliche Marke betonen.