Data Scientists: Mythen vs. Realitäten
Veröffentlicht: 2018-04-05Alles, was an Dynamik gewinnt, neigt dazu, schnell zu dem zu werden, worüber alle reden. Und je mehr Leute über etwas reden, desto mehr Missverständnisse und Mythen häufen sich. Data Science and Analytics ist ein solcher Bereich, der kontinuierlich auf dem Vormarsch ist, und mit ihm eine zunehmende Anzahl von damit verbundenen Mythen.
Heute werden wir einige dieser Mythen und Missverständnisse entlarven, die sich um das Leben und die Arbeit von Datenwissenschaftlern drehen. Aber bevor wir dazu übergehen, lassen Sie uns zunächst einen typischen Tag im Leben eines Datenwissenschaftlers verstehen.
Eine Organisation verfügt über Unmengen von Daten, die sie im Laufe der Zeit aus verschiedenen Quellen und in verschiedenen Formaten gesammelt hat. Jetzt haben sie beschlossen, etwas dagegen zu unternehmen. Sie wollen ihre Daten zählen lassen. An wen wenden sie sich?
Datenwissenschaftler!
Ja, Datenwissenschaftler, die die Mehrheit für übernatürliche Wesen hält. Diese Menschen sind das Herz und die Seele des Datenanalyseteams eines jeden Unternehmens. Sie haben eine wichtige Position inne, und obwohl es Sie überraschen mag, ist ihr normaler Tag ganz wie der typische Tag eines jeden anderen Angestellten.
Inhaltsverzeichnis
Meetings, Meetings und noch mehr Meetings!
Die Data Scientists müssen meist täglich an Besprechungen teilnehmen, um Anforderungen zu sammeln, die geleistete Arbeit zu besprechen und die Tagesarbeit zu planen. Es gibt auch interne Meetings, die für die Unternehmensziele wichtig sind und geschäftliche Probleme lösen. Alles in allem besteht der Zweck dieser Treffen darin, sich ein klareres Bild von den vorliegenden Problemen zu machen und sicherzustellen, dass alle in der Organisation über das weitere Vorgehen informiert sind.
Suchen Sie nach Daten und machen Sie sie makellos!
Ein Teil ihres Tages wird damit verbracht, reale Probleme zu identifizieren, mit denen ihre Organisation konfrontiert ist, und Wege zu finden, wie ihre Daten zur Lösung dieser Probleme beitragen können. Dann kommt ein schwierigerer Teil – die Bestimmung des Typs und der Quelle der erforderlichen Daten. Ein erfahrener Datenwissenschaftler wählt die Daten immer aus den relevantesten Quellen aus – denjenigen, die wahrscheinlich einen Mehrwert liefern.
Dies ist jedoch etwas, das mit Erfahrung und Fachwissen einhergeht. Daher müssen Datenwissenschaftler ziemlich viel Zeit damit verbringen.
Das Sammeln der Daten macht jedoch nur die halbe Arbeit. Der Datenwissenschaftler muss auch sicherstellen, dass die Daten validiert und bereinigt werden. Wenn sie mit unvollständigen Daten arbeiten, sinken die Erfolgschancen exponentiell.
Grundlegende Grundlagen der Statistik für Data ScienceFang an zu zaubern. Wir meinen Analytik.
Wenn die Daten vollständig bereinigt sind, verbringt der Data Scientist seine verbleibende Zeit damit, Trends und Muster aus den Daten zu identifizieren. Dies ist ein weiterer problematischer Aspekt im Job eines Data Scientists, zumal es keine festgelegte Methode gibt, um diese Daten effizient zu analysieren. In den meisten Fällen ist es erforderlich, dass ein Datenwissenschaftler seine Tools und Algorithmen entwirft oder sie mit den vorhandenen optimiert. Das erfordert Offenheit und Experimentierfreude.
Weben Sie eine Geschichte.
Nach der Analyse der Datensätze kommt als nächstes der wichtigste Teil – die Datenvisualisierung. Die Data Scientists müssen ihre Ergebnisse vor einem Publikum präsentieren, das hauptsächlich aus Nicht-Technikern besteht, wie Stakeholdern und Marketingfachleuten des Unternehmens. Dies ist nicht immer eine tägliche Aufgabe, aber es muss häufig durchgeführt werden, um die Dinge in Bewegung zu halten. Die erhebliche Arbeitsbelastung des Datenwissenschaftlers besteht hier darin, eine Visualisierungstechnik zu entwickeln, die nicht nur die Essenz ihrer Daten erfasst, sondern auch alles auf ästhetisch ansprechende Weise präsentiert.
Die Rolle eines Datenwissenschaftlers ist äußerst dynamisch; Für sie ist kein Tag wie der andere. Ihre Aufgabe besteht darin, auf Trab zu sein und immer ihre Denkmütze aufzusetzen. Die Daten, mit denen sie arbeiten, die Probleme, die sie lösen möchten, und die Erkenntnisse, die sie entdecken möchten, ändern sich ständig. Das macht die Rolle eines Data Scientists so einzigartig und spannend.
Ein Leitfaden für Anfänger zur Datenwissenschaft und ihren AnwendungenMachen Sie jetzt einen Schritt voraus und entlarven Sie weitere solcher, manchmal absurder Mythen: Videos
Youtube-Video
Mythos Nr. 1: Sie müssen ein promovierter Statistiker sein . in der Statistik. Oder Sie müssen zumindest einen Abschluss in Statistik haben.
Ja, ein formaler Abschluss in Statistik stellt sicher, dass Sie vom ersten Tag an mit den besseren Praktiken in der Statistik vertraut sind. Aber halten Sie sich dort zurück – wenn Sie sich die Welt der Datenwissenschaft ansehen, werden Sie mehr Leute finden einen betriebswirtschaftlichen/nicht-mathematischen Hintergrund als die mathe-süchtigen „Raketenwissenschaftler“.

Mythos Nr. 2: Sie müssen ein Hardcore-Programmierer sein, um sich in der Datenwissenschaft hervorzuheben. Je härter, desto besser.
Wie der Mythos, den wir vor ein paar Zeilen besprochen haben, basiert auch dieser auf einer falschen Annahme über den Job des Datenwissenschaftlers. Die Leute gehen davon aus, dass ein Data Scientist das Schreiben von Zeilen mit Codes und Algorithmen und so weiter beinhaltet! Aber wenn Sie auf die Routine geachtet haben, die wir zuvor besprochen haben, werden Sie feststellen, dass es keine signifikante „Codierung“ gibt. Die meisten Algorithmen oder Methoden sind fertig verfügbar, es sind nur geringfügige Anpassungen erforderlich. Allerdings muss man dafür eine logische Denkweise haben.
Beginnen Sie mit Python mit Data ScienceMythos Nr. 3: Data Scientists sind keine Wissenschaftler im wahrsten Sinne des Wortes.
Jeder Wissenschaftler ist standardmäßig ein Datenwissenschaftler. Reine Wissenschaft hat immer mit Beobachtungsdaten koexistiert. Ohne die Fähigkeit, ihre Daten zu sichten, zu sortieren, zu strukturieren, zu klassifizieren, zu theoretisieren und zu präsentieren, kann kein Wissenschaftler Kohärenz in seine Studie bringen. Ebenso kann ein Datenwissenschaftler, der nicht tief in das Herz seiner Daten vorgedrungen ist, seine Ergebnisse nicht effektiv präsentieren. Statistische Kontrollen waren schon immer ein Fundament der reinen Wissenschaft, und jetzt sind sie die grundlegenden Aufgaben eines Datenwissenschaftlers. Wenn ein Datenwissenschaftler also die Trends und Muster im Verhalten der Kunden eines Unternehmens beobachtet und seine Ergebnisse anhand von Statistiken und realen Experimenten bestätigt, ist er schlicht und einfach ein Wissenschaftler.
Mythos Nr. 4: Datenwissenschaftler arbeiten an kostspieligen und komplizierten statistischen Tools, um ihre Arbeit zu erledigen.
Im Wesentlichen verlangt der Job eines Datenwissenschaftlers von ihm, in einem breiten Datenbestand nach verborgenen Trends und Mustern zu suchen. Dazu können sie benutzerfreundliche Visualisierungstools, suchgesteuerte Self-Service-Business-Intelligence-Tools, interaktive Datenexplorationstools oder sogar einfache Tools verwenden, die nicht viel Statistikkenntnisse erfordern. Nur um hinzuzufügen, viele Geschäftsanalysten auf der ganzen Welt können tiefgreifende Einblicke gewinnen, selbst wenn sie die Funktionen in einer primären Tabellenkalkulationsanwendung modellieren.
Mythos Nr. 5: Bei der Datenwissenschaft geht es darum, Daten in Hadoop-Cluster einzuspeisen und MapReduce zu verwenden. Einfach!
Wenn die Leute versuchen würden zu erforschen, bevor sie Mythen verbreiten, wären wir nicht hier. Wenn Sie mit einem Data Scientist sprechen, werden Sie feststellen, dass Data Science und Analytics weit mehr als Hadoop und MapReduce sind. Diese beiden sind nur zwei von vielen Tools. In den meisten Fällen verwendet ein erfolgreiches Data-Science-Projekt in verschiedenen Phasen eine Reihe von Tools. Daher wird von einem Datenwissenschaftler erwartet, dass er über alle wichtigen technologischen Fortschritte in diesem Bereich auf dem Laufenden ist, um bei Bedarf den richtigen Wechsel zu einem Tool oder einer Technologie vorzunehmen. Wenn es um Data Science geht, passt ein Schuh nicht allen, und es gibt kein magisches Ouija-Brett, um die Data-Science-Geister dazu zu bringen, mit uns Sterblichen zu sprechen.
Die wichtigsten Schritte zur Beherrschung der Datenwissenschaft, glauben Sie mir, ich habe sie ausprobiertWir hoffen, es hat Ihnen Spaß gemacht, Ihre Vision zu erweitern! Bleiben Sie bei uns; wir werden mit mehr solcher Mythbusters zurück sein.
Ist Ph.D. Pflicht, um Data Scientist zu werden?
Lassen Sie uns die Rolle eines Datenwissenschaftlers in zwei Bereiche unterteilen, um dies besser zu verstehen:
1. Applied Data Science-Rolle – Die Arbeit mit aktuellen Algorithmen und das Verständnis ihrer Funktionsweise ist der Hauptfokus von Applied Data Science. Anders ausgedrückt geht es darum, diese Methoden in Ihr Projekt zu integrieren. Die Mehrheit der Personen, die mit einer Data Science-Karriere zu tun haben, fällt in diese Kategorie. Die meisten Stellenangebote und Stellenbeschreibungen werden üblicherweise für diese Rolle gesehen.
2. Forschungsrolle – Wenn Sie an einer Forschungsrolle interessiert sind, benötigen Sie möglicherweise einen Ph.D. Eine Forschungsrolle in Data Science umfasst das Erstellen neuer Algorithmen von Grund auf, deren Erforschung, das Verfassen wissenschaftlicher Arbeiten usw.
Wird Künstliche Intelligenz in naher Zukunft Data Scientists ersetzen?
In der Entwicklung von Data Science ist es plausibel zu sagen, dass künstliche Intelligenz schließlich die von Data Scientists manuell durchgeführten Operationen ersetzen wird. Ein Computer kann jedoch nicht selbst entscheiden, ob er die Daten bereinigt, ein effizientes Modell entwickelt, an der Modellkorrektheit arbeitet und so weiter. Diese Entscheidungen werden von jemandem getroffen, der über die erforderlichen Qualifikationen verfügt. Selbst wenn Initiativen zur Entwicklung fortschrittlicherer Algorithmen versucht werden, in der Hoffnung, den Bedarf an Datenwissenschaftlern zu verringern, ist dies unwahrscheinlich, dass dies sehr bald geschehen wird. Selbst mit den fortschrittlichsten Algorithmen wäre jemand mit gesundem Urteilsvermögen und Fachkenntnissen erforderlich, um die Unternehmen am Laufen zu halten.
Kann ich Data Scientist werden, nur indem ich die Data Science-Tools beherrsche?
Es ist ein weit verbreiteter Irrglaube, dass man sich als Datenwissenschaftler qualifiziert, wenn man weiß, wie man statistische Tools und Bibliotheken verwendet. Die Arbeit mit diesen Tools wird Ihnen helfen, sie besser zu verstehen, aber Data Science ist eine Reihe von Fähigkeiten, die eine Vielzahl von Fähigkeiten kombinieren. Das Erlernen der dazugehörigen Tools ist nur ein Aspekt des Prozesses. Neben der Kenntnis von Tools wie Python oder R sind auch Fähigkeiten wie Problemlösung, ein gründliches Verständnis von Konzepten und Informationen über die richtigen Anwendungen, die für ein Geschäftsproblem erforderlich sind, von entscheidender Bedeutung.