Naucz się nauki o danych — ostateczny przewodnik, jak zostać naukowcem ds. danych

Opublikowany: 2019-07-04

Pojawienie się Big Data dało początek jednej z najbardziej lukratywnych karier XXI wieku – Data Scientist. Termin „naukowiec ds. danych” od dłuższego czasu pojawia się na pierwszych stronach gazet.

W rzeczywistości Data Scientist jest jednym z 3 najlepszych stanowisk pracy na LinkedIn.

Powyższy fakt świadczy o tym, że profesjonaliści z różnych środowisk – matematyki, komputerów, zarządzania, statystyki – chcą jak najlepiej wykorzystać tę okazję.

Ale tak jak w przypadku wszystkiego, co jest często rzucane, termin „nauka o danych”, a zatem praca naukowca zajmującego się danymi, stał się w dużej mierze niejasny. Tak więc, zanim porozmawiamy o danym temacie, przyjrzyjmy się, czym zajmuje się Data Scientist.

Spis treści

Czym zajmuje się analityk danych

Mówiąc prościej, Data Scientist to doświadczony specjalista, który zajmuje się szeroko pojętymi Big Data. Naukowcy zajmujący się danymi wykorzystują kombinację uczenia maszynowego, sztucznej inteligencji, statystyk i narzędzi analitycznych do wydobywania istotnych informacji z ogromnych zbiorów danych. W przeciwieństwie do poprzednich, kiedy zbiory danych były w większości ustrukturyzowane, dane, którymi dysponujemy dzisiaj, są w dużej mierze nieustrukturyzowane. Tak więc, naturalnie, Data Scientists spędzają znaczną ilość czasu na gromadzeniu, czyszczeniu i niszczeniu danych, aby umożliwić ich analizę i interpretację.

Rola zawodowa Data Scientist obejmuje połączenie umiejętności matematycznych, statystycznych, analitycznych i programistycznych. W każdy typowy dzień pracy specjalista ds. danych pełni wiele różnych ról przez cały dzień – od bycia inżynierem oprogramowania i eksploratorem danych po analityk danych i rozwiązywanie problemów, specjalista ds. danych pełni również funkcję ważnego łącza komunikacyjnego między działem IT oraz domeny biznesowe przedsiębiorstwa opartego na danych. To właśnie Data Scientists pomagają analitykom biznesowym w wykorzystaniu interpretowanych danych w sposób, który może zoptymalizować korzyści biznesowe.

Mówiąc dokładniej, Data Scientists pomagają firmom zarządzać danymi i interpretować je w celu rozwiązywania złożonych problemów biznesowych.

Jeśli potrafisz sobie wyobrazić, że masz do czynienia z Big Data i w przyszłości wykonujesz tak różnorodne obowiązki, praca Data Scientist to Twoje zawodowe powołanie! Aby jednak zostać naukowcem zajmującym się danymi, musisz najpierw zdobyć podstawowe umiejętności, które są nieodłączne w tym zawodzie.

Jak wspomnieliśmy wcześniej, Data Science wymaga określonych umiejętności. Dlatego, aby zostać Data Scientistą, musisz posiadać następujący zestaw umiejętności:

Spryt w programowaniu

Aby zostać naukowcem danych, pierwszą zasadą jest posiadanie nieskazitelnego smykałki do programowania. Musisz więc mieć solidną wiedzę na temat zarówno statystycznych języków programowania, takich jak Python, R lub Java, jak i języków zapytań do baz danych, takich jak SQL, CQL i tak dalej. Firmy również szukają kandydatów, którzy władają co najmniej dwoma lub więcej niż dwoma językami programowania.

Znajomość rachunku różniczkowego wielu zmiennych i algebry liniowej

Możesz się zastanawiać, dlaczego specjalista ds. danych musiałby opanować rachunek różniczkowy wielu zmiennych i algebrę liniową. Dzieje się tak po prostu dlatego, że solidne zrozumienie rachunku wielu zmiennych i algebry liniowej jest niezwykle korzystne dla organizacji opartych na danych, w których nawet niewielka zmiana/ulepszenie w optymalizacji algorytmów może zapewnić przełomowe możliwości biznesowe.

Znajomość podstaw statystyki

Duża część pracy Data Scientist wymaga zajmowania się statystyką. Każdy początkujący specjalista ds. danych musi posiadać dogłębną wiedzę na temat pojęć statystycznych, takich jak statystyka opisowa (średnia, mediana, zakres, odchylenie standardowe itp.), teoria prawdopodobieństwa, twierdzenie Bayesa, eksploracyjna analiza danych, percentyle i wartości odstające, zmienne losowe, funkcja rozkładu skumulowanego (CDF), żeby wymienić tylko kilka. Im lepiej zrozumiesz te pojęcia, tym lepiej będziesz w stanie przewidzieć trafność podejść statystycznych.

Zrozumienie sztucznej inteligencji (AI) i uczenia maszynowego (ML)

AI i ML zjadły dwie integralne części Data Science, a zatem biegłość w nich jest koniecznością. Co zaskakujące, niewielu naukowców zajmujących się danymi jest dobrze zaznajomionych z koncepcjami i technikami AI i ML. Jeśli więc chcesz wyprzedzić konkurencję, lepiej odświeżysz koncepcje sztucznej inteligencji i uczenia maszynowego, w tym nadzorowaną ML, nienadzorowaną ML, uczenie się ze wzmacnianiem, przetwarzanie języka naturalnego (NLP), silniki rekomendacji, wykrywanie wartości odstających i analizę przetrwania. inne rzeczy. Ponadto, jeśli jesteś biegły w technikach ML, takich jak drzewa decyzyjne, regresja logistyczna, grupowanie k średnich, algorytm klasyfikatora Naive Bayes itp., możesz rozwiązać wiele problemów związanych z Data Science.

Zainteresowania walką o dane

Naukowcy zajmujący się danymi często mają do czynienia z dużymi, nieustrukturyzowanymi/częściowo ustrukturyzowanymi zestawami danych, które stale rosną z minuty na minutę. W rezultacie muszą włożyć dużo wysiłku w organizację i czyszczenie niechlujnych i złożonych zestawów danych, aby umożliwić łatwą analizę i interpretację. Ten proces jest znany jako Data Wrangling. Naukowcy zajmujący się danymi polegają na tym, że ręcznie konwertują lub mapują dane z jednego formatu surowego na inny, wygodniejszy format, dzięki czemu łatwo jest utrzymać uporządkowanie danych i odpowiednie do interpretacji i analizy. Dlatego jako początkujący Data Scientist musisz wiedzieć, jak radzić sobie z niedoskonałościami i usterkami danych.

Znajomość wizualizacji danych

Dla profesjonalistów zajmujących się biznesową stroną firmy trudno jest zrozumieć surowe dane. To tutaj Data Scientists pełnią rolę kluczowego ogniwa łączącego skrzydła IT i biznesowe. Po przeanalizowaniu i zinterpretowaniu danych, Data Scientists wizualizują dane za pomocą narzędzi do wizualizacji danych, takich jak Tableau, Matplottlib, ggplot i d3.js. Ponadto przekazują swoje odkrycia zarówno personelowi technicznemu, jak i nietechnicznemu, aby ułatwić ich zrozumienie. Dzięki wizualnej reprezentacji danych nietechnicznym członkom łatwiej jest zrozumieć, w jaki sposób mogą wykorzystać wgląd w dane do optymalizacji operacji biznesowych i być o krok przed konkurencyjnymi firmami.

Poczucie intuicji danych

Oprócz tego, że jest niezwykle przydatnym narzędziem na co dzień dla naukowców zajmujących się danymi, Data Intuition jest również kluczową częścią rozmów kwalifikacyjnych. Podczas rozmów kwalifikacyjnych pracodawcy przetestują wszystkie Twoje umiejętności, w tym intuicyjną zdolność rozumienia pojęć związanych z Data Science. Nazywamy to „intuicją danych”. Chociaż prawdą jest, że musisz mieć silne umiejętności matematyczne, statystyczne i wizualizacyjne, powinieneś również być w stanie określić, jakich metod i technik użyć do rozwiązania konkretnego problemu, jakich narzędzi użyć i tak dalej.

Teraz, gdy już wiesz, jakie umiejętności musisz zdobyć, aby zostać analitykiem danych, przyjrzyjmy się krokom, które Cię tam zaprowadzą!

Naukowcy zajmujący się danymi: mity kontra rzeczywistość

Jak zostać analitykiem danych – ścieżka uczenia się

Droga do zostania naukowcem danych jest dość prosta. Zaczyna się od początku. Przejdźmy przez to!

Zaczynam to wszystko.

Pierwszy krok obejmuje zrozumienie, o co chodzi w Data Science. Oprócz poznania wszystkich podstawowych pojęć Data Science, jest to etap, w którym dokonujesz wyboru pierwszego języka programowania i doskonalisz go. Pierwsze kilka miesięcy będzie polegało na kodowaniu w wybranym przez Ciebie języku. Gdy jesteś biegły w kodowaniu w określonym języku, nauka innych języków programowania stanie się znacznie wygodniejsza.

Poznanie podstaw matematyki i statystyki.

Matematyka i statystyka stanowią podstawę algorytmów ML. Oczywiście będziesz musiał nauczyć się podstawowych pojęć matematycznych i statystycznych, takich jak średnia, mediana, tryb, wariancja, prawdopodobieństwo warunkowe, testowanie hipotez, algebra liniowa, rachunek różniczkowy, statystyka opisowa i statystyka wnioskowania.

Nauka koncepcji ML i ich zastosowań

Po opanowaniu pojęć matematycznych i statystycznych nadszedł czas, aby przejść do bardziej zaawansowanego obszaru – uczenia maszynowego. Algorytmy ML znalazły zastosowanie w wielu rzeczywistych scenariuszach — od wykrywania oszustw i silników rekomendacji po analizę sentymentu opinii klientów. Oprócz wspomnianych wcześniej koncepcji, będziesz musiał także nauczyć się o głębokim uczeniu, sztucznych sieciach neuronowych, uczeniu indukcyjnym itp. Stopniowo, w miarę jak przyswajasz sobie te koncepcje uczenia maszynowego, będziesz musiał eksperymentować z nimi w rzeczywistości. modele światowe poprzez różne strategie walidacji.

Wprowadzenie do głębokiego uczenia

Podzbiór ML, Deep Learning, zajmuje się algorytmami, które czerpią inspirację ze struktury i funkcji sztucznych sieci neuronowych podobnych do mózgu. Te sztuczne sieci neuronowe imitują funkcjonowanie ludzkiego mózgu. Modele głębokiego uczenia mają co najmniej trzy warstwy, w których każda warstwa otrzymuje informacje z poprzedniej warstwy i przekazuje je do następnej. Musisz w pełni zrozumieć działanie głębokiego uczenia się, a aby je zrozumieć, musisz dobrze znać regresję liniową i logistyczną.

Architektury głębokiego uczenia

Po oswojeniu się z Deep Learning, musisz zagłębić się w zaawansowane architektury Deep Learning, takie jak AlexNet, GoogleNet, rekurencyjne sieci neuronowe (RNN), konwolucyjne sieci neuronowe (CNN), regionalne CNN (RCNN), SegNet, generatywna sieć kontradyktoryjna (GAN) itp. Ponieważ są to dość obszerne koncepcje, musisz poświęcić kilka tygodni wyłącznie na zrozumienie ich funkcjonowania.

Wizja komputerowa

Wizja komputerowa (CV) to naukowa dziedzina badań, która ma na celu znalezienie sposobów i opracowanie technik, które pozwolą komputerom zrozumieć treści cyfrowe, takie jak filmy i zdjęcia. Obejmuje „pozyskiwanie, przetwarzanie, analizowanie i rozumienie obrazów cyfrowych” w celu uzyskania wysoce wyspecjalizowanych danych ze świata rzeczywistego w celu dalszego tworzenia informacji numerycznych/symbolicznych. Będąc obecnie jednym z najgorętszych obszarów eksploracji, każdy początkujący Data Scientist musi posiadać dobrą znajomość wizji komputerowej.

NLP

Przetwarzanie języka naturalnego jest integralną częścią Data Science. Dlatego każdy Data Scientist musi dobrze rozumieć NLP i jego techniki. Przede wszystkim NLP stara się przetwarzać, analizować i rozumieć dane oparte na języku naturalnym (tekst, mowa itp.) poprzez kombinację zaawansowanych narzędzi i algorytmów. Zajmując się NLP, będziesz uczyć się o odzyskiwaniu danych (wraz ze zbieraniem danych z sieci), roztrząsaniem tekstu, rozpoznawaniem nazwanego podmiotu, częściami znakowania mowy, analizowaniem płytkim, analizowaniem okręgów i zależności oraz analizą emocji i nastrojów.

Myśli końcowe

Każdego dnia globalne dane stale rosną, a wraz z nimi poszerza się zakres innowacji i kreacji. Wraz z ciągłym rozwojem technologii Big Data i Data Science, portfolio stanowisk naukowców zajmujących się danymi również będzie się zmieniać zgodnie z duchem czasu. Jak więc nadążasz? Poprzez podnoszenie umiejętności. Data Science to dynamiczna dziedzina, która wciąż się rozwija. Aby zostać naukowcem zajmującym się danymi, musisz zawsze żywić niezaspokojone pragnienie wiedzy i uczenia się. Jeśli to zrobisz, nic nie powstrzyma Cię przed błyszczeniem w dziedzinie Data Science.

Czy terminy uczenie głębokie i uczenie maszynowe różnią się od siebie?

Uczenie maszynowe jest wykorzystywane w wielu aplikacjach na naszych telefonach, w tym w wyszukiwarkach, filtrach spamu, witrynach internetowych oferujących spersonalizowane rekomendacje, oprogramowaniu bankowym wykrywającym transakcje nieparzyste i rozpoznawaniu mowy. Głębokie uczenie to rodzaj uczenia maszynowego, w którym algorytmy są zorganizowane w warstwy w celu zbudowania „sztucznej sieci neuronowej”, która może samodzielnie uczyć się i podejmować decyzje. Głębokie uczenie jest podzbiorem uczenia maszynowego w sensie praktycznym. W rzeczywistości głębokie uczenie to rodzaj uczenia maszynowego, który działa podobnie do tradycyjnego uczenia maszynowego. W rezultacie nazwy są czasami używane zamiennie. Chociaż proste modele uczenia maszynowego z czasem poprawiają się niezależnie od zadania, jakie otrzymują, nadal wymagają pewnego nadzoru. Za pomocą modelu głębokiego uczenia algorytm może wykorzystać swoją sieć neuronową do oceny, czy prognoza jest poprawna, czy nie.

Czy przetwarzanie języka naturalnego (NLP) jest ważne w nauce o danych?

Sztuka i nauka zbierania informacji z tekstu i umieszczania ich w obliczeniach i algorytmach jest znana jako przetwarzanie języka naturalnego (NLP). Jest to pozycja obowiązkowa dla wszystkich naukowców zajmujących się danymi, biorąc pod uwagę rozprzestrzenianie się danych w Internecie i mediach społecznościowych. NLP ma kluczowe znaczenie, ponieważ pomaga w rozwiązywaniu niejednoznaczności języka i zapewnia cenną strukturę matematyczną danych dla różnych dalszych aplikacji, takich jak rozpoznawanie mowy i analiza tekstu. W obliczu zadania analizy i konstruowania modeli z danych tekstowych konieczne jest zapoznanie się z podstawowymi zadaniami Data Science.

Co powinno zawierać portfolio data science?

Silne portfolia związane z nauką o danych generalnie pokazują talent techniczny kandydata, oryginalność w opracowywaniu tematów badawczych, umiejętność analizowania danych i wyciągania wniosków, chęć współpracy z innymi oraz zdolność do jasnego wyjaśniania swoich wyników odbiorcom, którzy nie są techniczni. Twoje portfolio powinno ogólnie podkreślać twoją najlepszą lub najnowszą pracę. Chociaż portfele analizy danych są często wykorzystywane do prezentowania Twojej pracy, powinny również podkreślać Twoją osobowość, zdolności komunikacyjne i markę osobistą.