Naukowcy zajmujący się danymi: mity a rzeczywistość

Opublikowany: 2018-04-05

Wszystko, co nabiera tempa, szybko staje się tym, o czym wszyscy mówią. A im więcej ludzi o czymś mówi, tym więcej nawarstwia się nieporozumień i mitów. Data Science and Analytics to jedna z takich dziedzin, która stale rośnie, a wraz z nią rośnie liczba powiązanych mitów.

Dzisiaj zamierzamy obalić niektóre z tych mitów i nieporozumień dotyczących życia i pracy naukowców zajmujących się danymi. Ale zanim przejdziemy do tego, najpierw zrozummy typowy dzień z życia naukowca danych.

Naukowiec ds. danych

Organizacja ma mnóstwo danych, które gromadziła na przestrzeni czasu z różnych źródeł i w różnych formatach. Teraz postanowili coś z tym zrobić. Chcą, aby ich dane się liczyły. Do kogo się zwracają?

Naukowcy zajmujący się danymi!
Tak, naukowcy zajmujący się danymi, których większość myli jako nadprzyrodzone istoty. Ci ludzie są sercem i duszą zespołu analityki danych w każdej organizacji. Zajmują ważne stanowisko i chociaż może cię to zaskoczyć, ich zwykły dzień jest zupełnie jak typowy dzień każdego innego pracownika umysłowego.

Spis treści

Spotkania, spotkania i jeszcze trochę spotkań!

Analitycy danych muszą uczestniczyć w spotkaniach, głównie codziennie, aby zebrać wymagania, omówić wykonaną pracę i zaplanować pracę na dany dzień. Są też spotkania wewnętrzne, które są ważne dla celów organizacyjnych i przezwyciężania problemów biznesowych. Podsumowując, celem tych spotkań jest lepsze zrozumienie problemów i upewnienie się, że wszyscy w organizacji są na dobrej drodze.

Szukaj danych i spraw, by były nieskazitelne!

Część ich dnia poświęca na identyfikowanie rzeczywistych problemów, z jakimi boryka się ich organizacja, i szukanie sposobów, aby ich dane pomogły w rozwiązywaniu tych problemów. Potem przychodzi trudniejsza część – określenie rodzaju i źródła wymaganych danych. Doświadczony analityk danych zawsze wybiera dane z najbardziej odpowiednich źródeł – tych, które mogą zapewnić wartość.

Jest to jednak coś, co wiąże się z doświadczeniem i wiedzą. Dlatego naukowcy zajmujący się danymi muszą poświęcić temu sporo czasu.

Jednak zbieranie danych to tylko połowa pracy. Analityk danych musi również upewnić się, że dane są zweryfikowane i oczyszczone. Jeśli pracują z niedoskonałymi danymi, szanse na sukces maleją wykładniczo.

Podstawowe podstawy statystyki dla nauki o danych

Zajmij się magią. Mamy na myśli analitykę.

Po całkowitym oczyszczeniu danych specjalista zajmujący się danymi spędza pozostały czas na identyfikowaniu trendów i wzorców na podstawie danych. Jest to kolejny problematyczny aspekt pracy data scientist, zwłaszcza że nie ma ustalonej metody efektywnej analizy tych danych. Najczęściej wymaga to od analityka danych zaprojektowania narzędzi i algorytmów lub dostosowania ich do istniejących. Wymaga to otwartego umysłu i chęci do eksperymentowania.

Stwórz historię.

Po analizie zbiorów danych następuje najważniejsza część – wizualizacja danych. Analitycy danych muszą zaprezentować swoje odkrycia przed publicznością, która w większości nie jest związana z technologią, jak interesariusze i marketerzy firmy. Nie zawsze jest to codzienne zadanie, ale należy to robić często, aby wszystko było w ruchu. Znaczące obciążenie pracą naukowców zajmujących się danymi polega na wymyśleniu techniki wizualizacji, która nie tylko oddaje istotę ich danych, ale także przedstawia wszystko w estetyczny sposób.

Rola naukowca danych jest niezwykle dynamiczna; żadne dwa dni nie są dla nich takie same. Ich praca polega na tym, aby być na nogach i zawsze mieć na głowie myślący kapelusz. Dane, z którymi pracują, problemy, które starają się rozwiązać, oraz spostrzeżenia, które chcą odkryć, stale się zmieniają. To właśnie sprawia, że ​​rola naukowca danych jest tak wyjątkowa i ekscytująca.

Przewodnik dla początkujących po analizie danych i jej zastosowaniach

A teraz zrób krok do przodu i obal więcej takich, czasem niedorzecznych mitów: wideo

Film z YouTube

Mit 1: Musisz być ekspertem w dziedzinie statystyki z tytułem doktora w statystykach. Albo przynajmniej musisz mieć stopień naukowy w dziedzinie statystyki.

Tak, posiadanie formalnego dyplomu ze statystyki zapewni, że będziesz na bieżąco z lepszymi praktykami w statystyce od pierwszego dnia. Jednak trzymaj tam swoje konie – jeśli spojrzysz na świat nauki o danych, znajdziesz więcej osób z wykształcenie menedżerskie/niematematyczne niż uzależnieni od matematyki „naukowcy rakietowi”.

Mit 2: Musisz być zagorzałym programistą, aby odnosić sukcesy w nauce o danych. Im bardziej hardcore, tym lepiej.

Ponownie, podobnie jak mit, o którym mówiliśmy zaledwie kilka linijek temu, również i to opiera się na fałszywym założeniu o pracy badacza danych. Ludzie zakładają, że bycie naukowcem danych wymaga pisania wierszy kodów i algorytmów i tak dalej! Ale jeśli zwrócisz uwagę na rutynę, którą omówiliśmy wcześniej, zdasz sobie sprawę, że nie ma w tym żadnego znaczącego „kodowania”. Większość algorytmów lub metod jest dostępna w postaci gotowej z niewielkimi zmianami. Jednak, aby to zrobić, musisz mieć logiczne nastawienie.

Rozpocznij naukę o danych w Pythonie

Mit 3: Naukowcy zajmujący się danymi nie są naukowcami w żadnym sensownym znaczeniu tego słowa.

Każdy naukowiec jest domyślnie naukowcem zajmującym się danymi. Czysta nauka zawsze współistniała z danymi obserwacyjnymi. Bez możliwości przesiewania, sortowania, strukturyzowania, klasyfikowania, teoretyzowania i prezentowania swoich danych żaden naukowiec nie jest w stanie zapewnić spójności swoim badaniom. Podobnie, naukowiec zajmujący się danymi, który nie zagłębił się głęboko w swoje dane, nie może skutecznie zaprezentować swoich odkryć. Kontrole statystyczne zawsze były podstawą czystej nauki, a teraz są podstawowymi obowiązkami naukowca zajmującego się danymi. Tak więc, jeśli analityk danych obserwuje trendy i wzorce w zachowaniu klientów organizacji i potwierdza swoje odkrycia za pomocą statystyk i eksperymentów w świecie rzeczywistym, jest naukowcem, prostym i prostym.

Mit 4: Naukowcy zajmujący się danymi pracują nad kosztownymi i skomplikowanymi narzędziami statystycznymi, aby wykonać swoją pracę.

Zasadniczo praca analityka danych wymaga od nich poszukiwania ukrytych trendów i wzorców w szerokim zestawie danych. W tym celu mogą korzystać z przyjaznych dla użytkownika narzędzi do wizualizacji, samoobsługowych narzędzi analizy biznesowej opartych na wyszukiwaniu, interaktywnych narzędzi do eksploracji danych, a nawet prostych narzędzi, które nie wymagają dużej znajomości statystyki. Wystarczy dodać, że wielu analityków biznesowych na świecie może znaleźć głęboki wgląd nawet podczas modelowania funkcji w podstawowej aplikacji arkusza kalkulacyjnego.

Mit 5: Nauka o danych polega na dostarczaniu danych do klastrów Hadoop i korzystaniu z MapReduce. Prosty!

Gdyby ludzie próbowali odkrywać przed szerzeniem mitów, nie byłoby nas tutaj. Jeśli porozmawiasz z naukowcem zajmującym się danymi, zdasz sobie sprawę, że nauka i analityka danych to znacznie więcej niż Hadoop i MapReduce. Te dwa to tylko dwa z wielu narzędzi. Najczęściej udany projekt nauki o danych wykorzystuje szereg narzędzi na różnych etapach. W związku z tym oczekuje się, że badacz danych będzie na bieżąco z wszelkimi ważnymi postępami technologicznymi zachodzącymi w tej dziedzinie, aby w razie potrzeby dokonać odpowiedniego przestawienia się na dowolne narzędzie lub technologię. Jeśli chodzi o Data Science, jeden but nie pasuje do wszystkich i nie ma magicznej tablicy Ouija, która sprawiłaby, że duchy data science rozmawiają ze śmiertelnikami.

Najważniejsze kroki do opanowania nauki o danych, zaufaj mi, że ich wypróbowałem

Mamy nadzieję, że podobało Ci się poszerzanie swojej wizji! Trzymaj się z nami; wrócimy z większą liczbą takich Pogromców mitów.

Czy doktorat aby zostać naukowcem danych?

Podzielmy rolę analityka danych na dwa obszary, aby lepiej to zrozumieć:

1. Rola Applied Data Science — praca z aktualnymi algorytmami i zrozumienie ich działania jest głównym celem Applied Data Science. Innymi słowy, chodzi o włączenie tych metod do swojego projektu. Większość osób związanych z karierą Data Science należy do tej kategorii. Większość ofert pracy i opisy stanowisk są powszechnie postrzegane w tej roli.
2. Rola badawcza – Jeśli jesteś zainteresowany rolą badawczą, możesz potrzebować doktoratu. Rola badawcza w Data Science obejmuje tworzenie nowych algorytmów od podstaw, badanie ich, pisanie artykułów naukowych itp.

Czy sztuczna inteligencja zastąpi Data Scientists w najbliższej przyszłości?

W ewolucji Data Science można śmiało powiedzieć, że sztuczna inteligencja w końcu zastąpi operacje wykonywane ręcznie przez Data Scientists. Jednak komputer nie może sam zdecydować, czy wyczyścić dane, opracować wydajny model, popracować nad poprawnością modelu i tak dalej. Wyborów tych dokonuje ktoś, kto posiada niezbędne kwalifikacje. Nawet jeśli podejmowane są próby opracowania bardziej zaawansowanych algorytmów w nadziei na zmniejszenie zapotrzebowania na naukowców zajmujących się danymi, jest to mało prawdopodobne, aby nastąpiło to bardzo szybko. Nawet przy najbardziej zaawansowanych algorytmach utrzymanie funkcjonowania firmy nadal wymagałoby kogoś z rozsądnym osądem i wiedzą dziedzinową.

Czy mogę zostać naukowcem zajmującym się danymi, po prostu opanowując narzędzia Data Science?

Jest to powszechne błędne przekonanie, że umiejętność korzystania z narzędzi statystycznych i bibliotek kwalifikuje Cię jako naukowca danych. Praca z tymi narzędziami pomoże Ci lepiej je zrozumieć, ale nauka o danych to zestaw umiejętności, który łączy różne umiejętności. Poznanie narzędzi, które się z tym wiążą, to tylko jeden aspekt tego procesu. Oprócz znajomości narzędzi, takich jak Python lub R, niezbędne są również umiejętności, takie jak rozwiązywanie problemów, dogłębne zrozumienie pojęć i informacje o poprawnych aplikacjach niezbędnych do rozwiązania problemu biznesowego.