Przewodnik dla początkujących po naukach o danych i ich zastosowaniach
Opublikowany: 2018-02-24Słowa Data, Science lub Data Science nie wystarczą, by wzbudzić wśród czytelników uczucie strachu lub przerażenia. Szczerze mówiąc, są zbyt urocze, żeby być nawet odpychające, nie mówiąc już o okropnościach, w przeciwieństwie do słów – teselacja, k-średnia, k-najbliżsi sąsiedzi, euklidesowe drzewo o minimalnej rozpiętości i więcej tego rodzaju – słowa, które ty. Spotkam się podczas Twojej podróży z Data Science.
Chociaż „Nauka o danych” nie wzbudza strachu, nie wyjaśnia również niczego na temat tej dziedziny. Każdy wie, czym są dane; przynajmniej w sensie laików. Dane to w zasadzie tylko surowe bity informacji. Z drugiej strony nauka może oznaczać dowolną grupę czynności wykonywanych zgodnie z metodą naukową.
Idąc więc tą logiką, możemy wywnioskować, że Data Science to dziedzina, która wykorzystuje metody naukowe na dużych porcjach danych. Ale na co? A czym dokładnie jest Data Science?
To jest nasz temat do dzisiejszej dyskusji. Po przeczytaniu tego artykułu będziesz w stanie odpowiedzieć na następujące pytania:
- Co to jest nauka o danych?
- Jakie są różne fazy potoku Data Science?
- Gdzie mogę zobaczyć Data Science w pracy?
Spis treści
Co to jest nauka o danych?
Wikipedia, matka wszystkich encyklopedii, definiuje Data Science jako dziedzinę skoncentrowaną na wydobywaniu wiedzy i spostrzeżeń z danych przy użyciu metod naukowych. Jednak nie mówi ci, że my, ludzie, urodziliśmy się naukowcami danych. W jaki sposób? Zobaczmy.
Obserwujesz otaczający cię świat bez względu na to, co robisz. W każdym przebudzeniu pobierasz szczegóły ze swojego otoczenia i przekazujesz je swojemu mózgowi. Następnie przetwarzasz te obserwacje w dane i wykorzystujesz je do zrozumienia rzeczy wokół ciebie, odnajdując znaczenia i przewidując, co może się wydarzyć w następnej kolejności.
Kiedy spóźnisz się do pracy o godzinę, dzwonisz i mówisz, że będziesz pracować z domu. Wykorzystujesz swoje wcześniejsze obserwacje ruchu i postojów w taki sposób, że dochodzisz do wniosku, że prawdopodobnie stracisz czas w korkach, niż zyskasz będąc w biurze. Kiedy wejdziesz do swojego pokoju i zobaczysz leżące dookoła opakowania po czekoladkach, zwykła analiza powie ci, że ktoś jadł twoje czekoladki pod twoją nieobecność.
4 najważniejsze role w analizie danych, na które należy zwrócić uwagę
W każdym z wymienionych przypadków, jeśli wykonasz te obliczenia i przewidywania w swoim umyśle, bez zapisywania tego, jesteś normalnym człowiekiem. Z drugiej strony, jeśli pójdziesz dalej i zapiszesz te punkty danych (oczywiście w formacie do odczytu maszynowego), a następnie spróbujesz opracować algorytm (lub procedury) i programy komputerowe do uruchamiania aplikacji. Jeśli wynik tego „hipotetycznego” systemu jest taki, że „ruch będzie do niczego” lub „twoi współlokatorzy zjedli twoje czekoladki”, to bingo! Jesteś naukowcem zajmującym się danymi.
To tak proste (teoretycznie), jak sugeruje powyższa analogia. Pod koniec dnia masz dane, procedury, algorytmy i narzędzia. Wystarczy wydobyć z niego wiedzę. Aby zrobić to skutecznie, musisz przestrzegać przepływu pracy/potoku. Zobaczmy, co zawiera typowy potok Data Science.
Potok analizy danych
Potok data science mówi o przebiegu całego procesu – od uzyskania pożądanych danych po wykonanie dokładnych obliczeń i prognoz. Przyjrzyjmy się elementom tego potoku:

Uzyskaj swoje dane
Jest to domyślnie pierwsza rzecz, którą musisz zrobić, aby ćwiczyć Data Science — zdobądź dane! Tylko małe ostrzeżenie – jest kilka rzeczy, które musisz wziąć pod uwagę podczas pozyskiwania danych. Musisz najpierw zidentyfikować wszystkie swoje zbiory danych (mogą pochodzić z Internetu lub wewnętrznych/zewnętrznych baz danych). Następnie należy wyodrębnić dane do użytecznego formatu (CSV, XML, JSON itp.)
Oto najlepsze umiejętności i narzędzia do opanowania, aby zostać analitykiem danych
Wymagane umiejętności
- Zarządzanie bazą danych: SQL lub NoSQL, w zależności od potrzeb i wymagań.
- Przepytywanie tych baz danych
- Pobieranie nieustrukturyzowanych danych w postaci filmów, audio, tekstów, dokumentów itp.
- Pamięć rozproszona: Hadoop, Apache Spark lub Apache Flink.
Szorowanie / czyszczenie danych
Czyszczenie danych powinno mieć najwyższą wagę, ponieważ ostateczny wynik twojego systemu jest tylko tak dobry, jak dane, które w nim umieszczasz. Czyszczenie odnosi się do usuwania anomalii, uzupełniania pustych/brakujących wartości, sprawdzania spójności danych i innych tego typu rzeczy.
Wymagane umiejętności
- Język skryptowy: Python, R, SAS
- Narzędzia do przetwarzania danych: Python Pandas, R
- Przetwarzanie rozproszone: Hadoop, MapReduce/Spark
Eksploracja (eksploracyjna analiza danych)
Teraz, gdy dane są czyste, zaczniesz rozumieć, jakie wzorce mają twoje dane. W tej fazie wykorzystywane są różne rodzaje wizualizacji i modelowania statystycznego. Zasadniczo ta faza ma na celu wydobycie ukrytego znaczenia z naszych danych.
Wiele się dzieje w dziedzinie eksploracyjnej analizy danych. Jeśli czujesz, że spodoba ci się to, nie zapomnij przeczytać naszego artykułu na ten temat.
Aby uzyskać lepsze wyniki w tej fazie, musisz mieć mrowienie „zmysłów pajęczych”. Zaszalej i wypatruj dziwnych wzorów lub trendów – zawsze szukaj czegoś po wyjęciu z pudełka. Jednak robiąc to, nie zapominaj o problemie, który chcesz rozwiązać. Nie wychodź za bardzo z pudełka. Eksploracyjna analiza danych to sztuka, a artysta powinien zawsze mieć na uwadze publiczność.
Wymagane umiejętności
- Biblioteki Pythona: Numpy, Matplotlib, Pandas, Scipy
- Biblioteki R: GGplot2, Dplyr
- Statystyka wnioskowa
- Wizualizacja danych
- Eksperymentalny projekt
Modelowanie (uczenie maszynowe)
To jest najfajniejsza część. Modele to po prostu ogólne reguły w sensie statystycznym. Model uczenia maszynowego to po prostu narzędzie w Twoim zestawie narzędzi. Masz dostęp do tak wielu algorytmów z różnymi przypadkami użycia i celami, że proste badania doprowadzą Cię do algorytmu, który odpowiada Twoim potrzebom biznesowym.
Po oczyszczeniu danych i ustaleniu podstawowych funkcji (w fazie EDA), użycie modelu statystycznego jako narzędzia predykcyjnego poprawi ogólne podejmowanie decyzji. Zamiast patrzeć wstecz, aby zobaczyć „co się stało?”, analityka predykcyjna ma na celu odpowiedzieć „co dalej?” i „jak powinniśmy się do tego zabrać?”.

Wymagane umiejętności
- Uczenie maszynowe: nadzorowane/nienadzorowane/wzmocnione algorytmy uczenia
- Metody oceny
- Biblioteki uczenia maszynowego: Python (Sci-kit Learn) / R (CARET)
- Algebra liniowa i rachunek różniczkowy wielowymiarowy
Interpretacja (opowiadanie historii danych)
To jedno z trudniejszych zadań w przygotowaniu. Tutaj starasz się wyjaśnić swoje odkrycia poprzez komunikację. W ostatecznym rozrachunku najważniejsze jest nawiązanie kontaktu z odbiorcami – i to sprawia, że opowiadanie historii jest kluczem.
Twoje odkrycia są mało przydatne, jeśli nie jesteś w stanie przekazać ich znaczenia nie-technicznej grupie w twoim biurze, a nawet szefowi, jeśli o to chodzi. Dobrą praktyką, aby mieć wszystko pod kontrolą, byłoby dużo prób. Spróbuj sformułować historię na podstawie swoich odkryć i opowiedzieć ją laikowi (najlepiej dziecku). Jeśli oni to zrozumieją, twój szef też. A jeśli nie, cóż, wiesz, co powiedział Einstein:
„Jeśli nie możesz tego wyjaśnić sześciolatkowi, sam tego nie rozumiesz”.
Ta faza ma na celu uzyskanie prawdziwych spostrzeżeń biznesowych. Twoim głównym wyzwaniem jest wizualizacja wyników i zaprezentowanie ich w piękny i zrozumiały sposób.
Wymagane umiejętności
- Znajomość domeny Twojej firmy
- Narzędzia do wizualizacji danych: Tableau, D3.JS, Matplotlib, GGplot, Seaborn itp.
- Komunikacja: Umiejętności prezentacji – zarówno werbalne, jak i pisemne.
To nie koniec naszego rurociągu. Jeśli naprawdę chcesz wydobyć ze swojego systemu to, co najlepsze, musisz upewnić się, że aktualizujesz swój model w miarę pojawiania się potrzeb. W Data Science jeden rozmiar nie pasuje do wszystkich i trzeba będzie ponownie odwiedzać i aktualizować swój model.
Manipulacja danymi: jak rozpoznać kłamstwa w danych?
Zastosowania nauki o danych
Jak już wiadomo, Data Science to szerokie pojęcie, podobnie jak jego zastosowania. Niemal każda aplikacja na smartfonie działa na danych. Można więc powiedzieć, że praktycznie niemożliwe jest wymienienie wszystkich zastosowań nauki o danych ze względu na jej wszechobecność.
Przyjrzyjmy się szerokim dziedzinom, które wykorzystują magię Data Science:
1. Wyszukiwanie w Internecie
W jaki sposób Google zwraca takie *dokładne* wyniki wyszukiwania w ułamku sekundy? Nauka o danych!
2. Systemy rekomendacji
Od „osób, które możesz znać” na Facebooku lub LinkedIn, przez „osoby, które kupiły ten produkt, też polubiły…” na Amazonie, przez Twoje codzienne playlisty na Spotify, a nawet „sugerowane filmy” na YouTube – wszystko jest napędzane przez Data Science.
3. Rozpoznawanie obrazu/mowy/znaków
To prawie oczywiste. Jak myślisz, co jest mózgiem stojącym za „Siri”, jeśli nie Data Science? Jak myślisz, w jaki sposób Facebook rozpoznaje Twojego znajomego, gdy przesyłasz mu zdjęcie? To nie magia; to nauka – Data Science.
4. Gry
EA Sports, Sony, Nintendo, Zynga i inni giganci w tej dziedzinie podjęli się przeniesienia Twoich wrażeń z gier na zupełnie nowy poziom. Gry są teraz opracowywane i ulepszane przy użyciu algorytmów uczenia maszynowego, dzięki czemu można je ulepszać w miarę wchodzenia na wyższe poziomy.
5. Porównywarki cenowe
Te strony internetowe są zasilane danymi. Im więcej, tym weselej. Dane są pobierane z odpowiednich witryn internetowych za pomocą interfejsów API. PriceGrabber, PriceRunner, Junglee, Shopzilla to tylko niektóre z takich stron internetowych.
Rozpocznij naukę o danych w PythoniePodsumowanie…
Jeśli jesteś z wykształcenia technologicznego i masz trochę informacji na temat danych, to nauka o danych jest Twoim prawdziwym powołaniem. Najlepsza część? Jest tak wiele do zrobienia i zbadania w nauce o danych i wokół niej. Jest to ogólny termin, który obejmuje wiele narzędzi i technologii – opanowanie każdego z nich sprawi, że staniesz się atutem na stale rosnącym rynku Data Science. UpGrad oferuje różne kursy na temat Data Science, aby wyprzedzić konkurencję. Nie zapomnij ich sprawdzić!
Jaki jest zakres nauki o danych w różnych branżach w Indiach?
Nauka o danych ma ogromny wpływ na wiele branż w Indiach. Każda branża wymieniona poniżej w dużym stopniu opiera się na nauce o danych i zapewnia doskonałe perspektywy dla naukowców zajmujących się danymi.
1. Opieka zdrowotna : jest to ogólne słowo na wszystko, co ma związek z medycyną, pacjentami i chorobami. Nauka o danych zaczęła odgrywać kluczową rolę w tej branży, począwszy od bardziej wydajnej diagnozy po badania medyczne.
2. Bankowość i ubezpieczenia — ocena ryzyka i wykrywanie oszustw: Banki gromadzą profile klientów, wcześniejsze wnioski i wydatki, a także różne inne dane osobowe, w szczególności dotyczące kredytów i ubezpieczeń. W tym miejscu wkracza nauka o danych, ponieważ upraszcza proces i rozróżnia osoby o niskim ryzyku od osób o wysokim ryzyku.
3. Marketing i reklama - Mając wszystkie dane na wyciągnięcie ręki, możesz przeanalizować i określić, kim powinni być Twoi docelowi odbiorcy, aby skutecznie promować swoją usługę lub produkt.
4. Przemysł lotniczy — Analiza danych jest wykorzystywana w sektorze lotniczym do analizowania tras i tras samolotów.
Jak Data Scientists mogą wykorzystać swoje umiejętności do rozwiązywania problemów biznesowych?
W zależności od wymagań swojej firmy, Data Scientist musi przyjąć inną strategię rozwiązywania wyzwania biznesowego. Wykorzystując hybrydowe modele matematyki i informatyki, analitycy danych gromadzą praktyczne wnioski z danych i pomagają podejmować lepsze decyzje. Zastosowania data science do rozwiązywania rzeczywistych wyzwań biznesowych obejmują między innymi poprawę jakości produktów, automatyzację cyfrowego umieszczania reklam, zwiększenie generowania przychodów poprzez przewidywanie popytu i możliwości wzrostu, automatyzację procesów rekrutacyjnych, ustalanie cen na dynamicznym rynku.
Jaka jest przyszłość nauki o danych?
Przyszłość nauki o danych jest bardzo ekscytująca z szerokim zakresem wdrożeń w prawie każdej dziedzinie. Niektóre z najlepszych rodzimych firm cyfrowych, takich jak Google, Amazon, Facebook itp., poczyniły znaczne inwestycje w dane. Rozwój nowych technologii w połączeniu z trwającymi badaniami doprowadzi w przyszłości do innowacyjnych zastosowań i przypadków użycia. Z punktu widzenia kariery nauka o danych jest bardzo obiecująca.
