Un ghid pentru începători pentru știința datelor și aplicațiile sale
Publicat: 2018-02-24Cuvintele Data, Science sau Data Science nu sunt suficiente pentru a incita un sentiment de frică sau groază în rândul cititorilor. Sincer să fiu, sunt prea drăguți pentru a fi chiar dezamăgitori, cu atât mai puțin îngrozitori, spre deosebire de cuvintele – teselație, k-mediu, k-cei mai apropiați vecini, Euclidean Minimum Spanning Tree și multe altele de acest fel – cuvintele pe care tu” Voi întâlni în călătoria dvs. de Data Science.
În timp ce „Data Science” nu inspiră frică, nici nu explică nimic despre domeniu. Toată lumea știe ce sunt datele; cel puțin într-un sens profan. Datele sunt în esență doar fragmente brute de informații. Știința, pe de altă parte, poate fi folosită pentru a desemna orice grup de activități care urmează o metodă științifică.
Deci, mergând după această logică, putem concluziona că Data Science este un domeniu care utilizează metode științifice pe cantități mari de date. Dar pentru ce? Și ce este exact Data Science?
Acesta este subiectul nostru de discuție astăzi. După ce ați citit acest articol, veți putea răspunde la următoarele întrebări:
- Ce este Data Science?
- Care sunt diferitele faze ale unui pipeline Data Science?
- Unde pot vedea Data Science la locul de muncă?
Cuprins
Ce este Data Science?
Wikipedia, mama tuturor enciclopediilor, definește Data Science ca un domeniu axat pe extragerea de cunoștințe și perspective din date prin utilizarea metodelor științifice. Cu toate acestea, ceea ce nu vă spune este că noi, oamenii, ne naștem cercetători de date. Cum? Să vedem.
Observați lumea din jurul vostru indiferent de ceea ce faceți. În fiecare moment de trezire, iei detalii din împrejurimile tale și le hrănești creierului tău. Apoi procesezi aceste observații în date și le folosești pentru a înțelege lucrurile din jurul tău, descoperind semnificații și făcând predicții despre ceea ce este probabil să se întâmple în continuare.
Când întârzii cu o oră să pleci la serviciu, suni să le spui că vei lucra de acasă. Utilizați observațiile anterioare despre trafic și opriri pe drum, care vă fac să concluzionați că este posibil să vă pierdeți timpul blocat în trafic decât ați câștiga dacă sunteți în funcție. Când intri în camera ta și vezi ambalaje de ciocolată întinse, o analiză obișnuită îți va spune că cineva ți-a mâncat ciocolata în absența ta.
Top 4 roluri de analiză a datelor de care trebuie să țineți cont
În oricare dintre cazurile menționate, dacă faci aceste calcule și previziuni în mintea ta, fără să le notezi, ești o ființă umană normală. Pe de altă parte, dacă mergeți mai departe și înregistrați aceste puncte de date (desigur într-un format care poate fi citit de mașină) și apoi încercați să concepeți un algoritm (sau, proceduri) și programe de calculator pentru a rula aplicația. Dacă rezultatul acestui sistem „ipotetic” este că „traficul va fi nasol” sau „colegii tăi de cameră ți-au mâncat ciocolata”, atunci bingo! Ești un om de știință a datelor.
Este la fel de simplu (în teorie) pe cât îl face să sune analogia de mai sus. La sfârșitul zilei, aveți date, proceduri, algoritmi și instrumente. Trebuie doar să extragi cunoștințe din ea. Pentru a face acest lucru eficient, există un flux de lucru/conductă pe care trebuie să-l urmați. Să vedem ce este inclus într-o conductă tipică pentru știința datelor.
Conducta științei datelor
Data science pipeline vorbește despre fluxul întregului proces - de la obținerea datelor dorite până la efectuarea de calcule și predicții precise. Să aruncăm o privire la elementele acestei conducte:

Obțineți datele dvs
Acesta este în mod implicit primul lucru pe care trebuie să-l faceți pentru a practica Data Science - obțineți datele! Doar un mic avertisment – există câteva lucruri pe care trebuie să le luați în considerare atunci când obțineți datele. Mai întâi trebuie să identificați toate seturile de date (pot fi de pe internet sau baze de date interne/externe). Apoi, ar trebui să extrageți datele într-un format utilizabil (CSV, XML, JSON etc.)
Iată cele mai bune abilități și instrumente pe care să le stăpânești pentru a fi un analist de date
Abilitati cerute
- Managementul bazei de date: fie SQL, fie NoSQL, în funcție de nevoile și cerințele dvs.
- Interogarea acestor baze de date
- Preluarea datelor nestructurate sub formă de videoclipuri, audio, texte, documente etc.
- Stocare distribuită: Hadoop, Apache Spark sau Apache Flink.
Curățarea / curățarea datelor dvs
Curățarea datelor ar trebui să primească o importanță maximă, deoarece rezultatul final al sistemului dvs. este la fel de bun ca și datele pe care le-ați introdus în el. Curățarea se referă la eliminarea anomaliilor, completarea valorilor goale/lipsă, a vedea dacă datele sunt consistente și alte lucruri de această natură.
Abilitati cerute
- Limbajul de scriptare: Python, R, SAS
- Instrumente de discutare a datelor: Python Pandas, R
- Procesare distribuită: Hadoop, MapReduce/Spark
Explorarea (analiza exploratorie a datelor)
Acum că datele sunt curate, veți începe să înțelegeți ce tipare au datele dvs. În această fază sunt utilizate diferite tipuri de vizualizări și modelări statistice. Practic, această fază își propune să derive sensul ascuns din datele noastre.
Există multe lucruri care se întâmplă în domeniul analizei exploratorii a datelor. Dacă simțiți că este ceva care v-ar plăcea, nu uitați să citiți articolul nostru despre același lucru.
Pentru a performa mai bine în această fază, trebuie să vă furnicăm „simțurile de păianjen”. Înnebunește și găsește modele sau tendințe ciudate – fii mereu în căutarea unor lucruri ieșite din cutie. Cu toate acestea, în timp ce faci asta, nu uita de problema pe care vrei să o rezolvi. Nu ieși prea mult din cutie. Analiza exploratorie a datelor este o artă, iar un artist ar trebui să țină mereu cont de public.
Abilitati cerute
- Biblioteci Python: Numpy, Matplotlib, Pandas, Scipy
- Biblioteci R: GGplot2, Dplyr
- Statistici deduse
- Vizualizarea datelor
- Design experimental
Modelare (învățare automată)
Aceasta este partea distractivă. Modelele sunt pur și simplu reguli generale în sens statistic. Un model de învățare automată este pur și simplu un instrument din trusa dvs. de instrumente. Aveți acces la atât de mulți algoritmi cu diferite cazuri de utilizare și obiective, încât o simplă cercetare vă va conduce la un algoritm care se potrivește nevoilor dvs. de afaceri.
După curățarea datelor și descoperirea caracteristicilor esențiale (în faza EDA), utilizarea unui model statistic ca instrument de predicție vă va îmbunătăți luarea deciziilor. În loc să privească înapoi pentru a vedea „ce s-a întâmplat?”, analiza predictivă își propune să răspundă „ce urmează?” și „cum ar trebui să procedăm?”.

Abilitati cerute
- Învățare automată: algoritmi de învățare supravegheat/nesupravegheat/întărire
- Metode de evaluare
- Biblioteci de învățare automată: Python (Sci-kit Learn) / R (CARET)
- Algebră liniară și calcul multivariat
Interpretare (povestire de date)
Aceasta este una dintre cele mai dificile sarcini în curs. Aici, urmăriți să vă explicați descoperirile prin comunicare. La sfârșitul zilei, totul este să te conectezi cu publicul tău – și asta face ca povestirea să fie o cheie.
Descoperirile tale nu sunt utile dacă nu reușești să-i transmiți semnificația grupului non-tech din biroul tău sau chiar șefului tău. O bună practică pentru a stăpâni lucrurile ar fi să repeți mult. Încercați să încadrați o poveste pe baza constatărilor dvs. și să o spuneți unui neprofesionist (de preferință unui copil). Dacă ei înțeleg, la fel va înțelege șeful tău. Și dacă nu o fac, ei bine, știți ce a spus Einstein:
„Dacă nu poți explica asta unui copil de șase ani, nu înțelegi singur.”
Această fază își propune să obțină informații adevărate despre afaceri. Principala dvs. provocare aici este să vă vizualizați descoperirile și să le afișați într-un mod frumos și ușor de înțeles.
Abilitati cerute
- Cunoașterea domeniului dvs. de afaceri
- Instrumente de vizualizare a datelor: Tableau, D3.JS, Matplotlib, GGplot, Seaborn etc.
- Comunicare: Abilități de prezentare – atât verbale cât și scrise.
Acesta nu este sfârșitul conductei noastre. Dacă vrei să aduci cu adevărat ce este mai bun din sistemul tău, trebuie să te asiguri că îți actualizezi modelul pe măsură ce apar nevoile. În Data Science, o singură dimensiune nu se potrivește tuturor și va trebui să continuați să revizuiți și să vă actualizați modelul.
Manipularea datelor: cum puteți descoperi minciunile datelor?
Aplicații ale științei datelor
După cum este clar până acum, Data Science este un termen larg, la fel și aplicațiile sale. Aproape fiecare aplicație de pe smartphone-ul tău prosperă pe date. Deci, este corect să spunem că este practic imposibil să enumerați toate aplicațiile științei datelor din cauza omniprezenței sale absolute.
Să aruncăm o privire la domeniile largi care folosesc magia științei datelor:
1. Căutare pe Internet
Cum returnează Google rezultate de căutare atât de *precise* într-o fracțiune de secundă? Știința datelor!
2. Sisteme de recomandare
De la „oameni pe care s-ar putea să-i cunoașteți” de pe Facebook sau LinkedIn la „oameni care au cumpărat acest produs și le-au plăcut...” pe Amazon la listele de redare organizate zilnic de pe Spotify până la „videoclipuri sugerate” pe YouTube, totul este alimentat de Data Science.
3. Recunoașterea imaginii/vorbirii/caracterelor
Acest lucru este aproape de la sine înțeles. Care crezi că este creierul din spatele „Siri”, dacă nu Data Science? De asemenea, cum crezi că îți recunoaște Facebook prietenul când încarci o fotografie cu el? Nu este magie; este știință – Data Science.
4. Jocuri
EA Sports, Sony, Nintendo, Zynga și alți giganți din acest domeniu și-au asumat responsabilitatea de a vă duce experiența de joc la un nivel cu totul nou. Jocurile sunt acum dezvoltate și îmbunătățite folosind algoritmi de învățare automată, astfel încât să se poată actualiza pe măsură ce treci la niveluri superioare.
5. Site-uri web de comparare a prețurilor
Aceste site-uri web sunt alimentate de date. Pentru ei, cu cât sunt mai mulți, cu atât mai bine. Datele sunt preluate de pe site-urile web relevante folosind API-uri. PriceGrabber, PriceRunner, Junglee, Shopzilla sunt câteva astfel de site-uri.
Începeți în știința datelor cu PythonÎncheierea…
Dacă sunteți dintr-un mediu tehnic și aveți ceva pentru date, atunci Data Science este adevărata voastră. Cea mai bună parte? Sunt atât de multe de făcut și de explorat în și în jurul Data Science. Este un termen umbrelă care acoperă o serie de instrumente și tehnologii – stăpânirea oricăreia dintre acestea vă va face un atu pe piața în continuă creștere a științei datelor. upGrad oferă diverse cursuri despre Data Science pentru a vă menține în fața curbei. Nu uitați să le verificați!
Care este domeniul de aplicare al științei datelor în toate industriile din India?
Știința datelor are un impact uriaș în multe industrii din India. Fiecare industrie enumerată mai jos se bazează în mare măsură pe știința datelor și oferă perspective excelente pentru un cercetător de date.
1. Îngrijire medicală: acesta este un cuvânt general pentru orice are de-a face cu medicamente, pacienți și boli. Știința datelor a început să joace un rol critic în această industrie, variind de la diagnosticare mai eficientă până la cercetarea medicală.
2. Banca și asigurări - Evaluarea riscurilor și detectarea fraudelor: Băncile colectează profiluri ale clienților, aplicații și cheltuieli anterioare, precum și o varietate de alte date personale, în special pentru împrumuturi și asigurări. Aici intervine știința datelor, deoarece simplifică procesul și face distincția între cei cu risc scăzut și cei cu risc ridicat.
3. Marketing și publicitate - Cu toate datele la îndemână, puteți analiza și determina cine ar trebui să fie publicul țintă pentru a vă comercializa serviciul sau produsul în mod eficient.
4. Industria companiilor aeriene - Știința datelor este utilizată în sectorul companiilor aeriene pentru a analiza traseele și rutele aeronavelor.
Cum își pot folosi oamenii de știință abilitățile pentru a rezolva problemele de afaceri?
În funcție de cerințele companiei lor, un Data Scientist trebuie să adopte o strategie diferită pentru a rezolva o provocare de afaceri. Folosind modele hibride de matematică și informatică, oamenii de știință ai datelor obțin informații utile din date și ajută la luarea unor decizii mai bune. Aplicațiile științei datelor pentru rezolvarea provocărilor de afaceri din lumea reală includ îmbunătățirea calității produselor, automatizarea plasării anunțurilor digitale, creșterea generării de venituri prin anticiparea cererii și oportunităților de creștere, automatizarea proceselor de recrutare, stabilirea prețurilor pe o piață dinamică, printre alte cazuri de utilizare.
Care este viitorul științei datelor?
Viitorul științei datelor este foarte interesant, cu o gamă largă de implementare în aproape fiecare domeniu. Unele dintre cele mai bune companii native digitale, cum ar fi Google, Amazon, Facebook etc, au investit semnificativ în date. Creșterea tehnologiei emergente, combinată cu cercetarea în curs de desfășurare, va duce la aplicații și cazuri de utilizare inovatoare în viitor. Din punct de vedere al carierei, știința datelor este foarte promițătoare.
