Oamenii de știință de date: mituri vs realități

Publicat: 2018-04-05

Orice lucru care capătă rapid amploare tinde să devină ceea ce vorbește toată lumea. Și, cu cât oamenii vorbesc mai mult despre ceva, cu atât se adună mai multe concepții greșite și mituri. Data Science și Analytics este un astfel de domeniu care este în continuă creștere și, odată cu acesta, este un număr tot mai mare de mituri asociate.

Astăzi, vom dezminți unele dintre aceste mituri și concepții greșite care gravitează în jurul vieții și muncii cercetătorilor de date. Dar înainte de a trece la asta, să înțelegem mai întâi o zi obișnuită din viața unui cercetător de date.

Data Scientist

O organizație are o grămadă de date pe care le-a colectat de-a lungul timpului din diverse surse și în diferite formate. Acum, au decis să facă ceva în privința asta. Vor să facă datele lor să conteze. La cine apelează ei?

Oameni de știință de date!
Da, oamenii de știință pe care majoritatea îi confundă cu niște ființe supranaturale. Acești oameni sunt în centrul și sufletul echipei de analiză de date a oricărei organizații. Ei dețin o poziție vitală și, deși ar putea fi o surpriză pentru tine, ziua lor obișnuită este destul de ca ziua obișnuită a oricărui alt angajat cu guler alb.

Cuprins

Întâlniri, întâlniri și încă câteva întâlniri!

Oamenii de știință de date trebuie să participe la ședințe, mai ales zilnic, pentru a aduna cerințele, a discuta despre munca realizată și pentru a planifica activitatea zilei. Există, de asemenea, întâlniri interne care sunt importante pentru obiectivele organizaționale și pentru a depăși problemele de afaceri. Una peste alta, scopul acestor întâlniri este de a face o idee mai clară asupra problemelor la îndemână și de a se asigura că toată lumea din organizație este în ceea ce privește calea de urmat.

Caută date și fă-le impecabile!

O parte a zilei lor constă în identificarea problemelor din lumea reală cu care se confruntă organizația lor și în găsirea modalităților de a face ca datele lor să ajute la rezolvarea acestor probleme. Apoi urmează o parte mai dificilă - determinarea tipului și sursei datelor necesare. Un om de știință de date cu experiență alege întotdeauna datele din cele mai relevante surse – cele care sunt susceptibile de a oferi valoare.

Cu toate acestea, acesta este ceva care vine cu experiență și expertiză. Prin urmare, oamenii de știință de date trebuie să petreacă destul de mult timp pe aceasta.

Cu toate acestea, culegerea datelor face doar jumătate din treabă. De asemenea, cercetătorul de date trebuie să se asigure că datele sunt validate și curățate. Dacă lucrează cu date imperfecte, șansele de a avea succes scad exponențial.

Fundamentele de bază ale statisticii pentru știința datelor

Începeți să faceți magie. Ne referim la analiză.

Când datele sunt complet curățate, cercetătorul își petrece timpul rămas identificând tendințele și modelele din date. Acesta este un alt aspect problematic al muncii unui cercetător de date, mai ales că nu există o metodă stabilită pentru a analiza aceste date în mod eficient. De cele mai multe ori, este nevoie de un cercetător de date să-și proiecteze instrumentele și algoritmii sau să le modifice cu cele existente. Acest lucru necesită o minte deschisă și o dorință de experimentare.

Tese o poveste.

După analizarea seturilor de date, urmează partea cea mai importantă – cea a vizualizării datelor. Oamenii de știință de date trebuie să-și prezinte concluziile în fața unui public care este în principal non-tech, precum părțile interesate și agenții de marketing ai companiei. Aceasta nu este întotdeauna o sarcină zilnică, dar trebuie făcută frecvent pentru a menține lucrurile în mișcare. Volumul de lucru semnificativ al cercetătorului de date aici implică găsirea unei tehnici de vizualizare care nu numai că surprinde esența datelor lor, ci și prezintă totul într-o manieră plăcută din punct de vedere estetic.

Rolul unui cercetător de date este extrem de dinamic; nu există două zile la fel pentru ei. Meseria lor presupune să fie cu atenție și să aibă mereu pălăriile pe care le gândesc. Datele cu care lucrează, problemele pe care intenționează să le rezolve și perspectivele pe care caută să le descopere se schimbă constant. Acesta este ceea ce face rolul unui om de știință de date atât de unic și incitant.

Un ghid pentru începători pentru știința datelor și aplicațiile sale

Acum, fă un pas înainte și dezminți mai multe astfel de mituri, uneori absurde: video

Video Youtube

Mitul #1: Trebuie să fii un expert statistician cu un doctorat. în statistici. Sau, cel puțin, trebuie să ai o diplomă în statistică.

Da, deținerea unei diplome oficiale în statistică vă va asigura că sunteți în înțelegere cu cele mai bune practici în statistică din ziua 1. Cu toate acestea, țineți-vă caii acolo - dacă vă uitați la lumea științei datelor, veți găsi mai mulți oameni din o pregătire managerială/non-matematică decât „oamenii de știință rachete” dependenți de matematică.

Mitul #2: Trebuie să fii un programator hardcore pentru a excela în știința datelor. Cu cât mai mult hardcore, cu atât mai bine.

Din nou, la fel ca mitul pe care l-am discutat cu doar câteva rânduri în urmă, și acesta se bazează pe o presupunere falsă despre munca cercetătorului de date. Oamenii presupun că a fi un om de știință a datelor implică scrierea unor linii de coduri și algoritmi și altele! Dar, dacă ai acordat atenție rutinei despre care am discutat mai devreme, îți vei da seama că acolo nu este implicată nicio „codificare” semnificativă. Majoritatea algoritmilor sau metodelor sunt disponibile gata făcute, fiind necesare doar puține modificări. Cu toate acestea, trebuie să aveți o înclinație logică pentru a face asta.

Începeți în știința datelor cu Python

Mitul #3: Oamenii de știință nu sunt oameni de știință în niciun sens semnificativ al cuvântului.

Fiecare om de știință este în mod implicit un cercetător de date. Știința pură a coexistat întotdeauna cu datele observaționale. Fără capacitatea de a-și cerne, sorta, structura, clasifica, teoretiza și prezenta datele, niciun om de știință nu poate aduce coerență studiului lor. În mod similar, un cercetător de date care nu a cercetat adânc în inima datelor lor nu își poate prezenta rezultatele în mod eficient. Controalele statistice au fost întotdeauna o bază a științei pure, iar acum, ele sunt responsabilitățile fundamentale ale unui cercetător de date. Așadar, dacă un cercetător de date observă tendințele și tiparele în comportamentul clienților unei organizații și le confirmă constatările folosind statistici și experimente din lumea reală, este un om de știință, simplu și simplu.

Mitul #4: Oamenii de știință de date lucrează la instrumente statistice costisitoare și complicate pentru a-și îndeplini munca.

În esență, munca unui cercetător de date îi cere să caute tendințe și modele ascunse într-un set larg de date. Pentru aceasta, ei pot folosi instrumente de vizualizare ușor de utilizat, instrumente de business intelligence bazate pe căutare cu autoservire, instrumente interactive de explorare a datelor sau chiar instrumente simple care nu necesită prea multă stăpânire statistică. Doar pentru a adăuga, mulți analiști de afaceri din lume pot găsi informații profunde chiar și din modelarea caracteristicilor într-o aplicație de calcul primară.

Mitul #5: Știința datelor se referă la introducerea datelor în clustere Hadoop și la utilizarea MapReduce. Simplu!

Dacă oamenii ar încerca să exploreze înainte de a răspândi mituri, nu am fi aici. Dacă vorbești cu un om de știință de date, îți vei da seama că există mult mai mult în știința datelor și analiză decât Hadoop și MapReduce. Aceste două sunt doar două dintre numeroasele instrumente. De cele mai multe ori, un proiect de succes în știința datelor utilizează o serie de instrumente în diferite etape. Prin urmare, se așteaptă ca un cercetător de date să fie în fruntea oricăror progrese tehnologice majore care au loc în acest domeniu pentru a face trecerea adecvată la orice instrument sau tehnologie ori de câte ori este nevoie. Când vine vorba de știința datelor, un singur pantof nu se potrivește tuturor și nu există nicio placă magică Ouija care să-i facă pe spiritele științei datelor să ne vorbească, muritorii.

Pașii de top pentru stăpânirea științei datelor, credeți-mă că i-am încercat

Sperăm că ți-a plăcut să îți lărgi viziunea! Rămâi cu noi; Vom reveni cu mai mulți astfel de Mituri.

Este Ph.D. obligatoriu pentru a deveni Data Scientist?

Să împărțim rolul unui Data Scientist în două domenii pentru a înțelege mai bine acest lucru:

1. Rolul Applied Data Science - Lucrul cu algoritmii actuali și înțelegerea modului în care aceștia funcționează este punctul central al Applied Data Science. Cu alte cuvinte, este vorba despre încorporarea acestor metode în proiectul tău. Majoritatea persoanelor legate de cariera Data Science se încadrează în această categorie. Majoritatea locurilor de muncă și a fișelor posturilor sunt frecvent întâlnite pentru acest rol.
2. Rolul de cercetare – Dacă sunteți interesat de rolul de cercetare, s-ar putea să aveți nevoie de un doctorat. Un rol de cercetare în Data Science include crearea de noi algoritmi de la zero, cercetarea acestora, scrierea de lucrări științifice etc.

Îi va înlocui inteligența artificială pe oamenii de știință de date în viitorul apropiat?

În evoluția Data Science, este plauzibil să spunem că inteligența artificială va înlocui în cele din urmă operațiunile efectuate manual de Data Scientists. Cu toate acestea, un computer nu poate decide singur dacă să curețe datele, să dezvolte un model eficient, să lucreze la corectitudinea modelului și așa mai departe. Aceste alegeri sunt făcute de cineva care are calificările necesare. Chiar dacă se încearcă inițiative pentru a dezvolta algoritmi mai avansați în speranța de a reduce nevoia de oameni de știință ai datelor, este puțin probabil ca acest lucru să se întâmple foarte curând. Chiar și cu cei mai avansați algoritmi, menținerea funcționării firmelor ar necesita totuși cineva cu o rațiune bună și cunoștințe de domeniu.

Pot deveni Data Scientist doar stăpânind instrumentele Data Science?

Este o concepție greșită răspândită că știi cum să folosești instrumentele statistice și bibliotecile te califică drept om de știință în domeniul datelor. Lucrul cu aceste instrumente vă va ajuta să le înțelegeți mai bine, dar știința datelor este un set de abilități care combină o varietate de abilități. A învăța despre instrumentele care sunt însoțite de acesta este doar un aspect al procesului. Pe lângă cunoașterea instrumentelor precum Python sau R, abilitățile precum rezolvarea problemelor, înțelegerea aprofundată a conceptelor și informațiile despre aplicațiile corecte necesare pentru o problemă de afaceri sunt, de asemenea, vitale de stăpânit.