Data Scientist: miti vs realtà

Pubblicato: 2018-04-05

Tutto ciò che prende slancio tende rapidamente a diventare ciò di cui tutti parlano. E più le persone parlano di qualcosa, più idee sbagliate e miti si accumulano. Data Science and Analytics è uno di questi domini in continua crescita e, con esso, c'è un numero crescente di miti associati.

Oggi sfatiamo alcuni di questi miti e idee sbagliate che ruotano attorno alle vite e al lavoro dei data scientist. Ma prima di passare a questo, comprendiamo innanzitutto una giornata tipo nella vita di un data scientist.

Data Scientist

Un'organizzazione ha un mucchio di dati che ha raccolto nel tempo da varie fonti e in vari formati. Ora, hanno deciso di fare qualcosa al riguardo. Vogliono far contare i loro dati. A chi si rivolgono?

Scienziati dei dati!
Sì, data scientist che la maggioranza confonde con esseri soprannaturali. Queste persone sono il cuore e l'anima del team di analisi dei dati di qualsiasi organizzazione. Ricoprono una posizione vitale e anche se potrebbe sorprenderti, la loro giornata normale è abbastanza simile a quella di qualsiasi altro impiegato.

Sommario

Riunioni, riunioni e ancora altre riunioni!

I data scientist devono partecipare alle riunioni, per lo più su base giornaliera, per raccogliere i requisiti, discutere il lavoro svolto e pianificare la giornata di lavoro. Ci sono anche riunioni interne che sono importanti per gli obiettivi organizzativi e per superare i problemi aziendali. Tutto sommato, lo scopo di questi incontri è di avere un'idea più chiara dei problemi a portata di mano e assicurarsi che tutti nell'organizzazione siano in termini di via da seguire.

Cerca i dati e rendili incontaminati!

Parte della loro giornata è dedicata all'identificazione dei problemi del mondo reale che la loro organizzazione sta affrontando e alla scoperta di modi per fare in modo che i loro dati aiutino a risolvere tali problemi. Poi arriva una parte più impegnativa: determinare il tipo e l'origine dei dati richiesti. Un data scientist esperto raccoglie sempre i dati dalle fonti più rilevanti, quelle che probabilmente forniranno valore.

Tuttavia, questo è qualcosa che viene fornito con esperienza e competenza. Pertanto, i data scientist devono dedicarci molto tempo.

Tuttavia, la raccolta dei dati fa solo metà del lavoro. Il data scientist deve anche assicurarsi che i dati siano convalidati e puliti. Se funzionano con dati imperfetti, le possibilità di successo diminuiscono esponenzialmente.

Fondamenti di base di statistica per la scienza dei dati

Inizia a fare magie. Intendiamo analisi.

Quando i dati sono stati completamente puliti, il data scientist trascorre il suo tempo rimanente nell'identificazione di tendenze e modelli dai dati. Questo è un altro aspetto problematico del lavoro di un data scientist, soprattutto perché non esiste un metodo prestabilito per analizzare questi dati in modo efficiente. Il più delle volte, è necessario che uno scienziato di dati progetti i propri strumenti e algoritmi o li modifichi con quelli esistenti. Ciò richiede una mente aperta e una volontà di sperimentare.

Intreccia una storia.

Dopo aver analizzato i set di dati, arriva la parte più importante: quella della visualizzazione dei dati. I data scientist devono presentare le loro scoperte di fronte a un pubblico che è principalmente non tecnologico, come le parti interessate e gli esperti di marketing dell'azienda. Questo non è sempre un compito quotidiano, ma deve essere fatto frequentemente per mantenere le cose in movimento. Il carico di lavoro significativo del data scientist qui implica l'elaborazione di una tecnica di visualizzazione che non solo catturi l'essenza dei dati, ma presenti anche tutto in modo esteticamente gradevole.

Il ruolo di un data scientist è estremamente dinamico; non ci sono due giorni uguali per loro. Il loro lavoro li coinvolge ad essere all'erta e ad avere sempre il cappello per pensare. I dati con cui stanno lavorando, i problemi che mirano a risolvere e le informazioni che stanno cercando di scoprire sono tutti in continua evoluzione. Questo è ciò che rende il ruolo di un data scientist così unico ed emozionante.

Una guida per principianti alla scienza dei dati e alle sue applicazioni

Ora, fai un passo avanti e sfata altri miti, a volte assurdi: i video

video Youtube

Mito n. 1: devi essere uno statistico esperto con un dottorato di ricerca. nelle statistiche. O, per lo meno, devi avere una laurea in statistica.

Sì, possedere una laurea formale in statistica ti assicurerà di essere in sintonia con le migliori pratiche statistiche sin dal primo giorno. Tuttavia, tieni i tuoi cavalli lì: se guardi al mondo della scienza dei dati, troverai più persone da un background manageriale/non matematico rispetto agli "scienziati missilistici" dipendenti dalla matematica.

Mito n. 2: devi essere un programmatore accanito per eccellere nella scienza dei dati. Più è hardcore, meglio è.

Ancora una volta, come il mito di cui abbiamo discusso solo un paio di righe fa, anche questo si basa su un falso presupposto sul lavoro del data scientist. La gente presume che essere uno scienziato dei dati implichi la scrittura di righe di codici e algoritmi e quant'altro! Ma, se hai prestato attenzione alla routine di cui abbiamo discusso in precedenza, ti renderai conto che non c'è alcuna "codifica" significativa coinvolta lì. La maggior parte degli algoritmi o dei metodi sono disponibili già pronti con solo un piccolo ritocco. Tuttavia, è necessario avere una mentalità logica per farlo.

Inizia con la scienza dei dati con Python

Mito n. 3: gli scienziati dei dati non sono scienziati nel senso significativo della parola.

Ogni scienziato è per impostazione predefinita un data scientist. La scienza pura ha sempre coessistito con i dati osservativi. Senza la capacità di vagliare, ordinare, strutturare, classificare, teorizzare e presentare i propri dati, nessuno scienziato può portare coerenza al proprio studio. Allo stesso modo, uno scienziato dei dati che non ha approfondito il cuore dei propri dati non può presentare le proprie scoperte in modo efficace. I controlli statistici sono sempre stati un fondamento della scienza pura e ora sono le responsabilità fondamentali di un data scientist. Quindi, se uno scienziato di dati osserva le tendenze e gli schemi nel comportamento dei clienti di un'organizzazione e conferma le sue scoperte utilizzando statistiche ed esperimenti nel mondo reale, è uno scienziato, chiaro e semplice.

Mito n. 4: i data scientist lavorano su strumenti statistici costosi e complicati per portare a termine il loro lavoro.

In sostanza, il lavoro di un data scientist richiede loro di cercare tendenze e modelli nascosti in un'ampia serie di dati. A tal fine, possono utilizzare strumenti di visualizzazione intuitivi, strumenti di business intelligence self-service basati sulla ricerca, strumenti di esplorazione dei dati interattivi o persino strumenti semplici che non richiedono molta padronanza statistica. Solo per aggiungere, molti analisti aziendali nel mondo possono trovare approfondimenti anche dalla modellazione delle funzionalità in un'applicazione di foglio di calcolo principale.

Mito n. 5: la scienza dei dati riguarda l'alimentazione dei dati nei cluster Hadoop e l'utilizzo di MapReduce. Semplice!

Se le persone cercassero di esplorare prima di diffondere miti, non saremmo qui. Se parli con un data scientist, ti renderai conto che c'è molto di più nella scienza dei dati e nell'analisi di Hadoop e MapReduce. Questi due sono solo due dei tanti strumenti. Il più delle volte, un progetto di data science di successo utilizza una serie di strumenti in varie fasi. Pertanto, ci si aspetta che uno scienziato dei dati sia in cima a tutti i principali progressi tecnologici in atto in questo dominio per effettuare il passaggio appropriato a qualsiasi strumento o tecnologia ogni volta che è necessario. Quando si tratta di Data Science, una scarpa non va bene per tutti e non esiste una tavola Ouija magica per far parlare gli spiriti della scienza dei dati con noi mortali.

I migliori passaggi per padroneggiare la scienza dei dati, fidati di me li ho provati

Ci auguriamo che ti sia piaciuto ampliare la tua visione! Resta con noi; torneremo con altri Mythbusters simili.

è dottorato di ricerca obbligatorio per diventare un Data Scientist?

Analizziamo il ruolo di un Data Scientist in due aree per comprendere meglio questo:

1. Ruolo di Applied Data Science - Lavorare con gli algoritmi attuali e capire come funzionano è l'obiettivo principale di Applied Data Science. Per dirla in altro modo, si tratta di incorporare questi metodi nel tuo progetto. La maggior parte delle persone legate alla carriera in Data Science rientra in questa categoria. La maggior parte delle offerte di lavoro e delle descrizioni dei lavori sono comunemente viste per questo ruolo.
2. Ruolo di ricerca - Se sei interessato al ruolo di ricerca, potresti aver bisogno di un dottorato di ricerca. Un ruolo di ricerca nella scienza dei dati include la creazione di nuovi algoritmi da zero, la ricerca, la scrittura di articoli scientifici, ecc.

L'intelligenza artificiale sostituirà i data scientist nel prossimo futuro?

Nell'evoluzione della Data Science, è plausibile affermare che l'intelligenza artificiale alla fine sostituirà le operazioni eseguite manualmente dai Data Scientist. Tuttavia, un computer non può decidere da solo se pulire i dati, sviluppare un modello efficiente, lavorare sulla correttezza del modello e così via. Queste scelte sono fatte da qualcuno che ha le qualifiche necessarie. Anche se si stanno tentando iniziative per sviluppare algoritmi più avanzati nella speranza di ridurre la necessità di data scientist, è improbabile che ciò avvenga molto presto. Anche con gli algoritmi più avanzati, mantenere le aziende in funzione richiederebbe comunque qualcuno con un buon giudizio e una conoscenza del settore.

Posso diventare un Data Scientist semplicemente padroneggiando gli strumenti di Data Science?

È un'idea sbagliata diffusa che sapere come utilizzare strumenti e librerie statistici ti qualifichi come Data s Scientist. Lavorare con questi strumenti ti aiuterà a capirli meglio, ma la scienza dei dati è un insieme di abilità che combina una varietà di abilità. L'apprendimento degli strumenti che lo accompagnano è solo un aspetto del processo. Oltre alla conoscenza di strumenti come Python o R, sono fondamentali anche abilità come la risoluzione dei problemi, una comprensione approfondita dei concetti e informazioni sulle applicazioni corrette necessarie per un problema aziendale.