Una guida per principianti alla scienza dei dati e alle sue applicazioni
Pubblicato: 2018-02-24Le parole Data, Science o Data Science non sono sufficienti per suscitare un sentimento di paura o terrore tra i lettori. Ad essere onesti, sono troppo carini per essere persino scoraggianti, per non parlare di orribili, a differenza delle parole - tassellatura, k-mean, k-nearest neighbors, Euclidean Minimum Spanning Tree e altro di questo tipo - parole che tu ' Incontrerai nel tuo viaggio di Data Science.
Sebbene la "scienza dei dati" non ispiri paura, non spiega nemmeno nulla sul campo. Tutti sanno cosa sono i dati; almeno in senso profano. I dati sono essenzialmente solo bit di informazioni grezze. Scienza, d'altra parte, può essere usata per indicare qualsiasi gruppo di attività secondo un metodo scientifico.
Quindi, seguendo questa logica, possiamo concludere che la scienza dei dati è un campo che utilizza metodi scientifici su grandi blocchi di dati. Ma per cosa? E cos'è esattamente la scienza dei dati?
Questo è il nostro argomento di discussione oggi. Dopo aver letto questo articolo, sarai in grado di rispondere alle seguenti domande:
- Cos'è la scienza dei dati?
- Quali sono le diverse fasi di una pipeline di Data Science?
- Dove posso vedere Data Science al lavoro?
Sommario
Cos'è la scienza dei dati?
Wikipedia, la madre di tutte le enciclopedie, definisce la scienza dei dati come un campo incentrato sull'estrazione di conoscenze e approfondimenti dai dati utilizzando metodi scientifici. Tuttavia, quello che non ti dice è che noi umani siamo nati scienziati dei dati. Come? Vediamo.
Stai osservando il mondo intorno a te, non importa quello che stai facendo. In ogni momento di veglia, prendi i dettagli dall'ambiente circostante e li alimenta al tuo cervello. Quindi elabori queste osservazioni in dati e li usi per capire le cose intorno a te scoprendo significati e facendo previsioni su ciò che probabilmente accadrà dopo.
Quando sei in ritardo per andare al lavoro di un'ora, chiami per dire loro che lavorerai da casa. Stai usando le tue osservazioni passate sul traffico e le interruzioni lungo il percorso che ti fanno concludere che è probabile che perderai tempo bloccato nel traffico di quello che guadagneresti essendo in carica. Quando entri nella tua stanza e vedi involucri di cioccolato in giro, un'analisi casuale ti dirà che qualcuno ha mangiato i tuoi cioccolatini in tua assenza.
I 4 ruoli principali nell'analisi dei dati da tenere d'occhio
In entrambi i casi menzionati, se fai questi calcoli e previsioni nella tua mente, senza annotarli, sei un normale essere umano. D'altra parte, se vai avanti e registri questi punti dati (ovviamente in un formato leggibile dalla macchina) e poi provi a ideare un algoritmo (o procedure) e programmi per computer per eseguire l'applicazione. Se l'output di questo sistema "ipotetico" è che "il traffico farà schifo" o "i tuoi coinquilini si sono mangiati i cioccolatini", allora bingo! Sei uno scienziato di dati.
È altrettanto semplice (in teoria) come fa sembrare l'analogia di cui sopra. Alla fine della giornata, hai dati, procedure, algoritmi e strumenti. Hai solo bisogno di estrarre conoscenza da esso. Per farlo in modo efficiente, c'è un flusso di lavoro/pipeline che devi seguire. Vediamo cosa è incluso in una tipica pipeline di data science.
Pipeline di scienza dei dati
La pipeline di data science parla del flusso dell'intero processo, dall'ottenimento dei dati desiderati all'esecuzione di calcoli e previsioni accurati. Diamo un'occhiata agli elementi di questa pipeline:

Ottieni i tuoi dati
Questa è per impostazione predefinita la prima cosa che devi fare per esercitarti con la scienza dei dati: ottenere i dati! Solo un piccolo preavviso: ci sono alcune cose che devi prendere in considerazione durante l'ottenimento dei tuoi dati. Devi prima identificare tutti i tuoi set di dati (possono provenire da Internet o da database interni/esterni). Dovresti quindi estrarre i dati in un formato utilizzabile (CSV, XML, JSON, ecc.)
Ecco le migliori competenze e strumenti per padroneggiare per essere un analista di dati
Abilità richieste
- Gestione del database: SQL o NoSQL, a seconda delle esigenze e dei requisiti.
- Interrogazione di questi database
- Recupero di dati non strutturati sotto forma di video, audio, testi, documenti, ecc.
- Archiviazione distribuita: Hadoop, Apache Spark o Apache Flink.
Scrubbing/Pulizia dei tuoi dati
La pulizia dei dati dovrebbe avere la massima importanza perché l'output finale del tuo sistema è buono solo quanto i dati che ci hai inserito. La pulizia si riferisce alla rimozione di anomalie, al riempimento di valori vuoti/mancanti, al controllo della coerenza dei dati e ad altre cose di questo tipo.
Abilità richieste
- Linguaggio di script: Python, R, SAS
- Strumenti di data wrangling: Python Pandas, R
- Elaborazione distribuita: Hadoop, MapReduce/Spark
Esplorazione (Analisi esplorativa dei dati)
Ora che i dati sono puliti, inizierai a capire quali modelli hanno i tuoi dati. In questa fase entrano in uso diversi tipi di visualizzazioni e modelli statistici. Fondamentalmente, questa fase mira a ricavare il significato nascosto dai nostri dati.
C'è molto da fare nel campo dell'analisi dei dati esplorativi. Se ritieni che sia qualcosa che ti piacerebbe, non dimenticare di leggere il nostro articolo sullo stesso.
Per ottenere prestazioni migliori in questa fase, è necessario che i tuoi "sensi da ragno" formino. Impazzisci e individua modelli o tendenze strani: stai sempre alla ricerca di qualcosa fuori dagli schemi. Tuttavia, mentre lo fai, non dimenticare il problema che stai cercando di risolvere. Non andare troppo fuori dagli schemi. L'analisi dei dati esplorativi è un'arte e un artista dovrebbe sempre tenere a mente il pubblico.
Abilità richieste
- Librerie Python: Numpy, Matplotlib, Pandas, Scipy
- Librerie R: GGplot2, Dplyr
- Statistica inferenziale
- Visualizzazione dei dati
- Design sperimentale
Modellazione (apprendimento automatico)
Questa è la parte divertente. I modelli sono semplicemente regole generali in senso statistico. Un modello di machine learning è semplicemente uno strumento nel tuo toolkit. Hai accesso a così tanti algoritmi con casi d'uso e obiettivi diversi che una semplice ricerca ti porterà a un algoritmo adatto alle tue esigenze aziendali.
Dopo aver pulito i dati e scoperto le caratteristiche essenziali (nella fase EDA), l'utilizzo di un modello statistico come strumento predittivo migliorerà il processo decisionale generale. Invece di guardare indietro per vedere "che cosa è successo?", l'analisi predittiva mira a rispondere "che cosa è successo dopo?" e "come dovremmo farlo?".

Abilità richieste
- Machine Learning: algoritmi di apprendimento supervisionato/non supervisionato/rinforzo
- Metodi di valutazione
- Librerie di apprendimento automatico: Python (Sci-kit Learn) / R (CARET)
- Algebra lineare e calcolo multivariato
Interpretariato (Storytelling dei dati)
Questo è uno dei compiti più impegnativi in cantiere. Qui, miri a spiegare le tue scoperte attraverso la comunicazione. Alla fine della giornata, si tratta di entrare in contatto con il tuo pubblico, ed è questo che rende la narrazione una chiave.
Le tue scoperte sono difficilmente utili se non sei in grado di trasmettere il suo significato al gruppo non tecnologico del tuo ufficio, o anche al tuo capo, se è per questo. Una buona pratica per avere il controllo delle cose sarebbe provare molto. Prova a inquadrare una storia sulle tue scoperte e raccontarla a un profano (preferibilmente un bambino). Se lo capiscono, lo capirà anche il tuo capo. E se non lo fanno, beh, sai cosa ha detto Einstein:
"Se non riesci a spiegarlo a un bambino di sei anni, non lo capisci tu stesso."
Questa fase mira a ricavare vere intuizioni di business. La tua sfida principale qui è visualizzare i tuoi risultati e mostrarli in un modo bello e comprensibile.
Abilità richieste
- Conoscenza del tuo dominio aziendale
- Strumenti di visualizzazione dei dati: Tableau, D3.JS, Matplotlib, GGplot, Seaborn, ecc.
- Comunicazione: capacità di presentazione – sia verbale che scritta.
Questa non è la fine della nostra pipeline. Se vuoi davvero ottenere il meglio dal tuo sistema, devi assicurarti di aggiornare il tuo modello quando e quando se ne presenta la necessità. In Data Science, una taglia non va bene per tutti e dovrai continuare a rivedere e aggiornare il tuo modello.
Manipolazione dei dati: come individuare le bugie sui dati?
Applicazioni della scienza dei dati
Come ormai è chiaro, Data Science è un termine ampio, così come le sue applicazioni. Quasi tutte le applicazioni sul tuo smartphone prosperano sui dati. Quindi, è giusto dire che è praticamente impossibile elencare tutte le applicazioni della scienza dei dati a causa della sua assoluta onnipresenza.
Diamo un'occhiata agli ampi campi che stanno utilizzando la magia di Data Science:
1. Ricerca su Internet
In che modo Google restituisce risultati di ricerca così *accurati* in una frazione di secondo? Scienza dei dati!
2. Sistemi di Raccomandazione
Dalle "persone che potresti conoscere" su Facebook o LinkedIn alle "persone che hanno acquistato questo prodotto sono piaciute anche..." su Amazon alle playlist curate quotidianamente su Spotify fino ai "video suggeriti" su YouTube, tutto è alimentato da Data Science.
3. Riconoscimento di immagini/voci/personaggi
Questo praticamente è ovvio. Quale pensi sia il cervello dietro “Siri”, se non Data Science? Inoltre, come pensi che Facebook riconosca il tuo amico quando carichi una foto con lui? Non è magia; è scienza – Scienza dei dati.
4. Gioco
EA Sports, Sony, Nintendo, Zynga e altri giganti di questo settore si sono impegnati a portare la tua esperienza di gioco a un livello completamente nuovo. I giochi sono ora sviluppati e migliorati utilizzando algoritmi di Machine Learning in modo che possano essere aggiornati man mano che sali ai livelli più alti.
5. Siti Web di confronto dei prezzi
Questi siti web sono alimentati dai dati. Per loro, più siamo e meglio è. I dati vengono recuperati dai siti Web pertinenti utilizzando le API. PriceGrabber, PriceRunner, Junglee, Shopzilla sono alcuni di questi siti web.
Inizia con la scienza dei dati con PythonAvvolgendo…
Se vieni da un background tecnologico e hai qualcosa per i dati, allora Data Science è la tua vera vocazione. La parte migliore? C'è così tanto da fare ed esplorare dentro e intorno a Data Science. È un termine generico che copre una serie di strumenti e tecnologie: padroneggiarne uno qualsiasi ti renderà una risorsa nel mercato in continua crescita della scienza dei dati. upGrad offre vari corsi sulla scienza dei dati per tenerti al passo con i tempi. Non dimenticare di controllarli!
Qual è lo scopo della scienza dei dati in tutti i settori in India?
La scienza dei dati ha un enorme impatto in molti settori in India. Tutti i settori elencati di seguito fanno molto affidamento sulla scienza dei dati e offrono prospettive eccellenti per un data scientist.
1. Assistenza sanitaria: questa è una parola generica per qualsiasi cosa abbia a che fare con la medicina, i pazienti e le malattie. La scienza dei dati ha iniziato a svolgere un ruolo fondamentale in questo settore, dalla diagnosi più efficiente alla ricerca medica.
2. Banche e assicurazioni - Valutazione dei rischi e rilevamento delle frodi: le banche raccolgono profili dei clienti, richieste e spese precedenti, nonché una varietà di altri dati personali, in particolare per prestiti e assicurazioni. È qui che entra in gioco la scienza dei dati, poiché semplifica il processo e distingue tra coloro che sono a basso rischio e quelli ad alto rischio.
3. Marketing e pubblicità - Con tutti i dati a portata di mano, puoi analizzare e determinare chi dovrebbe essere il tuo pubblico di destinazione per commercializzare il tuo servizio o prodotto in modo efficace.
4. Industria delle compagnie aeree - La scienza dei dati viene utilizzata nel settore delle compagnie aeree per analizzare le rotte e le rotte degli aeromobili.
In che modo i data scientist possono utilizzare le proprie competenze per risolvere i problemi aziendali?
A seconda delle esigenze della propria azienda, un Data Scientist deve adottare una strategia diversa per risolvere una sfida aziendale. Utilizzando modelli ibridi di matematica e informatica, i data scientist raccolgono informazioni utili dai dati e aiutano a prendere decisioni migliori. Le applicazioni della scienza dei dati per risolvere le sfide aziendali del mondo reale includono il miglioramento della qualità dei prodotti, l'automazione del posizionamento degli annunci digitali, l'aumento della generazione di entrate prevedendo la domanda e le opportunità di crescita, l'automazione dei processi di reclutamento, la fissazione dei prezzi in un mercato dinamico tra gli altri casi d'uso.
Qual è il futuro della scienza dei dati?
Il futuro della scienza dei dati è molto eccitante con un ampio ambito di implementazione in quasi tutti i campi. Alcune delle migliori aziende di nativi digitali come Google, Amazon, Facebook ecc., hanno investito in modo significativo nei dati. L'ascesa della tecnologia emergente unita alla ricerca in corso porterà in futuro ad applicazioni e casi d'uso innovativi. Dal punto di vista della carriera, la scienza dei dati offre molte promesse.
