Analisi esplorativa dei dati e sua importanza per il tuo business
Pubblicato: 2018-02-22La maggior parte delle discussioni sull'analisi dei dati riguarda l'aspetto "scientifico". Sicuramente, c'è molta scienza dietro l'intero processo: algoritmi, formule e calcoli, ma non puoi togliergli "l'arte". Strutturare l'intero processo – dalla pianificazione dell'analisi, al dare un senso al risultato finale – non è un'impresa da poco e non è altro che una forma d'arte. Questo è esattamente ciò che rientra nel nostro argomento del giorno: Analisi dei dati esplorativi. In questo articolo, esamineremo cos'è l'analisi esplorativa dei dati, quali sono gli strumenti e le tecniche comuni per essa e in che modo aiuta un'organizzazione.
Sommario
Che cos'è l'analisi dei dati esplorativi?
L'analisi esplorativa dei dati è uno dei passaggi importanti nel processo di analisi dei dati. Qui, l'obiettivo è dare un senso ai dati in mano: cose come formulare le domande corrette da porre al tuo set di dati, come manipolare le origini dati per ottenere le risposte richieste e altro. Questo viene fatto dando uno sguardo elaborato a tendenze, modelli e valori anomali utilizzando un metodo visivo. 
L'analisi esplorativa dei dati è un passaggio cruciale prima di passare all'apprendimento automatico o alla modellazione dei dati. Fornisce il contesto necessario per sviluppare un modello appropriato e interpretare correttamente i risultati.
Manipolazione dei dati: come individuare le bugie sui dati?
Nel corso degli anni, l'apprendimento automatico è in aumento e questo ha dato vita a una serie di potenti algoritmi di apprendimento automatico. Così potenti che quasi ti tentano di saltare la fase di analisi dei dati esplorativi. Sebbene sia comprensibile il motivo per cui vorresti sfruttare tali algoritmi e saltare l'EDA, non è una buona idea inserire i dati in una scatola nera e attendere i risultati. È stato osservato più e più volte che l'analisi dei dati esplorativi fornisce molte informazioni critiche che è molto facile perdere: informazioni che aiutano l'analisi a lungo termine, dall'inquadrare le domande alla visualizzazione dei risultati. Se sei un principiante e sei interessato a saperne di più sulla scienza dei dati, dai un'occhiata alla nostra formazione sulla scienza dei dati dalle migliori università.
Mentre gli aspetti dell'EDA esistono da quando abbiamo dati da analizzare, l'Exploratory Data Analysis è stata ufficialmente sviluppata negli anni '70 da John Turkey, lo stesso scienziato che ha coniato la parola "Bit" (abbreviazione di Binary Digit). L'EDA è spesso vista e descritta come una filosofia più che come una scienza perché non ci sono regole rigide per affrontarla. Lo scopo dell'analisi esplorativa dei dati è essenziale per affrontare compiti specifici come:
- Individuazione di dati mancanti ed errati;
- Mappatura e comprensione della struttura sottostante dei tuoi dati;
- Identificare le variabili più importanti nel tuo set di dati;
- Testare un'ipotesi o verificare ipotesi relative a un modello specifico;
- Stabilire un modello parsimonioso (uno che può spiegare i tuoi dati utilizzando variabili minime);
- Stima dei parametri e calcolo dei margini di errore.
Strumenti e tecniche utilizzati nell'analisi esplorativa dei dati
S-Plus e R sono i più importanti linguaggi di programmazione statistica utilizzati per eseguire l'analisi dei dati esplorativi. Queste lingue vengono fornite in bundle con una pletora di strumenti che ti aiutano a eseguire funzioni statistiche specifiche come:
Tecniche di classificazione e riduzione dimensionale

La classificazione viene essenzialmente utilizzata per raggruppare diversi set di dati in base a un parametro/variabile comune. I dati di cui stiamo parlando sono multidimensionali e non è facile eseguire la classificazione o il raggruppamento su un set di dati multidimensionale. Quindi, per aiutare in questo, vengono eseguite tecniche di riduzione della dimensionalità come PCA e LDA: queste riducono la dimensionalità del set di dati senza perdere informazioni preziose dai tuoi dati.
In che modo il paradosso di Simpson influisce sui dati?
Visualizzazione univariata

Le visualizzazioni univariate sono essenzialmente distribuzioni di probabilità di ogni singolo campo nel set di dati grezzi, con statistiche riassuntive. Le visualizzazioni univariate utilizzano tabelle di distribuzione della frequenza, grafici a barre, istogrammi o grafici a torta per la rappresentazione grafica.
Visualizzazioni bivariate

Questi consentono ai data scientist di valutare la relazione tra le variabili nel tuo set di dati e ti aiutano a indirizzare la variabile che stai guardando. I grafici appropriati per l'analisi bivariata dipendono dal tipo di variabile in questione. Ad esempio, se hai a che fare con due variabili continue, un grafico a dispersione dovrebbe essere il grafico di tua scelta. Se uno è categoriale e l'altro è continuo, è preferito un box plot e quando entrambe le variabili sono categoriali, viene scelto un grafico a mosaico.
Il business della sicurezza dei dati è in forte espansione!
Visualizzazioni multivariate

Le visualizzazioni multivariate aiutano a comprendere le interazioni tra i diversi campi di dati. Implica l'osservazione e l'analisi di più di una variabile di risultato statistico in un dato momento.

K-mezzi di raggruppamento

Il clustering K-medie viene fondamentalmente utilizzato per creare "centri" per ciascun cluster in base alla media più vicina. È una tecnica iterativa che continua a creare e ricreare i cluster, fino a quando i cluster formati non smettono di cambiare con le iterazioni. Può essere utilizzato per trovare valori anomali in un set di dati (i punti che non saranno una forma di alcun cluster saranno idealmente valori anomali).
Modelli predittivi

Come suggerisce il nome, la modellazione predittiva è un metodo che utilizza le statistiche per prevedere i risultati. Sebbene la maggior parte delle previsioni miri a prevedere cosa accadrà in futuro, la modellazione predittiva può essere applicata anche a qualsiasi evento sconosciuto, indipendentemente da quando è probabile che si verifichi. Ad esempio, questa tecnica può essere utilizzata per rilevare il crimine e identificare i sospetti anche dopo che il crimine è avvenuto. Il modo più comune per eseguire la modellazione predittiva è utilizzare la regressione lineare (vedi immagine).
Che cos'è il data warehousing e il data mining
In che modo l'Exploratory Data Analysis aiuta la tua azienda e dove si inserisce?
L'analisi esplorativa dei dati fornisce il massimo valore a qualsiasi azienda aiutando gli scienziati a capire se i risultati che hanno prodotto sono interpretati correttamente e se si applicano ai contesti aziendali richiesti. Oltre a garantire risultati tecnicamente validi, l'analisi dei dati esplorativi avvantaggia anche le parti interessate confermando se le domande che stanno ponendo sono giuste o meno. La scienza dei dati esplorativa spesso si presenta con intuizioni imprevedibili, su cui le parti interessate o gli scienziati dei dati non si interesserebbero nemmeno di indagare in generale, ma che possono comunque rivelarsi altamente informative sull'azienda.
Esistono numerosi connettori di dati che aiutano le organizzazioni a incorporare l'analisi dei dati esplorativi direttamente nel loro software di Business Intelligence. Puoi anche configurarlo per consentire ai dati di fluire anche nell'altra direzione, creando ed eseguendo modelli statistici in (ad esempio) R che utilizzano i dati BI e si aggiornano automaticamente quando nuove informazioni fluiscono nel modello.
I potenziali casi d'uso dell'analisi esplorativa dei dati sono di ampia portata, ma alla fine tutto si riduce a questo: l'analisi esplorativa dei dati consiste nel conoscere e comprendere i dati prima di formulare ipotesi al riguardo o fare qualsiasi passo nella direzione di Data Mining. Ti aiuta a evitare di creare modelli imprecisi o costruire modelli accurati su dati sbagliati.
L'esecuzione corretta di questo passaggio darà a qualsiasi organizzazione la necessaria fiducia nei propri dati, che alla fine consentirà loro di iniziare a distribuire potenti algoritmi di apprendimento automatico. Tuttavia, ignorare questo passaggio cruciale può portarti a costruire il tuo sistema di Business Intelligence su basi molto traballanti.
12 modi per collegare l'analisi dei dati ai risultati aziendali
In conclusione…
L'analisi esplorativa dei dati è chiaramente uno dei passaggi importanti durante l'intero processo di estrazione della conoscenza. Se vuoi creare una solida base per il tuo processo di analisi generale, dovresti concentrarti con tutte le tue forze e le tue forze sulla fase EDA. In tutta onestà, un po' di statistiche è necessario per superare questo passaggio. Se ritieni di essere indietro su questo fronte, non dimenticare di leggere il nostro articolo sulle basi delle statistiche necessarie per la scienza dei dati.
Impara i corsi di scienza dei dati online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.
Se sei interessato a imparare Python e vuoi sporcarti le mani su vari strumenti e librerie, dai un'occhiata al programma Executive PG in Data Science. Oh, e cosa ne pensi della nostra posizione di considerare l'"analisi dei dati esplorativi" come un'arte più che come una scienza? Fateci sapere nei commenti qui sotto!
Perché un Data Scientist dovrebbe utilizzare l'Exploratory Data Analysis per migliorare il tuo business?
L'obiettivo principale dell'analisi esplorativa dei dati è assistere nell'analisi dei dati prima di formulare ipotesi. Può aiutare con il rilevamento di errori evidenti, una migliore comprensione dei modelli di dati, il rilevamento di valori anomali o eventi imprevisti e la scoperta di interessanti correlazioni tra variabili.
I data scientist possono utilizzare l'analisi esplorativa per garantire che i risultati che producono siano accurati e accettabili per i risultati e gli obiettivi aziendali desiderati. L'EDA assiste anche le parti interessate assicurandosi che pongano le domande appropriate. È possibile rispondere a deviazioni standard, variabili categoriali e intervalli di confidenza con EDA. Dopo il completamento di EDA e l'estrazione di informazioni dettagliate, le sue funzionalità possono essere applicate ad analisi o modelli di dati più avanzati, incluso il machine learning.
Quali sono i casi d'uso più popolari per EDA?
Non è raro che i data scientist utilizzino l'EDA prima di collegare altri tipi di modellazione. Viene spesso utilizzato nell'analisi dei dati per esaminare i set di dati per identificare valori anomali, tendenze, modelli ed errori. Ad esempio, l'EDA è comunemente utilizzato nella vendita al dettaglio, dove gli strumenti di BI e gli esperti analizzano i dati per scoprire informazioni sulle tendenze di vendita, le categorie principali, ecc., L'EDA è anche utilizzato nella ricerca sanitaria per identificare nuove tendenze in un mercato o in un settore, determinando i ceppi di influenza che potrebbe essere più prevalente nella nuova stagione influenzale, verificando l'omogeneità della popolazione dei pazienti ecc.
Quali sono i tipi di analisi dei dati esplorativi?
I tipi di analisi dei dati esplorativi sono
1. Univariato non grafico: lo scopo standard dell'EDA univariato non grafico è comprendere la distribuzione/i dati del campione e fare osservazioni sulla popolazione.
2. Grafica univariata: istogrammi, grafici stem-and-leaf, box plot, ecc.
3. Multivariato non grafico: queste tecniche EDA utilizzano tabelle incrociate o statistiche per rappresentare la relazione tra due o più variabili di dati.
4. Grafica multivariata: nei dati multivariati vengono utilizzate rappresentazioni grafiche delle relazioni tra due o più tipi di dati.
