Analiza exploratorie a datelor și importanța acesteia pentru afacerea dvs

Publicat: 2018-02-22

Majoritatea discuțiilor despre analiza datelor tratează aspectul „știință” al acesteia. Cu siguranță, în spatele întregului proces se află multă știință – algoritmii, formulele și calculele, dar nu poți lua „arta” din el. Structurarea întregului proces – de la planificarea analizei până la înțelegerea rezultatului final – nu este o ispravă ușoară și nu este mai puțin decât o formă de artă. Acesta este exact ceea ce intră sub subiectul nostru pentru acea zi – Analiza exploratorie a datelor. În acest articol, vom analiza ce este analiza exploratorie a datelor, care sunt instrumentele și tehnicile comune pentru aceasta și cum ajută aceasta o organizație.

Cuprins

Ce este analiza exploratorie a datelor?

Analiza exploratorie a datelor este unul dintre pașii importanți în procesul de analiză a datelor. Aici, accentul se pune pe înțelegerea datelor în mână - lucruri precum formularea întrebărilor corecte pe care să le adresați setului dvs. de date, cum să manipulați sursele de date pentru a obține răspunsurile necesare și altele. Acest lucru se realizează printr-o privire elaborată asupra tendințelor, modelelor și valorilor aberante folosind o metodă vizuală.
analiza exploratorie a datelor
Analiza exploratorie a datelor este un pas crucial înainte de a trece la învățarea automată sau la modelarea datelor. Acesta oferă contextul necesar pentru dezvoltarea unui model adecvat – și interpretarea corectă a rezultatelor.
Manipularea datelor: cum puteți descoperi minciunile datelor?

De-a lungul anilor, învățarea automată a fost în creștere – și asta a dat naștere unui număr de algoritmi puternici de învățare automată. Atât de puternic încât aproape că te tentează să sări peste faza de analiză exploratorie a datelor. Deși este de înțeles de ce ați dori să profitați de astfel de algoritmi și să omiteți EDA - Nu este o idee foarte bună să introduceți date într-o cutie neagră și să așteptați rezultatele. S-a observat în repetate rânduri că analiza exploratorie a datelor oferă o mulțime de informații critice care sunt foarte ușor de ratat – informații care ajută la analiza pe termen lung, de la încadrarea întrebărilor până la afișarea rezultatelor. Dacă sunteți începător și doriți să aflați mai multe despre știința datelor, consultați formarea noastră în știința datelor de la universități de top.

În timp ce aspectele EDA au existat atâta timp cât am avut date de analizat, Exploratory Data Analysis a fost dezvoltată oficial în anii 1970 de John Turkey – același om de știință care a inventat cuvântul „Bit” (prescurtarea de la Binary Digit). EDA este adesea văzută și descrisă ca o filozofie mai mult decât știință, deoarece nu există reguli stricte și rapide pentru abordarea ei. Scopul analizei exploratorii a datelor este esențial pentru a aborda sarcini specifice, cum ar fi:

    • Identificarea datelor lipsă și eronate;

    • Cartografierea și înțelegerea structurii de bază a datelor dvs.;

    • Identificarea celor mai importante variabile din setul de date;

    • Testarea unei ipoteze sau verificarea ipotezelor legate de un anumit model;

    • Stabilirea unui model parsimonios (unul care poate explica datele dvs. folosind variabile minime);

  • Estimarea parametrilor și estimarea marjelor de eroare.

Instrumente și tehnici utilizate în Analiza Explorativă a Datelor

S-Plus și R sunt cele mai importante limbaje de programare statistică utilizate pentru a efectua Analiza Explorativă a Datelor. Aceste limbi vin la pachet cu o multitudine de instrumente care vă ajută să efectuați funcții statistice specifice, cum ar fi:

Tehnici de clasificare și reducere a dimensiunilor

analiza exploratorie a datelor
Clasificarea este utilizată în esență pentru a grupa diferite seturi de date bazate pe un parametru/variabilă comun. Datele despre care vorbim sunt multidimensionale și nu este ușor să efectuați clasificarea sau gruparea pe un set de date multidimensional. Prin urmare, pentru a ajuta acest lucru, sunt efectuate tehnici de reducere a dimensionalității, cum ar fi PCA și LDA - acestea reduc dimensionalitatea setului de date fără a pierde orice informație valoroasă din datele dvs.
Cum afectează Paradoxul lui Simpson datele?

Vizualizare univariată

analiza exploratorie a datelor
Vizualizările univariate sunt în esență distribuții de probabilitate ale fiecărui câmp din setul de date brute – cu statistici rezumative. Vizualizările univariate folosesc tabele de distribuție a frecvenței, diagrame cu bare, histograme sau diagrame circulare pentru reprezentarea grafică.

Vizualizări bivariate

analiza exploratorie a datelor
Acestea le permit oamenilor de știință de date să evalueze relația dintre variabilele din setul de date și vă ajută să vizați variabila pe care o priviți. Graficele adecvate pentru analiza bivariată depind de tipul de variabilă în cauză. De exemplu, dacă aveți de-a face cu două variabile continue, un grafic de dispersie ar trebui să fie graficul la alegere. Dacă una este categorică și cealaltă este continuă, se preferă un diagramă cu casete, iar când ambele variabile sunt categorice, se alege un diagramă mozaic.
Afacerea securității datelor este în plină expansiune!

Vizualizări multivariate

analiza exploratorie a datelor
Vizualizările multivariate ajută la înțelegerea interacțiunilor dintre diferite câmpuri de date. Aceasta implică observarea și analiza mai multor variabile de rezultat statistic la un moment dat.

K înseamnă grupare

analiza exploratorie a datelor
Gruparea K-means este folosită practic pentru a crea „centre” pentru fiecare cluster pe baza celei mai apropiate medii. Este o tehnică iterativă care continuă să creeze și să recreeze clustere – până când clusterele formate încetează să se schimbe cu iterații. Poate fi folosit pentru a găsi valori aberante într-un set de date (punctele care nu vor fi o formă a niciunui cluster vor fi, în mod ideal, valori aberante).

Modele predictive

analiza exploratorie a datelor
După cum sugerează și numele, modelarea predictivă este o metodă care utilizează statistici pentru a prezice rezultate. Deși majoritatea predicțiilor urmăresc să prezică ce se va întâmpla în viitor, modelarea predictivă poate fi aplicată și oricărui eveniment necunoscut, indiferent de momentul în care este probabil să apară. De exemplu, această tehnică poate fi utilizată pentru a detecta infracțiunile și a identifica suspecții chiar și după ce infracțiunea s-a produs. Cel mai comun mod de a efectua modelarea predictivă este utilizarea regresiei liniare (vezi imaginea).
Ce este ce înseamnă depozitarea datelor și mineritul de date

Cum vă ajută analiza exploratorie a datelor afacerea dvs. și unde se încadrează?

Analiza exploratorie a datelor oferă cea mai mare valoare oricărei afaceri, ajutând oamenii de știință să înțeleagă dacă rezultatele pe care le-au produs sunt interpretate corect și dacă se aplică contextelor de afaceri necesare. Pe lângă doar asigurarea unor rezultate solide din punct de vedere tehnic, analiza exploratorie a datelor beneficiază și părțile interesate, confirmând dacă întrebările pe care le pun sunt corecte sau nu. Exploratory Data Science apare adesea cu perspective imprevizibile – cele pe care părțile interesate sau oamenii de știință de date nici nu ar dori să le investigheze în general, dar care se pot dovedi totuși a fi foarte informative despre afacere.
Există o serie de conectori de date care ajută organizațiile să încorporeze analiza exploratorie a datelor direct în software-ul lor de Business Intelligence. De asemenea, puteți configura acest lucru pentru a permite datelor să curgă și în altă direcție, prin construirea și rularea modelelor statistice în (de exemplu) R care utilizează date BI și se actualizează automat pe măsură ce noi informații circulă în model.
Cazurile potențiale de utilizare ale analizei exploratorii de date sunt ample, dar, în cele din urmă, totul se rezumă la acest lucru - analiza exploratorie a datelor se referă la a vă cunoaște și înțelege datele înainte de a face presupuneri cu privire la acestea sau de a lua orice pași în direcția lor. de Data Mining. Vă ajută să evitați crearea de modele inexacte sau construirea unor modele precise pe date greșite.
Efectuarea corectă a acestui pas va oferi oricărei organizații încrederea necesară în datele lor – ceea ce le va permite în cele din urmă să înceapă să implementeze algoritmi puternici de învățare automată. Cu toate acestea, ignorarea acestui pas crucial vă poate conduce să vă construiți sistemul de Business Intelligence pe o fundație foarte instabilă.
12 moduri de a conecta analiza datelor la rezultatele afacerii

În concluzie…
Analiza exploratorie a datelor este destul de clar unul dintre pașii importanți pe parcursul întregului proces de extragere a cunoștințelor. Dacă doriți să stabiliți o bază solidă pentru procesul de analiză generală, ar trebui să vă concentrați cu toată puterea și puterea pe faza EDA. Cu toată sinceritatea, este nevoie de puține statistici pentru a trece la acest pas. Dacă simțiți că rămâneți în urmă în acest sens, nu uitați să citiți articolul nostru despre Bazele statisticii necesare pentru știința datelor.

Învață cursuri de știință a datelor online de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Dacă sunteți interesat să învățați python și doriți să vă murdăriți mâinile cu diverse instrumente și biblioteci, consultați Programul Executive PG în Știința datelor. Ah, și ce părere aveți despre poziția noastră de a considera „Analiza exploratorie a datelor” ca o artă mai mult decât știință? Spune-ne în comentariile de mai jos!

De ce ar trebui un Data Scientist să folosească analiza exploratorie a datelor pentru a vă îmbunătăți afacerea?

Scopul principal al analizei exploratorii a datelor este de a ajuta la analiza datelor înainte de a face ipoteze. Poate ajuta la detectarea erorilor evidente, la o mai bună înțelegere a tiparelor de date, la detectarea valorii aberante sau a evenimentelor neașteptate și la descoperirea unor corelații interesante între variabile.

Oamenii de știință de date pot folosi analize exploratorii pentru a se asigura că rezultatele pe care le produc sunt exacte și acceptabile pentru orice rezultate și obiective de afaceri dorite. EDA ajută, de asemenea, părțile interesate, asigurându-se că pun întrebările adecvate. Deviațiile standard, variabilele categoriale și intervalele de încredere pot fi răspunse cu EDA. După finalizarea EDA și extragerea de informații, caracteristicile sale pot fi aplicate la analiza sau modelarea mai avansată a datelor, inclusiv învățarea automată.

Care sunt cele mai populare cazuri de utilizare pentru EDA?

Nu este neobișnuit ca oamenii de știință să folosească EDA înainte de a lega alte tipuri de modelare. Este adesea folosit în analiza datelor pentru a analiza seturile de date pentru a identifica valori aberante, tendințe, modele și erori. De exemplu, EDA este folosit în mod obișnuit în comerțul cu amănuntul, unde instrumentele BI și experții analizează datele pentru a descoperi informații despre tendințele de vânzare, categoriile de top etc. gripă care poate fi mai răspândită în noul sezon gripal, verificarea omogenității populației de pacienți etc.

Care sunt tipurile de analiză exploratorie a datelor?

Tipurile de Analiză Explorativă a Datelor sunt

1. Negrafic univariat: Scopul standard al EDA negrafic univariat este de a înțelege distribuția/datele eșantionului și de a face observații asupra populației.
2. Grafic univariat: Histograme, diagrame stem-and-leaf, Box Plots, etc.
3. Negrafic multivariat: Aceste tehnici EDA folosesc tabelul încrucișat sau statisticile pentru a descrie relația dintre două sau mai multe variabile de date.
4. Grafic multivariat: Reprezentările grafice ale relațiilor dintre două sau mai multe tipuri de date sunt utilizate în datele multivariate.