Ce este ce înseamnă depozitarea datelor și mineritul de date

Publicat: 2018-02-22

Datele întreprinderii au fost stocate în silozuri de informații care erau fizic separat de alte depozite de date, iar fiecare siloz a îndeplinit funcții specializate – dar asta înainte ca Big Data să lovească lumea (într-o furtună, dacă putem spune). Acum, este practic imposibil să exersezi aceleași metode pe seturi de date atât de mari. Imaginați-vă doar numărul de extrase de date pe care le-ar avea nevoie din atât de multe astfel de silozuri de informații separate fizic – doar pentru a rula o interogare simplă. Totul datorită mormanului extrem de masiv de date care se află în organizații și metodelor de inginerie a datelor mari.

Să urmărim cu atenție cum intră în scenă Data Warehousing și Data mining . Depozitele de date au fost dezvoltate pentru a combate această problemă a stocării datelor. În esență, Data Warehouses poate fi gândit ca un depozit unificat de date care provine din diverse surse și se află în diferite formate. Miningul de date, pe de altă parte, este procesul de extragere a cunoștințelor din depozitul de date menționat.

În acest articol, vom arunca o privire detaliată asupra Data Warehouse și Data Mining. Pentru o mai bună înțelegere, am structurat articolul după cum urmează:

  • Ce este Data Warehousing?
  • Procese de depozit de date
  • Ce este data mining?
  • Procesul KDD
  • Cazuri de utilizare în viața reală ale exploatării datelor

Cuprins

Ce este Data Warehousing?

Dacă ar fi să definim Data Warehouse, acesta poate fi explicat ca o colecție integrată de date orientată pe subiect, variabilă în timp, nevolatilă. Introducerea în Data Warehousing cuprinde și date compilate din surse externe. Scopul proiectării unui Depozit este de a analiza și induce decizii de afaceri prin raportarea datelor la un nivel agregat diferit. Înainte de a trece mai departe de aici, să vedem mai întâi ce înseamnă acești termeni în contextul unui depozit de date:

  • Orientat pe subiect

    Organizațiile pot utiliza Data Warehouse pentru a analiza un anumit domeniu. Să presupunem că doriți să vedeți cât de bine s-a descurcat echipa dvs. de vânzări în ultimii 5 ani – vă puteți interoga Depozitul și vă va spune tot ce trebuie să știți. În acest caz, „vânzările” pot fi tratate ca subiect.

  • Varianta de timp

    Depozitele de date sunt responsabile pentru stocarea datelor istorice pentru organizații. De exemplu, un sistem de tranzacții poate deține cea mai recentă adresă a unui client, dar un depozit de date va deține și toate adresele anterioare. Continuă să adauge date din diverse surse, în afară de păstrarea datelor istorice – de aceea este un model cu variație în timp. Datele stocate vor varia întotdeauna în timp.

  • Ne volatil

    Odată ce datele sunt stocate într-un depozit de date, acestea nu pot fi modificate sau modificate. Putem adăuga doar o copie modificată a datelor pe care dorim să le modificăm.

  • Integrat:

    După cum am spus mai devreme, un depozit de date deține date din mai multe surse. Să presupunem că avem două surse de date – A și B. Ambele surse ar putea avea tipuri complet diferite de date stocate în ele, dar atunci când sunt aduse într-un Depozit, sunt supuse preprocesării. Acesta este modul în care un Data Warehouse integrează datele dintr-o serie de surse.

Începeți în știința datelor cu Python

Procese de depozit de date

Data Warehousing și Data Mining
Aruncă o privire la imaginea de mai sus. Datele care sunt colectate din diverse surse (sistem operațional, ERP, CRM, fișiere plate etc.) sunt supuse unui proces ETL înainte de a fi introduse în depozitul de date. Acest lucru se face în esență pentru a elimina anomaliile, dacă există, din date - astfel încât să nu fie cauzată nicio daune depozitului de date. ETL înseamnă – Extraction, Transformation, and Loading. Să aruncăm o privire la fiecare dintre aceste procese în detaliu. Pentru a înțelege mai bine, vom folosi o analogie – gândiți-vă la goana aurului și citiți mai departe!

  • Extracţie

    Extragerea se face în esență pentru a colecta toate datele necesare de la sistemele sursă folosind cât mai puține resurse posibil.

Gândiți-vă la acest pas ca la o trecere a râului în căutarea unor pepite de aur cât mai mari posibil .

  • Transformare

    Scopul principal este inserarea datelor extrase în baza de date într-un format general. Acest lucru se datorează faptului că diferite surse vor avea formate diferite de stocare a datelor – de exemplu, o sursă de date poate avea date în format „zz/ll/aaaa”, iar cealaltă le poate avea în format „zz-ll-aa”. În acest pas, îl vom converti într-un format generalizat – unul care va fi folosit pentru datele din toate sursele.

Acum ai o pepită de aur. Ce faci? Topiți-l și îndepărtați impuritățile.

  • Se încarcă

    În acest pas, datele transformate sunt încărcate în baza de date țintă.

Acum ai aur pur – modelează-l într-un inel și vinde-l!
Procesul de aducere a datelor din diverse surse și stocarea lor în Data Warehouse (după procesul ETL, desigur), este ceea ce este cunoscut sub numele de Data Warehousing.
Acum, aveți datele la locul lor - toate curățate și gata de funcționare. Care ar trebui să fie următorul pas? Extragerea cunoștințelor – da!

Miningul de date la salvare!

Cum poți trece la Data Analytics?

Ce este data mining?

Data Mining este, pur și simplu, procesul de extragere a informațiilor necunoscute anterior, dar potențial utile din seturile de date. Prin „necunoscut anterior”, ne referim la cunoștințe care pot fi dobândite numai după o minare profundă a depozitului de date – adică, nu va avea sens la suprafață. Data Mining caută în esență relațiile modelelor globale care există între elementele de date.

De exemplu, imaginați-vă că conduceți un supermarket. Acum, istoricul cumpărăturilor unui client ar putea să nu dezvăluie multe la suprafață, dar, dacă este analizat cu atenție – recunoscând posibilele modele, atunci doar aceste informații sunt suficiente pentru a oferi multe. Dacă nu ați ghicit încă, vorbim despre Target – un supermarket care și-a dat seama că o adolescentă (client) era însărcinată doar studiind cu atenție istoricul cumpărăturilor și căutând tendințe și modele. Așadar, informațiile care păreau atât de banale la suprafață s-au dovedit a fi atât de valoroase atunci când sunt extrase cu atenție – și exact asta înțelegem prin „cunoștințe necunoscute anterior”.

Considerăm că nu va fi nedrept pentru dvs. dacă vă oferim gustul Data Warehousing și Data Mining și ignorăm complet imaginea de ansamblu – Knowledge Discovery in Databases (KDD). Data Mining formează unul dintre pașii unui proces KDD. Să vorbim mai multe despre KDD.

Obțineți certificare în știința datelor de la cele mai bune universități din lume. Alăturați-vă programelor noastre Executive PG, Programelor de certificate avansate sau Programelor de master pentru a vă accelera cariera.

Descoperirea cunoștințelor în baze de date (KDD)

Exploatarea datelor este unul dintre cei mai importanți pași în procesul KDD. KDD acoperă practic totul, de la selecția datelor până la evaluarea în cele din urmă a datelor extrase. Ciclul KDD complet este prezentat în imaginea de mai jos:

Data Warehousing și Data Mining

Selecţie

Este de maximă importanță să cunoașteți datele exacte țintă. Analizarea Data Mining la subsetul Data Warehousing este un pas foarte important, deoarece eliminarea elementelor de date care nu au legătură va reduce spațiul de căutare în timpul fazei de Data Mining .

Preprocesare

În acest pas, datele selectate sunt eliberate de orice anomalii și valori aberante. Practic, datele sunt complet curățate în această fază. De exemplu, dacă lipsesc unele câmpuri de date, acestea sunt umplute cu valori adecvate. De exemplu, în tabelul care stochează detaliile angajaților organizației dvs., să presupunem că există o coloană pentru „Nume de mijloc”. Sunt șanse ca acesta să fie gol pentru mulți angajați. Într-un astfel de scenariu, se alege o valoare adecvată (N/A, de exemplu).

Transformare

Această fază încearcă să reducă varietatea elementelor de date, păstrând în același timp calitatea informațiilor.

Exploatarea datelor

Aceasta este faza principală a unui proces KDD. Datele transformate sunt supuse unor metode de extragere a datelor cum ar fi gruparea, gruparea, regresia etc. Acest lucru se face iterativ pentru a aduce cele mai bune rezultate. Pot fi utilizate diferite tehnici în funcție de cerințe.

Evaluare

Acesta este pasul final. În aceasta, cunoștințele obținute sunt documentate și prezentate pentru analiză ulterioară. În acest pas sunt folosite diverse instrumente de vizualizare a datelor pentru a reprezenta cunoștințele dobândite într-un mod frumos și ușor de înțeles.
Cum afectează Paradoxul lui Simpson datele?

Cazuri de utilizare în viața reală ale exploatării datelor

Fiecare organizație, de la Amazon, Flipkart, Netflix, la Facebook, Twitter, Instagram și chiar și Walmart, folosește Data Mining-ul. În această secțiune, vom vorbi despre patru cazuri de utilizare largi ale Data Mining, care fac parte integrantă din viața de zi cu zi.

  • Prestatori de servicii

    Furnizorii de servicii de telecomunicații folosesc Data Mining pentru a prezice „renunțarea” – un termen folosit de ei pentru atunci când un client le renunță la un alt furnizor. În afară de asta, ei adună informații de facturare, vizite pe site-uri web, interacțiuni cu asistența clienților și alte asemenea lucruri pentru a oferi fiecărui client un scor de probabilitate. Apoi, acelor clienți care sunt expuși unui risc mai mare de „turning” li se oferă oferte și stimulente.

  • E-Commerce

    Comerțul electronic este cu ușurință cel mai cunoscut caz de utilizare atunci când vine vorba de Data Mining. Una dintre cele mai faimoase dintre ele este, desigur, Amazon. Ei folosesc tehnici miniere extrem de sofisticate. Consultați, de exemplu, funcționalitatea „Oamenii care au văzut acel produs, le-a plăcut și acesta”!

  • Supermarketuri

    Supermarketurile sunt, de asemenea, un caz de utilizare interesant al Data Mining. Explorarea istoricului de achiziții al clienților le permite acestora să înțeleagă modelele lor de cumpărare. Aceste informații sunt apoi folosite de supermarketuri pentru a oferi clienților oferte personalizate. Ah, și v-am spus despre ce a făcut Target folosind Data Mining? (Da am făcut!)

  • Cu amănuntul

    Comercianții cu amănuntul își grupează clienții în grupuri Recency, Frequency și Monetary (RFM). Folosind Data Mining, ei vizează marketingul către aceste grupuri. Un client care cheltuiește puțin, dar des, iar ultima sa achiziție a fost destul de recentă, va fi tratat diferit față de un client care a cheltuit mult, dar o singură dată.

Cine este un Data Scientist, un Data Analyst și un Data Engineer?

Încheierea…

Data Warehousing și Data Mining alcătuiesc două dintre cele mai importante procese care rulează literalmente lumea astăzi. Aproape fiecare lucru important de astăzi este rezultatul extragerii de date sofisticate. Pentru că datele neexplorate sunt la fel de utile (sau inutile) ca și nicio dată.

Din nou, pentru a înțelege diferența dintre Data Mining și Data Warehousing, trebuie să vă răsfățați, de la introducerea în Data Mining la Data Warehousing - care este o metodă care centralizează toate datele din surse disparate într-o singură bază de date. Putem defini Data warehousing ca date istorice compilate sau flux de date în timp real care oferă în mare parte informații organice și integrate.

Sperăm că acest articol v-a oferit claritate despre ce este Data Warehousing și Data Mining și multe altele. În concluzie, procesul de colectare, stocare și organizare a informațiilor într-o singură bază de date este considerat a fi ca Data Warehousing vs. Data Mining extrage în mare parte informații semnificative din date folosind o perspectivă diferită. Toate informațiile utile care sunt colectate pot fi folosite ulterior pentru a rezolva probleme viitoare care ar putea constitui un obstacol în creșterea companiei și pot chiar reduce costurile. Dacă sunteți în căutarea unui viitor strălucitor și fascinant și dacă explorarea este pasiunea dvs., atunci începeți de la a învăța Ce este despre depozitarea datelor și minarea datelor ar fi o opțiune excelentă pentru dvs.

Sperăm că acest articol ți-a dat claritate cu privire la ceea ce înseamnă acești doi termeni și multe altele! Dacă sunteți curios să aflați despre știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Cum folosesc companiile Data Warehousing și Data Mining?

Atât data mining-ul, cât și data warehousing-ul sunt tehnici de business intelligence pentru transformarea informațiilor (sau a datelor) în cunoștințe utilizabile.

Exploatarea datelor este o metodă de analiză statistică. Instrumentele tehnice sunt folosite de analiști pentru a interoga și sorta gigaocteți de date în căutarea tendințelor. Companiile folosesc apoi aceste date pentru a lua decizii de afaceri mai bune pe baza înțelegerii comportamentelor consumatorilor și furnizorilor lor.

Data Warehousing este procesul de proiectare a modului în care sunt stocate datele pentru a facilita raportarea și analiza. Potrivit specialiștilor din depozitul de date, numeroasele depozite de date sunt atât conceptual, cât și fizic integrate și legate între ele. Datele unei companii sunt de obicei salvate în mai multe baze de date.

Care este diferența de bază dintre Data Warehousing și Data Mining? Care este mai practic în lumea afacerilor?

Un depozit de date este un sistem de stocare a datelor. De obicei implică o varietate de tipuri de date achiziționate din mai multe surse pentru o varietate de obiective. Procesul de stocare a acestor date cu disciplină, astfel încât să poată fi recuperate ulterior, este cunoscut sub numele de depozitare de date.

Procesul de extragere a datelor este cunoscut sub numele de data mining. Aceasta presupune localizarea celor mai pertinente informații pentru un anumit scop. Poate proveni din depozitul dvs. de date sau din altă parte. Anticipați să rafinați și să curățați datele pe care le extrageți, așa cum ați face cu minereul real.

Cu cât sistemele dvs. de depozitare sunt mai bune, cu atât vă va fi mai ușor să-mi fie folosite.

Sunt procesele Data Mining și KDD similare?

Deși KDD și Data Mining sunt termenii care sunt schimbați frecvent, ei se referă la două concepte distincte, dar înrudite.

Data Mining este o componentă a procesului KDD care se ocupă cu recunoașterea tiparelor în date, în timp ce KDD este întregul proces de extragere a cunoștințelor din date. Altfel spus, Data Mining este doar aplicarea unui algoritm specific pentru a atinge scopul final al procesului KDD.