Tehnici de curățare a datelor: Aflați modalități simple și eficiente de curățare a datelor

Publicat: 2020-01-26

Curățarea datelor este o parte esențială a științei datelor. Lucrul cu date impure poate duce la multe dificultăți. Și astăzi vom discuta despre același lucru.

Veți afla de ce curățarea datelor este esențială, ce factori vă afectează calitatea datelor și cum puteți curăța datele pe care le aveți. Este un ghid detaliat, așa că asigurați-vă că îl marcați pentru referințe viitoare.

Să începem.

Cuprins

De ce este necesară curățarea datelor

Curățarea datelor poate părea plictisitoare și neinteresantă, dar este una dintre cele mai importante sarcini pe care ar trebui să le faci ca profesionist în știința datelor. A avea date greșite sau de calitate proastă poate fi dăunătoare proceselor și analizei dvs. Datele slabe pot duce la eșecul unui algoritm stelar.

Pe de altă parte, datele de înaltă calitate pot face ca un algoritm simplu să vă ofere rezultate remarcabile. Există multe tehnici de curățare a datelor și ar trebui să vă familiarizați cu ele pentru a vă îmbunătăți calitatea datelor. Nu toate datele sunt utile. Deci, acesta este un alt factor major care vă afectează calitatea datelor.

Citiți: Analiza clusterului în R

De exemplu, să presupunem că compania dumneavoastră are o listă cu adresele angajaților. Acum, dacă datele tale includ și câteva adrese ale clienților tăi, nu ar deteriora lista? Și eforturile tale de a analiza lista nu ar fi în zadar? Pe această piață bazată pe date, învățarea științei datelor pentru a vă îmbunătăți deciziile de afaceri este vitală.

Există multe motive pentru care curățarea datelor este esențială. Unele dintre ele sunt enumerate mai jos:

Eficienţă

Având date curate (fără valori greșite și inconsecvente) vă poate ajuta să vă efectuați analiza mult mai rapid. Ai economisi o cantitate considerabilă de timp făcând această sarcină în prealabil. Când vă curățați datele înainte de a le utiliza, veți putea evita mai multe erori. Dacă utilizați date care conțin valori false, rezultatele dvs. nu vor fi exacte.

Și șansele sunt că ar trebui să refaceți întreaga sarcină din nou, ceea ce poate provoca o mulțime de pierderi de timp. Dacă alegeți să vă curățați datele înainte de a le utiliza, puteți genera rezultate mai rapid și puteți evita să refaceți întreaga sarcină din nou.

Marja de eroare

Când nu folosiți date exacte pentru analiză, cu siguranță veți face greșeli. Să presupunem că ați depus mult efort și timp pentru a analiza un anumit grup de seturi de date. Ești foarte dornic să arăți rezultatele superiorului tău, dar în întâlnire, superiorul tău subliniază câteva greșeli, situația devine cam jenantă și dureroasă.

Nu ai vrea să eviți să se întâmple astfel de greșeli? Nu numai că provoacă jenă, dar și irosesc resurse. Curățarea datelor vă ajută în acest sens, este o practică larg răspândită și ar trebui să învățați metodele utilizate pentru curățarea datelor.

Utilizarea unui algoritm simplu cu date curate este mult mai bună decât utilizarea unui algoritm avansat cu date necurate.

Determinarea calității datelor

Datele sunt valide? (Valabilitate)

Valabilitatea datelor dumneavoastră este măsura în care acestea respectă regulile cerințelor dumneavoastră particulare. De exemplu, cum să importați numere de telefon ale diferiților clienți, dar în unele locuri, ați adăugat adrese de e-mail în date. Acum, deoarece nevoile dvs. erau în mod explicit pentru numere de telefon, adresele de e-mail ar fi invalide.

Erorile de valabilitate au loc atunci când metoda de introducere nu este inspectată corespunzător. Este posibil să utilizați foi de calcul pentru a vă colecta datele. Și este posibil să introduceți informații greșite în celulele foii de calcul.

Există mai multe tipuri de constrângeri pe care trebuie să le respecte datele tale pentru a fi valide. Aici sunt ei:

Gamă:

Unele tipuri de numere trebuie să fie într-un anumit interval. De exemplu, numărul de produse pe care le poți transporta într-o zi trebuie să aibă o valoare minimă și maximă. Ar exista cu siguranță un interval special pentru date. Ar fi un punct de plecare și un punct final.

Tip de date:

Unele celule de date ar putea necesita un anumit tip de date, cum ar fi numerice, booleene etc. De exemplu, într-o secțiune booleană, nu ați adăuga o valoare numerică.

Constrângeri obligatorii:

În fiecare scenariu, există anumite constrângeri obligatorii pe care ar trebui să le respecte datele dvs. Restricțiile obligatorii depind de nevoile dumneavoastră specifice. Cu siguranță, anumite coloane ale datelor dvs. nu ar trebui să fie goale. De exemplu, în lista cu numele clienților dvs., coloana „nume” nu poate fi goală.

Examinare transversală:

Există anumite condiții care afectează mai multe câmpuri de date într-o anumită formă. Să presupunem că ora de plecare a unui zbor nu poate fi mai devreme decât sosirea sa. Într-un bilanţ, suma debitului şi creditului clientului trebuie să fie aceeaşi. Nu poate fi diferit.

Aceste valori sunt legate între ele și, de aceea, ar putea fi necesar să efectuați o examinare transversală.

Cerințe unice:

Anumite tipuri de date au restricții unice. Doi clienți nu pot avea același bilet de asistență pentru clienți. Un astfel de tip de date trebuie să fie unice pentru un anumit câmp și nu pot fi partajate de mai mulți.

Setați restricții de membru:

Unele valori sunt limitate la un anumit set. De exemplu, genul poate fi masculin, feminin sau necunoscut.

Modele obișnuite:

Unele date urmează un format specific. De exemplu, adresele de e-mail au formatul „[email protected]”. În mod similar, numerele de telefon au zece cifre.

Dacă datele nu sunt în formatul necesar, ar fi, de asemenea, nevalide.

Dacă o persoană omite „@” în timp ce introduce o adresă de e-mail, atunci adresa de e-mail ar fi invalidă, nu-i așa? Verificarea validității datelor dvs. este primul pas pentru a determina calitatea acestora. De cele mai multe ori, cauza introducerii informațiilor nevalide este eroarea umană.

Dacă scăpați de el, vă va ajuta să vă simplificați procesul și să evitați în prealabil valorile inutile ale datelor.

Precizie

Acum că știți că majoritatea datelor pe care le aveți sunt valide, va trebui să vă concentrați pe stabilirea acurateței acestora. Chiar dacă datele sunt valide, nu înseamnă că datele sunt exacte. Iar determinarea acurateței vă ajută să vă dați seama dacă datele pe care le-ați introdus au fost corecte sau nu.

Adresa unui client ar putea fi în formatul potrivit, dar nu trebuie să fie cel potrivit. Poate că e-mailul are o cifră sau un caracter suplimentar care îl face greșit. Un alt exemplu este numărul de telefon al unui client.

Citiți: Topul API-urilor de învățare automată pentru știința datelor

Dacă numărul de telefon are toate cifrele, este o valoare validă. Dar asta nu înseamnă că este adevărat. Când aveți definiții pentru valori valide, este ușor să descoperiți cele invalide. Dar asta nu ajută la verificarea acurateței acestuia. Verificarea acurateții valorilor datelor dvs. necesită să utilizați surse terțe.

Aceasta înseamnă că va trebui să vă bazați pe surse de date diferite de cea pe care o utilizați în prezent. Va trebui să verificați datele pentru a vă da seama dacă sunt corecte sau nu. Tehnicile de curățare a datelor nu au multe soluții pentru verificarea acurateței valorilor datelor.

Cu toate acestea, în funcție de tipul de date pe care îl utilizați, este posibil să puteți găsi resurse care vă pot ajuta în acest sens. Nu trebuie să confundați acuratețea cu precizia .

Acuratețe vs Precizie

În timp ce acuratețea se bazează pe stabilirea dacă datele introduse au fost corecte sau nu, precizia necesită să oferiți mai multe detalii despre acestea. Un client poate introduce un prenume în câmpul dvs. de date. Dar dacă nu există nume de familie, ar fi dificil să fiu mai precis.

Un alt exemplu poate fi o adresă. Să presupunem că întrebi o persoană unde locuiește. Ar putea spune că locuiesc la Londra. Asta ar putea fi adevărat. Cu toate acestea, acesta nu este un răspuns precis pentru că nu știi unde locuiesc în Londra.

Un răspuns precis ar fi să-ți dea o adresă.

Completitudine

Este aproape imposibil să ai toate informațiile de care ai nevoie. Completitudinea este gradul în care cunoașteți toate valorile cerute. Completitudinea este puțin mai dificil de atins decât acuratețea sau validitatea. Asta pentru că nu poți să-ți asumi o valoare. Trebuie doar să introduceți fapte cunoscute.

Puteți încerca să vă completați datele reluând activitățile de culegere a datelor (apropierea din nou de clienți, reintervievarea persoanelor etc.). Dar asta nu înseamnă că îți vei putea completa datele complet.

Să presupunem că reinterviezi oamenii pentru datele de care aveai nevoie mai devreme. Acum, acest scenariu are problema retragerii. Dacă le pui din nou aceleași întrebări, sunt șanse ca ei să nu-și amintească ce au răspuns înainte. Acest lucru poate duce la ele, oferindu-ți un răspuns greșit.

L-ai putea întreba ce cărți au citit acum cinci luni. Și s-ar putea să nu-și amintească. În mod similar, ar putea fi necesar să introduceți informațiile de contact ale fiecărui client. Dar este posibil ca unii dintre ei să nu aibă adrese de e-mail. În acest caz, va trebui să lăsați acele coloane goale.

Dacă aveți un sistem care vă cere să completați toate coloanele, puteți încerca să introduceți „lipsă” sau „necunoscut” acolo. Dar introducerea unor astfel de valori nu înseamnă că datele sunt complete. Ar fi în continuare referit ca fiind incomplet.

Consecvență

Pe lângă completitudine vine consecvența. Puteți măsura consistența comparând două sisteme similare. Sau puteți verifica valorile datelor din același set de date pentru a vedea dacă sunt consecvente sau nu. Consecvența poate fi relațională. De exemplu, vârsta unui client ar putea fi de 15 ani, ceea ce este o valoare validă și ar putea fi exactă, dar ar putea fi, de asemenea, menționați „cetățean în vârstă” în același sistem.

În astfel de cazuri, va trebui să verificați datele, similar cu măsurarea preciziei, și să vedeți care valoare este adevărată. Clientul are 15 ani? Sau clientul este un cetăţean în vârstă? Doar una dintre aceste valori ar putea fi adevărată.

Există mai multe moduri de a vă face datele coerente.

Verificați diferite sisteme:

Puteți arunca o privire la un alt sistem similar pentru a afla dacă valoarea pe care o aveți este reală sau nu. Dacă două dintre sistemele dvs. se contrazic, ar putea fi de ajutor să îl verificați pe al treilea.

În exemplul nostru anterior, să presupunem că verificați al treilea sistem și găsiți că vârsta clientului este de 65 de ani. Aceasta arată că al doilea sistem, care spunea că clientul este un cetățean în vârstă, ar fi valabil.

Verificați cele mai recente date:

O altă modalitate de a îmbunătăți consistența datelor dvs. este să verificați valoarea mai recentă. Poate fi mai benefic pentru tine în anumite scenarii. Este posibil să aveți două numere de contact diferite pentru un client în dosarul dvs. Cel mai recent ar fi probabil mai de încredere pentru că este posibil ca clientul să fi schimbat numerele.

Verifica sursa:

Cea mai sigură modalitate de a verifica fiabilitatea datelor este să contactați pur și simplu sursa. În exemplul nostru de vârstă a clientului, puteți opta pentru a contacta direct clientul și a-i întreba vârsta. Cu toate acestea, nu este posibil în fiecare scenariu și contactarea directă a sursei poate fi extrem de dificilă. Poate că clientul nu răspunde sau informațiile lui de contact nu sunt disponibile.

Uniformitate

Ar trebui să vă asigurați că toate valorile pe care le-ați introdus în setul de date sunt în aceleași unități. Dacă introduceți unități SI pentru măsurători, nu puteți utiliza sistemul Imperial în unele locuri. Pe de altă parte, dacă într-un loc ați introdus ora în secunde, atunci ar trebui să o introduceți în acest format pe tot setul de date.

Citiți: SQL pentru știința datelor

Verificarea uniformității înregistrărilor dvs. este destul de ușoară. O simplă inspecție poate dezvălui dacă o anumită valoare se află sau nu în unitatea necesară. Unitățile pe care le utilizați pentru introducerea datelor depind de cerințele dumneavoastră specifice.

Tehnici de curățare a datelor

Alegerea dvs. de tehnici de curățare a datelor se bazează pe o mulțime de factori. În primul rând, cu ce fel de date ai de-a face? Sunt valori numerice sau șiruri de caractere? Dacă nu aveți prea puține valori de gestionat, nu ar trebui să vă așteptați să vă curățați datele cu o singură tehnică.

S-ar putea să fie nevoie să utilizați mai multe tehnici pentru un rezultat mai bun. Cu cât trebuie să gestionați mai multe tipuri de date, cu atât mai multe tehnici de curățare va trebui să utilizați. Familiarizarea cu toate aceste metode vă va ajuta să corectați erorile și să scăpați de datele inutile.

1. Eliminați valorile irelevante

Primul și cel mai important lucru pe care ar trebui să-l faceți este să eliminați bucăți inutile de date din sistemul dvs. Orice date inutile sau irelevante sunt cele de care nu aveți nevoie. Este posibil să nu se potrivească contextului problemei dvs.

Este posibil să trebuiască doar să măsurați vârsta medie a personalului dvs. de vânzări. Atunci adresa lor de e-mail nu va fi necesară. Un alt exemplu este că s-ar putea să verificați pentru a vedea câți clienți ați contactat într-o lună. În acest caz, nu veți avea nevoie de datele persoanelor la care ați ajuns într-o lună anterioară.

Cu toate acestea, înainte de a elimina o anumită bucată de date, asigurați-vă că este irelevantă, deoarece este posibil să aveți nevoie de ea pentru a verifica valorile corelate mai târziu (pentru a verifica consistența). Și dacă puteți obține o a doua opinie de la un expert mai experimentat înainte de a elimina datele, nu ezitați să faceți acest lucru.

Nu ați dori să ștergeți unele valori și să regretați decizia mai târziu. Dar odată ce ești sigur că datele sunt irelevante, scapă de ele.

2. Scapa de valorile duplicate

Duplicatele sunt similare cu valorile inutile – nu aveți nevoie de ele. Ele nu fac decât să mărească cantitatea de date pe care o aveți și vă pierd timpul. Puteți scăpa de ele prin căutări simple. Valorile duplicat pot fi prezente în sistemul dvs. din mai multe motive.

Poate ați combinat datele din mai multe surse. Sau, poate că persoana care a transmis datele a repetat o valoare în mod greșit. Unii utilizatori au făcut clic de două ori pe „Enter” când completau un formular online. Ar trebui să eliminați duplicatele imediat ce le găsiți.

3. Evitați greșelile de tipar (și erorile similare)

Greșelile de scriere sunt rezultatul unei erori umane și pot fi prezente oriunde. Puteți remedia greșelile de scriere prin mai mulți algoritmi și tehnici. Puteți mapa valorile și le puteți converti în ortografia corectă. Greșelile de scriere sunt esențiale de remediat, deoarece modelele tratează diferite valori în mod diferit. Șirurile se bazează foarte mult pe ortografii și cazuri.

„George” este diferit de „george”, chiar dacă au aceeași ortografie. În mod similar, „Mike” și „Mice” sunt diferite unul de celălalt, deși au același număr de caractere. Va trebui să căutați greșeli de tipar precum aceasta și să le remediați corespunzător.

O altă eroare similară greșelilor de tipar este dimensiunea șirurilor. S-ar putea să fie nevoie să le tamponați pentru a le păstra în același format. De exemplu, setul dvs. de date poate solicita să aveți numai numere din 5 cifre. Deci, dacă aveți orice valoare care are doar patru cifre, cum ar fi „3994”, puteți adăuga un zero la început pentru a crește numărul de cifre.

Valoarea sa va rămâne aceeași cu „03994”, dar vă va păstra datele uniforme. O eroare suplimentară cu șiruri este de spații albe. Asigurați-vă că le eliminați din șiruri pentru a le menține consistente.

4. Convertiți tipurile de date

Tipurile de date ar trebui să fie uniforme în setul dvs. de date. Un șir nu poate fi numeric și nici un numeric nu poate fi boolean. Există câteva lucruri pe care ar trebui să le țineți cont atunci când vine vorba de conversia tipurilor de date:

  • Păstrați valorile numerice ca numere
  • Verificați dacă un număr este un șir sau nu. Dacă l-ai introduce ca șir, ar fi incorect.
  • Dacă nu puteți converti o anumită valoare de date, ar trebui să introduceți „valoare NA” sau ceva de acest fel. Asigurați-vă că adăugați și un avertisment pentru a arăta că această valoare este greșită.

5. Aveți grijă de valorile lipsă

Ar fi întotdeauna o bucată de date lipsă. Nu o poți evita. Deci ar trebui să știți cum să le gestionați pentru a vă păstra datele curate și fără erori. O anumită coloană din setul de date poate avea prea multe valori lipsă. În acest caz, ar fi înțelept să scăpați de întreaga coloană, deoarece nu are suficiente date pentru a lucra.

Rețineți: nu trebuie să ignorați valorile lipsă.

Ignorarea valorilor lipsă poate fi o greșeală semnificativă, deoarece acestea vă vor contamina datele și nu veți obține rezultate precise. Există mai multe moduri de a trata valorile lipsă.

Imputarea valorilor lipsă:

Puteți imputa valori lipsă, adică asumând valoarea aproximativă. Puteți utiliza regresia liniară sau mediana pentru a calcula valoarea lipsă. Cu toate acestea, această metodă are implicațiile sale, deoarece nu puteți fi sigur dacă aceasta ar fi valoarea reală.

O altă metodă de a imputa valorile lipsă este să copiați datele dintr-un set de date similar. Această metodă se numește „Imputare Hot-deck”. Adăugați valoare în înregistrarea curentă, luând în considerare unele constrângeri, cum ar fi tipul de date și intervalul.

Evidențierea valorilor lipsă:

Imputarea nu este întotdeauna cea mai bună măsură pentru a avea grijă de valorile lipsă. Mulți experți susțin că aceasta duce doar la rezultate mai mixte, deoarece acestea nu sunt „reale”. Deci, puteți lua o altă abordare și puteți informa modelul că datele lipsesc. A spune modelului (sau algoritmului) că valoarea specifică nu este disponibilă poate fi, de asemenea, o informație.

Dacă motivele aleatorii nu sunt responsabile pentru valorile tale lipsă, poate fi benefic să le evidențiezi sau să le semnalezi. De exemplu, este posibil ca înregistrările dvs. să nu aibă multe răspunsuri la o anumită întrebare a sondajului dvs., deoarece clientul dvs. nu a vrut să răspundă la aceasta.

Dacă valoarea lipsă este numerică, puteți utiliza 0. Asigurați-vă că ignorați aceste valori în timpul analizei statistice. Pe de altă parte, dacă valoarea lipsă este o valoare categorică, puteți completa „lipsă”.

rezumat

Sperăm că v-a plăcut să parcurgeți prezentarea noastră detaliată a tehnicilor de curățare a datelor. Era, fără îndoială, multe de învățat.

Aflați mai multe despre conflictul de date din videoclipul nostru webinar de mai jos.

Dacă aveți întrebări cu privire la curățarea datelor, nu ezitați să întrebați experții noștri.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

De ce este inconsecvența datelor o problemă?

Când aceeași bucată de date apare în mai multe locuri, are loc redundanța datelor, în timp ce inconsecvența datelor apare atunci când aceleași date apar în mai multe tabele în forme diferite. Din păcate, redundanța datelor poate duce la inconsecvența datelor, ceea ce duce la date inexacte și/sau inutile pentru o firmă. Ei nu pot anticipa în mod corespunzător vânzările pentru a optimiza procedurile de gestionare a stocurilor și distribuției; nu pot detecta problemele de producție sau lanțul de aprovizionare pentru a minimiza depășirile de costuri și întârzierile; și nu pot evalua interesul clienților pentru un produs nou pentru a schimba designul sau campaniile de marketing.

Cât de des ar trebui să vă curățați datele?

Frecvența cu care ar trebui să curățați datele dvs. depinde în întregime de cerințele dvs. de afaceri. O companie mare va achiziționa o mulțime de date rapid, astfel încât curățarea datelor poate fi necesară o dată la trei până la șase luni. Se sugerează ca firmele mai mici, cu mai puține date, să își curețe datele cel puțin o dată pe an. Este recomandabil să planificați o curățare a datelor dacă bănuiți vreodată că datele murdare vă costă bani sau vă afectează negativ productivitatea, eficiența sau cunoștințele.

Tableau este potrivit pentru curățarea datelor?

Tableau Prep vine cu o serie de proceduri de curățare pe care le puteți folosi pentru a vă curăța și modela datele imediat. Curățarea datelor murdare face mai simplă integrarea și analizarea datelor dvs., precum și pentru alții să vă înțeleagă datele atunci când le partajați.