Tecniche di pulizia dei dati: impara modi semplici ed efficaci per pulire i dati

Pubblicato: 2020-01-26

La pulizia dei dati è una parte essenziale della scienza dei dati. Lavorare con dati impuri può portare a molte difficoltà. E oggi parleremo della stessa cosa.

Scoprirai perché la pulizia dei dati è essenziale, quali fattori influenzano la qualità dei tuoi dati e come puoi pulire i dati che hai. È una guida dettagliata, quindi assicurati di aggiungerla ai segnalibri per riferimenti futuri.

Iniziamo.

Sommario

Perché è necessaria la pulizia dei dati

La pulizia dei dati potrebbe sembrare noiosa e poco interessante, ma è una delle attività più importanti che dovresti svolgere come professionista della scienza dei dati. Avere dati errati o di cattiva qualità può essere dannoso per i processi e le analisi. Dati scarsi possono causare il fallimento di un algoritmo stellare.

D'altra parte, dati di alta qualità possono far sì che un semplice algoritmo fornisca risultati eccezionali. Esistono molte tecniche di pulizia dei dati e dovresti familiarizzare con esse per migliorare la qualità dei dati. Non tutti i dati sono utili. Quindi questo è un altro fattore importante che influisce sulla qualità dei dati.

Leggi: Cluster Analysis in R

Ad esempio, supponiamo che la tua azienda abbia un elenco di indirizzi dei dipendenti. Ora, se i tuoi dati includono anche alcuni indirizzi dei tuoi clienti, non danneggerebbe l'elenco? E i tuoi sforzi per analizzare la lista non sarebbero vani? In questo mercato basato sui dati, l'apprendimento della scienza dei dati per migliorare le decisioni aziendali è fondamentale.

Ci sono molte ragioni per cui la pulizia dei dati è essenziale. Alcuni di essi sono elencati di seguito:

Efficienza

Avere dati puliti (privi di valori errati e incoerenti) può aiutarti a eseguire l'analisi molto più velocemente. Risparmierai una notevole quantità di tempo eseguendo questa attività in anticipo. Quando pulisci i tuoi dati prima di utilizzarli, sarai in grado di evitare più errori. Se utilizzi dati contenenti valori falsi, i risultati non saranno accurati.

Ed è probabile che tu debba rifare l'intera attività di nuovo, il che può causare molta perdita di tempo. Se scegli di pulire i tuoi dati prima di utilizzarli, puoi generare risultati più velocemente ed evitare di ripetere nuovamente l'intera attività.

Margine di errore

Quando non utilizzi dati accurati per l'analisi, commetterai sicuramente degli errori. Supponiamo di aver dedicato molto tempo e fatica all'analisi di un gruppo specifico di set di dati. Sei molto ansioso di mostrare i risultati al tuo superiore, ma durante l'incontro il tuo superiore fa notare alcuni errori la situazione diventa piuttosto imbarazzante e dolorosa.

Non vorresti evitare che tali errori accadano? Non solo causano imbarazzo, ma sprecano anche risorse. La pulizia dei dati ti aiuta in tal senso, è una pratica diffusa e dovresti imparare i metodi utilizzati per pulire i dati.

L'utilizzo di un semplice algoritmo con dati puliti è decisamente migliore rispetto all'utilizzo di un algoritmo avanzato con dati non puliti.

Determinazione della qualità dei dati

I dati sono validi? (Validità)

La validità dei tuoi dati è il grado in cui segue le regole delle tue particolari esigenze. Ad esempio, come importare numeri di telefono di clienti diversi, ma in alcuni punti hai aggiunto indirizzi e-mail nei dati. Ora, poiché le tue esigenze erano esplicitamente per i numeri di telefono, gli indirizzi e-mail non sarebbero validi.

Gli errori di validità si verificano quando il metodo di input non viene ispezionato correttamente. Potresti utilizzare fogli di calcolo per raccogliere i tuoi dati. E potresti inserire le informazioni sbagliate nelle celle del foglio di calcolo.

Esistono diversi tipi di vincoli a cui i tuoi dati devono conformarsi per essere validi. Eccoli:

Allineare:

Alcuni tipi di numeri devono essere in un intervallo specifico. Ad esempio, il numero di prodotti che puoi trasportare in un giorno deve avere un valore minimo e massimo. Ci sarebbe sicuramente un intervallo particolare per i dati. Ci sarebbe un punto di partenza e un punto di arrivo.

Tipo di dati:

Alcune celle di dati potrebbero richiedere un tipo specifico di dati, come numerici, booleani, ecc. Ad esempio, in una sezione booleana, non dovresti aggiungere un valore numerico.

Vincoli obbligatori:

In ogni scenario, ci sono alcuni vincoli obbligatori che i tuoi dati dovrebbero seguire. Le restrizioni obbligatorie dipendono dalle tue esigenze specifiche. Sicuramente, le colonne specifiche dei tuoi dati non dovrebbero essere vuote. Ad esempio, nell'elenco dei nomi dei tuoi clienti, la colonna "nome" non può essere vuota.

Esame trasversale:

Esistono determinate condizioni che influiscono su più campi di dati in una forma particolare. Supponiamo che l'orario di partenza di un volo non possa essere precedente al suo arrivo. In un bilancio, la somma del debito e del credito del cliente deve essere la stessa. Non può essere diverso.

Questi valori sono correlati tra loro ed è per questo che potrebbe essere necessario eseguire un esame incrociato.

Requisiti unici:

Particolari tipi di dati hanno restrizioni univoche. Due clienti non possono avere lo stesso ticket di assistenza clienti. Questo tipo di dati deve essere univoco per un campo particolare e non può essere condiviso da più campi.

Restrizioni per l'iscrizione:

Alcuni valori sono limitati a un insieme particolare. Ad esempio, il genere può essere maschio, femmina o sconosciuto.

Motivi regolari:

Alcuni dati seguono un formato specifico. Ad esempio, gli indirizzi e-mail hanno il formato 'persona [email protected]'. Allo stesso modo, i numeri di telefono hanno dieci cifre.

Se i dati non sono nel formato richiesto, non sarebbero validi.

Se una persona omette la "@" durante l'inserimento di un indirizzo e-mail, l'indirizzo e-mail non sarebbe valido, vero? Controllare la validità dei tuoi dati è il primo passo per determinarne la qualità. Il più delle volte, la causa dell'immissione di informazioni non valide è un errore umano.

Sbarazzartene ti aiuterà a semplificare il tuo processo ed evitare in anticipo valori di dati inutili.

Precisione

Ora che sai che la maggior parte dei dati che hai è valida, dovrai concentrarti sulla sua accuratezza. Anche se i dati sono validi, non significa che i dati siano accurati. E determinare l'accuratezza ti aiuta a capire se i dati che hai inserito erano accurati o meno.

L'indirizzo di un cliente potrebbe essere nel formato giusto, ma non è necessario che sia quello giusto. Forse l'e-mail ha una cifra o un carattere aggiuntivo che la rende errata. Un altro esempio è il numero di telefono di un cliente.

Leggi: Le migliori API di machine learning per la scienza dei dati

Se il numero di telefono ha tutte le cifre, è un valore valido. Ma questo non significa che sia vero. Quando hai definizioni per valori validi, capire quelli non validi è facile. Ma ciò non aiuta a controllare l'accuratezza dello stesso. La verifica dell'accuratezza dei valori dei dati richiede l'utilizzo di fonti di terze parti.

Ciò significa che dovrai fare affidamento su origini dati diverse da quella che stai utilizzando attualmente. Dovrai eseguire un controllo incrociato dei tuoi dati per capire se sono accurati o meno. Le tecniche di pulizia dei dati non hanno molte soluzioni per controllare l'accuratezza dei valori dei dati.

Tuttavia, a seconda del tipo di dati che stai utilizzando, potresti essere in grado di trovare risorse che potrebbero aiutarti in questo senso. Non dovresti confondere l'accuratezza con la precisione .

Precisione vs Precisione

Mentre l'accuratezza si basa sullo stabilire se i dati inseriti erano corretti o meno, la precisione richiede di fornire maggiori dettagli sugli stessi. Un cliente potrebbe inserire un nome nel campo dati. Ma se non c'è un cognome, sarebbe difficile essere più precisi.

Un altro esempio può essere di un indirizzo. Supponiamo di chiedere a una persona dove vive. Potrebbero dire che vivono a Londra. Potrebbe essere vero. Tuttavia, non è una risposta precisa perché non sai dove vivono a Londra.

Una risposta precisa sarebbe quella di darti un indirizzo.

Completezza

È quasi impossibile avere tutte le informazioni di cui hai bisogno. La completezza è il grado in cui si conoscono tutti i valori richiesti. La completezza è un po' più difficile da raggiungere rispetto all'accuratezza o alla validità. Questo perché non puoi assumere un valore. Devi solo inserire fatti noti.

Puoi provare a completare i tuoi dati rifacendo le attività di raccolta dati (riavvicinarsi ai clienti, intervistare nuovamente le persone, ecc.). Ma ciò non significa che saresti in grado di completare i tuoi dati in modo completo.

Supponiamo di intervistare nuovamente le persone per i dati di cui avevi bisogno in precedenza. Ora, questo scenario ha il problema del richiamo. Se chiedi loro di nuovo le stesse domande, è probabile che potrebbero non ricordare a cosa avevano risposto prima. Questo può portare a loro, dandoti la risposta sbagliata.

Potresti chiedergli quali libri stavano leggendo cinque mesi fa. E potrebbero non ricordare. Allo stesso modo, potrebbe essere necessario inserire le informazioni di contatto di ogni cliente. Ma alcuni di loro potrebbero non avere indirizzi e-mail. In questo caso, dovresti lasciare vuote quelle colonne.

Se hai un sistema che richiede di riempire tutte le colonne, puoi provare a inserire 'mancante' o 'sconosciuto' lì. Ma l'inserimento di tali valori non significa che i dati siano completi. Sarebbe ancora indicato come incompleto.

Consistenza

Accanto alla completezza viene la coerenza. È possibile misurare la coerenza confrontando due sistemi simili. In alternativa, puoi controllare i valori dei dati all'interno dello stesso set di dati per vedere se sono coerenti o meno. La coerenza può essere relazionale. Ad esempio, l'età di un cliente potrebbe essere 15, che è un valore valido e potrebbe essere accurato, ma potrebbe anche essere indicato come cittadino anziano nello stesso sistema.

In questi casi, dovrai eseguire un controllo incrociato dei dati, in modo simile alla misurazione dell'accuratezza, e vedere quale valore è vero. Il cliente ha 15 anni? O il cliente è un cittadino anziano? Solo uno di questi valori potrebbe essere vero.

Esistono diversi modi per rendere coerenti i tuoi dati.

Controllare diversi sistemi:

Puoi dare un'occhiata a un altro sistema simile per scoprire se il valore che hai è reale o meno. Se due dei tuoi sistemi sono in contraddizione tra loro, potrebbe essere utile controllare il terzo.

Nel nostro esempio precedente, supponiamo che tu controlli il terzo sistema e trovi che l'età del cliente è 65 anni. Ciò mostra che il secondo sistema, che affermava che il cliente è un anziano, sarebbe valido.

Controlla gli ultimi dati:

Un altro modo per migliorare la coerenza dei dati è controllare il valore più recente. Può essere più vantaggioso per te in scenari specifici. Potresti avere due numeri di contatto diversi per un cliente nel tuo record. Quello più recente sarebbe probabilmente più affidabile perché è possibile che il cliente abbia cambiato numero.

Controlla la fonte:

Il modo più infallibile per verificare l'affidabilità dei dati è contattare semplicemente la fonte. Nel nostro esempio dell'età del cliente, puoi scegliere di contattare direttamente il cliente e chiedergli la sua età. Tuttavia, non è possibile in tutti gli scenari e contattare direttamente la fonte può essere molto complicato. Forse il cliente non risponde o le sue informazioni di contatto non sono disponibili.

Uniformità

Dovresti assicurarti che tutti i valori che hai inserito nel tuo set di dati siano nelle stesse unità. Se stai inserendo unità SI per le misurazioni, non puoi utilizzare il sistema imperiale in alcuni punti. D'altra parte, se in un punto hai inserito l'ora in secondi, dovresti inserirla in questo formato in tutto il set di dati.

Leggi: SQL per la scienza dei dati

Controllare l'uniformità dei tuoi record è abbastanza semplice. Una semplice ispezione può rivelare se un valore particolare è nell'unità richiesta o meno. Le unità che utilizzi per inserire i tuoi dati dipendono dalle tue esigenze specifiche.

Tecniche di pulizia dei dati

La scelta delle tecniche di pulizia dei dati dipende da molti fattori. Innanzitutto, che tipo di dati hai a che fare? Sono valori numerici o stringhe? A meno che tu non abbia troppo pochi valori da gestire, non dovresti aspettarti di pulire i tuoi dati anche con una sola tecnica.

Potrebbe essere necessario utilizzare più tecniche per un risultato migliore. Più tipi di dati devi gestire, più tecniche di pulizia dovrai utilizzare. Conoscere tutti questi metodi ti aiuterà a correggere gli errori e a sbarazzarti dei dati inutili.

1. Rimuovere i valori irrilevanti

La prima e più importante cosa che dovresti fare è rimuovere pezzi di dati inutili dal tuo sistema. Qualsiasi dato inutile o irrilevante è quello che non ti serve. Potrebbe non adattarsi al contesto del tuo problema.

Potrebbe essere necessario misurare solo l'età media del personale di vendita. Quindi il loro indirizzo email non sarebbe richiesto. Un altro esempio è che potresti controllare quanti clienti hai contattato in un mese. In questo caso, non avresti bisogno dei dati delle persone che hai raggiunto in un mese precedente.

Tuttavia, prima di rimuovere un dato particolare, assicurati che sia irrilevante perché potrebbe essere necessario controllarne i valori correlati in un secondo momento (per verificare la coerenza). E se puoi ottenere un secondo parere da un esperto più esperto prima di rimuovere i dati, sentiti libero di farlo.

Non vorresti cancellare alcuni valori e rimpiangere la decisione in seguito. Ma una volta che sei sicuro che i dati sono irrilevanti, eliminali.

2. Elimina i valori duplicati

I duplicati sono simili a valori inutili: non ne hai bisogno. Aumentano solo la quantità di dati che hai e ti fanno perdere tempo. Puoi sbarazzartene con semplici ricerche. I valori duplicati potrebbero essere presenti nel tuo sistema per diversi motivi.

Forse hai combinato i dati di più fonti. O forse la persona che ha inviato i dati ha ripetuto un valore per errore. Alcuni utenti hanno fatto clic due volte su "invio" mentre stavano compilando un modulo online. Dovresti rimuovere i duplicati non appena li trovi.

3. Evita gli errori di battitura (ed errori simili)

Gli errori di battitura sono il risultato di un errore umano e possono essere presenti ovunque. Puoi correggere errori di battitura attraverso più algoritmi e tecniche. È possibile mappare i valori e convertirli nell'ortografia corretta. Gli errori di battitura sono essenziali da correggere perché i modelli trattano valori diversi in modo diverso. Le stringhe si basano molto sull'ortografia e sulle maiuscole.

"George" è diverso da "giorgio" anche se hanno la stessa ortografia. Allo stesso modo 'Mike' e 'Mice' sono diversi l'uno dall'altro, anche se hanno lo stesso numero di caratteri. Dovrai cercare errori di battitura come questo e risolverli in modo appropriato.

Un altro errore simile agli errori di battitura è la dimensione delle stringhe. Potrebbe essere necessario riempirli per mantenerli nello stesso formato. Ad esempio, il tuo set di dati potrebbe richiedere di avere solo numeri a 5 cifre. Quindi, se hai un valore che ha solo quattro cifre come "3994", puoi aggiungere uno zero all'inizio per aumentare il numero di cifre.

Il suo valore rimarrebbe lo stesso di "03994", ma manterrà i tuoi dati uniformi. Un ulteriore errore con le stringhe è di spazi bianchi. Assicurati di rimuoverli dalle stringhe per mantenerli coerenti.

4. Converti tipi di dati

I tipi di dati dovrebbero essere uniformi nel tuo set di dati. Una stringa non può essere numerica né un valore numerico può essere booleano. Ci sono diverse cose che dovresti tenere a mente quando si tratta di convertire i tipi di dati:

  • Mantieni i valori numerici come numeri
  • Controlla se un numero è una stringa o meno. Se lo inserisci come stringa, non sarebbe corretto.
  • Se non riesci a convertire un valore di dati specifico, devi inserire "Valore NA" o qualcosa del genere. Assicurati di aggiungere anche un avviso per mostrare che questo particolare valore è sbagliato.

5. Prenditi cura dei valori mancanti

Ci sarebbe sempre un pezzo di dati mancanti. Non puoi evitarlo. Quindi dovresti sapere come gestirli per mantenere i tuoi dati puliti e privi di errori. Una determinata colonna nel tuo set di dati potrebbe avere troppi valori mancanti. In tal caso, sarebbe saggio sbarazzarsi dell'intera colonna perché non ha abbastanza dati con cui lavorare.

Nota: non dovresti ignorare i valori mancanti.

Ignorare i valori mancanti può essere un errore significativo perché contamineranno i tuoi dati e non otterrai risultati accurati. Esistono diversi modi per gestire i valori mancanti.

Immissione di valori mancanti:

È possibile imputare i valori mancanti, il che significa assumere il valore approssimativo. È possibile utilizzare la regressione lineare o la mediana per calcolare il valore mancante. Tuttavia, questo metodo ha le sue implicazioni perché non puoi essere sicuro se questo sarebbe il vero valore.

Un altro metodo per imputare i valori mancanti consiste nel copiare i dati da un set di dati simile. Questo metodo è chiamato 'Imputazione hot-deck'. Stai aggiungendo valore al tuo record corrente considerando alcuni vincoli come il tipo di dati e l'intervallo.

Evidenziazione dei valori mancanti:

L'imputazione non è sempre la misura migliore per prendersi cura dei valori mancanti. Molti esperti sostengono che porta solo a risultati più contrastanti in quanto non sono "reali". Quindi, puoi adottare un altro approccio e informare il modello che mancano i dati. Anche dire al modello (o all'algoritmo) che il valore specifico non è disponibile può essere un'informazione.

Se motivi casuali non sono responsabili dei tuoi valori mancanti, può essere utile evidenziarli o contrassegnarli. Ad esempio, i tuoi record potrebbero non avere molte risposte a una domanda specifica del tuo sondaggio perché il tuo cliente non voleva rispondere in primo luogo.

Se il valore mancante è numerico, puoi utilizzare 0. Assicurati solo di ignorare questi valori durante l'analisi statistica. D'altra parte, se il valore mancante è un valore categoriale, puoi riempire 'mancante'.

Sommario

Ci auguriamo che ti sia piaciuto passare attraverso la nostra dettagliata procedura dettagliata delle tecniche di pulizia dei dati. C'era senza dubbio molto da imparare.

Scopri di più sulla disputa dei dati dal nostro video webinar di seguito.

In caso di domande sulla pulizia dei dati, non esitare a chiedere ai nostri esperti.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Perché l'incoerenza nei dati è un problema?

Quando lo stesso dato viene visualizzato in più punti, si verifica la ridondanza dei dati, mentre l'incoerenza dei dati si verifica quando gli stessi dati vengono visualizzati in più tabelle in forme diverse. Sfortunatamente, la ridondanza dei dati può portare all'incoerenza dei dati, risultando in dati imprecisi e/o inutili per un'azienda. Non possono anticipare adeguatamente le vendite per ottimizzare le procedure di gestione dell'inventario e della distribuzione; non sono in grado di rilevare i problemi di produzione o della catena di approvvigionamento per ridurre al minimo i sovraccarichi e i ritardi dei costi; e non possono valutare l'interesse dei clienti per un nuovo prodotto per modificare i design o le campagne di marketing.

Con quale frequenza devono essere puliti i tuoi dati?

La frequenza con cui dovresti pulire i tuoi dati dipende interamente dalle tue esigenze aziendali. Una grande azienda acquisirà rapidamente molti dati, pertanto la pulizia dei dati potrebbe essere necessaria ogni tre o sei mesi. Si suggerisce che le aziende più piccole con meno dati puliscano i propri dati almeno una volta all'anno. È consigliabile pianificare una pulizia dei dati se sospetti che dati sporchi ti stiano costando denaro o abbiano un impatto negativo sulla tua produttività, efficienza o informazioni dettagliate.

Tableau è adatto per la pulizia dei dati?

Tableau Prep viene fornito con una serie di procedure di pulizia che puoi utilizzare per pulire e dare forma ai tuoi dati immediatamente. La pulizia dei dati sporchi semplifica l'integrazione e l'analisi dei tuoi dati, nonché la comprensione dei tuoi dati da parte di altri quando li condividi.