Passaggi nella preelaborazione dei dati: cosa devi sapere?

Pubblicato: 2020-12-22

L'estrazione di dati comporta la conversione di dati grezzi in informazioni utili che possono analizzare ulteriormente e ricavare approfondimenti critici. I dati grezzi che ottieni dalla tua fonte possono spesso essere in una condizione disordinata che è completamente inutilizzabile. Questi dati devono essere preelaborati per essere analizzati e i passaggi per gli stessi sono elencati di seguito.

Sommario

Pulizia dei dati

La pulizia dei dati è il primo passaggio della preelaborazione dei dati nel data mining . È generalmente probabile che i dati ottenuti direttamente da una fonte contengano righe irrilevanti, informazioni incomplete o persino celle vuote non autorizzate.

Questi elementi causano molti problemi a qualsiasi analista di dati. Ad esempio, la piattaforma dell'analista potrebbe non riconoscere gli elementi e restituire un errore. Quando si riscontrano dati mancanti, è possibile ignorare le righe di dati o tentare di inserire i valori mancanti in base a una tendenza o alla propria valutazione. Il primo è ciò che generalmente si fa.

Ma un problema maggiore può sorgere quando ci si trova di fronte a dati "rumorosi". Per gestire dati rumorosi, così disordinati da non essere compresi dalle piattaforme di analisi dei dati o da qualsiasi piattaforma di codifica, vengono utilizzate molte tecniche.

Se i tuoi dati possono essere ordinati, un metodo prevalente per ridurne la rumorosità è il metodo "binning". In questo, i dati sono divisi in bin di uguali dimensioni. Successivamente, ogni contenitore può essere sostituito dai suoi valori medi o valori limite per condurre ulteriori analisi.

Un altro metodo è "smussare" i dati utilizzando la regressione. La regressione può essere lineare o multipla, ma il motivo è rendere i dati sufficientemente fluidi da rendere visibile una tendenza. Un terzo approccio, un altro prevalente, è noto come "raggruppamento".

In questo metodo di preelaborazione dei dati nel data mining , i punti dati circostanti sono raggruppati in un unico gruppo di dati, che viene quindi utilizzato per ulteriori analisi.

Leggi: Preelaborazione dei dati in Machine Learning

Trasformazione dei dati

Il processo di data mining generalmente richiede che i dati siano in un formato o una sintassi molto particolare. Come minimo, i dati devono essere in una forma tale da poter essere analizzati su una piattaforma di analisi dei dati e compresi. A tale scopo viene utilizzata la fase di trasformazione del data mining. Ci sono alcuni modi in cui i dati possono essere trasformati.

Un modo popolare è la normalizzazione. In questo approccio, ogni punto di dati viene sottratto dal valore più alto dei dati in quel campo e quindi diviso per l'intervallo di dati in quel campo. Ciò riduce i dati da numeri arbitrari a un intervallo compreso tra -1 e 1.

Può anche essere effettuata la selezione degli attributi, in cui i dati nella loro forma attuale vengono convertiti in un insieme di attributi più semplici dall'analista di dati. La discretizzazione dei dati è una tecnica meno utilizzata e piuttosto specifica del contesto, in cui i livelli di intervallo sostituiscono i valori grezzi di un campo per facilitare la comprensione dei dati.

Nella "generazione della gerarchia concettuale", ogni punto dati di un particolare attributo viene convertito in un livello gerarchico superiore. Ulteriori informazioni sulla trasformazione dei dati nel data mining.

Riduzione dei dati

Viviamo in un mondo in cui ogni giorno vengono generati miliardi di byte e righe di dati. La quantità di dati generati aumenta di giorno in giorno e, in confronto, l'infrastruttura per la gestione dei dati non migliora allo stesso ritmo. Pertanto, la gestione di grandi quantità di dati può essere spesso estremamente difficile, persino impossibile, sia per i sistemi che per i server.

A causa di questi problemi, gli analisti di dati utilizzano spesso la riduzione dei dati come parte della preelaborazione dei dati nel data mining . Ciò riduce la quantità di dati attraverso le seguenti tecniche e semplifica l'analisi.

Nell'aggregazione del cubo di dati, un elemento noto come "cubo di dati" viene generato con un'enorme quantità di dati e quindi ogni livello del cubo viene utilizzato secondo il requisito. Un cubo può essere archiviato in un sistema o server e quindi essere utilizzato da altri.

Nella "selezione del sottoinsieme di attributi", solo gli attributi di importanza immediata per l'analisi vengono selezionati e archiviati in un insieme di dati separato e più piccolo.

La riduzione della numerosità è molto simile alla fase di regressione sopra descritta. Il numero di punti dati viene ridotto generando una tendenza attraverso la regressione o qualche altro metodo matematico.

Nella "riduzione della dimensionalità", la codifica viene utilizzata per ridurre il volume dei dati gestiti durante il recupero di tutti i dati.

È essenziale ottimizzare il data mining, considerando che i dati diventeranno solo più importanti. Questi passaggi di preelaborazione dei dati nel data mining sono destinati a essere utili per qualsiasi analista di dati.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Ottieni la certificazione di data science dalle migliori università del mondo. Impara i programmi Executive PG, Advanced Certificate Program o Master per accelerare la tua carriera.

Che cos'è la preelaborazione dei dati?

Quando molti dati sono disponibili ovunque, un esame improprio dell'analisi dei dati potrebbe portare a conclusioni fuorvianti. Pertanto, prima di eseguire qualsiasi analisi, la rappresentazione e la qualità dei dati devono essere al primo posto. Il pretrattamento dei dati è il processo di alterazione o rimozione dei dati prima di essere utilizzati per qualche scopo. Questo processo assicura o migliora le prestazioni ed è una fase cruciale nel processo di data mining. La preelaborazione dei dati è solitamente l'aspetto più critico di un progetto di apprendimento automatico, in particolare nella biologia computazionale.

Perché è necessaria la preelaborazione dei dati?

La preelaborazione dei dati è necessaria perché nella maggior parte dei casi i dati del mondo reale sono incompleti, ovvero alcune caratteristiche o valori, o entrambi, sono assenti oppure sono accessibili solo informazioni aggregate, sono rumorose a causa di errori o valori anomali e presentano diverse incoerenze dovute a variazioni di codici, nomi, ecc. Pertanto, se i dati mancano di attributi o valori di attributo, presentano disturbi o valori anomali e contengono dati duplicati o errati, sono considerati impuri. Ognuno di questi abbasserà la qualità dei risultati. Pertanto, è necessaria la preelaborazione dei dati in quanto rimuove incoerenze, rumore e incompletezza dai dati, consentendone l'analisi e l'utilizzo corretto.

Qual è l'importanza della preelaborazione dei dati nel data mining?

Possiamo trovare le radici della preelaborazione dei dati nel data mining. La preelaborazione dei dati mira ad aggiungere valori assenti, consolidare le informazioni, classificare i dati e uniformare le traiettorie. Con la preelaborazione dei dati, è possibile rimuovere le informazioni indesiderate da un set di dati. Questo processo consente all'utente di disporre di un set di dati che contiene dati più critici da manipolare in seguito nella fase di mining. L'uso della preelaborazione dei dati insieme al data mining aiuta gli utenti a modificare i set di dati per correggere il danneggiamento dei dati o gli errori umani, che è essenziale per ottenere quantificatori accurati contenuti in una matrice di confusione. Per migliorare la precisione, gli utenti possono combinare file di dati e utilizzare la preelaborazione per rimuovere qualsiasi rumore indesiderato dai dati. Approcci più sofisticati, come l'analisi dei componenti principali e la selezione delle funzioni, utilizzano formule statistiche di preelaborazione dei dati per analizzare grandi set di dati acquisiti da localizzatori GPS e dispositivi di acquisizione del movimento.