4 Tipi di dati: Nominale, Ordinale, Discreto, Continuo

Pubblicato: 2020-12-01

Sommario

introduzione

La scienza dei dati riguarda la sperimentazione di dati grezzi o strutturati. I dati sono il carburante che può guidare un'azienda sulla strada giusta o almeno fornire informazioni utili che possono aiutare a definire strategie per le campagne in corso, organizzare facilmente il lancio di nuovi prodotti o provare diversi esperimenti.

Tutte queste cose hanno una componente guida comune e questo è Data. Stiamo entrando nell'era digitale in cui produciamo molti dati. Ad esempio, un'azienda come Flipkart produce più di 2 TB di dati su base giornaliera.

Quando questi dati hanno così tanta importanza nella nostra vita, diventa importante archiviarli ed elaborarli correttamente senza alcun errore. Quando si tratta di set di dati, la categoria dei dati gioca un ruolo importante per determinare quale strategia di preelaborazione funzionerebbe per un set particolare per ottenere i risultati corretti o quale tipo di analisi statistica dovrebbe essere applicata per ottenere i risultati migliori. Analizziamo alcune delle categorie di dati comunemente utilizzate.

Tipo di dati qualitativi

I dati qualitativi o categoriali descrivono l'oggetto in esame utilizzando un insieme finito di classi discrete. Significa che questo tipo di dati non può essere contato o misurato facilmente utilizzando i numeri e quindi suddiviso in categorie. Il sesso di una persona (maschio, femmina o altro) è un buon esempio di questo tipo di dati.

Questi sono solitamente estratti da audio, immagini o supporto di testo. Un altro esempio può essere quello di una marca di smartphone che fornisce informazioni sulla valutazione attuale, il colore del telefono, la categoria del telefono e così via. Tutte queste informazioni possono essere classificate come dati qualitativi. Ci sono due sottocategorie sotto questo:

Nominale

Questi sono l'insieme dei valori che non possiedono un ordinamento naturale. Capiamolo con alcuni esempi. Il colore di uno smartphone può essere considerato un tipo di dati nominale in quanto non possiamo confrontare un colore con altri.

Non è possibile affermare che 'Rosso' sia maggiore di 'Blu'. Il genere di una persona è un altro in cui non possiamo distinguere tra maschio, femmina o altri. Anche le categorie di telefoni cellulari, che si tratti di fascia media, segmento di budget o smartphone premium, sono un tipo di dati nominale.

Leggi: Carriera nella scienza dei dati

Ordinale

Questi tipi di valori hanno un ordinamento naturale pur mantenendo la loro classe di valori. Se consideriamo le dimensioni di un marchio di abbigliamento, possiamo facilmente ordinarlo in base alla targhetta con il nome nell'ordine piccolo < medio < grande. Il sistema di valutazione durante la valutazione dei candidati in un test può anche essere considerato un tipo di dati ordinale in cui A+ è decisamente migliore del voto B.

Queste categorie ci aiutano a decidere quale strategia di codifica può essere applicata a quale tipo di dati. La codifica dei dati per i dati qualitativi è importante perché i modelli di apprendimento automatico non possono gestire questi valori direttamente e devono essere convertiti in tipi numerici poiché i modelli sono di natura matematica.

Per il tipo di dati nominale in cui non c'è confronto tra le categorie, è possibile applicare la codifica one-hot che è simile alla codifica binaria considerando che sono in numero inferiore e per il tipo di dati ordinale, è possibile applicare la codifica dell'etichetta che è una forma di intero codifica.

Tipo di dati quantitativi

Questo tipo di dati cerca di quantificare le cose e lo fa considerando valori numerici che lo rendono di natura numerabile. Il prezzo di uno smartphone, lo sconto offerto, il numero di valutazioni su un prodotto, la frequenza del processore di uno smartphone o la ram di quel particolare telefono, tutte queste cose rientrano nella categoria dei tipi di dati quantitativi.

La cosa fondamentale è che ci può essere un numero infinito di valori che una caratteristica può assumere. Ad esempio, il prezzo di uno smartphone può variare da x importo a qualsiasi valore e può essere ulteriormente scomposto in base a valori frazionari. Le due sottocategorie che li descrivono chiaramente sono:

Discreto

I valori numerici che ricadono sotto sono numeri interi o interi sono posti in questa categoria. Il numero di altoparlanti nel telefono, le fotocamere, i core nel processore, il numero di sim supportati, tutti questi sono alcuni degli esempi del tipo di dati discreti.

Continuo

I numeri frazionari sono considerati valori continui. Questi possono assumere la forma della frequenza operativa dei processori, della versione Android del telefono, della frequenza wifi, della temperatura dei core e così via.

Da leggere: Stipendio per data scientist in India

Il tipo Ordinale e Discreto possono sovrapporsi?

Se presti attenzione a questo, puoi dare la numerazione alle classi ordinali, e quindi dovrebbe essere chiamato tipo discreto o ordinale? La verità è che è ancora ordinale. La ragione di ciò è che anche se la numerazione è stata eseguita, non trasmette le distanze effettive tra le classi.

Si consideri, ad esempio, il sistema di valutazione di un test. I rispettivi voti possono essere A, B, C, D, E, e se li numeriamo dall'inizio allora sarebbe 1,2,3,4,5. Ora, secondo le differenze numeriche, la distanza tra il voto E e il voto D è la stessa della distanza tra il voto D e C, il che non è molto preciso poiché sappiamo tutti che il voto C è ancora accettabile rispetto al voto E ma il voto medio differenza li dichiara uguali.

Puoi anche applicare la stessa tecnica a un modulo di sondaggio in cui l'esperienza dell'utente viene registrata su una scala da molto scarsa a molto buona. Le differenze tra le varie classi non sono chiare quindi non possono essere quantificate direttamente.

Test diversi

Abbiamo discusso tutte le principali classificazioni dei dati. Questo è importante perché ora possiamo dare la priorità ai test da eseguire su diverse categorie. Ora ha senso tracciare un istogramma o un grafico di frequenza per i dati quantitativi e un grafico a torta e un grafico a barre per i dati qualitativi.

L'analisi di regressione, in cui viene analizzata la relazione tra una variabile dipendente e due o più indipendenti, è possibile solo per dati quantitativi. Il test ANOVA (Analisi della varianza) è applicabile solo su variabili qualitative sebbene sia possibile applicare il test ANOVA a due vie che utilizza una variabile di misura e due variabili nominali.

In questo modo, puoi applicare il test del chi quadrato su dati qualitativi per scoprire relazioni tra variabili categoriali.

Conclusione

In questo articolo abbiamo discusso di come i dati che produciamo possono capovolgere le cose, di come le varie categorie di dati sono disposte in base alle loro esigenze. Abbiamo anche esaminato come i tipi di dati ordinali possono sovrapporsi ai tipi di dati discreti.

Quale tipo di grafico è adatto per quale categoria di dati è stato anche discusso insieme a vari tipi di test che possono essere applicati su un tipo di dati specifico e ad altri test che utilizzano tutti i tipi di dati.

Se sei curioso di imparare la scienza dei dati per essere all'avanguardia nei rapidi progressi tecnologici, dai un'occhiata alla certificazione avanzata in Data Science di upGrad & IIIT-B

Perché la scienza dei dati è importante?

Il significato della scienza dei dati sta nel fatto che riunisce competenze di dominio in programmazione, matematica e statistica per generare nuove intuizioni e dare un senso a grandi quantità di dati. Per le aziende, la scienza dei dati è una risorsa significativa per prendere decisioni basate sui dati poiché descrive la raccolta, il salvataggio, l'ordinamento e la valutazione dei dati. Gli esperti di computer di grande esperienza lo impiegano spesso. Quando ci chiediamo perché la scienza dei dati è essenziale, la risposta rimane perché il valore dei dati continua ad aumentare. La scienza dei dati è molto richiesta perché dimostra come i dati digitali alterano le organizzazioni e consentono loro di fare scelte più informate ed essenziali.

Qual è lo scopo della scienza dei dati?

La scienza dei dati può essere trovata praticamente ovunque in questi giorni. Ciò include transazioni online come gli acquisti su Amazon, feed di social media come Facebook/Instagram, consigli di Netflix e persino le funzionalità di riconoscimento facciale e delle dita fornite dagli smartphone. Data Science copre numerose idee tecnologiche all'avanguardia, come Intelligenza Artificiale, Internet of Things (IoT) e Deep Learning, solo per citarne alcune. L'effetto della scienza dei dati è cresciuto notevolmente grazie ai suoi progressi e progressi tecnici, ampliandone la portata. Imparando la scienza dei dati, puoi scegliere il tuo profilo di lavoro tra molte opzioni e la maggior parte di questi lavori è ben retribuita. Alcuni di questi profili professionali sono analista di dati, scienziato di dati, ingegnere di dati, scienziato e ingegnere di machine learning, sviluppatore di business intelligence, architetto di dati, statistico, ecc.

In che modo i dati nominali sono diversi dai dati ordinali?

I dati nominali includono nomi o caratteristiche che contengono due o più categorie e le categorie non hanno un ordinamento intrinseco. In altre parole, questi tipi di dati non hanno alcun posizionamento o ordine naturale. Un tipo di dati ordinale è simile a uno nominale, ma la distinzione tra i due è un ovvio ordinamento dei dati. Nel complesso, i dati ordinali hanno un certo ordine, ma i dati nominali no. Tutti i dati di classificazione, come le scale Likert, le scale delle feci di Bristol e qualsiasi altra scala con rating compreso tra 0 e 10, possono essere espressi utilizzando dati ordinali.