4 tipuri de date: nominale, ordinale, discrete, continue
Publicat: 2020-12-01Cuprins
Introducere
Știința datelor se referă la experimentarea cu date brute sau structurate. Datele sunt combustibilul care poate conduce o afacere pe calea cea bună sau cel puțin poate oferi informații utile care pot ajuta la elaborarea strategiei campaniilor curente, la organizarea cu ușurință a lansării de noi produse sau la încercarea diferitelor experimente.
Toate aceste lucruri au o componentă comună de conducere și aceasta este Data. Intrăm în era digitală în care producem o mulțime de date. De exemplu, o companie precum Flipkart produce mai mult de 2 TB de date zilnic.
Când aceste Date au atât de multă importanță în viața noastră, atunci devine important să le stocăm și să le procesăm corect, fără nicio eroare. Atunci când se ocupă de seturi de date, categoria de date joacă un rol important pentru a determina ce strategie de preprocesare ar funcționa pentru un anumit set pentru a obține rezultatele corecte sau ce tip de analiză statistică ar trebui aplicată pentru cele mai bune rezultate. Să ne aprofundăm în câteva dintre categoriile de date utilizate în mod obișnuit.
Tip de date calitative
Datele calitative sau categoriale descriu obiectul luat în considerare folosind un set finit de clase discrete. Înseamnă că acest tip de date nu pot fi numărate sau măsurate cu ușurință folosind numere și, prin urmare, împărțite în categorii. Genul unei persoane (bărbat, femeie sau altele) este un bun exemplu al acestui tip de date.
Acestea sunt de obicei extrase din suport audio, imagini sau text. Un alt exemplu poate fi al unei mărci de smartphone care oferă informații despre evaluarea curentă, culoarea telefonului, categoria telefonului și așa mai departe. Toate aceste informații pot fi clasificate ca date calitative. Există două subcategorii sub aceasta:
Nominal
Acestea sunt setul de valori care nu posedă o ordonare naturală. Să înțelegem asta cu câteva exemple. Culoarea unui smartphone poate fi considerată un tip de date nominal, deoarece nu putem compara o culoare cu altele.
Nu se poate afirma că „Roșu” este mai mare decât „Albastru”. Genul unei persoane este un altul în care nu putem face diferența între bărbat, femeie sau alții. Categoriile de telefoane mobile, indiferent dacă este vorba despre gama medie, segmentul bugetar sau smartphone-ul premium, sunt, de asemenea, un tip de date nominal.
Citiți: Carieră în știința datelor
Ordinal
Aceste tipuri de valori au o ordonare naturală, păstrând în același timp clasa de valori. Dacă luăm în considerare dimensiunea unei mărci de îmbrăcăminte, atunci le putem sorta cu ușurință în funcție de eticheta cu numele lor, în ordinea mic < mediu < mare. Sistemul de notare în timpul notării candidaților la un test poate fi considerat, de asemenea, ca un tip de date ordinal, unde A+ este cu siguranță mai bun decât nota B.
Aceste categorii ne ajută să decidem ce strategie de codificare poate fi aplicată la ce tip de date. Codificarea datelor pentru datele calitative este importantă, deoarece modelele de învățare automată nu pot gestiona aceste valori în mod direct și trebuiau convertite în tipuri numerice, deoarece modelele sunt de natură matematică.
Pentru tipul de date nominale în care nu există comparație între categorii, se poate aplica codificare one-hot care este similară cu codarea binară, având în vedere că există un număr mai mic, iar pentru tipul de date ordinal, se poate aplica codificarea etichetei care este o formă de întreg. codificare.
Tip de date cantitative
Acest tip de date încearcă să cuantifice lucrurile și o face luând în considerare valorile numerice care îl fac numărabil în natură. Prețul unui smartphone, reducerea oferită, numărul de evaluări pentru un produs, frecvența procesorului unui smartphone sau ram-ul respectivului telefon, toate aceste lucruri se încadrează în categoria Tipurilor de date cantitative.
Principalul lucru este că poate exista un număr infinit de valori pe care o caracteristică le poate lua. De exemplu, prețul unui smartphone poate varia de la x suma la orice valoare și poate fi defalcat în continuare pe baza valorilor fracționale. Cele două subcategorii care le descriu clar sunt:
Discret
Valorile numerice care se încadrează în sunt numere întregi sau numere întregi sunt plasate în această categorie. Numărul de difuzoare din telefon, camere, nuclee din procesor, numărul de sim-uri suportate toate acestea sunt câteva dintre exemplele tipului de date discrete.

Continuu
Numerele fracționale sunt considerate valori continue. Acestea pot lua forma frecvenței de funcționare a procesoarelor, a versiunii Android a telefonului, a frecvenței wifi, a temperaturii nucleelor și așa mai departe.
Trebuie să citiți: Salariul Data Scientist în India
Tipul ordinal și discret se pot suprapune?
Dacă acordați atenție acestui lucru, puteți da numerotare claselor ordinale și atunci ar trebui să fie numit tip discret sau ordinal? Adevărul este că este încă ordinal. Motivul pentru aceasta este că, chiar dacă numerotarea este făcută, nu transmite distanțele reale dintre clase.
De exemplu, luați în considerare sistemul de notare al unui test. Notele respective pot fi A, B, C, D, E, iar daca le numerotam de la inceput atunci ar fi 1,2,3,4,5. Acum, în funcție de diferențele numerice, distanța dintre nota E și nota D este aceeași cu distanța dintre nota D și nota C, care nu este foarte precisă, deoarece știm cu toții că nota C este încă acceptabilă în comparație cu nota E, dar mijlocul diferența le declară egale.
De asemenea, puteți aplica aceeași tehnică unui formular de sondaj în care experiența utilizatorului este înregistrată pe o scară de la foarte slab la foarte bun. Diferențele dintre diferitele clase nu sunt clare, prin urmare, nu pot fi cuantificate direct.
Teste diferite
Am discutat toate clasificările majore ale datelor. Acest lucru este important pentru că acum putem prioritiza testele care urmează să fie efectuate pe diferite categorii. Acum are sens să trasezi o histogramă sau un grafic de frecvență pentru date cantitative și o diagramă circulară și un grafic cu bare pentru datele calitative.
Analiza de regresie, în care relația dintre o variabilă dependentă și două sau mai multe variabile independente este analizată este posibilă numai pentru datele cantitative. Testul ANOVA (Analiza varianței) este aplicabil numai pentru variabile calitative, deși puteți aplica testul ANOVA în două sensuri care utilizează o variabilă de măsurare și două variabile nominale.
În acest fel, puteți aplica testul Chi-pătrat pe datele calitative pentru a descoperi relații între variabilele categoriale.
Concluzie
În acest articol, am discutat despre modul în care datele pe care le producem pot întoarce tabelele cu susul în jos, cum sunt aranjate diferitele categorii de date în funcție de nevoia lor. De asemenea, am analizat modul în care tipurile de date ordinale se pot suprapune cu tipurile de date discrete.
Ce tip de diagramă este potrivit pentru ce categorie de date a fost, de asemenea, discutat împreună cu diferite tipuri de teste care pot fi aplicate pe un anumit tip de date și alte teste care utilizează toate tipurile de date.
Dacă sunteți curios să învățați știința datelor pentru a fi în fața progreselor tehnologice rapide, consultați Certificarea avansată în știința datelor de la upGrad și IIIT-B
De ce este importantă știința datelor?
Semnificația științei datelor constă în faptul că reunește expertiza de domeniu în programare, matematică și statistică pentru a genera noi perspective și a da sens unor cantități mari de date. Pentru companii, știința datelor este o resursă importantă pentru luarea deciziilor bazate pe date, deoarece descrie colectarea, salvarea, sortarea și evaluarea datelor. Experții în computer cu înaltă experiență îl folosesc frecvent. Când ne întrebăm de ce știința datelor este esențială, răspunsul constă în faptul că valoarea datelor continuă să crească. Știința datelor este la mare căutare, deoarece demonstrează modul în care datele digitale modifică organizațiile și le permite să facă alegeri mai informate și esențiale.
Care este scopul științei datelor?
Știința datelor poate fi găsită aproape oriunde în zilele noastre. Acestea includ tranzacții online, cum ar fi achizițiile Amazon, fluxuri de rețele sociale precum Facebook/Instagram, recomandări Netflix și chiar și capabilitățile de recunoaștere a degetelor și faciale oferite de smartphone-uri. Data Science acoperă numeroase idei tehnologice de ultimă oră, cum ar fi inteligența artificială, Internetul lucrurilor (IoT) și Deep Learning, pentru a menționa câteva. Efectul științei datelor a crescut dramatic datorită progreselor și progreselor sale tehnice, extinzându-și domeniul de aplicare. Învățând știința datelor, vă puteți alege profilul postului dintre multe opțiuni, iar majoritatea acestor locuri de muncă sunt bine plătite. Câteva dintre aceste profiluri de locuri de muncă sunt Analyst de date, Data Scientist, Data Engineer, Machine Learning Scientist și inginer, Business Intelligence Developer, Data Architect, Statistician etc.
Cum diferă datele nominale de datele ordinale?
Datele nominale includ nume sau caracteristici care conțin două sau mai multe categorii, iar categoriile nu au o ordine inerentă. Cu alte cuvinte, aceste tipuri de date nu au nicio clasare sau ordine firească. Un tip de date ordinal este similar cu unul nominal, dar distincția dintre cele două este o ordonare evidentă a datelor. În general, datele ordinale au o anumită ordine, dar datele nominale nu. Toate datele de clasare, cum ar fi scalele Likert, scalele Bristol pentru scaun și orice alte scale evaluate între 0 și 10, pot fi exprimate folosind date ordinale.