4 types de données : nominales, ordinales, discrètes, continues

Publié: 2020-12-01

Table des matières

introduction

La science des données consiste à expérimenter avec des données brutes ou structurées. Les données sont le carburant qui peut conduire une entreprise sur la bonne voie ou au moins fournir des informations exploitables qui peuvent aider à élaborer des stratégies pour les campagnes en cours, organiser facilement le lancement de nouveaux produits ou essayer différentes expériences.

Toutes ces choses ont un élément moteur commun et ce sont les données. Nous entrons dans l'ère numérique où nous produisons beaucoup de Data. Par exemple, une entreprise comme Flipkart produit quotidiennement plus de 2 To de données.

Lorsque ces données ont tant d'importance dans notre vie, il devient alors important de les stocker et de les traiter correctement sans aucune erreur. Lorsqu'il s'agit d'ensembles de données, la catégorie de données joue un rôle important pour déterminer quelle stratégie de prétraitement fonctionnerait pour un ensemble particulier afin d'obtenir les bons résultats ou quel type d'analyse statistique devrait être appliqué pour obtenir les meilleurs résultats. Plongeons-nous dans certaines des catégories de données couramment utilisées.

Type de données qualitatives

Les données qualitatives ou catégorielles décrivent l'objet considéré à l'aide d'un ensemble fini de classes discrètes. Cela signifie que ce type de données ne peut pas être compté ou mesuré facilement à l'aide de nombres et donc divisé en catégories. Le sexe d'une personne (homme, femme ou autre) est un bon exemple de ce type de données.

Ceux-ci sont généralement extraits de supports audio, d'images ou de texte. Un autre exemple peut être celui d'une marque de smartphone qui fournit des informations sur la note actuelle, la couleur du téléphone, la catégorie du téléphone, etc. Toutes ces informations peuvent être classées dans la catégorie des données qualitatives. Il y a deux sous-catégories sous cela :

Nominal

Il s'agit de l'ensemble des valeurs qui ne possèdent pas d'ordre naturel. Comprenons cela avec quelques exemples. La couleur d'un smartphone peut être considérée comme un type de données nominal car nous ne pouvons pas comparer une couleur avec d'autres.

Il n'est pas possible d'affirmer que 'Rouge' est supérieur à 'Bleu'. Le sexe d'une personne en est un autre où nous ne pouvons pas faire la différence entre un homme, une femme ou d'autres. Les catégories de téléphones mobiles, qu'il s'agisse de milieu de gamme, de segment budgétaire ou de smartphone haut de gamme, sont également des types de données nominaux.

Lire : Carrière en science des données

Ordinal

Ces types de valeurs ont un ordre naturel tout en conservant leur classe de valeurs. Si nous considérons la taille d'une marque de vêtements, nous pouvons facilement les trier en fonction de leur étiquette de nom dans l'ordre petit < moyen < grand. Le système de notation lors de la notation des candidats à un test peut également être considéré comme un type de données ordinal où A + est nettement meilleur que la note B.

Ces catégories nous aident à décider quelle stratégie d'encodage peut être appliquée à quel type de données. L'encodage des données pour les données qualitatives est important car les modèles d'apprentissage automatique ne peuvent pas gérer ces valeurs directement et doivent être convertis en types numériques car les modèles sont de nature mathématique.

Pour le type de données nominal où il n'y a pas de comparaison entre les catégories, un codage à chaud peut être appliqué, ce qui est similaire au codage binaire étant donné qu'il y en a moins et pour le type de données ordinal, un codage d'étiquette peut être appliqué qui est une forme d'entier codage.

Type de données quantitatives

Ce type de données essaie de quantifier les choses et il le fait en considérant des valeurs numériques qui le rendent comptable par nature. Le prix d'un smartphone, la remise offerte, le nombre d'évaluations sur un produit, la fréquence du processeur d'un smartphone ou le RAM de ce téléphone particulier, toutes ces choses entrent dans la catégorie des types de données quantitatives.

L'essentiel est qu'il peut y avoir un nombre infini de valeurs qu'une fonctionnalité peut prendre. Par exemple, le prix d'un smartphone peut varier d'un montant x à n'importe quelle valeur et il peut encore être décomposé en fonction de valeurs fractionnaires. Les deux sous-catégories qui les décrivent clairement sont :

Discret

Les valeurs numériques qui relèvent des entiers ou des nombres entiers sont placées dans cette catégorie. Le nombre de haut-parleurs dans le téléphone, les caméras, les cœurs du processeur, le nombre de sims pris en charge sont quelques-uns des exemples du type de données discrètes.

Continu

Les nombres fractionnaires sont considérés comme des valeurs continues. Celles-ci peuvent prendre la forme de la fréquence de fonctionnement des processeurs, de la version Android du téléphone, de la fréquence wifi, de la température des cœurs, etc.

Doit lire: Salaire de Data Scientist en Inde

Les types ordinal et discret peuvent-ils se chevaucher ?

Si vous faites attention à cela, vous pouvez donner une numérotation aux classes ordinales, et alors il faudrait l'appeler type discret ou ordinal ? La vérité est qu'il est encore ordinal. La raison en est que même si la numérotation est faite, elle ne donne pas les distances réelles entre les classes.

Par exemple, considérons le système de notation d'un test. Les notes respectives peuvent être A, B, C, D, E, et si nous les numérotons depuis le début, ce serait 1,2,3,4,5. Maintenant, selon les différences numériques, la distance entre le grade E et le grade D est la même que la distance entre le grade D et C, ce qui n'est pas très précis car nous savons tous que le grade C est toujours acceptable par rapport au grade E mais le milieu la différence les déclare égaux.

Vous pouvez également appliquer la même technique à un formulaire d'enquête où l'expérience utilisateur est enregistrée sur une échelle de très mauvaise à très bonne. Les différences entre les différentes classes ne sont pas claires et ne peuvent donc pas être quantifiées directement.

Différents tests

Nous avons discuté de toutes les principales classifications de données. C'est important car maintenant nous pouvons hiérarchiser les tests à effectuer sur différentes catégories. Maintenant, il est logique de tracer un histogramme ou un graphique de fréquence pour les données quantitatives et un graphique à secteurs et un graphique à barres pour les données qualitatives.

L'analyse de régression, où la relation entre une variable dépendante et deux ou plusieurs variables indépendantes est analysée, n'est possible que pour les données quantitatives. Le test ANOVA (analyse de la variance) est applicable uniquement sur les variables qualitatives, bien que vous puissiez appliquer le test ANOVA à deux facteurs qui utilise une variable de mesure et deux variables nominales.

De cette façon, vous pouvez appliquer le test Chi-carré sur des données qualitatives pour découvrir les relations entre les variables catégorielles.

Conclusion

Dans cet article, nous avons évoqué comment les données que nous produisons peuvent chambouler les tableaux, comment les différentes catégories de données sont agencées en fonction de leur besoin. Nous avons également examiné comment les types de données ordinaux peuvent se chevaucher avec les types de données discrets.

Le type de tracé adapté à quelle catégorie de données a également été discuté, ainsi que divers types de tests pouvant être appliqués à un type de données spécifique et d'autres tests utilisant tous les types de données.

Si vous êtes curieux d'apprendre la science des données pour être à l'avant-garde des avancées technologiques rapides, consultez la certification avancée upGrad & IIIT-B en science des données

Pourquoi la science des données est-elle importante ?

L'importance de la science des données réside dans le fait qu'elle rassemble l'expertise du domaine de la programmation, des mathématiques et des statistiques pour générer de nouvelles idées et donner un sens à de grandes quantités de données. Pour les entreprises, la science des données est une ressource importante pour prendre des décisions basées sur les données, car elle décrit la collecte, la sauvegarde, le tri et l'évaluation des données. Des informaticiens très expérimentés l'utilisent fréquemment. Lorsque nous nous demandons pourquoi la science des données est essentielle, la réponse est parce que la valeur des données ne cesse d'augmenter. La science des données est très demandée car elle démontre comment les données numériques modifient les organisations et leur permettent de faire des choix plus éclairés et essentiels.

Quelle est la portée de la science des données ?

La science des données peut être trouvée à peu près n'importe où de nos jours. Cela inclut les transactions en ligne comme les achats Amazon, les flux de médias sociaux comme Facebook/Instagram, les recommandations Netflix et même les capacités de reconnaissance des doigts et du visage offertes par les smartphones. La science des données couvre de nombreuses idées technologiques de pointe, telles que l'intelligence artificielle, l'Internet des objets (IoT) et l'apprentissage en profondeur, pour n'en citer que quelques-unes. L'effet de la science des données a considérablement augmenté en raison de ses progrès et de ses avancées techniques, élargissant sa portée. En apprenant la science des données, vous pouvez choisir votre profil d'emploi parmi de nombreuses options, et la plupart de ces emplois sont bien rémunérés. Quelques-uns de ces profils d'emploi sont Data Analyst, Data Scientist, Data Engineer, Machine Learning Scientist and Engineer, Business Intelligence Developer, Data Architect, Statistician, etc.

En quoi les données nominales sont-elles différentes des données ordinales ?

Les données nominales comprennent des noms ou des caractéristiques qui contiennent deux catégories ou plus, et les catégories n'ont pas d'ordre inhérent. En d'autres termes, ces types de données n'ont pas de classement ou d'ordre naturel. Un type de données ordinal est similaire à un type nominal, mais la distinction entre les deux est un ordre évident dans les données. Dans l'ensemble, les données ordinales ont un certain ordre, mais pas les données nominales. Toutes les données de classement, telles que les échelles de Likert, les échelles de selles de Bristol et toute autre échelle notée entre 0 et 10, peuvent être exprimées à l'aide de données ordinales.