Les six structures de données les plus couramment utilisées dans R

Publié: 2020-02-03

En tant que programmeur et codeur de logiciels, vous devez être conscient du besoin de variables pour stocker des données. Ces variables sont réservées dans différents emplacements de mémoire pour stocker des valeurs. Ainsi, créer une variable revient à réserver de l'espace en mémoire. Ce sont ces données qui sont organisées par des structures de données pour être utilisées efficacement dans un ordinateur.

Contrairement aux langages de programmation populaires tels que C et Java, R n'a pas de variables à déclarer en tant que données. R a des objets R (structures de données) qui deviennent le type de données de la variable requise. Il existe différents types de structures de données dans R. Mais d'abord, comprenons ce que sont les structures de données !

Table des matières

Que sont les Structures de Données ?

Dans R, les structures de données sont un outil qui contient plusieurs valeurs. Notez qu'en programmation R, les données avec des valeurs uniques ne sont presque jamais utilisées. Il est plus viable d'utiliser R pour regrouper plusieurs nombres, mots ou valeurs de différents types. C'est là que les structures de données entrent en jeu. Ils regroupent ces multiples valeurs pour faciliter le travail avec de grandes quantités de données à la fois.

Les structures de données sont composées de types de données qui définissent le type de données stockées dans zvalue. Par exemple, le nombre 13 est un type de données numérique , tandis que « treize » a un type de données caractère , également appelé chaîne.

Maintenant que vous maîtrisez cela, voyons les différents types de structure de données.

Types de structures de données

Afin de rendre l'analyse des données et les opérations simples et efficaces, il existe cinq principaux types de structures de données dans la programmation R.

Jetons un coup d'œil à chacun d'eux en détail.

Vecteur

La fonction des vecteurs R est de regrouper plusieurs valeurs du même type de données. Il s'agit du type de structure de données le plus élémentaire de R et comporte deux parties : les vecteurs atomiques et les listes. Voici leurs propriétés communes :

Type de fonction (ce que c'est)
Longueur de la fonction (nombre d'éléments)
Attribut de fonction (métadonnées arbitraires supplémentaires)

Désormais, alors que les vecteurs atomiques sont destinés à regrouper le même type de données, les listes peuvent regrouper différents types de données. Il existe quatre types de vecteurs atomiques :

Type de données numériques
Type de données entier
Type de données de caractère
Type de données logique

Vous pouvez créer des vecteurs en utilisant la fonction c().

Par exemple:

Si vous exécutez le code ci-dessus, un vecteur nommé 'thisVector' sera créé, contenant tous les nombres de 1 à 30.

Pour stocker des valeurs de caractères dans un vecteur, vous devrez utiliser des guillemets doubles en tant que tels :

Bien que vous puissiez stocker différents types de données dans un vecteur, il est conseillé de ne pas le faire car toutes les valeurs sont converties en un type de caractère.

Listes

Comme mentionné ci-dessus, les listes peuvent contenir n'importe quel type d'éléments de données - chaînes, nombres, vecteurs et même une autre liste. Par exemple, vous pouvez créer une liste de 80 nombres, 30 mots et 42 vecteurs. La fonction à utiliser est une liste().

Exemple:

Sortir:

Étant donné que les listes peuvent également avoir d'autres listes, elles sont parfois appelées vecteurs récursifs . C'est pourquoi ils sont très différents des vecteurs atomiques.

Les facteurs

En termes simples, un facteur est un type de vecteur dans lequel seules des valeurs prédéfinies peuvent être stockées. Il est principalement utilisé pour stocker des données catégorielles. Ils catégorisent les valeurs des colonnes, telles que "Male", "Female", "TRUE", "FALSE", etc.

Les facteurs sont hétérogènes dans le sens où des chaînes et des entiers peuvent y être stockés. Pour créer des facteurs, utilisez la fonction factor(). Ils sont très utiles lorsqu'il existe de nombreuses valeurs possibles pour une variable particulière et que vous les connaissez toutes.

En programmation R, les vecteurs de caractères sont automatiquement convertis en vecteur. Vous pouvez utiliser stringsAsFactors = FALSE afin de supprimer cela, puis convertir manuellement chaque vecteur de caractères en facteurs.

Trames de données

Cette structure de données dans R est utilisée pour représenter les données sous forme de tableau afin de faciliter l'analyse des données. Il contient des vecteurs de longueur égale, formant ainsi une structure bidimensionnelle. Il y a des colonnes contenant les valeurs d'une variable et des lignes contenant un ensemble de valeurs de chaque colonne.

Naturellement, les trames de données peuvent stocker des valeurs de différents types de données. Cependant, chaque colonne doit avoir le même nombre d'éléments. Par exemple, si la colonne 1 contient 5 éléments, la colonne 2 doit également contenir 5 valeurs.

Les trames de données ont des caractéristiques particulières :

Aucun nom de colonne ne doit être laissé vide.
Le nom de chaque ligne doit être unique.
Vous pouvez stocker des données numériques, factorielles ou de type caractère dans un bloc de données.
Toutes les colonnes doivent contenir le même nombre d'éléments de données.

Tous les ensembles de données importés dans R sont automatiquement stockés en tant que trames de données.

Matrices

La structure de données matricielle dans R se situe quelque part entre les vecteurs et les trames de données. Les matrices sont des ensembles de données bidimensionnels qui peuvent contenir uniquement des éléments du même type de données. Vous pouvez créer une matrice à l'aide de la fonction matrice ().

Syntaxe : matrix(data, nrow, ncol, byrow, dimnames)

Ici,

données = éléments d'entrée sous forme de vecteur

nrow = nombre de lignes

ncol = nombre de colonnes

byrow = arrangement par rangée

dimnames = noms des colonnes/lignes

Exemple:

Sortir:

Même si les facteurs ressemblent et se comportent comme des vecteurs de caractères, ce sont en fait des entiers. Pour convertir les facteurs en stings, utilisez des fonctions comme gsub() et grepl(). L'utilisation de nchar() générera une erreur.

Tableaux

Les tableaux sont des matrices multidimensionnelles. Une matrice est un cas particulier des tableaux en ce qu'elle a deux dimensions. Alors que les matrices sont couramment utilisées, les tableaux sont très rares.

La fonction pour créer un tableau est un tableau().

Tester si un objet est une matrice ou un tableau est assez simple. Utilisez simplement la fonction is.matrix() ou is.array().

Des exercices

Voici quelques questions auxquelles vous pouvez essayer de répondre maintenant que vous avez acquis suffisamment de connaissances sur les structures de données dans R.

Quels sont les attributs des blocs de données ?
Les blocs de données peuvent-ils contenir 0 lignes ou colonnes ?
Quels sont les différents types de vecteurs atomiques dans R ?
Quelle est la différence entre les vecteurs atomiques et les listes ?
Créez une matrice 4X3 dans R.

Envoyez-nous vos réponses par e-mail ou écrivez-les dans les commentaires ci-dessous !

Conclusion

Pour utiliser le langage R de manière adéquate, une bonne compréhension des types de données, des structures de données et de leur fonctionnement est importante. Ces éléments sont la prémisse de toutes les activités dans R. Par exemple, un problème typique rencontré par la plupart des programmeurs est les transformations d'objets, qui peuvent être éliminées avec une bonne connaissance des objets R. Il est impératif de noter que dans R tout est un objet et que les opérations se sont déroulées comme des appels de fonction.

Les structures de données dans R peuvent être triées de deux manières différentes. La méthode principale pour trier les structures de données est par leur dimensionnalité qui peut être 1, 2 ou n dimensionnalité et la voie suivante est par leur nature d'éléments qui peuvent être homogènes ou hétérogènes. Chacun des éléments d'une structure homogène doit être de même nature alors que dans une structure hétérogène, des éléments de natures différentes sont autorisés.

Après avoir appris les bases des structures de données dans R, vous trouverez la programmation dans R beaucoup plus facile. Les structures de données sont les bases de R. Les six structures de données les plus couramment utilisées sont mentionnées ci-dessus. Il est important de se souvenir des différentes caractéristiques de chaque type et de les mettre en œuvre pour analyser les données et effectuer ses opérations.

Si vous souhaitez en savoir plus sur le Big Data, consultez notre programme PG Diploma in Software Development Specialization in Big Data qui est conçu pour les professionnels en activité et fournit plus de 7 études de cas et projets, couvre 14 langages et outils de programmation, pratique pratique ateliers, plus de 400 heures d'apprentissage rigoureux et d'aide au placement dans les meilleures entreprises.

Apprenez des cours de développement de logiciels en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Améliorez vos compétences et préparez-vous pour l'avenir

Programme de certificat avancé en Big Data de l'IIIT Bangalore