Cele șase structuri de date cele mai frecvent utilizate în R

Publicat: 2020-02-03

Ca programator și programator de software, trebuie să fii conștient de necesitatea variabilelor pentru stocarea datelor. Aceste variabile sunt rezervate în diferite locații de memorie pentru a stoca valori. Astfel, crearea unei variabile înseamnă rezervarea unui spațiu în memorie. Aceste date sunt aranjate de structuri de date pentru a fi utilizate eficient într-un computer.

Spre deosebire de limbajele de programare populare precum C și Java, R nu are variabile care să fie declarate ca date. R are R-obiecte (structuri de date) care devin tipul de date al variabilei necesare. Există diferite tipuri de structuri de date în R. Dar mai întâi, să înțelegem ce sunt structurile de date!

Cuprins

Ce sunt structurile de date?

În R, structurile de date sunt un instrument care deține mai multe valori. Rețineți că în programarea R, datele cu valori unice sunt aproape niciodată folosite. Este mai viabil să folosiți R pentru a combina mai multe numere, cuvinte sau valori de diferite tipuri. Aici intervin structurile de date. Acestea grupează aceste valori multiple împreună pentru a facilita lucrul cu cantități mari de date simultan.

Structurile de date sunt compuse din tipuri de date care definesc tipul de date care sunt stocate în zvalue. De exemplu, numărul 13 este un tip de date numerice , în timp ce „ treisprezece ” are un tip de date caracter , numit și șir.

Acum că ați înțeles acest lucru, să vedem diferitele tipuri de structuri de date.

Tipuri de structuri de date

Pentru a face analiza și operațiunile de date ușoare și eficiente, există cinci tipuri majore de structuri de date în programarea R.

Să aruncăm o privire la fiecare dintre ele în detaliu.

  • Vector

Funcția R Vectors este de a grupa mai multe valori de același tip de date. Este cel mai elementar tip de structură de date din R și are două părți: Vectori atomici și Liste. Următoarele sunt proprietățile lor comune:

  • Tip de funcție (ce este)
  • Lungimea funcției (numărul de elemente)
  • Atributul funcției (metadate suplimentare arbitrare)

Acum, în timp ce Atomic Vectors sunt meniți pentru clubbing același tip de date, listele pot grupa diferite tipuri de date. Există patru tipuri de vectori atomici:

  • Tip de date numerice
  • Tip de date întreg
  • Tip de date caracter
  • Tip de date logice

Puteți crea Vectori folosind funcția c().

De exemplu:

Dacă rulați codul de mai sus, va fi creat un vector cu numele „thisVector”, care conține toate numerele de la 1 la 30.

Pentru a stoca valorile caracterelor într-un Vector, va trebui să utilizați ghilimele duble ca atare:


Deși puteți stoca diferite tipuri de date într-un vector, se recomandă să nu convertiți toate valorile într-un tip de caracter.

  • Liste

După cum am menționat mai sus, Listele pot conține orice tip de elemente de date - șiruri, numere, vectori și chiar o altă listă. De exemplu, puteți crea o listă de 80 de numere, 30 de cuvinte și 42 de vectori. Funcția care trebuie utilizată este list().

Exemplu:


Ieșire:

Deoarece Listele pot avea și alte liste, acestea sunt uneori numite Vectori recursivi . Acesta este motivul pentru care sunt foarte diferiți de Vectorii Atomici.

  1. Factori

Mai simplu spus, un factor este un tip de vector în care pot fi stocate doar valori predefinite. Este folosit în principal pentru a stoca date categorice. Ei clasifică valorile coloanelor, cum ar fi „Bărbat”, „Femeie”, „ADEVĂRAT”, „FALSE” etc.

Factorii sunt eterogene în sensul că atât șiruri, cât și numere întregi pot fi stocate în ei. Pentru a crea factori, utilizați funcția factor(). Sunt foarte utile atunci când există o mulțime de valori posibile pentru o anumită variabilă și le cunoașteți pe toate.

În programarea R, vectorii de caractere sunt convertiți automat în vector. Puteți utiliza stringsAsFactors = FALSE pentru a suprima acest lucru și apoi converti manual fiecare vector de caractere în factori.

  • Cadre de date

Această structură de date în R este folosită pentru a reprezenta datele într-o formă tabelară pentru a face analiza datelor mai ușoară. Conține vectori de lungime egală, formând astfel o structură bidimensională. Există coloane care conțin valori ale unei variabile și rânduri care conțin un set de valori pentru fiecare coloană.

Desigur, cadrele de date pot stoca valori de diferite tipuri de date. Cu toate acestea, fiecare coloană trebuie să aibă același număr de elemente. De exemplu, dacă coloana 1 are 5 elemente, coloana 2 ar trebui să aibă și 5 valori.

Cadrele de date au câteva caracteristici speciale:

  • Numele coloanelor nu trebuie lăsate goale.
  • Numele fiecărui rând trebuie să fie unic.
  • Puteți stoca date numerice, factoriale sau de tip caracter într-un cadru de date.
  • Toate coloanele trebuie să conțină același număr de elemente de date.

Toate seturile de date care sunt importate în R sunt stocate automat ca cadre de date.

  • Matrici

Structura de date matrice în R se află undeva între Vectori și Cadre de date. Matricele sunt seturi de date bidimensionale care pot conține doar elemente de același tip de date. Puteți crea o matrice folosind funcția matrice ().

Sintaxă : matrice (date, nrow, ncol, byrow, dimnames)

Aici,

date = elemente de intrare ca vector

nrow = numărul de rânduri

ncol = numărul de coloane

byrow = aranjament pe rând

dimnames = nume de coloane/rânduri

Exemplu:

Ieșire:

Chiar dacă factorii arată și se comportă ca vectori de caractere, ei sunt, de fapt, numere întregi. Pentru a converti factorii în înțepături, utilizați funcții precum gsub() și grepl(). Utilizarea nchar() va genera o eroare.

  • Matrice

Matricele sunt matrici multidimensionale. O matrice este un caz special de matrice prin faptul că are două dimensiuni. În timp ce matricele sunt utilizate în mod obișnuit, matricele sunt foarte rare.

Funcția de a crea o matrice este o matrice ().

Testarea dacă un obiect este o matrice sau o matrice este destul de simplă. Folosiți doar funcția is.matrix() sau is.array().

Exerciții

Iată câteva întrebări la care puteți încerca să răspundeți acum că ați dobândit suficiente cunoștințe despre structurile de date din R.

  1. Care sunt atributele cadrelor de date?
  2. Cadrele de date pot conține 0 rânduri sau coloane?
  3. Care sunt diferitele tipuri de vectori atomici din R?
  4. Care este diferența dintre vectorii atomici și liste?
  5. Creați o matrice 4X3 în R.

Trimite-ne răspunsurile tale prin e-mail sau scrie-le în comentariile de mai jos!

Concluzie

Pentru a utiliza limbajul R în mod adecvat, este semnificativă o înțelegere decentă a tipurilor de date, a structurilor de date și a modului în care funcționează. Aceste elemente sunt premisa tuturor activităților din R. De exemplu, o problemă tipică întâlnită de majoritatea programatorilor este transformările obiectelor, care pot fi eliminate cu o bună cunoaștere a obiectelor R. Este imperativ să rețineți că în R totul este un obiect și operațiile au decurs ca apeluri de funcție.

Structurile de date din R pot fi sortate în două moduri diferite. Metoda principală de sortare a structurilor de date este prin dimensionalitatea lor, care poate fi 1, 2 sau n dimensionalitate, iar ruta ulterioară este prin natura elementelor care pot fi omogene sau eterogene. Fiecare dintre elementele dintr-o structură omogenă trebuie să fie de un fel similar, în timp ce într-o structură eterogenă sunt permise elemente de diferite tipuri.

După ce ați învățat elementele de bază ale structurilor de date în R, veți găsi programarea în R mult mai ușoară. Structurile de date sunt bazele lui R. Cele șase structuri de date cele mai frecvent utilizate sunt menționate mai sus. Este important să ne amintim diferitele caracteristici ale fiecărui tip și să îl implementați pentru a analiza datele și a efectua operațiunile acestuia.

Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.

Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.

Perfecționează-te și pregătește-te pentru viitor

Program de certificat avansat în Big Data de la IIIT Bangalore