Le sei strutture dati più comunemente utilizzate in R

Pubblicato: 2020-02-03

In qualità di programmatore e programmatore di software, devi essere consapevole della necessità di variabili per memorizzare i dati. Queste variabili sono riservate in diverse locazioni di memoria per memorizzare i valori. Pertanto, creare una variabile significa riservare dello spazio in memoria. Sono questi dati che vengono organizzati dalle strutture dati per essere utilizzati in modo efficiente in un computer.

A differenza dei popolari linguaggi di programmazione come C e Java, R non ha variabili da dichiarare come dati. R ha oggetti R (strutture dati) che diventano il tipo di dati della variabile richiesta. Ci sono vari tipi di strutture dati in R. Ma prima, capiamo cosa sono le strutture dati!

Sommario

Cosa sono le strutture dati?

In R, le strutture dati sono uno strumento che contiene più valori. Si noti che nella programmazione R, i dati con valori singoli non vengono quasi mai utilizzati. È più praticabile usare R per mettere insieme più numeri, parole o valori di tipo diverso. È qui che entrano in gioco le strutture dati. Raggruppano questi valori multipli insieme per semplificare il lavoro con grandi quantità di dati contemporaneamente.

Le strutture dati sono composte da tipi di dati che definiscono il tipo di dati archiviati in zvalue. Ad esempio, il numero 13 è un tipo di dati numerico , mentre " tredici " ha un tipo di dati carattere , chiamato anche stringa.

Ora che hai una sospensione di questo, vediamo i diversi tipi di struttura dei dati.

Tipi di strutture dati

Per rendere l'analisi dei dati e le operazioni facili ed efficienti, nella programmazione R sono disponibili cinque tipi principali di strutture dati.

Diamo un'occhiata a ciascuno di essi in dettaglio.

  • Vettore

La funzione di R Vettori è di raggruppare più valori dello stesso tipo di dati. È il tipo più elementare di struttura dati in R e ha due parti: vettori atomici ed elenchi. Di seguito sono elencate le loro proprietà comuni:

  • Tipo di funzione (che cos'è)
  • Lunghezza della funzione (numero di elementi)
  • Attributo della funzione (metadati arbitrari aggiuntivi)

Ora, mentre i vettori atomici sono pensati per il clubbing dello stesso tipo di dati, gli elenchi possono raggruppare diversi tipi di dati. Esistono quattro tipi di vettori atomici:

  • Tipo di dati numerici
  • Tipo di dati intero
  • Tipo di dati carattere
  • Tipo di dati logici

Puoi creare vettori usando la funzione c().

Per esempio:

Se esegui il codice sopra, verrà creato un vettore con il nome 'thisVector', contenente tutti i numeri da 1 a 30.

Per memorizzare i valori dei caratteri in un vettore, dovrai usare le virgolette come tali:


Sebbene sia possibile memorizzare diversi tipi di dati in un vettore, si consiglia di non convertire tutti i valori in un tipo di carattere.

  • Elenchi

Come accennato in precedenza, gli elenchi possono contenere qualsiasi tipo di elemento di dati: stringhe, numeri, vettori e persino un altro elenco. Ad esempio, puoi creare un elenco di 80 numeri, 30 parole e 42 vettori. La funzione da utilizzare è una list().

Esempio:


Produzione:

Poiché le Liste possono avere anche altre liste, a volte vengono chiamate Vettori ricorsivi . Questo è il motivo per cui sono molto diversi dai vettori atomici.

  1. Fattori

In poche parole, un fattore è un tipo di vettore in cui possono essere memorizzati solo valori predefiniti. Viene utilizzato principalmente per memorizzare dati categoriali. Classificano i valori delle colonne, come "Maschio", "Femmina", "VERO", "FALSO", ecc.

I fattori sono eterogenei nel senso che possono essere memorizzati sia stringhe che interi. Per creare fattori, utilizzare la funzione factor(). Sono molto utili quando ci sono molti valori possibili per una particolare variabile e li conosci tutti.

Nella programmazione R, i vettori di caratteri vengono automaticamente convertiti in vettori. È possibile utilizzare stringsAsFactors = FALSE per sopprimerlo e quindi convertire manualmente ogni vettore di caratteri in fattori.

  • Frame di dati

Questa struttura dati in R viene utilizzata per rappresentare i dati in forma tabellare per semplificare l'analisi dei dati. Contiene vettori di uguale lunghezza, formando così una struttura bidimensionale. Sono presenti colonne contenenti valori di una variabile e righe contenenti un insieme di valori di ciascuna colonna.

Naturalmente, i frame di dati possono memorizzare valori di diversi tipi di dati. Tuttavia, ogni colonna deve avere lo stesso numero di elementi. Ad esempio, se la colonna 1 ha 5 elementi, anche la colonna 2 dovrebbe avere 5 valori.

I frame di dati hanno alcune caratteristiche speciali:

  • Nessun nome di colonna deve essere lasciato vuoto.
  • Il nome di ogni riga deve essere univoco.
  • È possibile memorizzare dati numerici, fattoriali o di tipo carattere in un frame di dati.
  • Tutte le colonne devono contenere lo stesso numero di elementi di dati.

Tutti i set di dati importati in R vengono automaticamente archiviati come frame di dati.

  • Matrici

La struttura dei dati della matrice in R si trova da qualche parte tra i vettori e i frame di dati. Le matrici sono set di dati bidimensionali che possono contenere solo elementi dello stesso tipo di dati. È possibile creare una matrice utilizzando la funzione matrice ().

Sintassi : matrice(data, nrow, ncol, byrow, dimnames)

Qui,

data = elementi di input come vettore

nrow = numero di righe

ncol = numero di colonne

byrow = disposizione per riga

dimnames = nomi di colonne/righe

Esempio:

Produzione:

Anche se i fattori sembrano e si comportano come vettori di caratteri, in realtà sono numeri interi. Per convertire i fattori in punti, usa funzioni come gsub() e grepl(). L'uso di nchar() genererà un errore.

  • Matrici

Gli array sono matrici multidimensionali. Una matrice è un caso speciale di array in quanto ha due dimensioni. Mentre le matrici sono comunemente usate, gli array sono molto rari.

La funzione per creare un array è un array().

Verificare se un oggetto è una matrice o un array è piuttosto semplice. Basta usare la funzione is.matrix() o is.array().

Esercizi

Ecco alcune domande a cui puoi provare a rispondere ora che hai acquisito una conoscenza sufficiente delle strutture dati in R.

  1. Quali sono gli attributi dei frame di dati?
  2. I frame di dati possono contenere 0 righe o colonne?
  3. Quali sono i diversi tipi di vettori atomici in R?
  4. Qual è la differenza tra vettori atomici e liste?
  5. Crea una matrice 4X3 in R.

Inviaci le tue risposte via email o scrivile nei commenti qui sotto!

Conclusione

Per utilizzare adeguatamente il linguaggio R, è significativa una comprensione decente dei tipi di dati, delle strutture dei dati e del loro funzionamento. Questi elementi sono la premessa di tutte le attività in R. Ad esempio, un problema tipico incontrato dalla maggior parte dei programmatori sono le trasformazioni di oggetti, che possono essere eliminate con una buona conoscenza degli oggetti R. È imperativo notare che in R tutto è un oggetto e le operazioni sono proseguite come chiamate di funzione.

Le strutture dati in R possono essere ordinate in due modi diversi. Il metodo principale per ordinare le strutture dati è dalla loro dimensionalità che può essere 1, 2 o n dimensionalità e il percorso successivo è per la loro natura di elementi che possono essere omogenei o eterogenei. Ciascuno degli elementi in una struttura omogenea deve essere di tipo simile mentre in una struttura eterogenea sono ammessi elementi di vario genere.

Dopo aver appreso le basi delle strutture dati in R, la programmazione in R sarà molto più semplice. Le strutture dati sono i fondamenti di R. Le sei strutture dati più comunemente utilizzate sono menzionate sopra. È importante ricordare le diverse caratteristiche di ogni tipo e implementarlo per analizzare i dati e svolgere le sue operazioni.

Se sei interessato a saperne di più sui Big Data, dai un'occhiata al nostro PG Diploma in Software Development Specialization nel programma Big Data, progettato per professionisti che lavorano e fornisce oltre 7 casi di studio e progetti, copre 14 linguaggi e strumenti di programmazione, pratiche pratiche workshop, oltre 400 ore di apprendimento rigoroso e assistenza all'inserimento lavorativo con le migliori aziende.

Impara i corsi di sviluppo software online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Migliora le tue competenze e preparati per il futuro

Programma di certificazione avanzato in Big Data da IIIT Bangalore