As seis estruturas de dados mais usadas em R

Publicados: 2020-02-03

Como programador e codificador de software, você deve estar ciente da necessidade de variáveis para armazenar dados. Essas variáveis são reservadas em diferentes locais de memória para armazenar valores. Assim, criar uma variável significa reservar algum espaço na memória. São esses dados que são organizados por estruturas de dados para serem usados com eficiência em um computador.

Ao contrário das linguagens de programação populares, como C e Java, R não possui variáveis a serem declaradas como dados. R tem objetos R (estruturas de dados) que se tornam o tipo de dados da variável necessária. Existem vários tipos de estruturas de dados em R. Mas primeiro, vamos entender o que são estruturas de dados!

Índice

O que são Estruturas de Dados?

Em R, as estruturas de dados são uma ferramenta que contém vários valores. Observe que na programação R, dados com valores únicos quase nunca são usados. É mais viável usar R para juntar vários números, palavras ou valores de diferentes tipos. É aqui que as estruturas de dados entram em cena. Eles agrupam esses vários valores para facilitar o trabalho com grandes quantidades de dados de uma só vez.

As estruturas de dados são compostas de tipos de dados que definem os tipos de dados armazenados em zvalue. Por exemplo, o número 13 é um tipo de dados numérico , enquanto “ treze ” tem um tipo de dados de caractere , também chamado de string.

Agora que você já sabe disso, vamos ver os diferentes tipos de estrutura de dados.

Tipos de Estruturas de Dados

Para tornar a análise e as operações de dados fáceis e eficientes, existem cinco tipos principais de estruturas de dados na programação R.

Vamos dar uma olhada em cada um deles em detalhes.

Vetor

A função de R Vetores é agrupar vários valores do mesmo tipo de dados. É o tipo mais básico de estrutura de dados em R e tem duas partes: Vetores Atômicos e Listas. A seguir estão suas propriedades comuns:

Tipo de função (o que é)
Comprimento da função (número de elementos)
Atributo da função (metadados arbitrários adicionais)

Agora, enquanto os vetores atômicos são destinados a bater o mesmo tipo de dados, as listas podem agrupar diferentes tipos de dados. Existem quatro tipos de vetores atômicos:

Tipo de dados numéricos
Tipo de dados inteiro
Tipo de dados de caractere
Tipo de dados lógicos

Você pode criar Vetores usando a função c().

Por exemplo:

Se você executar o código acima, um vetor com o nome 'thisVector' será criado, contendo todos os números de 1 a 30.

Para armazenar valores de caracteres em um vetor, você terá que usar aspas duplas como tal:

Embora você possa armazenar diferentes tipos de dados em um vetor, é aconselhável que você não converta todos os valores em um tipo de caractere.

Listas

Como mencionado acima, as Listas podem conter qualquer tipo de elemento de dados – strings, números, vetores e até mesmo outra lista. Por exemplo, você pode criar uma lista de 80 números, 30 palavras e 42 vetores. A função a ser usada é uma lista().

Exemplo:

Saída:

Como as listas também podem ter outras listas, às vezes elas são chamadas de vetores recursivos . É por isso que eles são muito diferentes dos vetores atômicos.

Fatores

Simplificando, um fator é um tipo de vetor onde apenas valores predefinidos podem ser armazenados. É usado principalmente para armazenar dados categóricos. Eles categorizam os valores das colunas, como “Masculino”, “Feminino”, “VERDADEIRO”, “FALSO”, etc.

Os fatores são heterogêneos no sentido de que tanto strings quanto inteiros podem ser armazenados neles. Para criar fatores, use a função fator(). Eles são muito úteis quando há muitos valores possíveis para uma determinada variável e você conhece todos eles.

Na programação R, os vetores de caracteres são automaticamente convertidos em vetor. Você pode usar stringsAsFactors = FALSE para suprimir isso e então converter manualmente cada vetor de caractere em fatores.

Quadros de dados

Essa estrutura de dados em R é usada para representar dados em uma forma tabular para facilitar a análise de dados. Ele contém vetores de igual comprimento, formando assim uma estrutura bidimensional. Existem colunas contendo valores de uma variável e linhas contendo um conjunto de valores de cada coluna.

Naturalmente, os quadros de dados podem armazenar valores de diferentes tipos de dados. No entanto, cada coluna deve ter o mesmo número de elementos. Por exemplo, se a coluna 1 tiver 5 elementos, a coluna 2 também deverá ter 5 valores.

Os quadros de dados têm algumas características especiais:

Nenhum nome de coluna deve ser deixado em branco.
O nome de cada linha deve ser exclusivo.
Você pode armazenar dados numéricos, fatoriais ou de tipo de caractere em um quadro de dados.
Todas as colunas devem conter o mesmo número de elementos de dados.

Todos os conjuntos de dados importados em R são armazenados automaticamente como quadros de dados.

Matrizes

A estrutura de dados da matriz em R fica em algum lugar entre os vetores e os quadros de dados. Matrizes são conjuntos de dados bidimensionais que podem conter apenas elementos do mesmo tipo de dados. Você pode criar uma matriz usando a função matriz ().

Sintaxe : matrix(data, nrow, ncol, byrow, dimnames)

Aqui,

data = elementos de entrada como um vetor

nrow = número de linhas

ncol = número de colunas

byrow = arranjo em linha

dimnames = nomes de colunas/linhas

Exemplo:

Saída:

Embora os fatores pareçam e se comportem como vetores de caracteres, eles são, na verdade, inteiros. Para converter fatores em stings, use funções como gsub() e grepl(). Usar nchar() irá disparar um erro.

Matrizes

Arrays são matrizes multidimensionais. Uma matriz é um caso especial de matrizes em que tem duas dimensões. Embora as matrizes sejam comumente usadas, as matrizes são muito raras.

A função para criar um array é um array().

Testar se um objeto é uma matriz ou array é bem simples. Basta usar a função is.matrix() ou is.array().

Exercícios

Aqui estão algumas perguntas que você pode tentar responder agora que adquiriu conhecimento suficiente sobre as estruturas de dados em R.

Quais são os atributos dos quadros de dados?
Os quadros de dados podem conter 0 linhas ou colunas?
Quais são os diferentes tipos de vetores atômicos em R?
Qual é a diferença entre vetores atômicos e listas?
Crie uma matriz 4X3 em R.

Envie suas respostas para nós por e-mail ou escreva-as nos comentários abaixo!

Conclusão

Para utilizar a linguagem R adequadamente, uma compreensão decente dos tipos de dados, estruturas de dados e como eles funcionam é significativa. Esses itens são a premissa de todas as atividades em R. Por exemplo, um problema típico encontrado pela maioria dos programadores são as transformações de objetos, que podem ser descartadas com um bom conhecimento dos objetos R. É imperativo notar que em R tudo é um objeto e as operações procederam como chamadas de função.

As estruturas de dados em R podem ser classificadas de duas maneiras diferentes. O principal método para classificar as estruturas de dados é por sua dimensionalidade que pode ser 1, 2 ou n dimensionalidade e a rota subsequente é por sua natureza de elementos que podem ser homogêneos ou heterogêneos. Cada um dos elementos em uma estrutura homogênea deve ser de tipo semelhante, enquanto em uma estrutura heterogênea são permitidos elementos de vários tipos.

Depois de ter aprendido o básico das estruturas de dados em R, você achará a programação em R muito mais fácil. As estruturas de dados são os fundamentos do R. As seis estruturas de dados mais usadas são mencionadas acima. É importante lembrar as diferentes características de cada tipo e implementá-lo para analisar dados e realizar suas operações.

Se você estiver interessado em saber mais sobre Big Data, confira nosso programa PG Diploma in Software Development Specialization in Big Data, projetado para profissionais que trabalham e fornece mais de 7 estudos de caso e projetos, abrange 14 linguagens e ferramentas de programação, práticas práticas workshops, mais de 400 horas de aprendizado rigoroso e assistência para colocação de emprego com as principais empresas.

Aprenda cursos de desenvolvimento de software online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Aprimore-se e prepare-se para o futuro

Programa Avançado de Certificação em Big Data do ITT Bangalore