Manipulação de dados em R: o que é, variáveis, usando o pacote dplyr

Publicados: 2020-03-26

Índice

Introdução

Além da equipe e da infraestrutura, os dados são o novo alicerce de qualquer empresa. De grandes corporações a indústrias de pequena escala, os dados são o combustível que impulsiona seus negócios. Esses dados estão associados às suas transações comerciais diárias, dados de compra de clientes, dados de vendas, gráficos financeiros, estatísticas de negócios, campanhas de marketing e muito mais. É por isso que Tim O'Reilly, fundador da O'Reilly Media, disse que estamos entrando em uma situação em que os dados serão mais importantes que o software.

Mas o que fazer com tantos dados? As empresas usam esses dados para obter informações valiosas sobre o desempenho de seus negócios. Eles contratam cientistas de dados que realizam manipulação de dados em R para dar sentido a esses dados. Por exemplo, entender os dados de vendas e marketing do ano passado dará a eles uma ideia de onde estão. Um estudo recente mostrou que o mercado de análise de dados deve valer US$ 77,6 bilhões até 2023.

Os cientistas de dados são contratados para dar sentido a esses dados por um processo chamado manipulação de dados.

O que é manipulação de dados?

A manipulação de dados é o processo de organizar os dados para lê-los e entendê-los melhor. Por exemplo, os funcionários da empresa podem obter dados de clientes de seus sistemas e diários de bordo. Principalmente, esses dados serão armazenados em software de CRM (Customer Relationship Management) e planilhas de Excel. Mas pode não ser organizado adequadamente. A manipulação de dados inclui formas de organizar todos esses dados, como por ordem alfabética.

Os dados podem ser classificados de acordo com data, hora, número de série ou qualquer outro campo. As pessoas do departamento de contas de uma empresa usam os dados para determinar tendências de vendas, preferências do usuário, estatísticas de mercado e preços de produtos. Os analistas financeiros usam dados para entender como está o desempenho do mercado de ações, tendências e as melhores ações onde devem investir.

Além disso, os dados do servidor web podem ser usados ​​para entender a quantidade de tráfego do site. Nesta era tecnológica, a IoT é um exemplo de tecnologia em que os dados são provenientes de sensores conectados a máquinas. Esses dados são usados ​​para determinar o desempenho da máquina e se ela apresenta algum defeito. A manipulação de dados é crucial na IoT, pois o mercado valerá US$ 81,67 bilhões até 2025.

A manipulação de dados é popularmente realizada usando uma linguagem de programação chamada R. Deixe-nos conhecer um pouco melhor a linguagem.

O que é R?

Para entender a manipulação de dados em R , você precisa conhecer o básico de R. É uma linguagem de programação moderna que é usada para análise de dados, computação estatística e inteligência artificial. A linguagem foi criada em 1993 por Ross Ihaka e Robert Gentleman . Atualmente, pesquisadores, analistas de dados, cientistas e estatísticos usam R para analisar, limpar e visualizar dados.

O R possui um enorme catálogo composto por métodos gráficos e estatísticos que podem suportar aprendizado de máquina, regressão linear, inferência estatística e séries temporais. Sob a GNU General Public License, a linguagem está disponível gratuitamente para sistemas operacionais como Windows, Mac e Linux. É compatível com a plataforma, o que significa que o código R escrito em uma plataforma pode ser facilmente executado em outra.

R agora é considerado a principal linguagem de programação para ciência de dados. Mas é uma linguagem abrangente, pois você pode usá-la para desenvolvimento de software, bem como para tarefas complicadas, como modelagem estatística. Você pode desenvolver aplicações web usando seu pacote RShiny.

É uma linguagem tão poderosa que algumas das melhores empresas do mundo, como Google e Facebook, estão usando.

Vejamos algumas das características mais importantes do R:

  • Possui CRAN (Comprehensive R Archive Network) que é um repositório com mais de 10.000 pacotes R, possuindo todas as funcionalidades necessárias para trabalhar com dados
  • É uma linguagem de programação de código aberto . Isso significa que você pode baixá-lo gratuitamente e ainda contribuir para o seu desenvolvimento, atualizar seus recursos e personalizar suas funcionalidades existentes
  • Você pode criar visualizações de alta qualidade a partir dos dados disponíveis nas bibliotecas gráficas úteis do R, como ggplot2 e plotly
  • R é uma linguagem muito rápida. Como é uma linguagem de programação interpretada , não há necessidade de um compilador para converter os programas R em código executável e, portanto, um script R é executado mais rapidamente
  • R pode executar uma variedade de cálculos complicados em um instante, consistindo em arrays, data frames e vetores . Existem muitos operadores para realizar esses cálculos
  • Ele lida com dados estruturados e não estruturados. Extensões para Big Data e SQL estão disponíveis para lidar com todos os tipos de dados
  • R tem uma comunidade em crescimento contínuo que tem as mentes mais brilhantes. Essas pessoas estão constantemente contribuindo para a linguagem de programação desenvolvendo bibliotecas e atualizações r
  • Você pode integrar facilmente o R com outras linguagens de programação, como Python, Java e C++. Você também pode combiná-lo com o Hadoop para computação distribuída

Agora que você reuniu o básico da linguagem de programação R, vamos mergulhar nas coisas interessantes!

Variáveis ​​em R

Ao programar em R ou realizar qualquer manipulação de dados em R , você precisa lidar com variáveis. As variáveis ​​são usadas para armazenar dados que podem estar na forma de strings, inteiros, inteiros de ponto flutuante ou apenas valores booleanos. Essas variáveis ​​reservam um espaço na memória para seu conteúdo. Ao contrário das linguagens de programação tradicionais, as variáveis ​​em R são atribuídas junto com os objetos R.

As variáveis ​​não possuem um tipo de dados, mas obtêm o tipo do objeto R ao qual estão atribuídas. Os objetos R mais populares são:

  • Vetores
  • Listas
  • Matrizes
  • Matrizes
  • Fatores
  • Quadros de dados

Essas estruturas de dados são extremamente importantes para manipulação de dados em R e análise de dados. Vamos examiná-los com um pouco mais de detalhes para entender a manipulação básica de dados:

Vetores

Elas são as estruturas de dados mais básicas e são usadas para dados unidimensionais. Os tipos de vetores atômicos são:

  • inteiro
  • Lógico
  • Numérico
  • Complexo
  • Personagem

Quando você cria valor em R, ele se torna um vetor de elemento único de comprimento 1. Por exemplo,

imprima("ABC"); # vetor de elemento único do tipo caractere

print(10.5) # vetor de elemento único do tipo duplo

Elementos em vetores são acessados ​​usando seus números de índice. As posições de índice em vetores começam em 1. Por exemplo,

t <- c("Seg","Ter","Qua","Sáb")

u <- t[c(1,2,3)]

imprimir(u)

O resultado será “Seg” “Ter” “Qua”

Listas

Estes são objetos em R que são usados ​​para conter diferentes tipos de elementos dentro dele. Estes podem ser inteiros, strings e até listas. Se os dados não puderem ser mantidos em um quadro de dados ou matriz, esta é a melhor opção. As listas também podem conter uma matriz. Você pode criar listas usando o método list().

Use o seguinte código para criar uma lista:

list_data <- list(“Preto”, “Verde”, c(11,4,14), TRUE, 31,22, 120,5)

print(lista_dados)

Elementos de lista podem ser acessados ​​usando índices de lista.

print(list_data[1]) #o código imprime o primeiro elemento da lista

Exemplo de manipulação de dados com listas:

list_data[4] <- NULL # este código remove o último elemento da lista se tiver 4 elementos

Leia: R vs Python para Ciência de Dados

Matrizes

Arrays são objetos que podem ser usados ​​para armazenar apenas um único tipo de dados. Dados de mais de duas dimensões podem ser armazenados em arrays. Para isso, você deve usar a função array() que recebe os vetores como entrada. Ele usa o valor no parâmetro dim para criar a matriz.

Por exemplo, observe o código a seguir:

vector_result <- array(c(vetorA,vetorB),dim = c(3,3,2))

print(resultado_vetor)

Matrizes

Nesses objetos R, os elementos são organizados em um layout bidimensional. As matrizes contêm elementos de tipos atômicos semelhantes. Estes são benéficos quando os elementos pertencem a uma única classe. Matrizes com elementos numéricos são criadas para cálculos matemáticos. Você pode criar matrizes usando a função matrix().

A sintaxe básica para criar uma matriz é dada abaixo:

matrix(data, nrow, ncol, byrow, dimnames)

  • Dados – Este é o vetor de entrada que se torna o elemento de dados para a matriz
  • Nrow – Este é o número de linhas que você deseja criar
  • Ncol – Este é o número de colunas que você deseja criar
  • Byrow – Esta é uma pista lógica. Se seu valor for TRUE, os elementos do vetor serão organizados por linha
  • Dimname – Nomes dados às colunas e linhas

Fatores

Esses objetos R são usados ​​para categorizar dados e armazená-los como níveis. Eles são bons para modelagem estatística e análise de dados. Tanto inteiros quanto strings podem ser armazenados em fatores. Você pode usar a função factor() para criar um fator fornecendo um vetor como entrada para o método.

Quadros de dados

Tem uma estrutura bidimensional como uma matriz com linhas e colunas. Aqui, cada linha tem um conjunto de valores pertencentes a cada coluna. As colunas contêm o valor de uma variável. Eles são usados ​​para representar dados de planilhas. Estes podem ser usados ​​para armazenar dados do tipo fator, numérico ou caractere.

Um quadro de dados tem as seguintes características:

  • Os nomes das linhas precisam ser exclusivos
  • Os nomes das colunas não devem estar vazios
  • O número de itens de dados em cada coluna deve ser o mesmo

Manipulação de dados em R

Durante a manipulação de dados em R , o primeiro passo é criar pequenas amostras de dados de um grande conjunto de dados. Isso é feito porque todo o conjunto de dados não pode ser analisado de uma só vez. Normalmente, os analistas de dados criam um subconjunto representativo do conjunto de dados. Isso os ajuda a identificar as tendências e padrões no conjunto de dados maior. Esse processo de amostragem também é chamado de subconjunto .

As diferentes maneiras de criar subconjunto em R são as seguintes:

  • $ – Isso seleciona um único elemento de dados e seu resultado é sempre um vetor
  • [[ – Este operador de subconjunto também retorna um único elemento, mas você pode se referir aos elementos por sua posição

  • [ – Este operador é usado para retornar vários elementos de dados

Algumas das funções básicas para manipulação de dados em R são:

função amostra()

Como o nome sugere, o método sample() é usado para criar amostras de dados de um conjunto de dados maior. Junto com este comando, você menciona o número de amostras que deseja extrair do conjunto de dados ou de um vetor. A sintaxe básica é a seguinte:

amostra(x, tamanho, substituir = FALSE, prob = NULL)

x – Este pode ser um vetor ou um conjunto de dados de vários elementos dos quais a amostra deve ser escolhida

size – Este é um número inteiro positivo que denota o número de itens a serem selecionados

substituir – Isso pode ser Verdadeiro ou Falso, se você deseja a amostragem com ou sem substituição

prob – É um argumento usado para fornecer um vetor de pesos para obter os elementos do vetor que está sendo amostrado

Função Tabela()

Essa função cria uma tabela de frequência que é usada para calcular o número de valores exclusivos de uma variável específica. Por exemplo, vamos criar uma tabela de frequência com o conjunto de dados da íris:

table(íris$Espécie)

O código escrito acima cria uma tabela que descreve os tipos de espécies no conjunto de dados da íris.

duplicado()

O método duplicado() é usado para identificar e remover valores duplicados de um conjunto de dados. Ele recebe um vetor ou quadro de dados como argumento e retorna True para os elementos duplicados. Por exemplo,

duplicado(c(1,1,3))

Isso verificará quais desses elementos são duplicados e retornará True ou False.

Leia também : Árvore de decisão em R

Manipulação de dados em R usando o pacote dplyr

R fornece um pacote simples e fácil de usar chamado dplyr para manipulação de dados. O pacote possui alguns métodos embutidos para manipulação, exploração e transformação de dados. Vejamos algumas das funções mais importantes deste pacote:

selecionar()

O método select() é uma das funções básicas para manipulação de dados em R . Este método é usado para selecionar colunas no R. Usando isso, você pode selecionar dados como com o nome da coluna. As colunas podem ser selecionadas com base em certas condições. Suponha que queremos selecionar a e 4ª coluna de um data frame chamado myData, o código será:

select(meusDados,3:4)

filtro()

Esse método é usado para filtrar linhas de um conjunto de dados que correspondem a critérios específicos. Pode funcionar como o select(), você passa primeiro o data frame e depois uma condição separada por vírgula.

Por exemplo, se você deseja filtrar colunas que possuem carros de cor vermelha em um conjunto de dados, você deve escrever:

filter(carros, cor==”Vermelho”)

Como resultado, as linhas correspondentes serão exibidas.

mutate()

Você pode usar o método mutate() para criar novas colunas em um conjunto de dados preservando as antigas. Essas colunas podem ser criadas especificando uma condição. Por exemplo,

mutate(mtcars, mtcars_new_col = mpg / cil)

Neste comando, no dataset mtcars, é criada uma nova coluna mtcars_new_col que contém os valores da coluna mpg divididos pela coluna cil.

arranjo()

Isso é usado para classificar linhas em ordem crescente ou decrescente, usando uma ou mais variáveis. Em vez de aplicar o método desc(), você pode adicionar um símbolo de menos (-) antes da variável de classificação. Isso indicará a ordem decrescente de classificação. Por exemplo,

organize(my_dataset, -Sepal.Length)

group_by()

O método group_by() é usado para agrupar observações em um conjunto de dados por uma ou várias variáveis.

resumir()

A função summarise() é benéfica para determinar insights de dados como média, mediana e moda. Ele é usado junto com dados agrupados criados por outro método group_by. summarise() ajuda a reduzir vários valores em valores únicos.

mesclar()

O método merge() combina ou mescla conjuntos de dados. Isso é útil para reunir várias fontes de dados de entrada.

O método oferece 4 maneiras de mesclar conjuntos de dados . Eles são mencionados abaixo:

  • Junção natural Isso é usado para manter as linhas que correspondem à condição especificada dentro dos quadros de dados
  • Junção externa completa – Isso mescla e armazena todas as linhas de ambos os quadros de dados
  • Junção externa esquerda – Isso armazena todas as linhas de um quadro de dados A e aquelas em B que correspondem
  • Junção externa direita – Isso armazena todas as linhas de um quadro de dados B e aquelas em A que correspondem

renomear_if()

Esta é uma função que você pode usar para renomear colunas de um quadro de dados quando a condição especificada for satisfeita.

Renomear tudo()

Isso é usado para renomear todas as colunas de um quadro de dados sem especificar nenhuma condição.

Ganhe cursos de ciência de dados das melhores universidades do mundo. Junte-se aos nossos Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Operador de tubulação

O operador pipe está disponível em pacotes como magrittr e dplyr para simplificar seu código geral. O operador permite combinar várias funções. Denotado pelo símbolo %>%, pode ser usado com métodos populares como summarise(), filter(), select() e group_by() durante a manipulação de dados em R.

Além do dplyr, existem muitos outros pacotes em CRAN para manipulação de dados em R . Na verdade, você encontrará mais de 7.000 pacotes para reduzir sua codificação e também seus erros. Muitos desses pacotes são criados por desenvolvedores experientes, então você está em boas mãos. Esses incluem:

  • Tabela de dados
  • lubrificar
  • ggplot2
  • leitor
  • remodelar2
  • arrumador

Conclusão

Se você é um iniciante na manipulação de dados em R , você pode optar pelas funções básicas embutidas disponíveis em R. Elas incluem métodos como with(), within(), duplicad(), cut(), table(), amostra() e classificar(). Mas eles são demorados e repetitivos. Não é uma opção muito eficiente.

Assim, o melhor caminho a seguir é usar o grande número de pacotes no CRAN, como o dplyr. Eles são super úteis e tornam seus programas mais eficientes.

Qual pacote é útil para manipulação de dados em R?

O processo de manipulação de dados é usado para modificar os dados disponíveis e torná-los mais fáceis de ler, além de torná-los mais organizados. Muitas vezes, há muitos erros e imprecisões nas máquinas que coletaram dados. A manipulação de dados permite remover essas imprecisões e fornecer dados mais precisos.

Existem muitas maneiras de realizar a manipulação de dados em R, como usando pacotes como ggplot2, readr, dplyr, etc. e usando funções de base R como within(), with(), etc. útil para manipulação de dados em R. Este pacote consiste em várias funções que foram feitas especificamente para manipulação de dados e permite que os dados sejam processados ​​mais rapidamente em comparação com outros métodos e pacotes.

Qual é o propósito do pacote dplyr em R?

O pacote dplyr é conhecido por ser o melhor para manipulação de dados em R com máxima eficiência. Anteriormente, havia este pacote chamado plyr, e que foi iterado para formar dplyr. Agora, o dplyr se concentra completamente nos quadros de dados. É por isso que é muito mais rápido, tem uma API melhor e consistente e também é muito fácil de usar.

O pacote dplyr trabalha para obter o máximo dos dados disponíveis com desempenho aprimorado em comparação com outros pacotes de manipulação de dados em R.

Como você pode manipular dados?

Para realizar a manipulação de dados, você precisa executar certas etapas em uma ordem geral. Siga os passos abaixo:

1. Em primeiro lugar, você precisará de um banco de dados criado a partir de fontes de dados.
2. Em seguida, você precisa limpar, reorganizar e reestruturar os dados disponíveis com manipulação de dados.
3. Agora, você precisa desenvolver um banco de dados no qual estará trabalhando.
4. Aqui, você poderá mesclar, excluir e modificar as informações disponíveis.
5. Por fim, analise os dados disponíveis e gere informações úteis a partir deles.