Visualização de dados na programação R: principais visualizações para iniciantes aprenderem
Publicados: 2020-01-22Qualquer pessoa envolvida em Análise de Dados, sem dúvida, já ouviu falar e até lidou com Visualização de Dados. Se você é um novato, saiba tudo sobre visualização de dados aqui. A Visualização de Dados é uma parte crucial da Análise de Dados e refere-se à representação visual de dados na forma de gráfico, gráfico, barra ou qualquer outro formato. Essencialmente, o objetivo da Visualização de Dados é representar ou retratar a relação entre os dados e as imagens.
A ascensão do Big Data tornou obrigatório para Cientistas de Dados e Analistas de Dados simplificar os insights obtidos por meio de representações visuais para facilitar o entendimento. Como os Cientistas e Analistas de Dados agora trabalham com grandes quantidades de conjuntos de dados complexos e volumosos, a Visualização de Dados tornou-se mais importante do que nunca. A Visualização de Dados oferece um resumo visual ou pictórico dos dados disponíveis, tornando mais fácil para os profissionais de Data Science e Big Data identificar os padrões e tendências ocultos nos dados.
Graças à Visualização de Dados, os profissionais das áreas de Ciência de Dados e Big Data não precisam navegar extensivamente por milhares de linhas e colunas em uma planilha – eles podem consultar a visualização para entender onde estão todas as informações relevantes em um conjunto de dados.
Embora tenhamos várias ferramentas de Visualização de Dados independentes e bacanas, como Tableau, QlikView e d3.js, hoje vamos falar sobre Visualização de Dados na linguagem de programação R. R é uma excelente ferramenta para visualização de dados, pois vem com muitas funções e bibliotecas incorporadas que cobrem quase todas as necessidades de visualização de dados.
Neste post, discutiremos as ferramentas de visualização de dados 8 R usadas por cientistas e analistas de dados em todo o mundo!
Índice
As 8 principais ferramentas de visualização de dados
1. Gráfico de Barras
Todo mundo está familiarizado com os gráficos de barras que foram ensinados nas escolas e faculdades. No R Data Visualization com gráfico de barras, o conceito e o objetivo permanecem os mesmos – é mostrar uma comparação entre duas ou mais variáveis. Os gráficos de barras mostram a comparação entre o total acumulado em vários grupos. A sintaxe padrão para criar um gráfico de barras em R é:
barplot(H,xlab,ylab,main, names.arg,col)
Existem muitos tipos diferentes de gráficos de barras que servem a propósitos únicos. Enquanto os gráficos de barras horizontais e verticais são os formatos padrão, o R pode criar barras horizontais e verticais em um gráfico. Além disso, o R também oferece um gráfico de barras empilhadas que permite introduzir diferentes variáveis para cada categoria. Em R, o barplot() é usado para criar gráficos de barras.
2. Histograma
Os histogramas funcionam melhor com números precisos ou em R. Essa representação divide os dados em compartimentos (interrupções) e descreve a distribuição de frequência desses compartimentos. Você pode ajustar os compartimentos e ver qual efeito isso tem no padrão de visualização. A sintaxe padrão para criar um histograma usando R é:
hist(v,principal,xlab,xlim,ylim,quebras,col,borda)
Os histogramas fornecem uma estimativa de probabilidade de uma variável, ou seja, o período de tempo antes da conclusão de um projeto. Cada barra em um histograma representa a altura do número de valores presentes nesse intervalo. A linguagem R usa a função hist() para criar histogramas.
Fonte
3. Box Plot
Um gráfico de caixa mostra cinco números estatisticamente significativos, incluindo o mínimo, o 25º percentil, a mediana, o 75º percentil e o máximo. Embora um gráfico de caixa compartilhe muitas semelhanças com um gráfico de barras, um gráfico de caixa fornece visualização de dados variáveis categóricos e contínuos, em vez de se concentrar apenas em dados categóricos. A sintaxe padrão para criar um boxplot em R é:
boxplot(x, data, notch, varwidth, names, main)
R cria gráficos de caixa usando a função boxplot(). Esta função pode receber qualquer número de vetores numéricos e desenhar um boxplot para cada vetor. Os gráficos de caixa são mais adequados para visualizar a dispersão dos dados e, consequentemente, derivar inferências com base neles.
Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
4. Gráfico de dispersão
Os gráficos de dispersão representam vários pontos no plano cartesiano, em que cada ponto representa os valores de duas variáveis. Você pode escolher uma variável no eixo horizontal e a segunda no eixo vertical. A função de um gráfico de dispersão é rastrear duas variáveis contínuas ao longo do tempo. Em R, a função plot() é usada para criar um gráfico de dispersão. A sintaxe padrão para criar um gráfico de dispersão em R é:
plot(x, y, principal, xlab, ylab, xlim, ylim, eixos)
Os gráficos de dispersão são ótimos para casos em que você deseja evitar informações erradas na visualização. Estes são mais adequados para inspeção de dados simples.

5. Correlograma
Um correlograma, ou matriz de correlação, analisa a relação entre cada par de variáveis numéricas em um conjunto de dados. Ele fornece uma visão geral rápida do conjunto de dados completo. Correlogramas também podem destacar a quantidade de correlação entre conjuntos de dados em vários pontos no tempo.
Em R, o pacote GGally é ideal para construir correlogramas. Para criar um correlograma clássico (com um gráfico de dispersão, coeficiente de correlação e distribuição variável), você pode usar a função ggpairs(). Outro ótimo pacote para criar correlogramas é o pacote corrgram. Neste pacote, você pode escolher o que exibir (gráfico de dispersão, gráfico de pizza, texto, elipse, etc.) na parte superior, inferior e diagonal da representação. Para criar um correlograma usando o pacote corrgram assim:
corrgram(x, ordem = , painel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)
Fonte
6. Mapa de Calor
Os mapas de calor são representações gráficas de dados em que os valores individuais contidos em uma matriz são representados por meio de cores diferentes. Os mapas de calor permitem que você execute uma análise exploratória de dados com duas dimensões como eixo, e a intensidade da cor representa a terceira dimensão. Em R, a função heatmap() é usada para criar mapas de calor. Antes de criar um mapa de calor, você deve converter o conjunto de dados em um formato de matriz usando o seguinte código:
> mapa de calor(as.matrix(mtcars))
Existem três opções para construir mapas de calor interativos em R:
- plotly – Com plotly, você pode converter qualquer mapa de calor feito com ggplot2 em um mapa de calor interativo.
- d3heatmap – Este pacote usa a mesma sintaxe que a função base R heatmap() para fazer mapas de calor interativos.
- heatmaply – Este é o mais personalizável de todos os pacotes R. Ele permite que você opte por muitos tipos diferentes de opções de personalização.
7. Compartimento Hexagonal
Hexagon binning é um tipo de histograma bivariado mais adequado para visualizar a estrutura em conjuntos de dados com n grande. O conceito subjacente aqui é:
- Uma grade regular de hexágonos pontilha o plano XY sobre o conjunto [range(x), range(y)].
- O número de pontos que caem em cada hexágono é contado e armazenado dentro de uma estrutura de dados.
- Os hexágonos com contagem > 0 são plotados usando uma rampa de cores ou variando o raio do hexágono em proporção às contagens.
Leia: Diferentes tipos de cientistas de dados
O algoritmo em funcionamento aqui é rápido e eficaz na exibição da estrutura de conjuntos de dados com n ≥ 106. Em R, o pacote hexbin contém uma variedade de funções para criar, manipular e plotar caixas hexagonais. Este pacote integra o conceito básico de hexágono binning com muitas outras funções para executar suavização bivariada, encontrar uma mediana bivariada aproximada e estudar a diferença entre dois conjuntos de bins na mesma escala.
8. Trama em Mosaico
Na programação R, o gráfico em mosaico é útil ao visualizar dados da tabela de contingência ou tabela de frequência bidirecional. É uma representação gráfica de uma tabela de contingência bidirecional que representa a relação entre duas ou mais variáveis categóricas. O gráfico de mosaico R cria um retângulo onde a altura representa o valor proporcional. A sintaxe padrão para criar um gráfico de mosaico em R é:
mosaicplot(x, cor = NULL, main = “Título”)
Essencialmente, um gráfico de mosaico é uma extensão multidimensional de um gráfico de lombada que resume as probabilidades condicionais de co-ocorrência dos valores categóricos em uma lista de registros com o mesmo comprimento. Ajuda a visualizar dados de duas ou mais variáveis qualitativas.
Leia: Salário de Data Science & Analytics
Empacotando
Como todos os setores da indústria continuam a depender do Big Data para promover negócios e marketing orientados por dados, a importância da visualização de dados também aumentará simultaneamente. Como as técnicas de visualização, como tabelas e gráficos, são ferramentas muito mais eficientes para visualização de dados do que planilhas tradicionais e relatórios arcaicos, as ferramentas de visualização de dados R estão ganhando popularidade nos círculos de ciência de dados e big data.
Se você está curioso para aprender sobre ciência de dados, confira nosso PG Diploma in Data Science, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1-on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
Qual devo aprender - R ou Python?
Python e R são considerados bastante simples de aprender. Python foi criado com o desenvolvimento de software em mente. Se você tem experiência anterior com Java ou C++, Python pode ser mais fácil para você do que R. R, por outro lado, pode ser um pouco mais fácil se você tiver experiência em estatística. A sintaxe fácil de entender do Python facilita o aprendizado. O R tem uma curva de aprendizado mais alta no início, mas se torna consideravelmente mais fácil à medida que você continua praticando.
O Tableau é a melhor ferramenta para visualização de dados?
O Tableau é uma das ferramentas de visualização de dados mais populares do mercado por dois motivos: é simples de usar e bastante poderoso. O programa pode importar dados de centenas de fontes e gerar dezenas de estilos de visualização, incluindo gráficos, mapas e muito mais.
Quais são as diferenças entre R e RStudio?
R é uma linguagem de programação para computação estatística, e RStudio é um ambiente de programação estatística que utiliza R. Você pode construir um programa em R e executá-lo sem usar nenhum outro software. No entanto, para que o RStudio funcione efetivamente, ele deve ser usado em conjunto com o R.