Principais bibliotecas de visualização de dados Python que você deve conhecer
Publicados: 2020-03-20Python pode fazer muitas coisas com dados. E uma de suas muitas capacidades é a visualização. Ele tem várias bibliotecas que você pode usar para essa finalidade. Neste artigo, veremos algumas de suas bibliotecas proeminentes e os vários gráficos que você pode plotar por meio delas.
Índice
Visualização de dados Python
Compartilhamos vários exemplos neste artigo, certifique-se de experimentá-los usando um conjunto de dados. Vamos começar:
Bibliotecas de visualização de dados Python
Python tem muitas bibliotecas para criar belos gráficos. Todos eles têm vários recursos que melhoram seu desempenho e recursos. E eles estão disponíveis para todos os níveis de habilidade. Isso significa que você pode realizar a visualização de dados em Python, seja você um programador iniciante ou avançado. A seguir estão algumas bibliotecas proeminentes:
- marinho
- Matplotlib
- Pandas
Existem muitas outras bibliotecas python para ciência de dados , mas focamos nas proeminentes por enquanto. Agora discutiremos essas diferentes bibliotecas e entenderemos como você pode plotar gráficos usando elas e o Python. Vamos começar.
Matplotlib
A biblioteca Python mais popular para plotar gráficos é o Matplotlib. Não requer muita experiência e, para iniciantes, é perfeito. Você pode começar a aprender a visualização de dados por meio desta biblioteca e dominar uma variedade de gráficos e visualizações. Isso lhe dá muita liberdade, mas você teria que escrever muito código também.
As pessoas usam o Matplotlib para visualizações simples, como gráficos de barras e histogramas.
Leia : Data Frames em Python
Gráfico de linha
Para criar um gráfico de linhas, você precisa usar o método 'plot'. Ao fazer um loop nas colunas, você pode criar várias colunas em seu gráfico. Use o seguinte código para isso:
# pega as colunas para plotar
colunas = iris.columns.drop(['class'])
#cria x dados
x_data = range(0, íris.forma[0])
# cria figura e eixo
figo, ax = plt.subplots()
# plota cada coluna
para coluna em colunas:
ax.plot(x_data, iris[coluna], rótulo=coluna)
# define título e legenda
ax.set_title('Conjunto de dados de íris')
ax.legend()
Gráfico de dispersão
Você pode criar um gráfico de dispersão usando o método 'scatter'. Você deve criar um eixo e uma figura através de 'plt.subplots' para dar rótulos e um título ao seu gráfico.
Utilize o seguinte código:
# cria uma figura e um eixo
figo, ax = plt.subplots()
# espalha o sepal_length contra o sepal_width
ax.scatter(iris['sepal_length'], iris['sepal_width'])
# definir um título e rótulos
ax.set_title('Conjunto de dados de íris')
ax.set_xlabel('sepal_length')
ax.set_ylabel('sepal_width')
Você pode adicionar cores aos pontos de dados de acordo com suas classes. Para isso, você precisará fazer um dicionário que mapeie de classe para cor. Ele espalharia cada ponto usando um loop for também.
#cria dicionário de cores
cores = {'Íris-setosa':'r', 'Íris-versicolor':'g', 'Íris-virginica':'b'}
# cria uma figura e um eixo
figo, ax = plt.subplots()
# plota cada ponto de dados
for i in range(len(iris['sepal_length'])):
ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])
# definir um título e rótulos
ax.set_title('Conjunto de dados de íris')
ax.set_xlabel('sepal_length')
ax.set_ylabel('sepal_width')
Histograma
Você pode usar o método 'hist' para criar um histograma no Matplotlib. Ele pode calcular com que frequência cada classe ocorre se fornecermos dados categóricos. Aqui está o código que você precisaria usar para traçar um histograma no Matplotlib:
# cria figura e eixo
figo, ax = plt.subplots()
# histograma de plotagem
ax.hist(wine_reviews['pontos'])
# define título e rótulos
ax.set_title('Pontuação das Avaliações de Vinhos')
ax.set_xlabel('Pontos')
ax.set_ylabel('Frequência')
Gráfico de barras
Matplotlib tem métodos fáceis para plotar gráficos diferentes. Por exemplo, neste caso, para criar um gráfico de barras no Matplotlib, você precisará usar 'bar.' Ele não pode calcular a frequência das categorias automaticamente, então você precisará usar a função 'value_counts' para resolver esse problema. Se seus dados não tiverem muitos tipos, o gráfico de barras seria perfeito para sua visualização.
# cria uma figura e um eixo
figo, ax = plt.subplots()
# conta a ocorrência de cada classe
data = wine_reviews['points'].value_counts()
# obtém dados x e y
pontos = data.index
frequência = dados.valores
#criar gráfico de barras
ax.bar(pontos, frequência)
# define título e rótulos
ax.set_title('Pontuação das Avaliações de Vinhos')
ax.set_xlabel('Pontos')
ax.set_ylabel('Frequência')
Pandas
Pandas é uma biblioteca Python que é popular para análise e manipulação de dados. É uma biblioteca de código aberto para que você possa usá-la gratuitamente. Entrou no mercado em 2008 e, desde então, tornou-se uma das bibliotecas mais populares para estruturação de dados.
Ao usar o quadro de dados do pandas, você pode criar facilmente gráficos para seus dados. Sua API é mais avançada que o Matplotlib. Isso significa que você pode criar gráficos com menos código no Pandas do que no Matplotlib.
Gráfico de barras
No Pandas, você precisará usar o método 'plot.bar()' para traçar um gráfico de barras. Primeiro, você precisará contar as ocorrências em seu gráfico por meio de 'value_count()' e depois classificá-las com 'sort_index()'. Aqui está um código de exemplo para criar um gráfico de barras:

random_reviews['points'].value_counts().sort_index().plot.bar()
Você pode usar o método 'plot.barh()' para criar um gráfico de barras horizontais no Pandas:
random_reviews['points'].value_counts().sort_index().plot.barh()
Você também pode plotar os dados através do número de ocorrências:
random_reviews.groupby(“país”).price.mean().sort_values(ascending=False)[:5].plot.bar()
Gráfico de linha
Você precisará usar '<dataframe>.plot.line()' para criar um gráfico de linhas no Pandas. No Pandas, você não precisaria percorrer todas as colunas que precisa traçar, pois isso pode ser feito automaticamente. Este recurso não está disponível no Matplotlib. Aqui está o código:
random.drop(['class'], axis=1).plot.line(title='Random Dataset')
Gráfico de dispersão
Você pode criar um gráfico de dispersão no Pandas usando “<dataset>.plot.scatter()”. Você precisaria passar dois argumentos, que são nomes da coluna x e da coluna y.
Aqui está o seu exemplo:
random.plot.scatter(x='sepal_length', y='sepal_width', title=”Conjunto de dados aleatório')
Histograma
Use 'plot.hist' para criar um histograma no Pandas. Além disso, não há muito neste método. Você tem a opção de criar um único histograma ou vários histogramas.
Para criar um Histograma, use o seguinte código:
random_reviews['pontos'].plot.hist()
Para criar vários histogramas, use isto:
random.plot.hist(subplots=True, layout=(2,2), figsize=(10, 10), bins=20)
marinho
Seaborn é baseado no Matplotlib e também é uma biblioteca Python bastante popular para visualização de dados. Ele oferece interfaces avançadas para plotar seus dados. Ele tem muitos recursos. Seus recursos avançados permitem que você crie ótimos gráficos com muito menos linhas de código do que você precisaria com o Matplotlib.
Histograma
Gráfico de linha
Você pode usar o método 'sns.line plot' para criar um gráfico de linhas no Seaborn. Você pode usar o método 'sns.kdeplot' para arredondar as bordas das curvas das linhas. Ele mantém seu gráfico bastante limpo se tiver muitos valores discrepantes.
sns.lineplot(data=random.drop(['class'], axis=1))
Gráfico de dispersão
No Seaborn, você pode criar um gráfico de dispersão através do método '.scatterplot'. Você precisará adicionar os nomes das colunas x e y neste caso, assim como fizemos com o Pandas. Mas há uma diferença. Não podemos chamar a função nos dados como fizemos no Pandas, então precisaremos passá-la como um argumento adicional.
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)
Usando o argumento 'hue', você também pode destacar pontos específicos. Esse recurso não é tão fácil no Matplotlib.
sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
Gráfico de barras
Você pode usar o método 'sns.countplot' para criar um gráfico de barras no Seaborn:
sns.countplot(random_reviews['pontos'])
Agora que discutimos as bibliotecas críticas para visualização de dados em Python, podemos dar uma olhada em outras formas de gráficos. Python e suas bibliotecas permitem que você crie vários tipos de figuras para plotar seus dados.
Outros tipos de visualização de dados em Python
Gráfico de pizza
Os gráficos de pizza mostram dados em diferentes seções de um círculo. Você deve ter visto muitos gráficos de pizza na escola. Os gráficos de pizza representam dados em porcentagens. A soma total de todos os segmentos de um gráfico de pizza deve ser igual a 100%. Segue o código de exemplo:
plt.pie(df['Idade'], rótulos = {“A”, “B”, “C”,
“D”, “E”, “F”,
“G”, “H”, “I”, “J”},
autopct ='% 1.1f %%', shadow = True)
plt.show()
plt.pie(df['Income'], labels = {“A”, “B”, “C”,
“D”, “E”, “F”,
“G”, “H”, “I”, “J”},
autopct ='% 1.1f %%', shadow = True)
plt.show()
plt.pie(df['Vendas'], rótulos = {“A”, “B”, “C”,
“D”, “E”, “F”,
“G”, “H”, “I”, “J”},
autopct ='% 1.1f %%', shadow = True)
plt.show()
Gráficos de caixa
Os gráficos de caixa são baseados no mínimo, primeiro quartil, mediana, terceiro quartil e máximo dos dados estatísticos. O gráfico se parece com uma caixa (mais especificamente, um retângulo). É por isso que tem o nome de 'box plot'. Aqui está o código de exemplo para criar um gráfico de plotagem de caixa:
# Para cada atributo numérico do quadro de dados
df.plot.box()
# plotagem de caixa de atributo individual
plt.boxplot(df['Renda'])
plt.show()
Leia também: As 10 principais ferramentas Python que todo desenvolvedor Python deve conhecer
Conclusão
Esperamos que você tenha achado este artigo útil. Existem muitos tipos de gráficos que você pode plotar por meio do Python e suas várias bibliotecas. Se você não executou a visualização de dados do Python antes, deve começar com o Matplotlib. Depois de dominá-lo, você pode passar para bibliotecas de visualização de dados mais complexas e avançadas, como Pandas e Seaborn.
Se você está curioso para aprender sobre python, ciência de dados, confira o PG Diploma in Data Science do IIIT-B & upGrad, criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1-on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
Quais são as melhores bibliotecas de visualização de dados em Python?
A visualização de dados é considerada uma parte extremamente importante da análise de dados. Isso ocorre porque não há melhor maneira do que entender várias tendências de dados e informações em um formato visual. Se você apresentar os dados da sua empresa em um formato escrito, as pessoas podem achar chato. Mas, se você apresentar o mesmo em um formato visual, as pessoas definitivamente vão prestar mais atenção nele.
Para simplificar o processo de visualização de dados, existem algumas bibliotecas em Python para ajudá-lo. Você não pode dizer que nenhum em particular é o melhor, porque isso dependerá completamente dos requisitos. Algumas das melhores bibliotecas de visualização de dados em Python são matplotlib, plotly, seaborn, GGplot e altair.
Qual é uma das melhores bibliotecas de plotagem em Python?
Existem muitos deles para facilitar o trabalho para você quando se trata de visualização de dados e bibliotecas de plotagem. Foi visto que entre todas as bibliotecas disponíveis, Matplotlib é considerada a melhor pelos usuários.
Matplotlib ocupa menos espaço e também tem um melhor tempo de execução. Além disso, ele também fornece uma API orientada a objetos que permite aos usuários plotar gráficos no próprio aplicativo. O Matplotlib também suporta muitos tipos de saída, além de ser gratuito e de código aberto.
Qual é a biblioteca de visualização de dados padrão para cientistas de dados?
Se você gosta de ciência de dados, há grandes chances de já ter usado a biblioteca Matplotlib. Foi visto que iniciantes a profissionais experientes preferem usar esta biblioteca para construir visualizações de dados complexos.
A principal razão por trás de sua enorme consideração é a quantidade de flexibilidade que oferece aos usuários como uma biblioteca de plotagem 2D. Se você tiver experiência em MATLAB, poderá notar que a interface Pyplot do Matplotlib é bastante familiar para você. Assim, você não precisará de muito tempo para começar com sua primeira visualização. O usuário pode controlar toda a visualização no Matplotlib do nível mais granular.