Visualização de Box Plot com Pandas [Guia Completo]
Publicados: 2020-09-03Ao lidar com qualquer projeto de análise de dados estatísticos, existem muitas ferramentas úteis que você pode aplicar. A ideia básica é identificar a pergunta e usar a função necessária para responder a essa pergunta. Por exemplo, se a distribuição de dados precisa ser vista, a resposta ideal é traçar uma função de distribuição de dados.
Se for necessário ver os valores e compará-los com o valor das demais colunas, a melhor maneira é traçar um gráfico de barras ou histograma. Mas e se uma consulta estatística precisar ser satisfeita? A tendência pode ser observada em uma função de distribuição, mas não há saída fácil se precisarmos verificar um percentual específico de dados. Confira nosso treinamento em ciência de dados de universidades reconhecidas para obter vantagem sobre a concorrência.
Boxplot vem como uma solução para o problema acima. Boxplots são usados para descrever os valores percentuais do atributo, de acordo com a coluna em que é plotado. O boxplot pode ser bastante perspicaz na engenharia de modelos baseada em regras, bem como na análise exploratória de dados em geral.
Boxplot lida com quartis.
Vamos primeiro traçar um boxplot de pandas e depois entender as partes dele.
Índice
Traçando um Boxplot de Pandas
Para implementar um boxplot de pandas, existem apenas dois requisitos, Pandas e matplotlib. O uso do matplotlib é para visualizar os gráficos e ver os gráficos dentro do notebook Jupyter.
Aqui está como importamos ambas as bibliotecas. Usamos a função mágica inline para que os gráficos possam ser vistos diretamente dentro do notebook.
Código:
importar pandas como pd
importar matplotlib.pyplot como plt
%matplotlib em linha
Agora, importamos nossos dados e os lemos em um DataFrame. Aqui está como fazê-lo.
Código:
data = pd.read_csv(“Estatísticas FIFA 2018.csv”)
DataFrame é a estrutura de dados fundamental do Pandas. Aqui estão as primeiras cinco amostras de nossos dados.
Depois que os dados são importados, podemos usar diretamente a função boxplot do pandas sobre o objeto DataFrame. Aqui está como usá-lo:
Código:
data.boxplot(by=”Rodada”, column=['Goal Marcado'])
A função boxplot do pandas recebe dois argumentos. O parâmetro 'by' é usado para selecionar o eixo X. E a 'coluna' são os dados para plotar no eixo Y.
Aqui estamos traçando os gols marcados por rodada.
Aqui está o enredo:
Checkout: Perguntas da entrevista em Python
Lendo os boxplots
Agora vamos ler as parcelas. Primeiro, entenda os valores do eixo. O eixo Y tem o número de gols marcados na partida e o eixo X mostra as rodadas em que o jogo foi jogado. Tomemos o exemplo da rodada final.
Se observarmos atentamente, a caixa é feita em algum lugar entre dois e quatro, com a linha do meio em três. A caixa é plotada usando três valores – os valores percentis 25, 50 e 75. A linha inferior do gráfico denota o percentil 25 dos gols marcados na partida, a linha do meio denota o percentil 50 e a linha superior denota o percentil 75. Assim, o boxplot funciona com o intervalo interquartil (IQR) dos dados.
Leia: Tutorial do Python Pandas: Tudo o que os iniciantes precisam saber sobre o Python Pandas
Agora, há mais uma coisa desenhada acima e abaixo da caixa. Essas linhas são conhecidas como bigodes. Por isso, às vezes o boxplot também é conhecido como box-and-whiskers plot.
Não há uma maneira única de traçar os bigodes. A maneira mais comum de denotar bigodes é marcá-los nos valores mínimo e máximo na coluna de dados. Algumas bibliotecas como a seaborn usam um valor multiplicativo do IQR para marcar os bigodes. Pandas boxplot usa os valores máximo e mínimo para marcar os bigodes.

Se você notar, há alguns pontos entre quatro e seis. Estes são conhecidos como outliers. Boxplots são razoavelmente úteis em sistemas baseados em regras como o cálculo de erros, ou podem identificar rapidamente as classificações erradas. Por exemplo, no gráfico, se você só precisa distinguir entre as rodadas de 3º lugar e as rodadas finais, você pode facilmente criar um sistema baseado em regras, que categorizará seus dados com precisão. Se estiver entre zero a dois, marque a 3ª rodada, e se estiver entre dois a quatro, marque a rodada final.
Boxplots ajudam a entender a distribuição geral das colunas de dados. Os gráficos mostram as distribuições usando os valores de quartil. Isso facilita a análise rápida dos dados, pois a distribuição foi marcada adequadamente. Os bigodes denotam os valores restantes na coluna.
Conclusão
A extremidade inferior denota os dados inferiores a 25%, enquanto a extremidade superior denota os dados superiores a 75%. Se os outliers forem menores, os boxplots dos pandas podem ajudar a identificá-los rapidamente. No geral, se você puder lê-los corretamente, os boxplots são incrivelmente úteis na análise de dados.
Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
Que tipo de dados é retratado por um gráfico de caixa?
A visualização de box plot é muito utilizada em estatística descritiva. É um tipo de gráfico que é frequentemente usado para análise exploratória de dados. Ao exibir os quartis (porcentagens) e médias, os gráficos de caixa podem retratar visualmente a distribuição de dados numéricos juntamente com sua assimetria.
O resumo de um conjunto de dados é exibido com a ajuda de gráficos de caixa em formato visual em cinco categorias diferentes. Os dados fornecidos pelo box plot são:
1. Pontuação mínima
2. Primeiro ou podemos dizer o quartil inferior
3. Mediana do box plot Terceiro ou podemos dizer o quartil superior
4.Pontuação máxima
Os dados aqui são divididos em diferentes seções para facilitar a representação dos dados e a compreensão visual dos dados com bastante facilidade.
Por que os gráficos de caixa são úteis?
O trabalho dos gráficos de caixa é dividir um conjunto de dados em diferentes seções, onde cada seção contém aproximadamente 25% dos dados. Os gráficos de caixa são realmente úteis porque fornecem um resumo visual dos dados presentes. Isso permite que os pesquisadores identifiquem facilmente os valores médios, encontrem os sinais de assimetria e conheçam a dispersão dos conjuntos de dados.
O box plot pode fornecer uma imagem visual para ver se o conjunto de dados estatísticos está distorcido ou distribuído normalmente. Se for normalmente distribuído, a mediana estará no meio da caixa e a caixa será simétrica. Por outro lado, a caixa será assimétrica e a mediana estará na parte inferior ou superior da caixa quando a distribuição for assimétrica.
Podemos utilizar o Pandas para visualização de dados?
O Pandas é conhecido por ser a biblioteca mais útil na linguagem Python quando se trata de Data Science. O Pandas é realmente útil para manipular, importar e também limpar os conjuntos de dados. Fora isso, o Pandas também é amplamente utilizado para visualização de dados.
Na visualização de dados, o Pandas é usado para plotar diferentes gráficos básicos. As funcionalidades desta biblioteca também são encontradas na visualização de dados de séries temporais. Em palavras simples, pode-se dizer que, se você deseja plotar uma barra simples, gráficos de contagem ou linhas, deve utilizar Pandas na visualização de dados.