Tutorial do Python Pandas: Tudo o que os iniciantes precisam saber sobre o Python Pandas

Publicados: 2020-03-26

Neste artigo, veremos uma das bibliotecas populares do Python essenciais para profissionais de dados, Pandas. Você aprenderia sobre seus fundamentos, bem como suas operações.

Vamos começar.

Índice

O que é Panda?

O Python Pandas é popular por vários motivos. Sua principal aplicação é a manipulação de dados, sua análise e limpeza. Você pode usá-lo para vários tipos de dados e conjuntos de dados, incluindo dados não rotulados e dados de séries temporais ordenados. Para simplificar, podemos dizer que o Pandas é a casa dos seus dados. Você pode realizar inúmeras operações em seus dados com esta ferramenta.

Você pode converter o formato de dados de um arquivo, mesclar dois conjuntos de dados, fazer cálculos, visualizá-los com ajuda do Matplotlib, etc. Com tantas funcionalidades, é uma escolha popular entre os profissionais de dados. É por isso que aprender sobre isso é essencial. E sem entender seu funcionamento, você não pode usá-lo, então neste tutorial do Python Pandas, vamos nos concentrar no mesmo.

Leia: Bibliotecas de visualização de dados Python

Papel dos Pandas na Ciência de Dados

A biblioteca Pandas é parte integrante do arsenal de qualquer profissional de dados. É baseado no NumPy, que é outra biblioteca Python popular. Muita estrutura do NumPy está presente no Pandas, portanto, se você estiver familiarizado com o primeiro, não terá dificuldade em se familiarizar com o último.

Na maioria das vezes, os especialistas usam o Pandas para alimentar dados no SciPy para análise estatística. Eles também usam esses dados com Matplotlib ou Scikit-learn para suas funções (funções de plotagem e aprendizado de máquina, respectivamente).

Saiba mais sobre as bibliotecas de aprendizado de máquina do Python.

Pré-requisitos

Antes de começarmos a discutir o funcionamento do Python Pandas e suas operações, devemos primeiro deixar claro quem pode usá-lo corretamente e quem não pode. Você deve primeiro estar familiarizado com o código subjacente do Python e o NumPy.

O primeiro, ou seja, os fundamentos do Python, é vital por razões óbvias. Você não entenderia muito sem saber como o código Python funciona. E mesmo que o faça, você não poderá experimentar o código, pois ainda precisa aprender o código subjacente primeiro.

O segundo, NumPy, é essencial para aprender porque o Pandas é baseado nele. Ter uma compreensão do NumPy o ajudará consideravelmente a se familiarizar com o Pandas.

Você pode aprender sobre Python por meio de nossos blogs sobre ciência de dados e Python . Temos muitos guias e artigos úteis que podem familiarizá-lo com o básico. É gratuito e, se você tiver alguma dúvida, pode escrevê-la na seção de comentários.

Se você estiver familiarizado com os dois tópicos que mencionamos, vamos dar uma olhada no Pandas profundamente:

Instalando Pandas

Para usar o Pandas, você terá que instalá-lo. O melhor é que a instalação e importação do Pandas é muito fácil. Basta abrir a linha de comando (se você usa um Mac, terá que abrir o terminal) e instalar o Pandas usando estes códigos:

Para usuários de PC: pip install pandas

Para usuários de Mac: conda instalar pandas

No Pandas, você estará lidando com séries e dataframes. Enquanto uma série se refere a uma coluna, um quadro de dados se refere a uma tabela multidimensional que possui várias séries. Vamos agora dar uma olhada nas operações que você pode realizar no Pandas.

Operações em Pandas

Agora que discutimos sua importância e definição, agora devemos considerar as ações que você pode executar neste tutorial do Python Pandas. O Pandas fornece muitas funções e as discutimos abaixo:

Visualização de dados

Você desejará imprimir algumas das linhas de seu conjunto de dados no início para mantê-las como referência visual. E você pode fazer isso com a função .head().

arquivo1.head()

Esta função fornece as primeiras cinco linhas do quadro de dados. Se você quiser obter mais linhas do que as cinco primeiras, basta passar o número necessário na função. Suponha que você queira as primeiras 15 linhas do quadro de dados, você escreverá o seguinte código:

arquivo1.head(15)

Você também tem a opção de visualizar as últimas cinco linhas do quadro de dados. Você pode fazer isso usando a função .tail(). E assim como a função .head(), a função .tail() também pode aceitar um número e fornecer a quantidade necessária de linhas.

arquivo1.tail(20)

Esse código forneceria as últimas 20 linhas do seu quadro de dados.

Obtendo informações

Uma das primeiras funções que os cientistas de dados usam com o Pandas é .info(). Isso porque ele exibe informações sobre o quadro de dados e fornece uma compreensão mais profunda do que você está trabalhando. Veja como você o usa no Pandas:

arquivo1.info()

Ele fornece muitas informações úteis sobre o conjunto de dados, como a quantidade de valores não nulos, o número de linhas, o tipo de dados presentes em uma coluna etc.

Conhecer o tipo de dados dos valores do seu quadro de dados é essencial em muitos casos. Suponha que você precise realizar operações aritméticas nos dados, mas eles têm strings. Ao executar suas operações matemáticas, você veria um erro aparecer porque você não pode realizar tais operações em strings. Se por outro lado, você usasse a função .info() antes de fazer qualquer operação, você já saberia que tem strings.

Enquanto a função .info() mostra as informações gerais sobre seu conjunto de dados, o atributo .shape fornece uma tupla de seu quadro de dados. Você pode descobrir quantas linhas e colunas seu conjunto de dados possui com a ajuda do atributo .shape. E você pode usá-lo da seguinte maneira:

arquivo1.forma

Este atributo não tem parênteses porque fornece apenas uma tupla de linhas e colunas. Você usará o atributo .shape com bastante frequência ao limpar seus dados.

Aprenda também: Salário de Desenvolvedor Python na Índia

Concatenação

Vamos agora discutir o atributo de concatenação neste tutorial do Python Pandas. Concatenação refere-se a juntar duas ou mais coisas. Portanto, com este atributo, você pode combinar dois conjuntos de dados sem modificar seus valores ou pontos de dados de forma alguma. Eles se combinam como estão. Você terá que usar a função .concat() para este propósito. Veja como:

resultado = pd.concat([arquivo1,arquivo2])

Ele combinará os dataframes file1 e file2 e os mostrará como um único data frame.

df1 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3], "IND_GDP":[50,45,45,67]}, índice=[2001, 2002,2003,2004])

df2 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3],"IND_GDP":[50,45,45,67]}, índice=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

imprimir(concatenar)

A saída do código acima:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Você deve ter notado como a função .concat() combinou os dois dataframes e os converteu em um.

Alterando o Índice

Você também pode alterar os valores de índice em seu quadro de dados. Para isso, você precisará usar a função .set_index(). Nos parênteses desta função, você teria que inserir os detalhes para alterar o índice. Dê uma olhada no exemplo a seguir para entender melhor.

importar pandas como pd

df= pd.DataFrame({“Dia”:[1,2,3,4], “Visitantes”:[200, 100.230.300], “Bounce_Rate”:[20,45,60,10]})

df.set_index(“Dia”, inplace= True)

imprimir(df)

A saída do código acima:

Bounce_Rate Visitantes

Dia

1 20 200

2 45 100

3 60 230

4 10 300

Você pode ver que nosso código alterou o valor do índice dos dados de acordo com os dias.

Alterando os cabeçalhos das colunas

Você também pode alterar os cabeçalhos das colunas no Python Pandas. Tudo o que você precisa fazer é usar a função .rename(). Você pode inserir os nomes das colunas que estavam presentes inicialmente entre parênteses e os nomes das colunas que deseja que apareçam no código de saída.

Suponha que você tenha uma tabela com o cabeçalho da coluna como 'Hora' e queira alterá-la para 'Horas'. Você pode alterar o nome desta coluna com o seguinte código:

df = df.rename(columns={“Hora” : “Horas”})

Este código mudará o nome do cabeçalho da coluna de 'Hora' para 'Horas'. Esta é uma função excelente para práticas eficientes. Vamos dar uma olhada em como você pode converter os formatos de seus dados.

Manipulação de dados

Com data munging, você tem a opção de converter o formato de dados específicos. Você pode converter um arquivo .csv em um arquivo .html ou vice-versa. Aqui está um exemplo de como você pode fazer isso:

importar pandas como pd

country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

país.to_html('arquivo1.html')

Depois de executar esse código, ele criará um arquivo HTML para você, que poderá ser executado em seu navegador. Data munging é uma função excelente, e você encontrará seu uso em muitas situações.

Conclusão

E agora, chegamos ao final deste tutorial do Python Pandas. Esperamos que você tenha achado útil e informativo. O Python Pandas é um tópico vasto e, com as inúmeras funções que possui, levaria algum tempo para se familiarizar completamente com ele.

Se você estiver interessado em aprender mais sobre Python, suas várias bibliotecas, incluindo Pandas, e sua aplicação em ciência de dados, confira IIIT-B & upGrad's PG Diploma in Data Science, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1-on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Preciso saber Python para usar o Pandas?

Antes de começar com o Pandas, você precisa entender que é um pacote construído para Python. Então, você definitivamente precisa ter um domínio firme sobre o básico, bem como a sintaxe da programação Python para começar a usar o Pandas com facilidade. Sempre que se trata de trabalhar com dados tabulares em Python, o Pandas é considerado a melhor escolha.

Mas, você precisa entender a sintaxe usada no Python antes de começar com o Pandas. Não é necessário gastar muito tempo com isso, mas você só precisa dedicar tempo suficiente para ficar claro com a sintaxe básica para poder começar com tarefas envolvendo Pandas.

Quanto tempo leva para aprender Pandas em Python?

Pandas é a biblioteca Python mais usada para lidar com dados tabulares. Você pode usar o Pandas para todas as tarefas para as quais pode usar o Excel. Se você já conhece a programação Python e sua sintaxe, pode se familiarizar facilmente com o funcionamento do Pandas em duas semanas. Quando você está começando com o Pandas, você deve começar com os projetos básicos de manipulação de dados para entender.

À medida que você avança, você notará que o Pandas é uma ferramenta de ciência de dados muito útil que pode ser um fator-chave na condução de decisões de negócios em vários setores.

Devo preferir aprender Numpy ou Pandas primeiro?

É preferível aprender Numpy antes de Pandas porque Numpy é o módulo mais fundamental em Python para computação científica. Você também receberá o suporte de arrays multidimensionais altamente otimizados que são considerados a estrutura de dados mais básica de cada algoritmo de Machine Learning.

Quando terminar de aprender o Numpy, você deve começar com o Pandas porque o Pandas é considerado uma extensão do Numpy. Isso ocorre porque o código subjacente do Pandas usa extensivamente a biblioteca Numpy.