Pandas Cheatsheet: Principais comandos que você deve saber [2022]

Publicados: 2021-01-06

A análise de dados se tornou um novo gênero de estudo, e tudo graças ao Python. Se você é um analista de dados entusiasta que trabalha em Python quase absolutamente usa a biblioteca Pandas, então este artigo é para você. Esta folha de dicas do Pandas passará por todos os métodos essenciais que são úteis ao analisar dados. Você pode ter encontrado situações em que é difícil lembrar a sintaxe específica para fazer algo no Pandas. Esses comandos da folha de dicas do Pandas ajudarão você a lembrar e fazer referência facilmente às operações mais comuns do Pandas. Se você é iniciante em python e ciência de dados, os cursos de ciência de dados do upGrad definitivamente podem ajudá-lo a mergulhar mais fundo no mundo de dados e análises.

Índice

Usando a folha de dicas do Pandas

Antes de usar esta folha de dicas do Pandas , você deve aprender completamente o Tutorial do Pandas e, em seguida, consultar esta folha de dicas para lembrar e liberar. A folha de dicas do Pandas ajudará você a procurar rapidamente os métodos que você já aprendeu e pode ser útil mesmo se você estiver indo para um exame ou entrevista. Coletamos e agrupamos todos os comandos usados ​​com frequência nos Pandas por um analista de dados para facilitar a detecção. Nesta folha de dicas do Pandas , usaremos a seguinte abreviação para representar diferentes objetos.

  • df: Para representar qualquer objeto Pandas DataFrame
  • ser: Para representar qualquer objeto da Série Pandas

Você precisa usar as seguintes bibliotecas relevantes para implementar os métodos mencionados abaixo neste artigo.

  • importar pandas como pd
  • importar numpy como np

Deve ler: Perguntas de entrevista de pandas

1. Importe dados de diferentes arquivos

  • Para ler todos os dados de um arquivo CSV: pd.read_csv(file_name)
  • Para ler todos os dados de um arquivo de texto delimitado (como TSV): pd.read_table(file_name)
  • Para ler uma planilha do Excel: pd.read_excel(file_name)
  • Para ler dados de um banco de dados SQL: pd.read_sql(query, connectionObject)
  • Buscando os dados de uma string ou URL formatada em JSON: pd.read_json(jsonString)
  • Para pegar o conteúdo da sua área de transferência: pd.read_clipboard()

2. Exporte DataFrames em diferentes formatos de arquivo

  • Para gravar um DataFrame em um arquivo CSV: df.to_csv(file_name)
  • Para gravar um DataFrame em um arquivo do Excel: df.to_excel(file_name)
  • Para gravar um DataFrame em uma tabela SQL: df.to_sql(tableName, connectionObject)
  • Para gravar um DataFrame em um arquivo no formato JSON: df.to_json(file_name)

3. Inspecione uma seção específica de seu DataFrame ou Série

  • Para buscar todas as informações relacionadas ao índice, tipo de dados e memória: df.info()
  • Para extrair as 'n' linhas iniciais do seu DataFrame: df.head(n)
  • Para extrair as 'n' linhas finais do seu DataFrame: df.tail(n)
  • Para extrair o número de linhas e colunas disponíveis em seu DataFrame: df.shape
  • Para resumir as estatísticas para colunas numéricas: df.describe()
  • Para visualizar valores exclusivos junto com suas contagens: ser.value_counts(dropna=False)

4. Selecionando um subconjunto específico de seus dados

  • Extraia a primeira linha: df.iloc[0,:]
  • Para extrair o primeiro elemento da primeira coluna do seu DataFrame: df.iloc[0,0]
  • Para retornar colunas com rótulo 'col' como Series: df[col]
  • Para retornar colunas com um novo DataFrame: df[[col1,col2]]
  • Para selecionar dados por posição: ser.iloc[0]
  • Para selecionar dados por índice: ser.loc['index_one']

5. Comandos de limpeza de dados

  • Para renomear colunas em massa: df.rename(columns = lambda x: x + 1)
  • Para renomear colunas seletivamente: df.rename(columns = {'oldName': 'newName'})
  • Para renomear o índice em massa: df.rename(index = lambda x: x + 1)
  • Para renomear colunas em sequência: df.columns = ['x', 'y', 'z']
  • Para verificar se existem valores nulos, retorna uma matriz booleana de acordo: pd.isnull()
  • O inverso de pd.isnull(): pd.notnull()
  • Descarta todas as linhas contendo valores nulos: df.dropna()
  • Descarta todas as colunas contendo valores nulos: df.dropna(axis=1)
  • Para substituir cada valor nulo por 'n': df.fillna(n)
  • Para converter todos os tipos de dados da série em float: ser.astype(float)
  • Para substituir todos os números 1 por 'um' e 3 por 'três': ser.replace([1,2], ['um','dois'])

Leia também: Pandas Dataframe Astype

6. Agrupar, Classificar e Filtrar Dados

  • Para retornar um objeto groupby para valores de coluna: df.groupby(colm)
  • Para retornar o objeto groupby para vários valores de coluna: df.groupby([colm1, colm2])
  • Para classificar valores em ordem crescente (por coluna): df.sort_values(colm1)
  • Para classificar valores em ordem decrescente (por coluna): df.sort_values(colm2, ascendente=False)
  • Extraia linhas em que o valor da coluna é maior que 0,6: df[df[colm] > 0,6]

7. Outros

  • Adicione as linhas do primeiro DataFrame ao final do segundo DataFrame: df1.append(df2)
  • Adicione as colunas do primeiro DataFrame ao final do segundo DataFrame: pd.concat([df1,df2],axis=1)
  • Para retornar a média de todas as colunas: df.mean()
  • Para retornar o número de valores não nulos: df.count()

Conclusão

Essas folhas de dicas do Pandas serão úteis apenas para uma recuperação rápida. É sempre uma boa abordagem praticar os comandos antes de pular diretamente para a folha de dicas do Pandas .

Se você está curioso para aprender sobre o Pandas, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Quais são os principais recursos das bibliotecas do Pandas?

A seguir estão os recursos que fazem do Pandas uma das bibliotecas Python mais populares: O Pandas nos fornece vários quadros de dados que não apenas permitem a representação eficiente dos dados, mas também nos permitem manipulá-los. Ele fornece recursos eficientes de alinhamento e indexação que fornecem maneiras inteligentes de rotular e organizar os dados. Alguns recursos do Pandas tornam o código limpo e aumentam sua legibilidade, tornando-o mais eficiente. Ele também pode ler vários formatos de arquivo. JSON, CSV, HDF5 e Excel são alguns dos formatos de arquivo suportados pelo Pandas. A fusão de vários conjuntos de dados tem sido um verdadeiro desafio para muitos programadores. Os pandas também superam isso e mesclam vários conjuntos de dados com muita eficiência. A biblioteca Pandas também fornece acesso a outras bibliotecas Python importantes, como Matplotlib e NumPy, o que a torna uma biblioteca altamente eficiente.

Quais são as outras bibliotecas e ferramentas que complementam a biblioteca Pandas?

O Pandas não funciona apenas como uma biblioteca central para criar quadros de dados, mas também funciona com outras bibliotecas e ferramentas do Python para ser mais eficiente. Pandas é construído no pacote NumPy Python, que indica que a maior parte da estrutura da biblioteca Pandas é replicada a partir do pacote NumPy. A análise estatística dos dados na biblioteca Pandas é operada pelo SciPy, plotando funções no Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn. Jupyter Notebook é um ambiente interativo baseado na web que funciona como um IDE e oferece um bom ambiente para Pandas.

Indique as operações básicas do quadro de dados

Selecionar um índice ou uma coluna antes de iniciar qualquer operação como adição ou exclusão é importante. Depois de aprender a acessar valores e selecionar colunas de um Data Frame, você pode aprender a adicionar índice, linha ou coluna em um Pandas Dataframe. Se o índice no quadro de dados não for o desejado, você poderá redefini-lo. Para redefinir o índice, você pode usar a função “reset_index()”.