Pandas Cheatsheet: Principais comandos que você deve saber [2022]

Publicados: 2021-01-06

A análise de dados se tornou um novo gênero de estudo, e tudo graças ao Python. Se você é um analista de dados entusiasta que trabalha em Python quase absolutamente usa a biblioteca Pandas, então este artigo é para você. Esta folha de dicas do Pandas passará por todos os métodos essenciais que são úteis ao analisar dados. Você pode ter encontrado situações em que é difícil lembrar a sintaxe específica para fazer algo no Pandas. Esses comandos da folha de dicas do Pandas ajudarão você a lembrar e fazer referência facilmente às operações mais comuns do Pandas. Se você é iniciante em python e ciência de dados, os cursos de ciência de dados do upGrad definitivamente podem ajudá-lo a mergulhar mais fundo no mundo de dados e análises.

Índice

Usando a folha de dicas do Pandas
- 1. Importe dados de diferentes arquivos
- 2. Exporte DataFrames em diferentes formatos de arquivo
- 3. Inspecione uma seção específica de seu DataFrame ou Série
- 4. Selecionando um subconjunto específico de seus dados
- 5. Comandos de limpeza de dados
- 6. Agrupar, Classificar e Filtrar Dados
- 7. Outros
Conclusão
- Quais são os principais recursos das bibliotecas do Pandas?
- Quais são as outras bibliotecas e ferramentas que complementam a biblioteca Pandas?
- Indique as operações básicas do quadro de dados

Usando a folha de dicas do Pandas

Antes de usar esta folha de dicas do Pandas , você deve aprender completamente o Tutorial do Pandas e, em seguida, consultar esta folha de dicas para lembrar e liberar. A folha de dicas do Pandas ajudará você a procurar rapidamente os métodos que você já aprendeu e pode ser útil mesmo se você estiver indo para um exame ou entrevista. Coletamos e agrupamos todos os comandos usados com frequência nos Pandas por um analista de dados para facilitar a detecção. Nesta folha de dicas do Pandas , usaremos a seguinte abreviação para representar diferentes objetos.

df: Para representar qualquer objeto Pandas DataFrame
ser: Para representar qualquer objeto da Série Pandas

Você precisa usar as seguintes bibliotecas relevantes para implementar os métodos mencionados abaixo neste artigo.

importar pandas como pd
importar numpy como np

Deve ler: Perguntas de entrevista de pandas

1. Importe dados de diferentes arquivos

Para ler todos os dados de um arquivo CSV: pd.read_csv(file_name)
Para ler todos os dados de um arquivo de texto delimitado (como TSV): pd.read_table(file_name)
Para ler uma planilha do Excel: pd.read_excel(file_name)
Para ler dados de um banco de dados SQL: pd.read_sql(query, connectionObject)
Buscando os dados de uma string ou URL formatada em JSON: pd.read_json(jsonString)
Para pegar o conteúdo da sua área de transferência: pd.read_clipboard()

2. Exporte DataFrames em diferentes formatos de arquivo

Para gravar um DataFrame em um arquivo CSV: df.to_csv(file_name)
Para gravar um DataFrame em um arquivo do Excel: df.to_excel(file_name)
Para gravar um DataFrame em uma tabela SQL: df.to_sql(tableName, connectionObject)
Para gravar um DataFrame em um arquivo no formato JSON: df.to_json(file_name)

3. Inspecione uma seção específica de seu DataFrame ou Série

Para buscar todas as informações relacionadas ao índice, tipo de dados e memória: df.info()
Para extrair as 'n' linhas iniciais do seu DataFrame: df.head(n)
Para extrair as 'n' linhas finais do seu DataFrame: df.tail(n)
Para extrair o número de linhas e colunas disponíveis em seu DataFrame: df.shape
Para resumir as estatísticas para colunas numéricas: df.describe()
Para visualizar valores exclusivos junto com suas contagens: ser.value_counts(dropna=False)

4. Selecionando um subconjunto específico de seus dados

Extraia a primeira linha: df.iloc[0,:]
Para extrair o primeiro elemento da primeira coluna do seu DataFrame: df.iloc[0,0]
Para retornar colunas com rótulo 'col' como Series: df[col]
Para retornar colunas com um novo DataFrame: df[[col1,col2]]
Para selecionar dados por posição: ser.iloc[0]
Para selecionar dados por índice: ser.loc['index_one']

5. Comandos de limpeza de dados

Para renomear colunas em massa: df.rename(columns = lambda x: x + 1)
Para renomear colunas seletivamente: df.rename(columns = {'oldName': 'newName'})
Para renomear o índice em massa: df.rename(index = lambda x: x + 1)
Para renomear colunas em sequência: df.columns = ['x', 'y', 'z']
Para verificar se existem valores nulos, retorna uma matriz booleana de acordo: pd.isnull()
O inverso de pd.isnull(): pd.notnull()
Descarta todas as linhas contendo valores nulos: df.dropna()
Descarta todas as colunas contendo valores nulos: df.dropna(axis=1)
Para substituir cada valor nulo por 'n': df.fillna(n)
Para converter todos os tipos de dados da série em float: ser.astype(float)
Para substituir todos os números 1 por 'um' e 3 por 'três': ser.replace([1,2], ['um','dois'])

Leia também: Pandas Dataframe Astype

6. Agrupar, Classificar e Filtrar Dados

Para retornar um objeto groupby para valores de coluna: df.groupby(colm)
Para retornar o objeto groupby para vários valores de coluna: df.groupby([colm1, colm2])
Para classificar valores em ordem crescente (por coluna): df.sort_values(colm1)
Para classificar valores em ordem decrescente (por coluna): df.sort_values(colm2, ascendente=False)
Extraia linhas em que o valor da coluna é maior que 0,6: df[df[colm] > 0,6]

7. Outros

Adicione as linhas do primeiro DataFrame ao final do segundo DataFrame: df1.append(df2)
Adicione as colunas do primeiro DataFrame ao final do segundo DataFrame: pd.concat([df1,df2],axis=1)
Para retornar a média de todas as colunas: df.mean()
Para retornar o número de valores não nulos: df.count()

Conclusão

Essas folhas de dicas do Pandas serão úteis apenas para uma recuperação rápida. É sempre uma boa abordagem praticar os comandos antes de pular diretamente para a folha de dicas do Pandas .

Se você está curioso para aprender sobre o Pandas, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Quais são os principais recursos das bibliotecas do Pandas?

A seguir estão os recursos que fazem do Pandas uma das bibliotecas Python mais populares: O Pandas nos fornece vários quadros de dados que não apenas permitem a representação eficiente dos dados, mas também nos permitem manipulá-los. Ele fornece recursos eficientes de alinhamento e indexação que fornecem maneiras inteligentes de rotular e organizar os dados. Alguns recursos do Pandas tornam o código limpo e aumentam sua legibilidade, tornando-o mais eficiente. Ele também pode ler vários formatos de arquivo. JSON, CSV, HDF5 e Excel são alguns dos formatos de arquivo suportados pelo Pandas. A fusão de vários conjuntos de dados tem sido um verdadeiro desafio para muitos programadores. Os pandas também superam isso e mesclam vários conjuntos de dados com muita eficiência. A biblioteca Pandas também fornece acesso a outras bibliotecas Python importantes, como Matplotlib e NumPy, o que a torna uma biblioteca altamente eficiente.

Quais são as outras bibliotecas e ferramentas que complementam a biblioteca Pandas?

O Pandas não funciona apenas como uma biblioteca central para criar quadros de dados, mas também funciona com outras bibliotecas e ferramentas do Python para ser mais eficiente. Pandas é construído no pacote NumPy Python, que indica que a maior parte da estrutura da biblioteca Pandas é replicada a partir do pacote NumPy. A análise estatística dos dados na biblioteca Pandas é operada pelo SciPy, plotando funções no Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn. Jupyter Notebook é um ambiente interativo baseado na web que funciona como um IDE e oferece um bom ambiente para Pandas.

Indique as operações básicas do quadro de dados

Selecionar um índice ou uma coluna antes de iniciar qualquer operação como adição ou exclusão é importante. Depois de aprender a acessar valores e selecionar colunas de um Data Frame, você pode aprender a adicionar índice, linha ou coluna em um Pandas Dataframe. Se o índice no quadro de dados não for o desejado, você poderá redefini-lo. Para redefinir o índice, você pode usar a função “reset_index()”.