Pandas Cheatsheet : principales commandes à connaître [2022]

Publié: 2021-01-06

L'analyse de données est devenue un nouveau genre d'étude, et tout cela grâce à Python. Si vous êtes un analyste de données passionné qui travaille sur Python, utilisez presque absolument la bibliothèque Pandas, alors cet article est pour vous. Cette feuille de triche Pandas passera en revue toutes les méthodes essentielles qui sont utiles lors de l'analyse des données. Vous avez peut-être rencontré des situations où il est difficile de se souvenir de la syntaxe spécifique pour faire quelque chose dans Pandas. Ces commandes de feuille de triche Pandas vous aideront à vous souvenir et à référencer facilement les opérations Pandas les plus courantes. Si vous êtes débutant en python et en science des données, les cours de science des données d'upGrad peuvent certainement vous aider à plonger plus profondément dans le monde des données et de l'analyse.

Table des matières

Utilisation de la feuille de triche Pandas

Avant d'utiliser cette feuille de triche Pandas , vous devez apprendre à fond le didacticiel Pandas , puis vous référer à cette feuille de triche pour vous en souvenir et pour l'autorisation. La feuille de triche Pandas vous aidera à rechercher rapidement les méthodes que vous avez déjà apprises, et cela peut être utile même si vous allez passer un examen ou un entretien. Nous avons collecté et regroupé toutes les commandes utilisées fréquemment dans les Pandas par un analyste de données pour une détection facile. Dans cette feuille de triche Pandas , nous utiliserons le raccourci suivant pour représenter différents objets.

  • df : pour représenter tout objet Pandas DataFrame
  • ser : pour représenter n'importe quel objet de la série Pandas

Vous devez utiliser les bibliothèques pertinentes suivantes pour implémenter les méthodes mentionnées ci-dessous dans cet article.

  • importer des pandas en tant que pd
  • importer numpy en tant que np

Doit lire: Questions d'entrevue Pandas

1. Importer des données à partir de différents fichiers

  • Pour lire toutes les données d'un fichier CSV : pd.read_csv(file_name)
  • Pour lire toutes les données d'un fichier texte délimité (comme TSV) : pd.read_table(file_name)
  • Pour lire depuis une feuille Excel : pd.read_excel(file_name)
  • Pour lire les données d'une base de données SQL : pd.read_sql(query, connectionObject)
  • Récupération des données à partir d'une chaîne ou d'une URL au format JSON : pd.read_json(jsonString)
  • Pour prendre le contenu de votre presse-papiers : pd.read_clipboard()

2. Exporter des DataFrames dans différents formats de fichiers

  • Pour écrire un DataFrame dans un fichier CSV : df.to_csv(file_name)
  • Pour écrire un DataFrame dans un fichier Excel : df.to_excel(file_name)
  • Pour écrire un DataFrame dans une table SQL : df.to_sql(tableName, connectionObject)
  • Pour écrire un DataFrame dans un fichier au format JSON : df.to_json(file_name)

3. Inspectez une section particulière de votre DataFrame ou de votre série

  • Pour récupérer toutes les informations relatives à l'index, au type de données et à la mémoire : df.info()
  • Pour extraire les lignes 'n' de départ de votre DataFrame : df.head(n)
  • Pour extraire les lignes de fin 'n' de votre DataFrame : df.tail(n)
  • Pour extraire le nombre de lignes et de colonnes disponibles dans votre DataFrame : df.shape
  • Pour résumer les statistiques des colonnes numériques : df.describe()
  • Pour afficher des valeurs uniques avec leur nombre : ser.value_counts(dropna=False)

4. Sélection d'un sous-ensemble spécifique de vos données

  • Extrayez la première ligne : df.iloc[0,:]
  • Pour extraire le premier élément de la première colonne de votre DataFrame : df.iloc[0,0]
  • Pour renvoyer les colonnes ayant l'étiquette 'col' en tant que série : df[col]
  • Pour renvoyer des colonnes ayant un nouveau DataFrame : df[[col1,col2]]
  • Pour sélectionner les données par position : ser.iloc[0]
  • Pour sélectionner des données par index : ser.loc['index_one']

5. Commandes de nettoyage des données

  • Pour renommer les colonnes en masse : df.rename(columns = lambda x : x + 1)
  • Pour renommer les colonnes de manière sélective : df.rename(columns = {'oldName': 'newName'})
  • Pour renommer l'index en masse : df.rename(index = lambda x : x + 1)
  • Pour renommer les colonnes dans l'ordre : df.columns = ['x', 'y', 'z']
  • Pour vérifier si des valeurs nulles existent, renvoie un tableau booléen en conséquence : pd.isnull()
  • L'inverse de pd.isnull() : pd.notnull()
  • Supprime toutes les lignes contenant des valeurs nulles : df.dropna()
  • Supprime toutes les colonnes contenant des valeurs nulles : df.dropna(axis=1)
  • Pour remplacer chaque valeur nulle par 'n' : df.fillna(n)
  • Pour convertir tous les types de données de la série en float : ser.astype(float)
  • Pour remplacer tous les numéros 1 par 'un' et 3 par 'trois' : ser.replace([1,2], ['one','two'])

Lisez aussi: Pandas Dataframe Astype

6. Regrouper, trier et filtrer les données

  • Pour renvoyer un objet groupby pour les valeurs de colonne : df.groupby(colm)
  • Pour renvoyer un objet groupby pour plusieurs valeurs de colonne : df.groupby([colm1, colm2])
  • Pour trier les valeurs par ordre croissant (par colonne) : df.sort_values(colm1)
  • Pour trier les valeurs par ordre décroissant (par colonne) : df.sort_values(colm2, ascending=False)
  • Extrayez les lignes où la valeur de la colonne est supérieure à 0,6 : df[df[colm] > 0,6]

7. Autres

  • Ajoutez les lignes du premier DataFrame à la fin du deuxième DataFrame : df1.append(df2)
  • Ajoutez les colonnes du premier DataFrame à la fin du second DataFrame : pd.concat([df1,df2],axis=1)
  • Pour renvoyer la moyenne de toutes les colonnes : df.mean()
  • Pour renvoyer le nombre de valeurs non nulles : df.count()

Conclusion

Ces feuilles de triche Pandas ne seront utiles que pour un rappel rapide. C'est toujours une bonne approche de pratiquer les commandes avant de sauter directement dans la feuille de triche Pandas .

Si vous êtes curieux d'en savoir plus sur Pandas, consultez le programme Executive PG en science des données de IIIT-B & upGrad, créé pour les professionnels en activité et proposant plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quelles sont les principales caractéristiques des bibliothèques Pandas ?

Voici les fonctionnalités qui font de Pandas l'une des bibliothèques Python les plus populaires : Pandas nous fournit diverses trames de données qui non seulement permettent une représentation efficace des données, mais nous permettent également de les manipuler. Il fournit des fonctionnalités d'alignement et d'indexation efficaces qui offrent des moyens intelligents d'étiqueter et d'organiser les données. Certaines fonctionnalités de Pandas rendent le code propre et augmentent sa lisibilité, le rendant ainsi plus efficace. Il peut également lire plusieurs formats de fichiers. JSON, CSV, HDF5 et Excel sont quelques-uns des formats de fichiers pris en charge par Pandas. La fusion de plusieurs ensembles de données a été un véritable défi pour de nombreux programmeurs. Les pandas surmontent également cela et fusionnent très efficacement plusieurs ensembles de données. La bibliothèque Pandas donne également accès à d'autres bibliothèques Python importantes telles que Matplotlib et NumPy, ce qui en fait une bibliothèque très efficace.

Quels sont les autres bibliothèques et outils qui complètent la bibliothèque Pandas ?

Pandas fonctionne non seulement comme une bibliothèque centrale pour créer des cadres de données, mais il fonctionne également avec d'autres bibliothèques et outils de Python pour être plus efficace. Pandas est construit sur le package NumPy Python, ce qui indique que la majeure partie de la structure de la bibliothèque Pandas est répliquée à partir du package NumPy. L'analyse statistique des données de la bibliothèque Pandas est opérée par SciPy, des fonctions de traçage sur Matplotlib et des algorithmes d'apprentissage automatique dans Scikit-learn. Jupyter Notebook est un environnement interactif basé sur le Web qui fonctionne comme un IDE et offre un bon environnement pour Pandas.

Énoncer les opérations de base de la trame de données

Il est important de sélectionner un index ou une colonne avant de commencer toute opération comme l'ajout ou la suppression. Une fois que vous avez appris à accéder aux valeurs et à sélectionner des colonnes à partir d'un cadre de données, vous pouvez apprendre à ajouter un index, une ligne ou une colonne dans un cadre de données Pandas. Si l'index dans le bloc de données ne correspond pas à ce que vous souhaitiez, vous pouvez le réinitialiser. Pour réinitialiser l'index, vous pouvez utiliser la fonction "reset_index()".