Tutoriel Python Pandas : Tout ce que les débutants doivent savoir sur Python Pandas

Publié: 2020-03-26

Dans cet article, nous examinerons l'une des bibliothèques populaires de Python essentielles pour les professionnels des données, Pandas. Vous apprendrez ses bases ainsi que ses opérations.

Commençons.

Table des matières

C'est quoi Pandas ?

Python Pandas est populaire pour de nombreuses raisons. Son application principale est la manipulation des données, leur analyse ainsi que le nettoyage. Vous pouvez l'utiliser pour divers types de données et ensembles de données, y compris des données sans étiquette et des données de séries chronologiques ordonnées. Pour le dire simplement, nous pouvons dire que Pandas est la maison de vos données. Vous pouvez effectuer de nombreuses opérations sur vos données avec cet outil.

Vous pouvez convertir le format de données d'un fichier, fusionner deux ensembles de données, effectuer des calculs, le visualiser en vous aidant de Matplotlib, etc. Avec autant de fonctionnalités, c'est un choix populaire parmi les professionnels des données. C'est pourquoi l'apprentissage est essentiel. Et sans comprendre son fonctionnement, vous ne pouvez pas l'utiliser, donc dans ce tutoriel Python Pandas, nous nous concentrerons sur la même chose.

Lire : Bibliothèques de visualisation de données Python

Rôle des pandas dans la science des données

La bibliothèque Pandas fait partie intégrante de l'arsenal de tout professionnel des données. Il est basé sur NumPy, qui est une autre bibliothèque Python populaire. Une grande partie de la structure de NumPy est présente dans Pandas, donc si vous connaissez le premier, vous n'aurez aucune difficulté à vous familiariser avec le second.

La plupart du temps, les experts utilisent Pandas pour alimenter en données SciPy à des fins d'analyse statistique. Ils utilisent également ces données avec Matplotlib ou Scikit-learn pour leurs fonctions (fonctions de traçage et apprentissage automatique, respectivement).

En savoir plus sur les bibliothèques d'apprentissage automatique de Python.

Conditions préalables

Avant de commencer à discuter du fonctionnement de Python Pandas et de ses opérations, nous devons d'abord préciser qui peut l'utiliser correctement et qui ne le peut pas. Vous devez d'abord vous familiariser avec le code sous-jacent de Python et NumPy.

Le premier, c'est-à-dire les fondamentaux de Python, est vital pour des raisons évidentes. Vous ne comprendriez pas grand-chose sans savoir comment fonctionne le code Python. Et même si vous le faites, vous ne pourrez pas essayer le code car vous devrez d'abord apprendre le code sous-jacent.

Le second, NumPy, est essentiel à apprendre car Pandas est basé dessus. Avoir une compréhension de NumPy vous aidera considérablement à vous familiariser avec Pandas.

Vous pouvez en apprendre davantage sur Python grâce à nos blogs sur la science des données et Python . Nous avons de nombreux guides et articles utiles qui peuvent vous familiariser avec les bases. C'est gratuit, et si vous avez des doutes, vous pouvez les écrire dans la section des commentaires.

Si vous connaissez les deux sujets que nous avons mentionnés, examinons les pandas en profondeur :

Installer des pandas

Pour utiliser Pandas, vous devrez l'installer. La meilleure chose à faire est que l'installation et l'importation de Pandas sont très simples. Ouvrez simplement la ligne de commande (si vous utilisez un Mac, vous devrez ouvrir le terminal) et installez Pandas en utilisant ces codes :

Pour les utilisateurs de PC : pip install pandas

Pour les utilisateurs de Mac : conda install pandas

Dans Pandas, vous aurez affaire à des séries et des dataframes. Alors qu'une série fait référence à une colonne, un bloc de données fait référence à un tableau multidimensionnel comportant plusieurs séries. Voyons maintenant les opérations que vous pouvez effectuer dans Pandas.

Opérations dans les pandas

Maintenant que nous avons discuté de son importance et de sa définition, nous devons maintenant considérer les actions que vous pouvez effectuer dans ce tutoriel Python Pandas. Pandas vous offre de nombreuses fonctions, et nous en avons discuté ci-dessous :

Affichage des données

Vous souhaiterez imprimer certaines des lignes de votre ensemble de données au début pour les conserver comme référence visuelle. Et vous pouvez le faire avec la fonction .head().

fichier1.head()

Cette fonction vous donne les cinq premières lignes du bloc de données. Si vous souhaitez obtenir plus de lignes que les cinq premières, vous pouvez simplement transmettre le nombre requis dans la fonction. Supposons que vous souhaitiez les 15 premières lignes du bloc de données, vous écrivez le code suivant :

fichier1.head(15)

Vous avez également la possibilité d'afficher les cinq dernières lignes du bloc de données. Vous pouvez le faire en utilisant la fonction .tail(). Et tout comme la fonction .head(), la fonction .tail() peut également accepter un nombre et vous donner la quantité de lignes requise.

fichier1.tail(20)

Ce code vous donnerait les 20 dernières lignes de votre bloc de données.

Obtenir des informations

L'une des premières fonctions que les data scientists utilisent avec Pandas est .info(). En effet, il affiche des informations sur le bloc de données et vous donne une meilleure compréhension de ce avec quoi vous travaillez. Voici comment vous l'utilisez dans Pandas :

fichier1.info()

Il vous fournit de nombreuses informations utiles sur le jeu de données, telles que la quantité de valeurs non nulles, le nombre de lignes, le type de données présentes dans une colonne, etc.

Connaître le type de données des valeurs de votre bloc de données est essentiel dans de nombreux cas. Supposons que vous deviez effectuer des opérations arithmétiques sur les données mais qu'elles contiennent des chaînes. Lorsque vous exécutez vos opérations mathématiques, une erreur s'affiche car vous ne pouvez pas effectuer de telles opérations sur des chaînes. Si d'un autre côté, vous utilisiez la fonction .info() avant d'effectuer toute opération, vous sauriez déjà que vous avez des chaînes.

Alors que la fonction .info() vous montre les informations générales sur votre jeu de données, l'attribut .shape vous donne un tuple de votre bloc de données. Vous pouvez savoir combien de lignes et de colonnes votre ensemble de données contient à l'aide de l'attribut .shape. Et vous pouvez l'utiliser de la manière suivante :

fichier1.forme

Cet attribut n'a pas de parenthèses car il ne vous donne qu'un tuple de lignes et de colonnes. Vous utiliserez assez souvent l'attribut .shape lors du nettoyage de vos données.

Apprenez aussi : le salaire d'un développeur Python en Inde

Enchaînement

Parlons maintenant de l'attribut de concaténation dans ce tutoriel Python Pandas. La concaténation consiste à joindre deux ou plusieurs choses ensemble. Ainsi, avec cet attribut, vous pouvez combiner deux ensembles de données sans modifier leurs valeurs ou points de données de quelque manière que ce soit. Ils se combinent tels quels. Vous devrez utiliser la fonction .concat() à cette fin. Voici comment:

résultat = pd.concat([fichier1,fichier2])

Il combinera les trames de données file1 et file2 et les affichera comme une seule trame de données.

df1 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3], "IND_GDP":[50,45,45,67]}, index=[2001, 2002,2003,2004])

df2 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3],"IND_GDP":[50,45,45,67]}, index=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

imprimer (concat)

La sortie du code ci-dessus :

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Vous devez avoir remarqué comment la fonction .concat() a combiné les deux dataframes et les a convertis en un seul.

Modification de l'indice

Vous pouvez également modifier les valeurs d'index dans votre bloc de données. Pour cela, vous devrez utiliser la fonction .set_index(). Dans les parenthèses de cette fonction, vous devez entrer les détails pour changer l'index. Jetez un oeil à l'exemple suivant pour mieux le comprendre.

importer des pandas en tant que pd

df= pd.DataFrame({"Jour":[1,2,3,4], "Visiteurs":[200, 100,230,300], "Bounce_Rate":[20,45,60,10]})

df.set_index("Jour", inplace= Vrai)

imprimer (df)

La sortie du code ci-dessus :

Bounce_Rate Visiteurs

Jour

1 20 200

2 45 100

3 60 230

4 10 300

Vous pouvez voir que notre code a changé la valeur d'index des données en fonction des jours.

Modification des en-têtes de colonne

Vous pouvez également modifier les en-têtes de colonne dans Python Pandas. Tout ce que vous avez à faire est d'utiliser la fonction .rename(). Vous pouvez entrer les noms de colonne qui étaient initialement présents entre parenthèses et les noms de colonne que vous souhaitez voir apparaître dans le code de sortie.

Supposons que vous disposiez d'un tableau dont l'en-tête de colonne est "Heure" et que vous souhaitiez le modifier en "Heures". Vous pouvez modifier le nom de cette colonne avec le code suivant :

df = df.rename(columns={"Heure" : "Heures"})

Ce code changera le nom de l'en-tête de colonne de "Heure" à "Heures". C'est une excellente fonction pour des pratiques efficaces. Voyons comment vous pouvez convertir les formats de vos données.

Gestion des données

Avec le munging de données, vous avez la possibilité de convertir le format de données spécifiques. Vous pouvez convertir un fichier .csv en un fichier .html ou inversement. Voici un exemple de la façon dont vous pouvez le faire :

importer des pandas en tant que pd

country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

country.to_html('file1.html')

Après avoir exécuté ce code, il créera un fichier HTML pour vous, que vous pourrez exécuter sur votre navigateur. Le munging de données est une excellente fonction, et vous trouverez son utilisation dans de nombreuses situations.

Conclusion

Et maintenant, nous avons atteint la fin de ce tutoriel Python Pandas. Nous espérons que vous l'avez trouvé utile et instructif. Python Pandas est un vaste sujet, et avec les nombreuses fonctions dont il dispose, il faudrait un certain temps pour s'y familiariser complètement.

Si vous souhaitez en savoir plus sur Python, ses différentes bibliothèques, y compris Pandas, et son application en science des données, consultez le diplôme PG en science des données de IIIT-B & upGrad, créé pour les professionnels en activité et proposant plus de 10 études de cas et projets, ateliers pratiques, mentorat avec des experts de l'industrie, 1-on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Dois-je connaître Python pour utiliser Pandas ?

Avant de commencer avec Pandas, vous devez comprendre qu'il s'agit d'un package conçu pour Python. Vous devez donc absolument maîtriser les bases ainsi que la syntaxe de la programmation Python pour commencer à utiliser Pandas en toute simplicité. Chaque fois qu'il s'agit de travailler avec des données tabulaires en Python, Pandas est considéré comme le meilleur choix.

Mais, vous devez clarifier la syntaxe utilisée dans Python avant de commencer avec Pandas. Il n'est pas nécessaire d'y consacrer énormément de temps, mais il vous suffit de consacrer suffisamment de temps pour clarifier la syntaxe de base afin de pouvoir commencer avec des tâches impliquant des Pandas.

Combien de temps faut-il pour apprendre Pandas en Python ?

Pandas est la bibliothèque Python la plus utilisée pour traiter les données tabulaires. Vous pouvez utiliser Pandas pour toutes les tâches pour lesquelles vous pourriez utiliser Excel. Si vous connaissez déjà la programmation Python et sa syntaxe, vous pourrez facilement vous familiariser avec le fonctionnement de Pandas en deux semaines. Lorsque vous débutez avec Pandas, vous devez commencer par les projets de manipulation de données de base afin de vous familiariser avec.

Au fur et à mesure que vous progressez, vous remarquerez que Pandas est un outil de science des données très utile qui peut être un facteur clé dans la prise de décisions commerciales dans plusieurs secteurs.

Dois-je préférer apprendre Numpy ou Pandas en premier ?

Il est préférable d'apprendre Numpy avant Pandas car Numpy est le module le plus fondamental de Python pour le calcul scientifique. Vous bénéficierez également de la prise en charge de tableaux multidimensionnels hautement optimisés qui sont considérés comme la structure de données la plus élémentaire de chaque algorithme d'apprentissage automatique.

Une fois que vous avez fini d'apprendre Numpy, vous devriez commencer par Pandas car Pandas est considéré comme une extension de Numpy. En effet, le code sous-jacent de Pandas utilise largement la bibliothèque Numpy.