17 questions et réponses de l'entrevue Must Read Pandas [Pour les débutants et les expérimentés]

Publié: 2020-07-29

Pandas est une bibliothèque Python open source sous licence BSD offrant des structures de données et des outils d'analyse de données hautes performances et faciles à utiliser. Python avec Pandas est utilisé dans un large éventail de disciplines, notamment l'économie, la finance, les statistiques, l'analyse, etc. Dans cet article, nous avons répertorié quelques questions d'entretien essentielles sur les pandas et les questions d' entretien NumPy qu'un apprenant en python doit connaître. Si vous souhaitez en savoir plus sur Python, consultez nos programmes de science des données.

Table des matières

Questions et réponses de l'entretien avec Pandas

Question 1 - Définir Python Pandas.

Les pandas font référence à une bibliothèque logicielle explicitement écrite pour Python, qui est utilisée pour analyser et manipuler des données. Pandas est une bibliothèque multiplateforme open source créée par Wes McKinney. Il a été publié en 2008 et a fourni des structures de données et des opérations pour manipuler des données numériques et des séries chronologiques. Les pandas peuvent être installés à l'aide de la distribution pip ou Anaconda. Les pandas permettent d'effectuer très facilement des opérations d'apprentissage automatique sur des données tabulaires.

Question 2 – Quels sont les différents types de structures de données dans Pandas ?

La bibliothèque Panda prend en charge deux principaux types de structures de données, DataFrames et Series. Ces deux structures de données sont construites au-dessus de NumPy. La série est une structure de données unidimensionnelle et la plus simple, tandis que DataFrame est bidimensionnelle. Une autre étiquette d'axe connue sous le nom de "Panneau" est une structure de données tridimensionnelle et comprend des éléments tels que major_axis et minor_axis.

La source

Question 3 - Expliquez la série dans les pandas.

La série est un tableau unidimensionnel qui peut contenir des valeurs de données de tout type (chaîne, flottant, entier, objets python, etc.). C'est le type de structure de données le plus simple dans Pandas ; ici, les étiquettes des axes des données sont appelées index.

Question 4 - Définir Dataframe dans Pandas.

Un DataFrame est un tableau à 2 dimensions dans lequel les données sont alignées sous forme de tableau avec des lignes et des colonnes. Avec cette structure, vous pouvez effectuer une opération arithmétique sur les lignes et les colonnes.

Question 5 – Comment pouvez-vous créer une base de données vide dans Pandas ?

Pour créer un DataFrame vide dans Pandas, tapez

importer des pandas en tant que pd

ab = pd.DataFrame()

Question 6 - Quelles sont les fonctionnalités les plus importantes de la bibliothèque Pandas ?

Les caractéristiques importantes de la bibliothèque du panda sont :

Alignement des données
Fusionner et rejoindre
Mémoire efficace
Des séries chronologiques
Remodelage

Lis : Dataframe dans Apache PySpark : tutoriel complet

Question 7 – Comment allez-vous expliquer la réindexation dans Pandas ?

Réindexer signifie modifier les données pour qu'elles correspondent à un ensemble particulier d'étiquettes le long d'un axe particulier.

Diverses opérations peuvent être réalisées à l'aide de l'indexation, telles que-

Insérez des marqueurs de valeur manquante (NA) dans les emplacements d'étiquette où aucune donnée n'existe pour l'étiquette.
Réorganisez l'ensemble de données existant pour qu'il corresponde à un nouvel ensemble d'étiquettes.

Question 8 – Quelles sont les différentes manières de créer des DataFrame dans pandas ? Expliquez avec des exemples.

DataFrame peut être créé à l'aide de Lists ou Dict of nd arrays.

Exemple 1 - Création d'un DataFrame à l'aide de List

importer des pandas en tant que pd

# une liste de chaînes

Strlist = ['Pandas', 'NumPy']

# Appel du constructeur DataFrame sur la liste

liste = pd.DataFrame(Strlist)

imprimer (liste)

Exemple 2 - Création d'un DataFrame à l'aide de dict of arrays

importer des pandas en tant que pd

list = {'ID' : [1001, 1002, 1003],'Département' :['Sciences', 'Commerce', 'Arts',]}

liste = pd.DataFrame(liste)

imprimer (liste)

Découvrez : Questions d'entretien en science des données

Question 9 – Expliquez les données catégorielles dans les pandas ?

Les données catégorielles font référence à des données en temps réel qui peuvent être répétitives ; par exemple, les valeurs de données sous des catégories telles que le pays, le sexe, les codes seront toujours répétitives. Les valeurs catégorielles dans les pandas ne peuvent également prendre qu'un nombre limité et fixe de valeurs possibles.

Les opérations numériques ne peuvent pas être effectuées sur de telles données. Toutes les valeurs des données catégorielles dans les pandas sont soit dans categories ou np.nan.

Ce type de données peut être utile dans les cas suivants :

Si une variable de chaîne ne contient que quelques valeurs différentes, la convertir en une variable de catégorie peut économiser de la mémoire.

Il est utile comme signal pour les autres bibliothèques Python car cette colonne doit être traitée comme une variable catégorique.

Un ordre lexical peut être converti en un ordre catégoriel pour être trié correctement, comme un ordre logique.

Question 10 - Créer une série à l'aide de Dict dans Pandas.

importer des pandas en tant que pd

importer numpy en tant que np

ser = {'a' : 1, 'b' : 2, 'c' : 3}

ans = pd.Series(ser)

imprimer (rép)

Question 11 – Comment créer une copie de la série dans Pandas ?

Pour créer une copie de la série dans pandas, la syntaxe suivante est utilisée :

pandas.Series.copy

Série.copy(deep=True)

* si la valeur de deep est définie sur false, il ne copiera ni les données ni les index.

Question 12 - Comment allez-vous ajouter un index, une ligne ou une colonne à une base de données dans Pandas ?

Pour ajouter des lignes à un DataFrame, nous pouvons utiliser .loc(), .iloc() et .ix(). Le .loc() est basé sur une étiquette, .iloc() est basé sur un entier et .ix() est basé sur une étiquette de stand et un entier. Pour ajouter des colonnes au DataFrame, nous pouvons à nouveau utiliser .loc () ou .iloc ().

Question 13 - Quelle méthode utiliserez-vous pour renommer l'index ou les colonnes de la base de données Pandas ?

La méthode .rename peut être utilisée pour renommer les colonnes ou les valeurs d'index de DataFrame

Question 14 - Comment pouvez-vous itérer sur Dataframe dans Pandas ?

Pour itérer sur DataFrame dans pandas, la boucle for peut être utilisée en combinaison avec un appel iterrows ().

Question 15 - Qu'est-ce que Pandas Numpy Array?

Numerical Python (NumPy) est défini comme un package intégré en python pour effectuer des calculs numériques et le traitement d'éléments de tableau multidimensionnels et unidimensionnels.

Le tableau NumPy calcule plus rapidement que les autres tableaux Python.

Question 16 – Comment convertir une trame de données en fichier Excel ?

Pour convertir un seul objet en un fichier Excel, nous pouvons simplement spécifier le nom du fichier cible. Cependant, pour convertir plusieurs feuilles, nous devons créer un objet ExcelWriter avec le nom du fichier cible et spécifier la feuille que nous souhaitons exporter.

Question 17 - Qu'est-ce que la fonction Groupby dans Pandas ?

Dans Pandas, la fonction groupby () permet aux programmeurs de réorganiser les données en les utilisant sur des ensembles réels. La tâche principale de la fonction est de diviser les données en différents groupes.

Lisez aussi: Top 15 des projets Open Source Python AI et Machine Learning

Conclusion

Nous espérons que les questions d'entretien P andas et les questions d' entretien NumPy mentionnées ci-dessus vous aideront à vous préparer pour vos prochaines sessions d'entretien. Si vous recherchez des cours qui peuvent vous aider à maîtriser le langage Python , upGrad peut être la meilleure plate-forme.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

La bibliothèque Pandas est utilisée dans quel but ?

La principale raison de l'utilisation de Pandas est l'analyse des données. Pandas permet aux utilisateurs d'importer des données à partir de différents formats tels que Microsoft Excel, SQL, JSON, ainsi que des valeurs séparées par des virgules. Pandas est considéré comme très utile pour l'analyse des données, car il permet aux utilisateurs d'effectuer différentes opérations de manipulation de données telles que la sélection, le remodelage, la fusion et le nettoyage des données. En dehors de cela, Pandas fournit également diverses fonctionnalités de gestion des données.

En termes simples, nous pouvons dire que Pandas facilite l'exécution de diverses tâches chronophages et répétitives impliquant des données. Les tâches facilitées avec Pandas sont :

1. Fusionner et rejoindre Statistique
2. données d'analyse
3. données de normalisation
4. remplir les données
5. nettoyage des données
6. inspection Chargement et sauvegarde des données
7. Visualisation des données

Ce ne sont là que quelques-unes des tâches de manipulation de données simplifiées avec Pandas. Les Data Scientists considèrent Pandas comme le meilleur outil disponible pour l'analyse et la manipulation des données.

Quelles sont certaines des fonctionnalités essentielles fournies par Python Pandas ?

Pour exploiter la véritable puissance de la bibliothèque Pandas en Python, vous devez explorer certaines des fonctionnalités essentielles proposées aux utilisateurs. En ce qui concerne l'analyse des données, Pandas est considéré comme l'outil le plus puissant avec de nombreuses fonctionnalités pour faciliter les choses pour les utilisateurs.

Certaines des fonctionnalités essentielles que vous devez connaître avant de commencer à utiliser la bibliothèque Pandas sont :

1. Traitement des données
2. Alignement et indexation des données
3. Nettoyage des données
4. Traitement des données manquantes
5. Divers outils d'entrée et de sortie pour lire et écrire des données
6. Prend en charge plusieurs formats de fichiers
7. Fusionner et joindre différents ensembles de données
8. Optimisation des performances
9. Visualisation des données
10. Regroupement des données selon les besoins
11. Effectuer différentes opérations mathématiques sur les données disponibles
12. Masquer les données non pertinentes pour n'utiliser que les données requises
13. Extraire des données uniques de diverses répétitions dans l'ensemble de données

Quelle est la raison de l'importation de la bibliothèque Pandas en Python ?

Pandas est une bibliothèque Python open source qui est la plus largement utilisée pour effectuer diverses tâches d'analyse de données, de science des données et d'apprentissage automatique. Pandas est le package le plus populaire pour la gestion des données, et il fonctionne assez bien avec divers autres modules de science des données de l'écosystème Python. La bibliothèque Pandas est la première préférence pour tout ce qui concerne les données pour tous les professionnels de la science des données et de l'analyse des données.