Principales bibliothèques de visualisation de données Python que vous devez connaître
Publié: 2020-03-20Python peut faire beaucoup de choses avec des données. Et l'une de ses nombreuses capacités est la visualisation. Il a plusieurs bibliothèques que vous pouvez utiliser à cette fin. Dans cet article, nous examinerons certaines de ses principales bibliothèques et les différents graphiques que vous pouvez tracer à travers elles.
Table des matières
Visualisation de données Python
Nous avons partagé plusieurs exemples dans cet article, assurez-vous de les essayer en utilisant un ensemble de données. Commençons:
Bibliothèques de visualisation de données Python
Python possède de nombreuses bibliothèques pour créer de beaux graphiques. Ils ont tous diverses fonctionnalités qui améliorent leurs performances et leurs capacités. Et ils sont disponibles pour tous les niveaux de compétence. Cela signifie que vous pouvez effectuer une visualisation de données en Python, que vous soyez un programmeur débutant ou avancé. Voici quelques bibliothèques importantes :
- Né en mer
- Matplotlib
- Pandas
Il existe de nombreuses autres bibliothèques Python pour la science des données , mais nous nous sommes concentrés sur les principales pour le moment. Nous allons maintenant discuter de ces différentes bibliothèques et comprendre comment vous pouvez tracer des graphiques en les utilisant avec Python. Commençons.
Matplotlib
La bibliothèque Python la plus populaire pour tracer des graphiques est Matplotlib. Cela ne demande pas beaucoup d'expérience, et pour les débutants, c'est parfait. Vous pouvez commencer à apprendre la visualisation de données grâce à cette bibliothèque et maîtriser une variété de graphiques et de visualisations. Cela vous donne beaucoup de liberté, mais vous devrez également écrire beaucoup de code.
Les gens utilisent Matplotlib pour des visualisations simples telles que des graphiques à barres et des histogrammes.
Lire : Data Frames en Python
Graphique en ligne
Pour créer un graphique linéaire, vous devez utiliser la méthode 'plot'. En bouclant les colonnes, vous pouvez créer plusieurs colonnes dans votre graphique. Utilisez le code suivant à cet effet :
# obtenir les colonnes à tracer
colonnes = iris.columns.drop(['classe'])
# créer x données
x_data = range(0, iris.forme[0])
# créer une figure et un axe
fig, ax = plt.subplots()
# tracer chaque colonne
pour colonne dans colonnes :
ax.plot(x_data, iris[column], label=column)
# définir le titre et la légende
ax.set_title('Jeu de données Iris')
hache.légende()
Nuage de points
Vous pouvez créer un nuage de points en utilisant la méthode 'scatter'. Vous devez créer un axe et une figure via 'plt.subplots' pour donner à vos parcelles des étiquettes et un titre.
Utilisez le code suivant :
# créer une figure et un axe
fig, ax = plt.subplots()
# disperser le sepal_length contre le sepal_width
ax.scatter(iris['sepal_length'], iris['sepal_width'])
# définir un titre et des étiquettes
ax.set_title('Jeu de données Iris')
ax.set_xlabel('sepal_length')
ax.set_ylabel('sepal_width')
Vous pouvez ajouter de la couleur aux points de données en fonction de leurs classes. À cette fin, vous devrez créer un dictionnaire qui mappera de la classe à la couleur. Il disperserait également chaque point en utilisant une boucle for.
# créer un dictionnaire de couleurs
couleurs = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}
# créer une figure et un axe
fig, ax = plt.subplots()
# tracer chaque point de données
pour je dans range(len(iris['sepal_length'])):
ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])
# définir un titre et des étiquettes
ax.set_title('Jeu de données Iris')
ax.set_xlabel('sepal_length')
ax.set_ylabel('sepal_width')
Histogramme
Vous pouvez utiliser la méthode 'hist' pour créer un histogramme dans Matplotlib. Il peut calculer la fréquence à laquelle chaque classe se produit si nous lui donnons des données catégorielles. Voici le code que vous devez utiliser pour tracer un histogramme dans Matplotlib :
# créer une figure et un axe
fig, ax = plt.subplots()
# tracer l'histogramme
ax.hist(avis_vin['points'])
# définir le titre et les étiquettes
ax.set_title('Notes des critiques de vins')
ax.set_xlabel('Points')
ax.set_ylabel('Fréquence')
Diagramme à bandes
Matplotlib propose des méthodes simples pour tracer différents graphiques. Par exemple, dans ce cas, pour créer un graphique à barres dans Matplotlib, vous devrez utiliser "bar". Il ne peut pas calculer automatiquement la fréquence des catégories, vous devrez donc utiliser la fonction 'value_counts' pour résoudre ce problème. Si vos données n'ont pas beaucoup de types, alors le graphique à barres serait parfait pour sa visualisation.
# créer une figure et un axe
fig, ax = plt.subplots()
# compter l'occurrence de chaque classe
data = wine_reviews['points'].value_counts()
# obtenir les données x et y
points = data.index
fréquence = data.values
# créer un graphique à barres
ax.bar(points, fréquence)
# définir le titre et les étiquettes
ax.set_title('Notes des critiques de vins')
ax.set_xlabel('Points')
ax.set_ylabel('Fréquence')
Pandas
Pandas est une bibliothèque Python populaire pour l'analyse et la manipulation de données. C'est une bibliothèque open-source, vous pouvez donc l'utiliser gratuitement. Il est entré sur le marché en 2008, et depuis lors, il est devenu l'une des bibliothèques les plus populaires pour la structuration des données.
En utilisant le bloc de données pandas, vous pouvez facilement créer des tracés pour vos données. Son API est plus avancée que Matplotlib. Cela signifie que vous pouvez créer des graphiques avec moins de code dans Pandas que vous ne le feriez dans Matplotlib.
Diagramme à bandes
Dans Pandas, vous devrez utiliser la méthode 'plot.bar()' pour tracer un graphique à barres. Tout d'abord, vous devrez compter les occurrences dans votre tracé via 'value_count()', puis les trier avec 'sort_index()'. Voici un exemple de code pour créer un graphique à barres :
random_reviews['points'].value_counts().sort_index().plot.bar()
Vous pouvez utiliser la méthode 'plot.barh()' pour créer un graphique à barres horizontales dans Pandas :
random_reviews['points'].value_counts().sort_index().plot.barh()

Vous pouvez également tracer les données en fonction du nombre d'occurrences :
random_reviews.groupby("country").price.mean().sort_values(ascending=False)[:5].plot.bar()
Graphique en ligne
Vous devrez utiliser '<dataframe>.plot.line()' pour créer un graphique linéaire dans Pandas, dans Pandas, vous n'aurez pas besoin de parcourir chaque colonne dont vous avez besoin pour tracer car il peut le faire automatiquement. Cette fonctionnalité n'est pas disponible dans Matplotlib. Voici le code :
random.drop(['class'], axis=1).plot.line(title='Random Dataset')
Nuage de points
Vous pouvez créer un nuage de points dans Pandas en utilisant "<dataset>.plot.scatter()". Vous auriez besoin de lui passer deux arguments, qui sont les noms de la colonne x et de la colonne y.
Voici son exemple :
random.plot.scatter(x='sepal_length', y='sepal_width', title=”Random Dataset')
Histogramme
Utilisez 'plot.hist' pour créer un histogramme dans Pandas. En dehors de cela, il n'y a pas grand-chose dans cette méthode. Vous avez la possibilité de créer un seul histogramme ou plusieurs histogrammes.
Pour créer un histogramme, utilisez le code suivant :
random_reviews['points'].plot.hist()
Pour créer plusieurs histogrammes, utilisez ceci :
random.plot.hist(subplots=True, layout=(2,2), figsize=(10, 10), bins=20)
Né en mer
Seaborn est basé sur Matplotlib et est également une bibliothèque Python assez populaire pour la visualisation de données. Il vous donne des interfaces avancées pour tracer vos données. Il a de nombreuses fonctionnalités. Ses capacités avancées vous permettent de créer de superbes graphiques avec beaucoup moins de lignes de code que ce dont vous auriez besoin avec Matplotlib.
Histogramme
Graphique en ligne
Vous pouvez utiliser la méthode 'sns.line plot' pour créer un graphique linéaire dans Seaborn. Vous pouvez utiliser la méthode 'sns.kdeplot' pour arrondir les bords des courbes des lignes. Cela garde votre tracé assez propre s'il contient beaucoup de valeurs aberrantes.
sns.lineplot(data=random.drop(['class'], axe=1))
Nuage de points
Dans Seaborn, vous pouvez créer un nuage de points grâce à la méthode '.scatterplot'. Vous devrez ajouter les noms des colonnes x et y dans ce cas, comme nous l'avons fait avec Pandas. Mais il y a une différence. Nous ne pouvons pas appeler la fonction sur les données comme nous l'avons fait dans Pandas, nous devrons donc la transmettre comme argument supplémentaire.
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)
En utilisant l'argument 'teinte', vous pouvez également mettre en évidence des points spécifiques. Cette fonctionnalité n'est pas aussi simple dans Matplotlib.
sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
Diagramme à bandes
Vous pouvez utiliser la méthode 'sns.countplot' pour créer un graphique à barres dans Seaborn :
sns.countplot(random_reviews['points'])
Maintenant que nous avons discuté des bibliothèques critiques pour la visualisation de données en Python, nous pouvons jeter un œil à d'autres formes de graphiques. Python et ses bibliothèques vous permettent de créer différents types de figures pour tracer vos données.
Autres types de visualisation de données en Python
Diagramme circulaire
Les graphiques à secteurs affichent les données dans différentes sections d'un cercle. Vous avez dû voir plein de camemberts à l'école. Les graphiques circulaires représentent les données en pourcentages. La somme totale de tous les segments d'un camembert doit être égale à 100 %. Voici l'exemple de code :
plt.pie(df['Âge'], labels = {"A", "B", "C",
"D", "E", "F",
"G", "H", "I", "J"},
autopct ='% 1.1f %%', shadow = Vrai)
plt.show()
plt.pie(df['Revenu'], labels = {"A", "B", "C",
"D", "E", "F",
"G", "H", "I", "J"},
autopct ='% 1.1f %%', shadow = Vrai)
plt.show()
plt.pie(df['Sales'], labels = {"A", "B", "C",
"D", "E", "F",
"G", "H", "I", "J"},
autopct ='% 1.1f %%', shadow = Vrai)
plt.show()
Boîtes à moustaches
Les boîtes à moustaches sont basées sur le minimum, le premier quartile, la médiane, le troisième quartile et un maximum des données statistiques. Le graphique ressemble à une boîte (plus précisément, un rectangle). C'est pourquoi il porte le nom de "boîte à moustaches". Voici un exemple de code pour créer un graphique en boîte :
# Pour chaque attribut numérique de la trame de données
df.plot.box()
# boîte à moustaches d'attributs individuels
plt.boxplot(df['Revenu'])
plt.show()
Lisez également : Top 10 des outils Python que chaque développeur Python devrait connaître
Conclusion
Nous espérons que vous avez trouvé cet article utile. Il existe de nombreux types de graphiques que vous pouvez tracer via Python et ses différentes bibliothèques. Si vous n'avez jamais effectué de visualisation de données Python auparavant, vous devez commencer par Matplotlib. Après l'avoir maîtrisé, vous pouvez passer à des bibliothèques de visualisation de données plus complexes et avancées telles que Pandas et Seaborn.
Si vous êtes curieux d'en savoir plus sur python, la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1-on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.
Quelles sont les meilleures bibliothèques de visualisation de données en Python ?
La visualisation des données est considérée comme une partie extrêmement importante de l'analyse des données. En effet, il n'y a pas de meilleur moyen que de comprendre plusieurs tendances de données et informations dans un format visuel. Si vous présentez les données de votre entreprise sous forme écrite, les gens pourraient trouver cela ennuyeux. Mais, si vous présentez la même chose dans un format visuel, les gens vont certainement y prêter plus d'attention.
Pour simplifier le processus de visualisation des données, il existe certaines bibliothèques en Python pour vous aider. Vous ne pouvez pas en dire un en particulier comme étant le meilleur, car cela dépendra entièrement des exigences. Certaines des meilleures bibliothèques de visualisation de données en Python sont matplotlib, plotly, seaborn, GGplot et altair.
Quelle est l'une des meilleures bibliothèques de traçage en Python ?
Il y en a beaucoup pour vous faciliter le travail en matière de visualisation de données et de bibliothèques de traçage. On a vu que parmi toutes les bibliothèques disponibles, Matplotlib est considérée comme la meilleure par les utilisateurs.
Matplotlib occupe moins d'espace et a également un meilleur temps d'exécution. En dehors de cela, il fournit également une API orientée objet qui permet aux utilisateurs de tracer des graphiques dans l'application elle-même. Matplotlib prend également en charge de nombreux types de sortie, en plus d'être gratuit et open-source.
Quelle est la bibliothèque de visualisation de données par défaut pour les data scientists ?
Si vous aimez la science des données, il y a de fortes chances que vous ayez déjà utilisé la bibliothèque Matplotlib. Il a été constaté que les débutants aux professionnels expérimentés préfèrent utiliser cette bibliothèque pour créer des visualisations de données complexes.
La principale raison de son énorme considération est la quantité de flexibilité qu'elle offre aux utilisateurs en tant que bibliothèque de traçage 2D. Si vous avez une formation MATLAB, vous pourrez remarquer que l'interface Pyplot de Matplotlib vous est assez familière. Ainsi, vous n'aurez pas besoin de beaucoup de temps pour lancer votre première visualisation. L'utilisateur peut contrôler l'intégralité de la visualisation dans Matplotlib à partir du niveau le plus granulaire.