Principales bibliothèques de visualisation de données Python que vous devez connaître

Publié: 2020-03-20

Python peut faire beaucoup de choses avec des données. Et l'une de ses nombreuses capacités est la visualisation. Il a plusieurs bibliothèques que vous pouvez utiliser à cette fin. Dans cet article, nous examinerons certaines de ses principales bibliothèques et les différents graphiques que vous pouvez tracer à travers elles.

Table des matières

Visualisation de données Python
- Bibliothèques de visualisation de données Python
  - Matplotlib
    - Graphique en ligne
    - Nuage de points
    - Histogramme
    - Diagramme à bandes
  - Pandas
    - Diagramme à bandes
    - Graphique en ligne
    - Nuage de points
    - Histogramme
  - Né en mer
    - Graphique en ligne
    - Nuage de points
    - Diagramme à bandes
- Autres types de visualisation de données en Python
  - Diagramme circulaire
  - Boîtes à moustaches
Conclusion
Quelles sont les meilleures bibliothèques de visualisation de données en Python ?
Quelle est l'une des meilleures bibliothèques de traçage en Python ?
Quelle est la bibliothèque de visualisation de données par défaut pour les data scientists ?

Visualisation de données Python

Nous avons partagé plusieurs exemples dans cet article, assurez-vous de les essayer en utilisant un ensemble de données. Commençons:

Bibliothèques de visualisation de données Python

Python possède de nombreuses bibliothèques pour créer de beaux graphiques. Ils ont tous diverses fonctionnalités qui améliorent leurs performances et leurs capacités. Et ils sont disponibles pour tous les niveaux de compétence. Cela signifie que vous pouvez effectuer une visualisation de données en Python, que vous soyez un programmeur débutant ou avancé. Voici quelques bibliothèques importantes :

Né en mer
Matplotlib
Pandas

Il existe de nombreuses autres bibliothèques Python pour la science des données , mais nous nous sommes concentrés sur les principales pour le moment. Nous allons maintenant discuter de ces différentes bibliothèques et comprendre comment vous pouvez tracer des graphiques en les utilisant avec Python. Commençons.

Matplotlib

La bibliothèque Python la plus populaire pour tracer des graphiques est Matplotlib. Cela ne demande pas beaucoup d'expérience, et pour les débutants, c'est parfait. Vous pouvez commencer à apprendre la visualisation de données grâce à cette bibliothèque et maîtriser une variété de graphiques et de visualisations. Cela vous donne beaucoup de liberté, mais vous devrez également écrire beaucoup de code.

Les gens utilisent Matplotlib pour des visualisations simples telles que des graphiques à barres et des histogrammes.

Lire : Data Frames en Python

Graphique en ligne

Pour créer un graphique linéaire, vous devez utiliser la méthode 'plot'. En bouclant les colonnes, vous pouvez créer plusieurs colonnes dans votre graphique. Utilisez le code suivant à cet effet :

# obtenir les colonnes à tracer

colonnes = iris.columns.drop(['classe'])

# créer x données

x_data = range(0, iris.forme[0])

# créer une figure et un axe

fig, ax = plt.subplots()

# tracer chaque colonne

pour colonne dans colonnes :

ax.plot(x_data, iris[column], label=column)

# définir le titre et la légende

ax.set_title('Jeu de données Iris')

hache.légende()

Nuage de points

Vous pouvez créer un nuage de points en utilisant la méthode 'scatter'. Vous devez créer un axe et une figure via 'plt.subplots' pour donner à vos parcelles des étiquettes et un titre.

Utilisez le code suivant :

# créer une figure et un axe

fig, ax = plt.subplots()

# disperser le sepal_length contre le sepal_width

ax.scatter(iris['sepal_length'], iris['sepal_width'])

# définir un titre et des étiquettes

ax.set_title('Jeu de données Iris')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

Vous pouvez ajouter de la couleur aux points de données en fonction de leurs classes. À cette fin, vous devrez créer un dictionnaire qui mappera de la classe à la couleur. Il disperserait également chaque point en utilisant une boucle for.

# créer un dictionnaire de couleurs

couleurs = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}

# créer une figure et un axe

fig, ax = plt.subplots()

# tracer chaque point de données

pour je dans range(len(iris['sepal_length'])):

ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])

# définir un titre et des étiquettes

ax.set_title('Jeu de données Iris')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

Histogramme

Vous pouvez utiliser la méthode 'hist' pour créer un histogramme dans Matplotlib. Il peut calculer la fréquence à laquelle chaque classe se produit si nous lui donnons des données catégorielles. Voici le code que vous devez utiliser pour tracer un histogramme dans Matplotlib :

# créer une figure et un axe

fig, ax = plt.subplots()

# tracer l'histogramme

ax.hist(avis_vin['points'])

# définir le titre et les étiquettes

ax.set_title('Notes des critiques de vins')

ax.set_xlabel('Points')

ax.set_ylabel('Fréquence')

Diagramme à bandes

Matplotlib propose des méthodes simples pour tracer différents graphiques. Par exemple, dans ce cas, pour créer un graphique à barres dans Matplotlib, vous devrez utiliser "bar". Il ne peut pas calculer automatiquement la fréquence des catégories, vous devrez donc utiliser la fonction 'value_counts' pour résoudre ce problème. Si vos données n'ont pas beaucoup de types, alors le graphique à barres serait parfait pour sa visualisation.

# créer une figure et un axe

fig, ax = plt.subplots()

# compter l'occurrence de chaque classe

data = wine_reviews['points'].value_counts()

# obtenir les données x et y

points = data.index

fréquence = data.values

# créer un graphique à barres

ax.bar(points, fréquence)

# définir le titre et les étiquettes

ax.set_title('Notes des critiques de vins')

ax.set_xlabel('Points')

ax.set_ylabel('Fréquence')

Pandas

Pandas est une bibliothèque Python populaire pour l'analyse et la manipulation de données. C'est une bibliothèque open-source, vous pouvez donc l'utiliser gratuitement. Il est entré sur le marché en 2008, et depuis lors, il est devenu l'une des bibliothèques les plus populaires pour la structuration des données.

En utilisant le bloc de données pandas, vous pouvez facilement créer des tracés pour vos données. Son API est plus avancée que Matplotlib. Cela signifie que vous pouvez créer des graphiques avec moins de code dans Pandas que vous ne le feriez dans Matplotlib.

Diagramme à bandes

Dans Pandas, vous devrez utiliser la méthode 'plot.bar()' pour tracer un graphique à barres. Tout d'abord, vous devrez compter les occurrences dans votre tracé via 'value_count()', puis les trier avec 'sort_index()'. Voici un exemple de code pour créer un graphique à barres :

random_reviews['points'].value_counts().sort_index().plot.bar()

Vous pouvez utiliser la méthode 'plot.barh()' pour créer un graphique à barres horizontales dans Pandas :

random_reviews['points'].value_counts().sort_index().plot.barh()

Vous pouvez également tracer les données en fonction du nombre d'occurrences :

random_reviews.groupby("country").price.mean().sort_values(ascending=False)[:5].plot.bar()

Graphique en ligne

Vous devrez utiliser '<dataframe>.plot.line()' pour créer un graphique linéaire dans Pandas, dans Pandas, vous n'aurez pas besoin de parcourir chaque colonne dont vous avez besoin pour tracer car il peut le faire automatiquement. Cette fonctionnalité n'est pas disponible dans Matplotlib. Voici le code :

random.drop(['class'], axis=1).plot.line(title='Random Dataset')

Nuage de points

Vous pouvez créer un nuage de points dans Pandas en utilisant "<dataset>.plot.scatter()". Vous auriez besoin de lui passer deux arguments, qui sont les noms de la colonne x et de la colonne y.

Voici son exemple :

random.plot.scatter(x='sepal_length', y='sepal_width', title=”Random Dataset')

Histogramme

Utilisez 'plot.hist' pour créer un histogramme dans Pandas. En dehors de cela, il n'y a pas grand-chose dans cette méthode. Vous avez la possibilité de créer un seul histogramme ou plusieurs histogrammes.

Pour créer un histogramme, utilisez le code suivant :

random_reviews['points'].plot.hist()

Pour créer plusieurs histogrammes, utilisez ceci :

random.plot.hist(subplots=True, layout=(2,2), figsize=(10, 10), bins=20)

Né en mer

Seaborn est basé sur Matplotlib et est également une bibliothèque Python assez populaire pour la visualisation de données. Il vous donne des interfaces avancées pour tracer vos données. Il a de nombreuses fonctionnalités. Ses capacités avancées vous permettent de créer de superbes graphiques avec beaucoup moins de lignes de code que ce dont vous auriez besoin avec Matplotlib.

Histogramme

Graphique en ligne

Vous pouvez utiliser la méthode 'sns.line plot' pour créer un graphique linéaire dans Seaborn. Vous pouvez utiliser la méthode 'sns.kdeplot' pour arrondir les bords des courbes des lignes. Cela garde votre tracé assez propre s'il contient beaucoup de valeurs aberrantes.

sns.lineplot(data=random.drop(['class'], axe=1))

Nuage de points

Dans Seaborn, vous pouvez créer un nuage de points grâce à la méthode '.scatterplot'. Vous devrez ajouter les noms des colonnes x et y dans ce cas, comme nous l'avons fait avec Pandas. Mais il y a une différence. Nous ne pouvons pas appeler la fonction sur les données comme nous l'avons fait dans Pandas, nous devrons donc la transmettre comme argument supplémentaire.

sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)

En utilisant l'argument 'teinte', vous pouvez également mettre en évidence des points spécifiques. Cette fonctionnalité n'est pas aussi simple dans Matplotlib.

sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)

Diagramme à bandes

Vous pouvez utiliser la méthode 'sns.countplot' pour créer un graphique à barres dans Seaborn :

sns.countplot(random_reviews['points'])

Maintenant que nous avons discuté des bibliothèques critiques pour la visualisation de données en Python, nous pouvons jeter un œil à d'autres formes de graphiques. Python et ses bibliothèques vous permettent de créer différents types de figures pour tracer vos données.

Autres types de visualisation de données en Python

Diagramme circulaire

Les graphiques à secteurs affichent les données dans différentes sections d'un cercle. Vous avez dû voir plein de camemberts à l'école. Les graphiques circulaires représentent les données en pourcentages. La somme totale de tous les segments d'un camembert doit être égale à 100 %. Voici l'exemple de code :

plt.pie(df['Âge'], labels = {"A", "B", "C",

"D", "E", "F",

"G", "H", "I", "J"},

autopct ='% 1.1f %%', shadow = Vrai)

plt.show()

plt.pie(df['Revenu'], labels = {"A", "B", "C",

"D", "E", "F",

"G", "H", "I", "J"},

autopct ='% 1.1f %%', shadow = Vrai)

plt.show()

plt.pie(df['Sales'], labels = {"A", "B", "C",

"D", "E", "F",

"G", "H", "I", "J"},

autopct ='% 1.1f %%', shadow = Vrai)

plt.show()

Boîtes à moustaches

Les boîtes à moustaches sont basées sur le minimum, le premier quartile, la médiane, le troisième quartile et un maximum des données statistiques. Le graphique ressemble à une boîte (plus précisément, un rectangle). C'est pourquoi il porte le nom de "boîte à moustaches". Voici un exemple de code pour créer un graphique en boîte :

# Pour chaque attribut numérique de la trame de données

df.plot.box()

# boîte à moustaches d'attributs individuels

plt.boxplot(df['Revenu'])

plt.show()

Lisez également : Top 10 des outils Python que chaque développeur Python devrait connaître

Conclusion

Nous espérons que vous avez trouvé cet article utile. Il existe de nombreux types de graphiques que vous pouvez tracer via Python et ses différentes bibliothèques. Si vous n'avez jamais effectué de visualisation de données Python auparavant, vous devez commencer par Matplotlib. Après l'avoir maîtrisé, vous pouvez passer à des bibliothèques de visualisation de données plus complexes et avancées telles que Pandas et Seaborn.

Si vous êtes curieux d'en savoir plus sur python, la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1-on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quelles sont les meilleures bibliothèques de visualisation de données en Python ?

La visualisation des données est considérée comme une partie extrêmement importante de l'analyse des données. En effet, il n'y a pas de meilleur moyen que de comprendre plusieurs tendances de données et informations dans un format visuel. Si vous présentez les données de votre entreprise sous forme écrite, les gens pourraient trouver cela ennuyeux. Mais, si vous présentez la même chose dans un format visuel, les gens vont certainement y prêter plus d'attention.

Pour simplifier le processus de visualisation des données, il existe certaines bibliothèques en Python pour vous aider. Vous ne pouvez pas en dire un en particulier comme étant le meilleur, car cela dépendra entièrement des exigences. Certaines des meilleures bibliothèques de visualisation de données en Python sont matplotlib, plotly, seaborn, GGplot et altair.

Quelle est l'une des meilleures bibliothèques de traçage en Python ?

Il y en a beaucoup pour vous faciliter le travail en matière de visualisation de données et de bibliothèques de traçage. On a vu que parmi toutes les bibliothèques disponibles, Matplotlib est considérée comme la meilleure par les utilisateurs.

Matplotlib occupe moins d'espace et a également un meilleur temps d'exécution. En dehors de cela, il fournit également une API orientée objet qui permet aux utilisateurs de tracer des graphiques dans l'application elle-même. Matplotlib prend également en charge de nombreux types de sortie, en plus d'être gratuit et open-source.

Quelle est la bibliothèque de visualisation de données par défaut pour les data scientists ?

Si vous aimez la science des données, il y a de fortes chances que vous ayez déjà utilisé la bibliothèque Matplotlib. Il a été constaté que les débutants aux professionnels expérimentés préfèrent utiliser cette bibliothèque pour créer des visualisations de données complexes.

La principale raison de son énorme considération est la quantité de flexibilité qu'elle offre aux utilisateurs en tant que bibliothèque de traçage 2D. Si vous avez une formation MATLAB, vous pourrez remarquer que l'interface Pyplot de Matplotlib vous est assez familière. Ainsi, vous n'aurez pas besoin de beaucoup de temps pour lancer votre première visualisation. L'utilisateur peut contrôler l'intégralité de la visualisation dans Matplotlib à partir du niveau le plus granulaire.