Visualisation en boîte à moustaches avec des pandas [Guide complet]

Publié: 2020-09-03

Tout en traitant de tout projet d'analyse de données statistiques, il existe de nombreux outils pratiques que vous pouvez appliquer. L'idée de base est d'identifier la question et d'utiliser la fonction nécessaire pour répondre à cette question. Par exemple, si la distribution des données doit être vue, la réponse idéale est de tracer une fonction de distribution des données.

S'il est nécessaire de voir les valeurs et de les comparer avec la valeur des autres colonnes, la meilleure façon est de tracer un graphique à barres ou un histogramme. Mais que se passe-t-il si une requête statistique doit être satisfaite ? La tendance peut être observée dans une fonction de distribution, mais il n'y a pas d'issue facile si nous devons vérifier un centile spécifique de données. Découvrez nos formations en science des données dispensées par des universités reconnues pour prendre l'avantage sur la concurrence.

Boxplot vient comme une solution au problème ci-dessus. Les boîtes à moustaches sont utilisées pour décrire les valeurs de centiles de l'attribut, selon la colonne sur laquelle elles sont tracées. Boxplot peut être très perspicace dans l'ingénierie des modèles basés sur des règles ainsi que dans l'analyse exploratoire des données en général.

Boxplot traite des quartiles.

Commençons par tracer une boîte à moustaches de pandas , puis comprenons-en les parties.

Table des matières

Tracer une boîte à moustaches Pandas

Pour implémenter un boxplot pandas, il n'y a que deux exigences, Pandas et matplotlib. L'utilisation de matplotlib consiste à visualiser les tracés et à voir les tracés à l'intérieur du cahier Jupyter.

Voici comment nous importons les deux bibliothèques. Nous utilisons la fonction magique en ligne pour que les tracés puissent être vus directement à l'intérieur du cahier.

Code:

importer des pandas en tant que pd

importer matplotlib.pyplot en tant que plt

%matplotlib en ligne

Maintenant, nous importons nos données et les lisons dans un DataFrame. Voici comment faire.

Code:

data = pd.read_csv(“Statistiques FIFA 2018.csv”)

DataFrame est la structure de données fondamentale de Pandas. Voici les cinq premiers échantillons de nos données.

Une fois les données importées, nous pouvons directement utiliser la fonction pandas boxplot sur l'objet DataFrame. Voici comment l'utiliser :

Code:

data.boxplot(by=”Round”, column=['But marqué'])

La fonction pandas boxplot prend deux arguments. Le paramètre 'by' est utilisé pour sélectionner l'axe X. Et la 'colonne' est les données à tracer sur l'axe Y.

Ici, nous traçons les buts marqués par tour.

Voici l'intrigue :

Paiement : Questions d'entretien Python

Lecture des boîtes à moustaches

Lisons maintenant les tracés. Tout d'abord, comprenez les valeurs de l'axe. L'axe Y indique le nombre de buts marqués dans le match et l'axe X indique les tours dans lesquels le match a été joué. Prenons l'exemple du tour final.

Si nous observons attentivement, la boîte est faite quelque part entre deux et quatre, avec la ligne médiane à trois. La boîte est tracée à l'aide de trois valeurs - les valeurs des 25e, 50e et 75e centiles. La ligne inférieure du graphique indique le 25e centile des buts marqués dans le match, le milieu indique le 50e centile et la ligne supérieure indique le 75e centile. Ainsi, la boîte à moustaches fonctionne avec l'intervalle interquartile (IQR) des données.

Lire : Tutoriel Python Pandas : Tout ce que les débutants doivent savoir sur Python Pandas

Maintenant, il y a encore une chose dessinée au-dessus et en dessous de la boîte. Ces lignes sont connues sous le nom de moustaches. Par conséquent, la boîte à moustaches est parfois également connue sous le nom de boîte à moustaches.

Il n'y a pas de façon unique de tracer les moustaches. La façon la plus courante de désigner les moustaches consiste à les marquer aux valeurs minimale et maximale dans la colonne de données. Certaines librairies comme seaborn utilisent une valeur multiplicative de l'IQR pour marquer les moustaches. La boîte à moustaches des pandas utilise les valeurs maximales et minimales pour marquer les moustaches.

Si vous remarquez, il y a des points entre quatre et six. Ceux-ci sont connus comme des valeurs aberrantes. Les boîtes à moustaches sont raisonnablement utiles dans les systèmes basés sur des règles en tant que calcul d'erreur, ou peuvent identifier rapidement les erreurs de classification. Par exemple, dans le graphique, si vous avez seulement besoin de faire la distinction entre les tours de la 3e place et les tours finaux, vous pouvez facilement créer un système basé sur des règles, qui catégorisera avec précision vos données. Si entre zéro et deux, marquez le 3ème tour, et si entre deux et quatre, marquez le dernier tour.

Les boîtes à moustaches aident à comprendre la distribution globale des colonnes de données. Les graphiques montrent les distributions en utilisant les valeurs de quartile. Il vous est plus facile d'analyser rapidement les données, car la distribution a été marquée de manière appropriée. Les moustaches indiquent les valeurs restantes dans la colonne.

Conclusion

L'extrémité inférieure indique les données inférieures à 25 %, tandis que l'extrémité supérieure indique les données supérieures à 75 %. Si les valeurs aberrantes sont moindres, les boîtes à moustaches de pandas peuvent aider à les identifier rapidement. Dans l'ensemble, si vous pouvez les lire correctement, les boîtes à moustaches sont incroyablement utiles dans l'analyse des données.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quel type de données est représentée par une boîte à moustaches ?

La visualisation en boîte à moustaches est très utilisée dans les statistiques descriptives. C'est un type de graphique qui est souvent utilisé pour l'analyse exploratoire des données. En affichant les quartiles (pourcentages) et les moyennes, les boîtes à moustaches peuvent représenter visuellement la distribution des données numériques ainsi que leur asymétrie.

Le résumé d'un ensemble de données est affiché à l'aide de boîtes à moustaches au format visuel sous cinq catégories différentes. Les données fournies par le box plot sont :

1. Note minimale
2. D'abord ou nous pouvons dire le quartile inférieur
3. Médiane de la boîte à moustaches Troisième ou nous pouvons dire le quartile supérieur
4.Note maximale

Les données ici sont divisées en différentes sections pour faciliter la représentation des données et la compréhension visuelle des données assez facilement.

Pourquoi les boîtes à moustaches sont-elles utiles ?

Le travail des boîtes à moustaches consiste à diviser un jeu de données en différentes sections, chaque section contenant environ 25 % des données. Les boîtes à moustaches se révèlent vraiment utiles car elles fournissent un résumé visuel des données présentes. Cela permet aux chercheurs d'identifier facilement les valeurs moyennes, de trouver les signes d'asymétrie et de connaître la dispersion des ensembles de données.

La boîte à moustaches peut vous fournir une image visuelle pour voir si l'ensemble de données statistiques est asymétrique ou normalement distribué. S'il est normalement distribué, la médiane sera au milieu de la boîte et la boîte sera symétrique. En revanche, la boîte sera asymétrique, et la médiane sera vers le bas ou le haut de la boîte lorsque la distribution est biaisée.

Pouvons-nous utiliser Pandas pour la visualisation de données ?

Pandas est connue pour être la bibliothèque la plus utile en langage Python en matière de Data Science. Pandas s'avère très utile pour manipuler, importer et également nettoyer les ensembles de données. En dehors de cela, Pandas est également largement utilisé pour la visualisation de données.

Dans la visualisation de données, Pandas est utilisé pour tracer différents tracés de base. Les fonctionnalités de cette bibliothèque se retrouvent également dans la visualisation de données de séries temporelles. En termes simples, on peut dire que si vous souhaitez tracer une simple barre, compter des tracés ou des lignes, vous devez utiliser Pandas dans la visualisation des données.