Boxplot-Visualisierung mit Pandas [Umfassende Anleitung]
Veröffentlicht: 2020-09-03Während Sie sich mit einem statistischen Datenanalyseprojekt befassen, gibt es viele nützliche Tools, die Sie anwenden können. Die Grundidee besteht darin, die Frage zu identifizieren und die notwendige Funktion zu verwenden, um diese Frage zu beantworten. Wenn beispielsweise die Datenverteilung angezeigt werden muss, besteht die ideale Antwort darin, eine Datenverteilungsfunktion zu zeichnen.
Wenn es notwendig ist, die Werte zu sehen und sie mit den Werten der anderen Spalten zu vergleichen, ist es am besten, ein Balkendiagramm oder ein Histogramm zu zeichnen. Was aber, wenn eine statistische Abfrage erfüllt werden muss? Der Trend kann in einer Verteilungsfunktion beobachtet werden, aber es gibt keinen einfachen Ausweg, wenn wir ein bestimmtes Perzentil von Daten überprüfen müssen. Sehen Sie sich unsere Data-Science-Schulungen von anerkannten Universitäten an, um sich einen Vorteil gegenüber der Konkurrenz zu verschaffen.
Boxplot kommt als Lösung für das obige Problem. Boxplots werden verwendet, um die Perzentilwerte des Attributs gemäß der Spalte zu beschreiben, gegen die es aufgetragen wird. Boxplot kann sowohl bei der regelbasierten Modellentwicklung als auch bei der explorativen Datenanalyse im Allgemeinen sehr aufschlussreich sein.
Boxplot befasst sich mit Quartilen.
Lassen Sie uns zuerst einen Pandas-Boxplot zeichnen und dann die Teile davon verstehen.
Inhaltsverzeichnis
Plotten eines Pandas-Boxplots
Um einen Pandas-Boxplot zu implementieren, gibt es nur zwei Voraussetzungen, Pandas und matplotlib. Die Verwendung von matplotlib besteht darin, die Diagramme zu visualisieren und die Diagramme im Jupyter-Notebook anzuzeigen.
So importieren wir beide Bibliotheken. Wir verwenden die Inline-Magic-Funktion, damit die Plots direkt im Notebook zu sehen sind.
Code:
pandas als pd importieren
importiere matplotlib.pyplot als plt
%matplotlib inline
Jetzt importieren wir unsere Daten und lesen sie in einen DataFrame ein. Hier ist, wie es geht.
Code:
data = pd.read_csv(“FIFA 2018 Statistik.csv”)
DataFrame ist die grundlegende Datenstruktur von Pandas. Hier sind die ersten fünf Beispiele unserer Daten.
Nachdem die Daten importiert wurden, können wir die Pandas-Boxplot -Funktion direkt über das DataFrame-Objekt verwenden. So verwenden Sie es:
Code:
data.boxplot(by=“Runde“, Spalte=['Erzieltes Tor'])
Die Pandas-Boxplot- Funktion benötigt zwei Argumente. Der 'by'-Parameter wird verwendet, um die X-Achse auszuwählen. Und die "Spalte" sind die Daten, die auf der Y-Achse dargestellt werden sollen.
Hier zeichnen wir die erzielten Tore pro Runde auf.
Hier ist die Handlung:
Checkout: Python-Interviewfragen
Lesen der Boxplots
Lassen Sie uns nun die Plots lesen. Verstehen Sie zunächst die Werte der Achse. Die Y-Achse zeigt die Anzahl der im Spiel erzielten Tore, und die X-Achse zeigt die Runden, in denen das Spiel gespielt wurde. Nehmen wir das Beispiel der Endrunde.
Wenn wir genau hinsehen, wird die Box irgendwo zwischen zwei und vier gemacht, mit der mittleren Linie bei drei. Die Box wird mit drei Werten gezeichnet – den 25., 50. und 75. Perzentilwerten. Die untere Linie des Diagramms bezeichnet das 25. Perzentil der im Spiel erzielten Tore, die mittlere das 50. Perzentil und die obere Linie das 75. Perzentil. Boxplot arbeitet also mit dem Interquartilbereich (IQR) von Daten.
Lesen Sie: Python-Pandas-Tutorial: Alles, was Anfänger über Python-Pandas wissen müssen
Jetzt ist noch etwas über und unter der Box gezeichnet. Diese Linien werden als Whisker bezeichnet. Daher wird Boxplot manchmal auch als Box-and-Whiskers-Plot bezeichnet.
Es gibt keinen eindeutigen Weg, um die Schnurrhaare zu zeichnen. Die gebräuchlichste Art, Whisker zu kennzeichnen, besteht darin, sie an den Mindest- und Höchstwerten in der Datenspalte zu markieren. Einige Bibliotheken wie Seaborn verwenden einen multiplikativen Wert des IQR, um die Schnurrhaare zu markieren. Pandas Boxplot verwendet die maximalen und minimalen Werte, um die Schnurrhaare zu markieren.

Wenn Sie bemerken, gibt es einige Punkte zwischen vier und sechs. Diese werden als Ausreißer bezeichnet. Boxplots sind in den regelbasierten Systemen als Fehlerberechnung einigermaßen nützlich oder können die Fehlklassifikationen schnell identifizieren. Wenn Sie beispielsweise in der Grafik nur zwischen den Runden um den dritten Platz und den Endrunden unterscheiden müssen, können Sie leicht ein regelbasiertes System erstellen, das Ihre Daten genau kategorisiert. Wenn zwischen null und zwei, markieren Sie die 3. Runde, und wenn zwischen zwei und vier, markieren Sie die letzte Runde.
Boxplots helfen dabei, die Gesamtverteilung der Datenspalten zu verstehen. Die Diagramme zeigen die Verteilungen anhand der Quartilswerte. Es erleichtert Ihnen die schnelle Analyse der Daten, da die Verteilung entsprechend gekennzeichnet ist. Die Schnurrhaare bezeichnen die verbleibenden Werte in der Spalte.
Fazit
Das untere Ende bezeichnet die Daten unter 25 %, während das obere Ende die über 75 % bezeichnet. Wenn es weniger Ausreißer gibt, können Pandas-Boxplots dabei helfen, diese schnell zu identifizieren. Alles in allem sind Boxplots bei der Datenanalyse unglaublich nützlich, wenn Sie sie richtig lesen können.
Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.
Welche Art von Daten werden durch einen Boxplot dargestellt?
Die Boxplot-Visualisierung wird häufig in der deskriptiven Statistik verwendet. Es ist ein Diagrammtyp, der häufig für die explorative Datenanalyse verwendet wird. Durch die Anzeige der Quartile (Prozentsätze) und Mittelwerte können die Boxplots die Verteilung numerischer Daten zusammen mit ihrer Schiefe visuell darstellen.
Die Zusammenfassung eines Datensatzes wird mit Hilfe von Boxplots in visueller Form unter fünf verschiedenen Kategorien dargestellt. Die Daten des Boxplots sind:
1. Mindestpunktzahl
2. Zuerst oder wir können das untere Quartil sagen
3. Median des Boxplots Drittes oder wir können das obere Quartil sagen
4.Maximale Punktzahl
Die Daten hier sind in verschiedene Abschnitte unterteilt, um die Darstellung der Daten zu vereinfachen und die Daten visuell leicht zu verstehen.
Warum sind Boxplots nützlich?
Die Arbeit von Boxplots besteht darin, einen Datensatz in verschiedene Abschnitte zu unterteilen, wobei jeder Abschnitt ungefähr 25 % der Daten enthält. Boxplots erweisen sich als sehr nützlich, da sie eine visuelle Zusammenfassung der vorhandenen Daten liefern. Auf diese Weise können die Forscher die Mittelwerte leicht identifizieren, die Schiefezeichen finden und die Streuung der Datensätze kennen.
Der Boxplot kann Ihnen ein visuelles Bild liefern, um zu sehen, ob der statistische Datensatz schief oder normalverteilt ist. Bei einer Normalverteilung liegt der Median in der Mitte der Box und die Box ist symmetrisch. Andererseits ist die Box asymmetrisch, und der Median liegt bei einer schiefen Verteilung am unteren oder oberen Rand der Box.
Können wir Pandas für die Datenvisualisierung verwenden?
Pandas ist bekanntermaßen die nützlichste Bibliothek in der Python-Sprache, wenn es um Data Science geht. Pandas erweist sich als sehr hilfreich beim Bearbeiten, Importieren und auch beim Bereinigen der Datensätze. Abgesehen davon wird Pandas auch häufig für die Datenvisualisierung verwendet.
In der Datenvisualisierung wird Pandas zum Zeichnen verschiedener grundlegender Diagramme verwendet. Die Funktionalitäten dieser Bibliothek finden sich auch in der Visualisierung von Zeitreihendaten wieder. Mit einfachen Worten kann gesagt werden, dass Sie Pandas in der Datenvisualisierung verwenden sollten, wenn Sie einen einfachen Balken, Zähldiagramme oder Linien zeichnen möchten.