Die wichtigsten Python-Datenvisualisierungsbibliotheken, die Sie kennen sollten

Veröffentlicht: 2020-03-20

Python kann viele Dinge mit Daten machen. Und eine seiner vielen Fähigkeiten ist die Visualisierung. Es verfügt über mehrere Bibliotheken, die Sie für diesen Zweck verwenden können. In diesem Artikel werfen wir einen Blick auf einige der bekanntesten Bibliotheken und die verschiedenen Diagramme, die Sie durch sie zeichnen können.

Inhaltsverzeichnis

Python-Datenvisualisierung

Wir haben in diesem Artikel mehrere Beispiele geteilt, probieren Sie sie unbedingt anhand eines Datensatzes aus. Lass uns anfangen:

Python-Datenvisualisierungsbibliotheken

Python hat viele Bibliotheken, um schöne Graphen zu erstellen. Sie alle haben verschiedene Funktionen, die ihre Leistung und Fähigkeiten verbessern. Und sie sind für alle Könnerstufen verfügbar. Das bedeutet, dass Sie Datenvisualisierung in Python durchführen können, egal ob Sie Anfänger oder fortgeschrittener Programmierer sind. Im Folgenden sind einige prominente Bibliotheken aufgeführt:

  • Seegeboren
  • Matplotlib
  • Pandas

Es gibt viele andere Python-Bibliotheken für Data Science , aber wir haben uns vorerst auf die wichtigsten konzentriert. Wir werden nun diese verschiedenen Bibliotheken besprechen und verstehen, wie Sie Diagramme zeichnen können, indem Sie sie und Python verwenden. Lass uns anfangen.

Matplotlib

Die beliebteste Python-Bibliothek zum Zeichnen von Diagrammen ist Matplotlib. Es erfordert nicht viel Erfahrung, und für Anfänger ist es perfekt. Sie können über diese Bibliothek mit dem Erlernen der Datenvisualisierung beginnen und eine Vielzahl von Diagrammen und Visualisierungen beherrschen. Es gibt Ihnen viel Freiheit, aber Sie müssten auch viel Code schreiben.

Leute verwenden Matplotlib für einfache Visualisierungen wie Balkendiagramme und Histogramme.

Lesen Sie : Datenrahmen in Python

Liniendiagramm

Um ein Liniendiagramm zu erstellen, müssen Sie die „Plot“-Methode verwenden. Durch Schleifen der Spalten können Sie mehrere Spalten in Ihrem Diagramm erstellen. Verwenden Sie dazu folgenden Code:

# Spalten zum Plotten erhalten

Spalten = iris.columns.drop(['Klasse'])

# X-Daten erstellen

x_data = range(0, iris.shape[0])

# Figur und Achse erstellen

fig, ax = plt.subplots()

# Zeichnen Sie jede Spalte

für Spalte in Spalten:

ax.plot(x_data, Iris[Spalte], Label=Spalte)

# Titel und Legende festlegen

ax.set_title('Iris-Datensatz')

ax.legend()

Streudiagramm

Sie können ein Streudiagramm mit der 'scatter'-Methode erstellen. Sie sollten eine Achse und eine Figur durch 'plt.subplots' erstellen, um Ihren Diagrammbezeichnungen und einen Titel zu geben.

Verwenden Sie den folgenden Code:

# Erstellen Sie eine Figur und Achse

fig, ax = plt.subplots()

# streue die sepal_length gegen die sepal_width

ax.scatter(iris['sepal_length'], iris['sepal_width'])

# Legen Sie einen Titel und Labels fest

ax.set_title('Iris-Datensatz')

ax.set_xlabel('kelchblattlänge')

ax.set_ylabel('Sepal_width')

Sie können den Datenpunkten entsprechend ihrer Klassen Farbe hinzufügen. Zu diesem Zweck müssen Sie ein Wörterbuch erstellen, das von Klasse zu Farbe abbildet. Es würde jeden Punkt streuen, indem es auch eine for-Schleife verwendet.

# Farbwörterbuch erstellen

colors = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}

# Erstellen Sie eine Figur und Achse

fig, ax = plt.subplots()

# Plotten Sie jeden Datenpunkt

für i in range(len(iris['sepal_length'])):

ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])

# Legen Sie einen Titel und Labels fest

ax.set_title('Iris-Datensatz')

ax.set_xlabel('kelchblattlänge')

ax.set_ylabel('Sepal_width')

Histogramm

Sie können die 'hist'-Methode verwenden, um ein Histogramm in Matplotlib zu erstellen. Es kann berechnen, wie häufig jede Klasse auftritt, wenn wir ihr kategoriale Daten geben. Hier ist der Code, den Sie verwenden müssen, um ein Histogramm in Matplotlib zu zeichnen:

# Figur und Achse erstellen

fig, ax = plt.subplots()

# Plot-Histogramm

ax.hist(wine_reviews['Punkte'])

# Titel und Beschriftungen festlegen

ax.set_title('Bewertung der Weine')

ax.set_xlabel('Punkte')

ax.set_ylabel('Frequenz')

Balkendiagramm

Matplotlib bietet einfache Methoden zum Zeichnen verschiedener Diagramme. In diesem Fall müssen Sie beispielsweise zum Erstellen eines Balkendiagramms in Matplotlib „bar“ verwenden. Die Häufigkeit von Kategorien kann nicht automatisch berechnet werden, daher müssen Sie die Funktion „value_counts“ verwenden, um dieses Problem zu lösen. Wenn Ihre Daten nicht viele Typen haben, wäre das Balkendiagramm perfekt für die Visualisierung.

# Erstellen Sie eine Figur und Achse

fig, ax = plt.subplots()

# das Vorkommen jeder Klasse zählen

data = wine_reviews['Punkte'].value_counts()

# x- und y-Daten abrufen

Punkte = data.index

Häufigkeit = Daten.Werte

# Balkendiagramm erstellen

ax.bar(Punkte, Häufigkeit)

# Titel und Beschriftungen festlegen

ax.set_title('Bewertung der Weine')

ax.set_xlabel('Punkte')

ax.set_ylabel('Frequenz')

Pandas

Pandas ist eine Python-Bibliothek, die für Datenanalyse und -manipulation beliebt ist. Es ist eine Open-Source-Bibliothek, sodass Sie sie kostenlos verwenden können. Sie kam 2008 auf den Markt und hat sich seitdem zu einer der beliebtesten Bibliotheken für die Datenstrukturierung entwickelt.

Durch die Verwendung des Pandas-Datenrahmens können Sie ganz einfach Diagramme für Ihre Daten erstellen. Seine API ist fortschrittlicher als Matplotlib. Das bedeutet, dass Sie in Pandas Diagramme mit weniger Code erstellen können als in Matplotlib.

Balkendiagramm

In Pandas müssen Sie die Methode „plot.bar()“ verwenden, um ein Balkendiagramm zu zeichnen. Zuerst müssen Sie die Vorkommen in Ihrem Diagramm durch „value_count()“ zählen und sie dann mit „sort_index()“ sortieren. Hier ist ein Beispielcode zum Erstellen eines Balkendiagramms:

random_reviews['Punkte'].value_counts().sort_index().plot.bar()

Sie können die Methode 'plot.barh()' verwenden, um ein horizontales Balkendiagramm in Pandas zu erstellen:

random_reviews['Punkte'].value_counts().sort_index().plot.barh()

Sie können die Daten auch über die Anzahl der Vorkommen darstellen:

random_reviews.groupby(“Land”).price.mean().sort_values(ascending=False)[:5].plot.bar()

Liniendiagramm

Sie müssen '<dataframe>.plot.line()' verwenden, um ein Liniendiagramm in Pandas zu erstellen. In Pandas müssten Sie nicht jede Spalte durchlaufen, die Sie zeichnen müssen, da dies automatisch erfolgen kann. Diese Funktion ist in Matplotlib nicht verfügbar. Hier ist der Code:

random.drop(['class'], axis=1).plot.line(title='Random Dataset')

Streudiagramm

Sie können ein Streudiagramm in Pandas erstellen, indem Sie „<dataset>.plot.scatter()“ verwenden. Sie müssten ihm zwei Argumente übergeben, nämlich die Namen der x-Spalte und der y-Spalte.

Hier ist sein Beispiel:

random.plot.scatter(x='Sepal_length', y='Sepal_width', title=“Random Dataset')

Histogramm

Verwenden Sie 'plot.hist', um ein Histogramm in Pandas zu erstellen. Abgesehen davon gibt es nicht viel in dieser Methode. Sie haben die Möglichkeit, ein einzelnes Histogramm oder mehrere Histogramme zu erstellen.

Um ein Histogramm zu erstellen, verwenden Sie den folgenden Code:

random_reviews['Punkte'].plot.hist()

Um mehrere Histogramme zu erstellen, verwenden Sie Folgendes:

random.plot.hist(subplots=True, layout=(2,2), figsize=(10, 10), bins=20)

Seegeboren

Seaborn basiert auf Matplotlib und ist ebenfalls eine recht beliebte Python-Bibliothek zur Datenvisualisierung. Es bietet Ihnen erweiterte Schnittstellen zum Plotten Ihrer Daten. Es hat viele Funktionen. Seine erweiterten Funktionen ermöglichen es Ihnen, großartige Diagramme mit weitaus weniger Codezeilen zu erstellen, als Sie mit Matplotlib benötigen würden.

Histogramm

Liniendiagramm

Sie können die Methode „sns.line plot“ verwenden, um ein Liniendiagramm in Seaborn zu erstellen. Sie können die Methode 'sns.kdeplot' verwenden, um die Kanten der Kurven der Linien abzurunden. Es hält Ihr Diagramm ziemlich sauber, wenn es viele Ausreißer hat.

sns.lineplot(data=random.drop(['class'], axis=1))

Streudiagramm

In Seaborn können Sie mit der Methode „.scatterplot“ ein Streudiagramm erstellen. Sie müssen in diesem Fall die Namen der x- und y-Spalten hinzufügen, genau wie wir es bei Pandas getan haben. Aber es gibt einen Unterschied. Wir können die Funktion nicht wie in Pandas für die Daten aufrufen, also müssen wir sie als zusätzliches Argument übergeben.

sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)

Mit dem Argument „hue“ können Sie auch bestimmte Punkte hervorheben. Diese Funktion ist in Matplotlib nicht so einfach.

sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)

Balkendiagramm

Sie können die Methode „sns.countplot“ verwenden, um ein Balkendiagramm in Seaborn zu erstellen:

sns.countplot(random_reviews['Punkte'])

Nachdem wir nun die kritischen Bibliotheken für die Datenvisualisierung in Python besprochen haben, können wir uns andere Formen von Diagrammen ansehen. Python und seine Bibliotheken ermöglichen es Ihnen, verschiedene Arten von Abbildungen zu erstellen, um Ihre Daten darzustellen.

Andere Arten der Datenvisualisierung in Python

Kuchendiagramm

Tortendiagramme zeigen Daten in verschiedenen Abschnitten eines Kreises. Sie müssen in der Schule viele Tortendiagramme gesehen haben. Tortendiagramme stellen Daten in Prozent dar. Die Gesamtsumme aller Segmente eines Tortendiagramms sollte gleich 100 % sein. Hier ist der Beispielcode:

plt.pie(df['Alter'], Etiketten = {"A", "B", "C",

„D“, „E“, „F“,

„G“, „H“, „I“, „J“},

autopct ='% 1.1f %%', shadow = True)

plt.show()

plt.pie(df['Einkommen'], Etiketten = {"A", "B", "C",

„D“, „E“, „F“,

„G“, „H“, „I“, „J“},

autopct ='% 1.1f %%', shadow = True)

plt.show()

plt.pie(df['Verkäufe'], Etiketten = {"A", "B", "C",

„D“, „E“, „F“,

„G“, „H“, „I“, „J“},

autopct ='% 1.1f %%', shadow = True)

plt.show()

Boxplots

Boxplots basieren auf dem Minimum, dem ersten Quartil, dem Median, dem dritten Quartil und dem Maximum der statistischen Daten. Das Diagramm sieht aus wie ein Kasten (genauer gesagt ein Rechteck). Deshalb hat es den Namen „Boxplot“. Hier ist Beispielcode zum Erstellen eines Boxplot-Diagramms:

# Für jedes numerische Attribut des Datenrahmens

df.plot.box()

# Einzelattribut-Boxplot

plt.boxplot(df['Einkommen'])

plt.show()

Lesen Sie auch: Top 10 Python-Tools, die jeder Python-Entwickler kennen sollte

Fazit

Wir hoffen, Sie fanden diesen Artikel hilfreich. Es gibt viele Arten von Diagrammen, die Sie mit Python und seinen verschiedenen Bibliotheken zeichnen können. Wenn Sie noch keine Python-Datenvisualisierung durchgeführt haben, sollten Sie mit Matplotlib beginnen. Nachdem Sie es gemeistert haben, können Sie zu komplexeren und fortgeschritteneren Datenvisualisierungsbibliotheken wie Pandas und Seaborn übergehen.

Wenn Sie neugierig sind, mehr über Python und Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische praktische Workshops, Mentoring mit Branchenexperten, 1-on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Welches sind die besten Datenvisualisierungsbibliotheken in Python?

Die Datenvisualisierung gilt als ein äußerst wichtiger Teil der Datenanalyse. Dies liegt daran, dass es keinen besseren Weg gibt, als mehrere Datentrends und Informationen in einem visuellen Format zu verstehen. Wenn Sie die Daten Ihres Unternehmens in schriftlicher Form präsentieren, könnten die Leute es langweilig finden. Aber wenn Sie dasselbe in einem visuellen Format präsentieren, werden die Leute dem definitiv mehr Aufmerksamkeit schenken.

Um den Datenvisualisierungsprozess zu vereinfachen, gibt es bestimmte Bibliotheken in Python, die Ihnen helfen können. Sie können nicht sagen, dass ein bestimmter der beste ist, da dies vollständig von den Anforderungen abhängt. Einige der besten Datenvisualisierungsbibliotheken in Python sind matplotlib, plotly, seaborn, GGplot und altair.

Welches ist eine der besten Plotbibliotheken in Python?

Es gibt viele davon, um Ihnen die Arbeit zu erleichtern, wenn es um Datenvisualisierung und Plotbibliotheken geht. Es hat sich gezeigt, dass Matplotlib von allen verfügbaren Bibliotheken von den Benutzern als die bessere angesehen wird.

Matplotlib nimmt weniger Platz ein und hat auch eine bessere Laufzeit. Abgesehen davon bietet es auch eine objektorientierte API, die es den Benutzern ermöglicht, Diagramme in der Anwendung selbst zu zeichnen. Matplotlib unterstützt auch viele Ausgabetypen und ist kostenlos und Open Source.

Welches ist die standardmäßige Datenvisualisierungsbibliothek für Data Scientists?

Wenn Sie sich für Data Science interessieren, haben Sie wahrscheinlich bereits die Matplotlib-Bibliothek verwendet. Es hat sich gezeigt, dass Anfänger bis erfahrene Profis diese Bibliothek zum Erstellen komplexer Datenvisualisierungen bevorzugen.

Der Hauptgrund für seine große Beachtung ist die Flexibilität, die es den Benutzern als 2D-Plotbibliothek bietet. Wenn Sie einen MATLAB-Hintergrund haben, werden Sie feststellen, dass Ihnen die Pyplot-Schnittstelle von Matplotlib ziemlich vertraut ist. Sie brauchen also nicht viel Zeit, um mit Ihrer ersten Visualisierung loszulegen. Der Benutzer kann die gesamte Visualisierung in Matplotlib von der granularsten Ebene aus steuern.