Лучшие библиотеки визуализации данных Python, о которых вы должны знать

Опубликовано: 2020-03-20

Python может многое делать с данными. И одна из его многочисленных возможностей — визуализация. Он имеет несколько библиотек, которые вы можете использовать для этой цели. В этой статье мы рассмотрим некоторые из его известных библиотек и различные графики, которые вы можете построить с их помощью.

Оглавление

Визуализация данных Python

В этой статье мы поделились несколькими примерами, обязательно попробуйте их, используя набор данных. Давайте начнем:

Библиотеки визуализации данных Python

В Python есть множество библиотек для создания красивых графиков. Все они имеют различные функции, которые повышают их производительность и возможности. И они доступны для всех уровней квалификации. Это означает, что вы можете выполнять визуализацию данных в Python, независимо от того, являетесь ли вы новичком или опытным программистом. Ниже приведены некоторые известные библиотеки:

  • Сиборн
  • Матплотлиб
  • Панды

Существует много других библиотек Python для обработки и обработки данных , но пока мы сосредоточились на самых известных. Теперь мы обсудим эти различные библиотеки и поймем, как вы можете строить графики, используя их и Python. Давайте начнем.

Матплотлиб

Самая популярная библиотека Python для построения графиков — Matplotlib. Это не требует большого опыта, а для новичков идеально. Вы можете начать изучать визуализацию данных с помощью этой библиотеки и освоить различные графики и визуализации. Это дает вам большую свободу, но вам также придется написать много кода.

Люди используют Matplotlib для простых визуализаций, таких как гистограммы и гистограммы.

Читать : Фреймы данных в Python

Линейный график

Чтобы создать линейную диаграмму, вам нужно использовать метод «сюжет». Зацикливая столбцы, вы можете создать несколько столбцов на графике. Используйте для этой цели следующий код:

# получить столбцы для построения

столбцы = iris.columns.drop(['класс'])

# создать х данных

x_data = диапазон (0, iris.shape [0])

# создать фигуру и ось

рис, топор = plt.subplots()

# построить каждый столбец

для столбца в столбцах:

ax.plot (x_data, радужная оболочка [столбец], метка = столбец)

# установить заголовок и легенду

ax.set_title('Набор данных Iris')

топор.легенда()

Точечная диаграмма

Вы можете создать точечную диаграмму, используя метод «рассеяния». Вы должны создать ось и фигуру через «plt.subplots», чтобы дать метки и заголовок вашему графику.

Используйте следующий код:

# создаем фигуру и ось

рис, топор = plt.subplots()

# разбрасываем sepal_length по sepal_width

ax.scatter (радужная оболочка ['sepal_length'], радужная оболочка ['sepal_width'])

# установить заголовок и метки

ax.set_title('Набор данных Iris')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

Вы можете добавить цвет к точкам данных в соответствии с их классами. Для этого вам нужно будет сделать словарь, который будет отображать класс в цвет. Он также разбросал бы каждую точку, используя цикл for.

# создать словарь цветов

colors = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}

# создаем фигуру и ось

рис, топор = plt.subplots()

# построить каждую точку данных

для i в диапазоне (len (радужная оболочка ['sepal_length'])):

ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])

# установить заголовок и метки

ax.set_title('Набор данных Iris')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

Гистограмма

Вы можете использовать метод «hist» для создания гистограммы в Matplotlib. Он может рассчитать, как часто встречается каждый класс, если мы дадим ему категориальные данные. Вот код, который вам нужно использовать для построения гистограммы в Matplotlib:

# создать фигуру и ось

рис, топор = plt.subplots()

# построение гистограммы

ax.hist(wine_reviews['баллы'])

# установить заголовок и метки

ax.set_title('Результаты винных обзоров')

ax.set_xlabel('Очки')

ax.set_ylabel('Частота')

Гистограмма

В Matplotlib есть простые методы построения различных графиков. Например, в этом случае, чтобы создать гистограмму в Matplotlib, вам нужно использовать «bar». Он не может автоматически вычислять частоту категорий, поэтому для решения этой проблемы вам потребуется использовать функцию value_counts. Если ваши данные не имеют большого количества типов, то гистограмма идеально подойдет для их визуализации.

# создаем фигуру и ось

рис, топор = plt.subplots()

# подсчитываем появление каждого класса

данные = wine_reviews['баллы'].value_counts()

# получить данные x и y

точки = данные.индекс

частота = данные.значения

# создать гистограмму

ax.bar(точки, частота)

# установить заголовок и метки

ax.set_title('Результаты винных обзоров')

ax.set_xlabel('Очки')

ax.set_ylabel('Частота')

Панды

Pandas — это библиотека Python, популярная для анализа и обработки данных. Это библиотека с открытым исходным кодом, поэтому вы можете использовать ее бесплатно. Она вышла на рынок в 2008 году и с тех пор стала одной из самых популярных библиотек для структурирования данных.

Используя фрейм данных pandas, вы можете легко создавать графики для своих данных. Его API более продвинут, чем Matplotlib. Это означает, что вы можете создавать графики с меньшим количеством кода в Pandas, чем в Matplotlib.

Гистограмма

В Pandas вам нужно будет использовать метод plot.bar() для построения гистограммы. Во-первых, вам нужно подсчитать количество вхождений на вашем графике с помощью 'value_count()', а затем отсортировать их с помощью 'sort_index()'. Вот пример кода для создания гистограммы:

random_reviews['точки'].value_counts().sort_index().plot.bar()

Вы можете использовать метод plot.barh() для создания горизонтальной гистограммы в Pandas:

random_reviews['точки'].value_counts().sort_index().plot.barh()

Вы также можете построить данные по количеству вхождений:

random_reviews.groupby("страна").price.mean().sort_values(возрастание=False)[:5].plot.bar()

Линейный график

Вам нужно будет использовать «<dataframe>.plot.line()» для создания линейной диаграммы в Pandas. В Pandas вам не нужно будет перебирать каждый столбец, который вам нужно построить, поскольку он может делать это автоматически. Эта функция недоступна в Matplotlib. Вот код:

random.drop(['класс'], ось=1).plot.line(title='Случайный набор данных')

Точечная диаграмма

Вы можете создать точечную диаграмму в Pandas, используя «<dataset>.plot.scatter ()». Вам нужно будет передать ему два аргумента, а именно имена столбца x и столбца y.

Вот его пример:

random.plot.scatter (x = 'sepal_length', y = 'sepal_width', title = «Случайный набор данных»)

Гистограмма

Используйте «plot.hist» для создания гистограммы в Pandas. Кроме того, в этом методе не так уж много. У вас есть возможность создать одну гистограмму или несколько гистограмм.

Чтобы создать одну гистограмму, используйте следующий код:

random_reviews['точки'].plot.hist()

Чтобы создать несколько гистограмм, используйте это:

random.plot.hist (subplots = True, layout = (2,2), figsize = (10, 10), bins = 20)

Сиборн

Seaborn основан на Matplotlib, а также является довольно популярной библиотекой Python для визуализации данных. Это дает вам расширенные интерфейсы для построения ваших данных. Он имеет много особенностей. Его расширенные возможности позволяют вам создавать отличные графики с гораздо меньшим количеством строк кода, чем вам нужно с Matplotlib.

Гистограмма

Линейный график

Вы можете использовать метод sns.line plot для создания линейной диаграммы в Seaborn. Вы можете использовать метод 'sns.kdeplot', чтобы скруглить края кривых линий. Это держит ваш график довольно чистым, если на нем много выбросов.

sns.lineplot (данные = random.drop (['класс'], ось = 1))

Точечная диаграмма

В Seaborn вы можете создать точечную диаграмму с помощью метода «.scatterplot». В этом случае вам нужно будет добавить имена столбцов x и y, как мы сделали с Pandas. Но есть разница. Мы не можем вызывать функцию для данных, как в Pandas, поэтому нам нужно передать ее в качестве дополнительного аргумента.

sns.scatterplot(x='sepal_length', y='sepal_width', данные=радужная оболочка)

Используя аргумент «оттенок», вы также можете выделить определенные точки. Эта функция не так проста в Matplotlib.

sns.scatterplot(x='sepal_length', y='sepal_width', оттенок='class', данные=радужная оболочка)

Гистограмма

Вы можете использовать метод sns.countplot для создания гистограммы в Seaborn:

sns.countplot(random_reviews['точки'])

Теперь, когда мы обсудили важные библиотеки для визуализации данных в Python, мы можем взглянуть на другие формы графиков. Python и его библиотеки позволяют создавать различные виды фигур для построения графиков данных.

Другие виды визуализации данных в Python

Круговая диаграмма

Круговые диаграммы отображают данные в разных частях круга. Вы, должно быть, видели много круговых диаграмм в школе. Круговые диаграммы представляют данные в процентах. Суммарная сумма всех сегментов круговой диаграммы должна быть равна 100%. Вот пример кода:

plt.pie(df['Возраст'], labels = {"A", "B", "C",

«Д», «Е», «Ф»,

«Г», «Ч», «И», «Дж»},

autopct = '% 1.1f %%', тень = Истина)

plt.show()

plt.pie(df['Доход'], labels = {"A", "B", "C",

«Д», «Е», «Ф»,

«Г», «Ч», «И», «Дж»},

autopct = '% 1.1f %%', тень = Истина)

plt.show()

plt.pie(df['Продажи'], labels = {"A", "B", "C",

«Д», «Е», «Ф»,

«Г», «Ч», «И», «Дж»},

autopct = '% 1.1f %%', тень = Истина)

plt.show()

Коробчатые участки

Коробчатые диаграммы основаны на минимуме, первом квартиле, медиане, третьем квартиле и максимуме статистических данных. График выглядит как прямоугольник (точнее, прямоугольник). Вот почему он носит название «коробочный сюжет». Вот пример кода для создания блочной диаграммы:

# Для каждого числового атрибута фрейма данных

df.plot.box ()

# диаграмма с отдельными атрибутами

plt.boxplot(df['Доход'])

plt.show()

Читайте также: 10 лучших инструментов Python, которые должен знать каждый разработчик Python

Заключение

Мы надеемся, что вы нашли эту статью полезной. Существует много видов графиков, которые вы можете построить с помощью Python и его различных библиотек. Если вы раньше не выполняли визуализацию данных Python, вам следует начать с Matplotlib. Освоив его, вы сможете перейти к более сложным и продвинутым библиотекам визуализации данных, таким как Pandas и Seaborn.

Если вам интересно узнать о python и науке о данных, ознакомьтесь с дипломом PG IIIT-B и upGrad по науке о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, Индивидуальные встречи с отраслевыми наставниками, более 400 часов обучения и помощь в трудоустройстве в ведущих фирмах.

Каковы лучшие библиотеки визуализации данных в Python?

Визуализация данных считается чрезвычайно важной частью анализа данных. Это связано с тем, что нет лучшего способа, чем понять некоторые тенденции данных и информацию в визуальном формате. Если вы представите данные своей компании в письменном виде, людям это может показаться скучным. Но если вы представите то же самое в визуальном формате, люди определенно обратят на это больше внимания.

Чтобы упростить процесс визуализации данных, в Python есть определенные библиотеки, которые помогут вам. Вы не можете назвать какой-то конкретный из них лучшим, потому что это будет полностью зависеть от требований. Одними из лучших библиотек визуализации данных в Python являются matplotlib, plotly, seaborn, GGplot и altair.

Какая одна из лучших библиотек для построения графиков в Python?

Их множество, чтобы облегчить вам работу, когда речь идет о библиотеках визуализации данных и построения графиков. Было замечено, что среди всех доступных библиотек пользователи считают Matplotlib лучшей.

Matplotlib занимает меньше места, а также имеет лучшее время работы. Помимо этого, он также предоставляет объектно-ориентированный API, который позволяет пользователям строить графики в самом приложении. Matplotlib также поддерживает множество типов вывода, а также является бесплатным и открытым исходным кодом.

Какая библиотека визуализации данных используется по умолчанию для специалистов по данным?

Если вы занимаетесь наукой о данных, то есть большая вероятность, что вы уже использовали библиотеку Matplotlib. Было замечено, что новички и опытные профессионалы предпочитают использовать эту библиотеку для создания сложных визуализаций данных.

Основной причиной его огромного внимания является гибкость, которую он предоставляет пользователям в качестве библиотеки 2D-графики. Если у вас есть опыт работы с MATLAB, вы сможете заметить, что интерфейс Pyplot в Matplotlib вам довольно знаком. Таким образом, вам не потребуется много времени, чтобы начать с первой визуализации. Пользователь может контролировать всю визуализацию в Matplotlib на самом детальном уровне.