Визуализация коробочного графика с помощью Pandas [Полное руководство]

Опубликовано: 2020-09-03

Работая с любым проектом статистического анализа данных, вы можете применить множество удобных инструментов. Основная идея состоит в том, чтобы определить вопрос и использовать необходимую функцию для ответа на этот вопрос. Например, если необходимо увидеть распределение данных, идеальным ответом будет построение графика функции распределения данных.

Если необходимо просмотреть значения и сравнить их со значениями других столбцов, лучше всего построить гистограмму или гистограмму. Но что, если необходимо удовлетворить статистический запрос? Тенденцию можно наблюдать в функции распределения, но нет простого выхода, если нам нужно проверить определенный процентиль данных. Ознакомьтесь с нашими курсами по науке о данных от признанных университетов, чтобы получить преимущество перед конкурентами.

Boxplot является решением вышеуказанной проблемы. Блочные диаграммы используются для описания значений процентиля атрибута в соответствии с столбцом, для которого он построен. Boxplot может быть весьма полезным при построении моделей на основе правил, а также при исследовательском анализе данных в целом.

Boxplot имеет дело с квартилями.

Давайте сначала построим диаграмму панд, а затем разберемся в ее частях.

Оглавление

Построение диаграммы Pandas Boxplot

Для реализации boxplot pandas есть только два требования: Pandas и matplotlib. Использование matplotlib для визуализации графиков и просмотра графиков внутри блокнота Jupyter.

Вот как мы импортируем обе библиотеки. Мы используем встроенную магическую функцию, чтобы графики можно было увидеть прямо внутри блокнота.

Код:

импортировать панд как pd

импортировать matplotlib.pyplot как plt

%matplotlib встроенный

Теперь мы импортируем наши данные и считываем их в DataFrame. Вот как это сделать.

Код:

data = pd.read_csv("Статистика FIFA 2018.csv")

DataFrame — это фундаментальная структура данных Pandas. Вот первые пять образцов наших данных.

После импорта данных мы можем напрямую использовать функцию boxplot pandas для объекта DataFrame . Вот как это использовать:

Код:

data.boxplot (by = «Раунд», столбец = ['Забитый гол'])

Функция boxplot pandas принимает два аргумента. Параметр by используется для выбора оси X. А «столбец» — это данные для построения по оси Y.

Здесь мы отображаем голы, забитые по раундам.

Вот сюжет:

Оформить заказ: вопросы на собеседовании по Python

Чтение коробочных диаграмм

Теперь давайте прочитаем заговоры. Во-первых, поймите значения оси. По оси Y отложено количество голов, забитых в матче, а по оси X — количество раундов, в которых проходила игра. Возьмем пример финального раунда.

Если мы внимательно посмотрим, коробка сделана где-то между двумя и четырьмя, со средней линией на трех. Коробка построена с использованием трех значений — 25-го, 50-го и 75-го процентиля. Нижняя линия графика обозначает 25-й процентиль голов, забитых в матче, средняя — 50-й процентиль, а верхняя линия — 75-й процентиль. Итак, boxplot работает с межквартильным диапазоном (IQR) данных.

Читайте: Учебное пособие по Python Pandas: все, что нужно знать новичкам о Python Pandas

Теперь есть еще одна вещь, нарисованная над и под коробкой. Эти линии известны как усы. Следовательно, иногда коробочную диаграмму также называют коробкой и усами.

Не существует уникального способа построения усов. Самый распространенный способ обозначить усы — пометить их минимальным и максимальным значениями в столбце данных. Некоторые библиотеки, такие как seaborn, используют мультипликативное значение IQR для обозначения усов. На диаграмме Pandas используются максимальные и минимальные значения для обозначения усов.

Если вы заметили, между четырьмя и шестью есть точки. Они известны как выбросы. Блочные диаграммы достаточно полезны в системах, основанных на правилах, для расчета ошибок или могут быстро идентифицировать неправильные классификации. Например, на графике, если вам нужно различать только раунды за 3-е место и финальные раунды, вы можете легко создать систему на основе правил, которая будет точно классифицировать ваши данные. Если от нуля до двух, отметьте 3-й раунд, а если от двух до четырех, отметьте последний раунд.

Блочные диаграммы помогают понять общее распределение столбцов данных. Графики показывают распределения с использованием значений квартилей. Это облегчает вам быстрый анализ данных, так как распределение помечено соответствующим образом. Усы обозначают оставшиеся значения в столбце.

Заключение

Нижняя граница обозначает данные ниже 25%, а верхняя граница обозначает данные выше 75%. Если выбросов меньше, диаграммы pandas могут помочь в их быстрой идентификации. В целом, если вы можете правильно их прочитать, ящичные диаграммы невероятно полезны при анализе данных.

Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных , которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Какой тип данных изображает блочная диаграмма?

Визуализация коробчатой ​​диаграммы широко используется в описательной статистике. Это тип диаграммы, который часто используется для исследовательского анализа данных. Отображая квартили (проценты) и средние значения, ящичные диаграммы могут визуально отображать распределение числовых данных вместе с их асимметрией.

Сводка набора данных отображается с помощью диаграмм в визуальном формате по пяти различным категориям. Данные, представленные на блочной диаграмме:

1. Минимальный балл
2. Первый или можно сказать нижний квартиль
3. Медиана блочной диаграммы Третий или, можно сказать, верхний квартиль
4.Максимальный балл

Данные здесь разделены на разные разделы, чтобы упростить представление данных и довольно легко понять данные визуально.

Почему ящичные диаграммы оказались полезными?

Работа коробчатых диаграмм заключается в разделении набора данных на разные разделы, где каждый раздел содержит примерно 25% данных. Блочные диаграммы оказались действительно полезными, поскольку они обеспечивают визуальную сводку имеющихся данных. Это позволяет исследователям легко определять средние значения, находить признаки асимметрии и знать дисперсию наборов данных.

Блочная диаграмма может предоставить вам визуальное изображение, чтобы увидеть, является ли набор статистических данных асимметричным или нормально распределенным. Если оно нормально распределено, медиана будет в середине ящика, и ящик будет симметричным. С другой стороны, коробка будет асимметричной, а медиана будет направлена ​​к нижней или верхней части коробки, когда распределение асимметрично.

Можем ли мы использовать Pandas для визуализации данных?

Известно, что Pandas является самой полезной библиотекой на языке Python, когда речь идет о науке о данных. Панды оказались действительно полезными для манипулирования, импорта, а также очистки наборов данных. Помимо этого, Pandas также широко используется для визуализации данных.

При визуализации данных Pandas используется для построения различных базовых графиков. Функциональные возможности этой библиотеки также можно найти в визуализации данных временных рядов. Проще говоря, можно сказать, что если вы хотите построить простой столбец, подсчитать графики или линии, вам следует использовать Pandas для визуализации данных.