使用 Pandas 进行箱线图可视化 [综合指南]

已发表: 2020-09-03

在处理任何统计数据分析项目时,您可以应用许多方便的工具。 基本思想是识别问题并使用必要的功能来回答该问题。 例如,如果需要查看数据分布,理想的答案是绘制数据分布函数。

如果需要查看这些值并将它们与其他列的值进行比较,最好的方法是绘制条形图或直方图。 但是如果需要满足一个统计查询呢? 可以在分布函数中观察到趋势,但如果我们需要检查特定百分比的数据,则没有简单的出路。 查看我们来自知名大学的数据科学培训,以在竞争中获得优势。

Boxplot 是上述问题的解决方案。 箱线图用于描述属性的百分位值,根据绘制它的列。 Boxplot 在基于规则的模型工程以及一般的探索性数据分析中非常有见地。

Boxplot 处理四分位数。

让我们首先绘制一个pandas 箱线图,然后了解它的各个部分。

目录

绘制 Pandas 箱线图

要实现pandas 箱线图,只有两个要求,Pandas 和 matplotlib。 matplotlib 的用途是可视化绘图并查看 Jupyter notebook 内部的绘图。

这是我们导入这两个库的方式。 我们使用内联魔法功能,以便可以直接在笔记本内看到绘图。

代码:

熊猫导入pd

matplotlib.pyplot导入plt

%matplotlib 内联

现在,我们导入数据并将其读入 DataFrame。 这是如何做到的。

代码:

data = pd.read_csv(“FIFA 2018 Statistics.csv”)

DataFrame 是 Pandas 的基本数据结构。 这是我们数据的前五个样本。

数据导入后,我们可以直接在DataFrame对象上使用pandas boxplot函数。 以下是如何使用它:

代码:

data.boxplot(by=”Round”, column=['Goal Scored'])

pandas boxplot函数有两个参数。 'by' 参数用于选择 X 轴。 “列”是要在 Y 轴上绘制的数据。

在这里,我们正在绘制按回合得分的目标。

这是情节:

结帐: Python 面试问题

阅读箱线图

现在让我们阅读情节。 首先,了解轴的值。 Y 轴显示比赛中的进球数,X 轴显示比赛进行的回合数。 让我们以最后一轮为例。

如果我们仔细观察,盒子是在 2 到 4 之间的某个地方,中间的线是 3。 该框是使用三个值绘制的——第 25、第 50 和第 75 个百分位值。 图表的下一行表示比赛中进球的第 25 个百分位,中间表示第 50 个百分位,上面的行表示第 75 个百分位。 因此,箱线图适用于数据的四分位间距 (IQR)。

阅读: Python Pandas 教程:初学者需要了解的有关 Python Pandas 的一切

现在,在盒子的上方和下方又画了一件东西。 这些线被称为晶须。 因此,有时箱线图也称为盒须图。

没有唯一的方法来绘制胡须。 表示胡须的最常用方法是在数据列中的最小值和最大值处标记它们。 像 seaborn 这样的一些库使用 IQR 的乘法值来标记胡须。 Pandas 箱线图使用最大值和最小值来标记胡须。

如果您注意到,在四到六之间有一些点。 这些被称为异常值。 箱线图在基于规则的系统中作为误差计算相当有用,或者可以快速识别错误分类。 例如,在图表中,如果您只需要区分第三轮和决赛轮,您可以轻松地制作一个基于规则的系统,它将准确地对您的数据进行分类。 如果介于 0 到 2 之间,则标记第三轮,如果介于 2 到 4 之间,则标记最后一轮。

箱线图有助于了解数据列的整体分布。 这些图使用四分位值显示分布。 由于分布已适当标记,因此您可以更轻松地快速分析数据。 须线表示列中的剩余值。

结论

下端表示低于 25% 的数据,而上端表示高于 75% 的数据。 如果异常值较少,熊猫箱线图可以帮助快速识别这些异常值。 总的来说,如果你能正确阅读它们,箱线图在数据分析中非常有用。

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一,400 多个小时的学习和顶级公司的工作协助。

箱线图描绘的是什么类型的数据?

箱线图可视化在描述性统计中得到了广泛应用。 它是一种经常用于探索性数据分析的图表。 通过显示四分位数(百分比)和平均值,箱线图可以直观地描绘数值数据的分布及其偏度。

一组数据的摘要在五个不同类别下的可视格式的箱线图的帮助下显示。 箱线图提供的数据是:

1. 最低分数
2.首先或者我们可以说下四分位数
3.箱线图的中位数第三或者我们可以说上四分位数
4.最高分

这里的数据分为不同的部分,以便于表示数据并在视觉上非常容易地理解数据。

为什么发现箱形图很有用?

箱线图的工作是将数据集划分为不同的部分,其中每个部分大约包含 25% 的数据。 箱线图被发现非常有用,因为它们提供了现有数据的可视化摘要。 这使研究人员能够轻松识别平均值、找到偏度符号并了解数据集的分散性。

箱线图可以为您提供直观的图像,以查看统计数据集是偏态分布还是正态分布。 如果是正态分布,中值会在盒子的中间,盒子是对称的。 另一方面,盒子将是不对称的,当分布偏斜时,中值将朝向盒子的底部或顶部。

我们可以利用 Pandas 进行数据可视化吗?

在数据科学方面,Pandas 被认为是 Python 语言中最有用的库。 Pandas 被发现对操作、导入和清理数据集非常有帮助。 除此之外,Pandas 还被广泛用于数据可视化。

在数据可视化中,Pandas 用于绘制不同的基本图。 这个库的功能也可以在时间序列数据可视化中找到。 简单来说,如果你想绘制一个简单的条形图、计数图或线条,你应该在数据可视化中使用 Pandas。