Python Pandas 教程:初学者需要知道的关于 Python Pandas 的一切
已发表: 2020-03-26在本文中,我们将了解数据专业人员必不可少的流行 Python 库之一 Pandas。 您将了解它的基础知识和操作。
让我们开始吧。
目录
什么是熊猫?
Python Pandas 受欢迎的原因有很多。 它的主要应用是数据操作、分析和清理。 您可以将它用于各种数据类型和数据集,包括未标记的数据和有序的时间序列数据。 简而言之,我们可以说 Pandas 是您的数据之家。 您可以使用此工具对数据执行大量操作。
您可以转换文件的数据格式、合并两个数据集、进行计算、在 Matplotlib 的帮助下将其可视化等。具有如此多的功能,它是数据专业人士的热门选择。 这就是为什么学习它是必不可少的。 如果不了解它的工作原理,您将无法使用它,因此在本 Python Pandas 教程中,我们将重点关注这一点。
阅读: Python 数据可视化库
Pandas 在数据科学中的作用
Pandas 库是任何数据专业人员库中不可或缺的一部分。 它基于另一个流行的 Python 库 NumPy。 Pandas 中有很多 NumPy 的结构,所以如果你熟悉前者,那么熟悉后者就不会有任何困难。
大多数时候,专家使用 Pandas 在 SciPy 中提供数据以进行统计分析。 他们还将这些数据与 Matplotlib 或 Scikit-learn 一起用于他们的功能(分别是绘图功能和机器学习)。
详细了解 Python 的机器学习库。
先决条件
在我们开始讨论 Python Pandas 的工作原理及其操作之前,我们首先应该明确谁可以正确使用它,谁不能正确使用它。 您应该首先熟悉 Python 的底层代码和 NumPy。
第一个,即 Python 的基础,是至关重要的,原因显而易见。 如果不知道 Python 代码是如何工作的,你就不会明白太多。 即使你这样做了,你也无法尝试代码,因为你仍然需要先学习底层代码。
第二个,NumPy,是必不可少的学习,因为 Pandas 是基于它的。 了解 NumPy 将极大地帮助您熟悉 Pandas。
您可以通过我们关于数据科学和 Python 的博客了解 Python 。 我们有许多有用的指南和文章可以让您熟悉基础知识。 它是免费的,如果您有任何疑问,可以在评论部分写下来。
如果您熟悉我们提到的两个主题,让我们深入了解一下 Pandas:
安装熊猫
要使用 Pandas,您必须安装它。 最棒的是,Pandas 的安装和导入非常简单。 只需打开命令行(如果您使用 Mac,则必须打开终端)并使用以下代码安装 Pandas:
对于 PC 用户: pip install pandas
对于 Mac 用户: conda install pandas
在 Pandas 中,您将处理系列和数据帧。 系列指的是一列,而数据框指的是具有多个系列的多维表。 现在让我们看一下您可以在 Pandas 中执行的操作。
Pandas 中的操作
既然我们已经讨论了它的重要性和定义,我们现在应该考虑在这个 Python Pandas 教程中可以执行的操作。 Pandas 为您提供了很多功能,我们在下面讨论了它们:
数据查看
您需要在开始时打印出数据集的一些行,以将它们作为视觉参考。 您可以使用 .head() 函数来做到这一点。
文件 1.head()
此函数为您提供数据框的前五行。 如果您想获得比前五行更多的行,您可以在函数中传递所需的数字。 假设您想要数据框的前 15 行,您将编写以下代码:
文件 1.head(15)
您还可以选择查看数据框的最后五行。 您可以通过使用 .tail() 函数来做到这一点。 就像 .head() 函数一样,.tail() 函数也可以接受一个数字并为您提供所需的行数。
文件 1.tail(20)
此代码将为您提供数据框的最后 20 行。
获取资讯
数据科学家在 Pandas 中使用的第一个函数是 .info()。 这是因为它显示了有关数据框的信息,并让您更深入地了解您正在使用的内容。 在 Pandas 中使用它的方法如下:
文件 1.info()
它为您提供了有关数据集的许多有用信息,例如非空值的数量、行数、列中存在的数据类型等。
在许多情况下,了解数据框值的数据类型至关重要。 假设您需要对数据执行算术运算,但它有字符串。 当你运行你的数学运算时,你会看到一个错误弹出,因为你不能对字符串执行这样的运算。 另一方面,如果您在执行任何操作之前使用 .info() 函数,那么您已经知道您有字符串。
.info() 函数向您显示有关数据集的一般信息,而 .shape 属性为您提供数据框的元组。 您可以在 .shape 属性的帮助下找出您的数据集有多少行和多少列。 您可以通过以下方式使用它:
文件1.shape
这个属性没有括号,因为它只给你一个行和列的元组。 在清理数据时,您会经常使用 .shape 属性。

还可以学习:印度的 Python 开发人员薪水
级联
现在让我们讨论这个 Python Pandas 教程中的串联属性。 连接是指将两个或多个事物连接在一起。 因此,使用此属性,您可以组合两个数据集,而无需以任何方式修改它们的值或数据点。 它们按原样结合在一起。 为此,您必须使用 .concat() 函数。 这是如何做:
结果 = pd.concat([file1,file2])
它将结合 file1 和 file2 数据框并将它们显示为单个数据框。
df1 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], “IND_GDP”:[50,45,45,67]},指数=[2001, 2002,2003,2004])
df2 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]},指数=[2005, 2006,2007,2008])
concat= pd.concat([df1,df2])
打印(连接)
上述代码的输出:
HPI IND_GDP Int_Rate
2001 80 50 2
2002 90 45 1
2003 70 45 2
2004 60 67 3
2005 80 50 2
2006 90 45 1
2007 70 45 2
2008 60 67 3
您一定已经注意到 .concat() 函数是如何组合两个数据帧并将它们转换为一个的。
更改索引
您也可以更改数据框中的索引值。 为此,您需要使用 .set_index() 函数。 在此函数的括号中,您必须输入详细信息以更改索引。 请看下面的示例以更好地理解它。
将熊猫导入为 pd
df= pd.DataFrame({“Day”:[1,2,3,4], “Visitors”:[200, 100,230,300], “Bounce_Rate”:[20,45,60,10]})
df.set_index(“天”,就地=真)
打印(df)
上述代码的输出:
Bounce_Rate 访客
日
1 20 200
2 45 100
3 60 230
4 10 300
可以看到我们的代码根据天数改变了数据的索引值。
更改列标题
您也可以更改 Python Pandas 中的列标题。 您所要做的就是使用 .rename() 函数。 您可以输入最初出现在括号中的列名以及要出现在输出代码中的列名。
假设您有一个表,其列标题为“时间”,并且您想将其更改为“小时”。 您可以使用以下代码更改此列的名称:
df = df.rename(columns={“时间” : “小时”})
此代码会将列标题的名称从“时间”更改为“小时”。 这是高效实践的绝佳功能。 让我们看看如何转换数据的格式。
数据整理
通过数据处理,您可以选择转换特定数据的格式。 您可以将 .csv 文件转换为 .html 文件,反之亦然。 以下是您如何执行此操作的示例:
将熊猫导入为 pd
country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)
country.to_html('file1.html')
运行此代码后,它将为您创建一个 HTML 文件,您可以在浏览器上运行该文件。 数据整理是一项出色的功能,您会发现它在许多情况下都有用。
结论
现在,我们已经到了这个 Python Pandas 教程的结尾。 我们希望您发现它有用且内容丰富。 Python Pandas 是一个庞大的话题,它拥有众多的功能,想要完全熟悉它需要一些时间。
如果您有兴趣了解更多有关 Python、它的各种库(包括 Pandas)及其在数据科学中的应用的信息,请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭,该文凭专为在职专业人士创建,提供 10 多个案例研究和项目、实践实践研讨会、与行业专家的指导、与行业导师的一对一、400 多个小时的学习和顶级公司的工作协助。
我需要了解 Python 才能使用 Pandas 吗?
在开始使用 Pandas 之前,您需要了解它是为 Python 构建的包。 因此,您绝对需要牢牢掌握 Python 编程的基础知识和语法,才能轻松开始使用 Pandas。 每当谈到在 Python 中处理表格数据时,Pandas 都被认为是最佳选择。
但是,在开始使用 Pandas 之前,您需要弄清楚 Python 中使用的语法。 无需花费大量时间在上面,但您只需要花足够的时间了解基本语法,以便您可以从涉及 Pandas 的任务开始。
用 Python 学习 Pandas 需要多长时间?
Pandas 是用于处理表格数据的最广泛使用的 Python 库。 您可以将 Pandas 用于您可能使用 Excel 完成的所有任务。 如果您已经了解 Python 编程及其语法,那么您可以在两周内轻松熟悉 Pandas 的功能。 当您开始使用 Pandas 时,您应该从基本的数据操作项目开始,以便掌握。
随着您的进一步发展,您会注意到 Pandas 是一种非常有用的数据科学工具,它可以成为推动多个行业业务决策的关键因素。
我应该先学习 Numpy 还是 Pandas?
最好在 Pandas 之前学习 Numpy,因为 Numpy 是 Python 中用于科学计算的最基本模块。 您还将获得高度优化的多维数组的支持,这些数组被认为是每个机器学习算法的最基本数据结构。
一旦你完成了 Numpy 的学习,那么你应该从 Pandas 开始,因为 Pandas 被认为是 Numpy 的扩展。 这是因为 Pandas 的底层代码大量使用了 Numpy 库。