Pandas 备忘单:您应该知道的主要命令 [2022]
已发表: 2021-01-06数据分析已成为一种新的研究类型,这一切都归功于 Python。 如果你是一个热爱 Python 的数据分析师,几乎绝对会使用 Pandas 库,那么这篇文章就是为你准备的。 这份Pandas 备忘单将介绍分析数据时派上用场的所有基本方法。 您可能遇到过难以记住在 Pandas 中执行某些操作的特定语法的情况。 这些Pandas 备忘单命令将帮助您轻松记住和参考最常见的 Pandas 操作。 如果你是 Python 和数据科学的初学者,upGrad 的数据科学课程绝对可以帮助你深入了解数据和分析的世界。
目录
使用 Pandas 备忘单
在使用本Pandas 备忘单之前,您应该彻底学习 Pandas 教程,然后参考本备忘单进行记忆和通关。 Pandas 备忘单将帮助您快速查找已学过的方法,即使您要去参加考试或面试,它也能派上用场。 我们收集并分组了数据分析师在 Pandas 中经常使用的所有命令,以便于检测。 在这个Pandas 备忘单中,我们将使用以下简写来表示不同的对象。
- df:用于表示任何 Pandas DataFrame 对象
- ser:用于表示任何 Pandas Series 对象
您必须使用以下这些相关库来实现本文下面提到的方法。
- 将熊猫导入为 pd
- 将 numpy 导入为 np
必读:熊猫面试问题
1.从不同文件导入数据
- 从 CSV 文件中读取所有数据: pd.read_csv(file_name)
- 从分隔文本文件(如 TSV)中读取所有数据: pd.read_table(file_name)
- 从 Excel 工作表中读取:pd.read_excel(file_name)
- 从 SQL 数据库中读取数据: pd.read_sql(query, connectionObject)
- 从 JSON 格式的字符串或 URL 中获取数据:pd.read_json(jsonString)
- 获取剪贴板的内容: pd.read_clipboard()
2.导出不同文件格式的DataFrames
- 将 DataFrame 写入 CSV 文件:df.to_csv(file_name)
- 将 DataFrame 写入 Excel 文件:df.to_excel(file_name)
- 将 DataFrame 写入 SQL 表:df.to_sql(tableName, connectionObject)
- 要将 DataFrame 写入 JSON 格式的文件:df.to_json(file_name)
3. 检查 DataFrame 或 Series 的特定部分
- 获取与索引、数据类型和内存相关的所有信息:df.info()
- 要提取 DataFrame 的起始“n”行:df.head(n)
- 要提取 DataFrame 的结尾“n”行:df.tail(n)
- 要提取 DataFrame 中可用的行数和列数:df.shape
- 总结数字列的统计信息:df.describe()
- 查看唯一值及其计数:ser.value_counts(dropna=False)
4. 选择数据的特定子集
- 提取第一行:df.iloc[0,:]
- 要提取 DataFrame 第一列的第一个元素:df.iloc[0,0]
- 要将标签为“col”的列作为系列返回:df[col]
- 要返回具有新 DataFrame 的列:df[[col1,col2]]
- 按位置选择数据:ser.iloc[0]
- 按索引选择数据:ser.loc['index_one']
5. 数据清理命令
- 要重命名质量列:df.rename(columns = lambda x: x + 1)
- 有选择地重命名列: df.rename(columns = {'oldName': 'newName'})
- 要重命名质量索引:df.rename(index = lambda x: x + 1)
- 要按顺序重命名列:df.columns = ['x', 'y', 'z']
- 要检查是否存在空值,请相应地返回一个布尔数组:pd.isnull()
- pd.isnull() 的反面:pd.notnull()
- 删除所有包含空值的行:df.dropna()
- 删除所有包含空值的列:df.dropna(axis=1)
- 用“n”替换每个空值:df.fillna(n)
- 要将系列的所有数据类型转换为浮点数:ser.astype(float)
- 要将所有编号为 1 的 'one' 和 3 替换为 'three': ser.replace([1,2], ['one','two'])
另请阅读:Pandas Dataframe Astype

6. Groupby、排序和过滤数据
- 要为列值返回 groupby 对象: df.groupby(colm)
- 为多个列值返回 groupby 对象: df.groupby([colm1, colm2])
- 要按升序(按列)对值进行排序:df.sort_values(colm1)
- 要按降序(按列)对值进行排序: df.sort_values(colm2, ascending=False)
- 提取列值大于 0.6 的行:df[df[colm] > 0.6]
7. 其他
- 将第一个 DataFrame 的行添加到第二个 DataFrame 的末尾:df1.append(df2)
- 将第一个 DataFrame 的列添加到第二个 DataFrame 的末尾: pd.concat([df1,df2],axis=1)
- 返回所有列的平均值:df.mean()
- 返回非空值的数量:df.count()
结论
这些Pandas 备忘单仅对快速召回有用。 在直接跳入Pandas 备忘单之前练习命令总是一个好方法。
如果您想了解 Pandas,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1-与行业导师面对面交流,400 多个小时的学习和顶级公司的工作协助。
Pandas 库的显着特点是什么?
以下是使 Pandas 成为最受欢迎的 Python 库之一的特性: Pandas 为我们提供了各种数据框,这些数据框不仅允许有效的数据表示,而且使我们能够对其进行操作。 它提供有效的对齐和索引功能,提供标记和组织数据的智能方式。 Pandas 的一些特性使代码更简洁,增加了可读性,从而提高了效率。 它还可以读取多种文件格式。 JSON、CSV、HDF5 和 Excel 是 Pandas 支持的一些文件格式。 对于许多程序员来说,合并多个数据集是一个真正的挑战。 Pandas 也克服了这一点,并且非常有效地合并了多个数据集。 Pandas 库还提供对其他重要 Python 库的访问,例如 Matplotlib 和 NumPy,这使其成为一个高效的库。
补充 Pandas 库的其他库和工具是什么?
Pandas 不仅可以作为创建数据框的中央库,还可以与 Python 的其他库和工具一起使用以提高效率。 Pandas 是基于 NumPy Python 包构建的,这表明大部分 Pandas 库结构都是从 NumPy 包复制而来的。 Pandas 库中数据的统计分析由 SciPy 操作,Matplotlib 上的绘图函数和 Scikit-learn 中的机器学习算法。 Jupyter Notebook 是一个基于 Web 的交互式环境,可用作 IDE,并为 Pandas 提供良好的环境。
说明数据框的基本操作
在开始任何操作(如添加或删除)之前选择索引或列很重要。 一旦你学会了如何从数据框中访问值和选择列,你就可以学习在 Pandas 数据框中添加索引、行或列。 如果数据框中的索引不符合您的要求,您可以重置它。 要重置索引,您可以使用“reset_index()”函数。