17个必读的熊猫面试问题和答案[适合新手和有经验的人]
已发表: 2020-07-29Pandas 是一个 BSD 许可的开源 Python 库,提供高性能、易于使用的数据结构和数据分析工具。 Python with Pandas 用于广泛的学科领域,包括经济学、金融学、统计学、分析学等。 在这篇文章中,我们列出了一些Python 学习者必须知道的Pandas 面试题和NumPy 面试题。 如果您想了解有关 python 的更多信息,请查看我们的数据科学课程。
目录
熊猫面试问答
问题 1 – 定义 Python Pandas。
Pandas 指的是专门为 Python 编写的软件库,用于分析和操作数据。 Pandas 是由 Wes McKinney 创建的开源跨平台库。 它于 2008 年发布,提供数据结构和操作来操作数值和时间序列数据。 可以使用 pip 或 Anaconda 发行版安装 Pandas。 Pandas 使对表格数据执行机器学习操作变得非常容易。
问题 2 – Pandas 中有哪些不同类型的数据结构?
Panda 库支持两种主要类型的数据结构,DataFrames 和 Series。 这两种数据结构都建立在 NumPy 之上。 Series 是一维且最简单的数据结构,而 DataFrame 是二维的。 另一个称为“面板”的轴标签是一个 3 维数据结构,包括诸如major_axis 和minor_axis 之类的项目。
资源
问题 3——用 Pandas 解释系列。
Series 是一个一维数组,可以保存任何类型的数据值(字符串、浮点数、整数、python 对象等)。 它是 Pandas 中最简单的数据结构类型; 在这里,数据的轴标签称为索引。
问题 4 – 在 Pandas 中定义数据框。
DataFrame 是一个二维数组,其中数据以表格形式与行和列对齐。 使用此结构,您可以对行和列执行算术运算。
问题 5 – 如何在 Pandas 中创建一个空数据框?
要在 Pandas 中创建一个空的 DataFrame,请键入
将熊猫导入为 pd
ab = pd.DataFrame()
问题 6 – Pandas 库最重要的功能是什么?
panda 库的重要特点是:
- 数据对齐
- 合并和加入
- 内存高效
- 时间序列
- 重塑
阅读: Apache PySpark 中的数据框:综合教程
问题 7 – 您将如何解释 Pandas 中的重新索引?
重新索引意味着修改数据以匹配沿特定轴的特定标签集。
使用索引可以实现各种操作,例如-
- 在不存在标签数据的标签位置插入缺失值 (NA) 标记。
- 重新排序现有数据集以匹配新标签集。
问题 8 – 在 pandas 中创建 DataFrame 的不同方法是什么? 举例说明。
可以使用 nd 数组的 Lists 或 Dict 创建 DataFrame。
示例 1 – 使用 List 创建 DataFrame
将熊猫导入为 pd
# 一个字符串列表
Strlist = ['Pandas', 'NumPy']
# 调用列表上的DataFrame构造函数
列表 = pd.DataFrame(Strlist)
打印(列表)
示例 2 – 使用数组的字典创建 DataFrame
将熊猫导入为 pd
list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Commerce', 'Arts',]}
列表 = pd.DataFrame(列表)
打印(列表)
查看:数据科学面试问题
问题 9 – 解释 Pandas 中的分类数据?
分类数据是指可以重复的实时数据; 例如,国家、性别、代码等类别下的数据值总是重复的。 pandas 中的分类值也只能采用有限且固定数量的可能值。
无法对此类数据执行数值运算。 pandas 中分类数据的所有值要么在类别中,要么在 np.nan 中。

此数据类型在以下情况下很有用:
如果字符串变量只包含几个不同的值,将其转换为分类变量可以节省一些内存。
它作为对其他 Python 库的信号很有用,因为该列必须被视为分类变量。
词汇顺序可以转换为分类顺序以便正确排序,就像逻辑顺序一样。
问题 10 – 在 Pandas 中使用 Dict 创建一个系列。
将熊猫导入为 pd
将 numpy 导入为 np
ser = {'a':1,'b':2,'c':3}
ans = pd.Series(ser)
打印(答案)
问题 11 – 如何在 Pandas 中创建系列的副本?
要在 pandas 中创建系列的副本,请使用以下语法:
pandas.Series.copy
Series.copy(deep=True)
* 如果 deep 的值设置为 false,它既不会复制数据也不会复制索引。
问题 12 – 如何在 Pandas 中为数据框添加索引、行或列?
要将行添加到 DataFrame,我们可以使用 .loc ()、.iloc () 和 .ix()。 .loc () 是基于标签的,.iloc() 是基于整数的,.ix() 是展位标签和基于整数的。 要向 DataFrame 添加列,我们可以再次使用 .loc () 或 .iloc ()。
问题 13 – 您将使用什么方法重命名 Pandas Dataframe 的索引或列?
.rename 方法可用于重命名 DataFrame 的列或索引值
问题 14 – 如何在 Pandas 中迭代 Dataframe?
在 pandas for 循环中迭代 DataFrame 可以与 iterrows () 调用结合使用。
问题 15 – 什么是 Pandas Numpy 数组?
数值 Python (NumPy) 被定义为 Python 中的一个内置包,用于执行数值计算和多维和一维数组元素的处理。
与其他 Python 数组相比,NumPy 数组的计算速度更快。
问题 16 – 如何将数据框转换为 Excel 文件?
要将单个对象转换为 excel 文件,我们可以简单地指定目标文件的名称。 但是,要转换多个工作表,我们需要创建一个ExcelWriter对象以及目标文件名,并指定我们希望导出的工作表。
问题 17 – Pandas 中的 Groupby 函数是什么?
在 Pandas 中,groupby() 函数允许程序员通过在现实世界的集合中使用数据来重新排列数据。 该函数的主要任务是将数据分成不同的组。
另请阅读:前 15 个 Python 人工智能和机器学习开源项目
结论
我们希望上述P andas 面试题和NumPy 面试题能帮助你为即将到来的面试做准备。 如果您正在寻找可以帮助您掌握 Python 语言的课程,upGrad可能是最好的平台。
如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一,400 多个小时的学习和顶级公司的工作协助。
熊猫库用于什么目的?
使用 Pandas 的主要原因是数据分析。 Pandas 允许用户从各种格式(如 Microsoft Excel、SQL、JSON 以及逗号分隔值)导入数据。 Pandas 被认为对数据分析非常有用,因为它允许用户执行不同的数据操作操作,例如选择、重塑、合并和数据清理。 除此之外,Pandas 还提供各种数据整理功能。
简单来说,我们可以说 Pandas 可以轻松执行各种涉及数据的耗时且重复的任务。 使用 Pandas 轻松完成的任务是:
1.合并和加入统计
2.分析数据
3.归一化数据
4.填充数据
5. 清洗数据
6.检查加载和保存数据
7.数据可视化
这些只是使用 Pandas 轻松完成的一些数据操作任务。 数据科学家将 Pandas 评为可用于数据分析和操作的最佳工具。
Python Pandas 提供了哪些基本功能?
为了在 Python 中利用 Pandas 库的真正强大功能,您应该探索提供给用户的一些基本功能。 在数据分析方面,Pandas 被认为是最强大的工具,它具有许多功能,可以让用户更轻松地进行操作。
在开始使用 Pandas 库之前,您应该了解的一些基本功能是:
1. 数据处理
2.数据对齐和索引
3.数据清洗
4. 处理缺失数据
5.各种读写数据的输入输出工具
6.支持多种文件格式
7. 合并和加入不同的数据集
8.性能优化
9.数据可视化
10.根据要求对数据进行分组
11. 对可用数据执行不同的数学运算
12. 屏蔽不相关的数据,只使用需要的数据
13. 从数据集中的各种重复中取出唯一数据
在 Python 中导入 Pandas 库的原因是什么?
Pandas 是一个开源 Python 库,是用于执行各种数据分析、数据科学和机器学习任务的最广泛使用的库。 Pandas 是最受欢迎的数据处理包,它与 Python 生态系统中的各种其他数据科学模块配合得非常好。 当涉及到每个数据科学和数据分析专业人士的数据时,Pandas 库是任何事物的首选。