17个必读的熊猫面试问题和答案[适合新手和有经验的人]

已发表: 2020-07-29

Pandas 是一个 BSD 许可的开源 Python 库，提供高性能、易于使用的数据结构和数据分析工具。 Python with Pandas 用于广泛的学科领域，包括经济学、金融学、统计学、分析学等。在这篇文章中，我们列出了一些Python 学习者必须知道的Pandas 面试题和NumPy 面试题。如果您想了解有关 python 的更多信息，请查看我们的数据科学课程。

熊猫面试问答

问题 1 – 定义 Python Pandas。

Pandas 指的是专门为 Python 编写的软件库，用于分析和操作数据。 Pandas 是由 Wes McKinney 创建的开源跨平台库。它于 2008 年发布，提供数据结构和操作来操作数值和时间序列数据。可以使用 pip 或 Anaconda 发行版安装 Pandas。 Pandas 使对表格数据执行机器学习操作变得非常容易。

问题 2 – Pandas 中有哪些不同类型的数据结构？

Panda 库支持两种主要类型的数据结构，DataFrames 和 Series。这两种数据结构都建立在 NumPy 之上。 Series 是一维且最简单的数据结构，而 DataFrame 是二维的。另一个称为“面板”的轴标签是一个 3 维数据结构，包括诸如major_axis 和minor_axis 之类的项目。

资源

问题 3——用 Pandas 解释系列。

Series 是一个一维数组，可以保存任何类型的数据值（字符串、浮点数、整数、python 对象等）。它是 Pandas 中最简单的数据结构类型；在这里，数据的轴标签称为索引。

问题 4 – 在 Pandas 中定义数据框。

DataFrame 是一个二维数组，其中数据以表格形式与行和列对齐。使用此结构，您可以对行和列执行算术运算。

问题 5 – 如何在 Pandas 中创建一个空数据框？

要在 Pandas 中创建一个空的 DataFrame，请键入

将熊猫导入为 pd

ab = pd.DataFrame()

问题 6 – Pandas 库最重要的功能是什么？

panda 库的重要特点是：

数据对齐
合并和加入
内存高效
时间序列
重塑

阅读： Apache PySpark 中的数据框：综合教程

问题 7 – 您将如何解释 Pandas 中的重新索引？

重新索引意味着修改数据以匹配沿特定轴的特定标签集。

使用索引可以实现各种操作，例如-

在不存在标签数据的标签位置插入缺失值 (NA) 标记。
重新排序现有数据集以匹配新标签集。

问题 8 – 在 pandas 中创建 DataFrame 的不同方法是什么？ 举例说明。

可以使用 nd 数组的 Lists 或 Dict 创建 DataFrame。

示例 1 – 使用 List 创建 DataFrame

将熊猫导入为 pd

# 一个字符串列表

Strlist = ['Pandas', 'NumPy']

# 调用列表上的DataFrame构造函数

列表 = pd.DataFrame(Strlist)

打印（列表）

示例 2 – 使用数组的字典创建 DataFrame

将熊猫导入为 pd

list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Commerce', 'Arts',]}

列表 = pd.DataFrame(列表)

打印（列表）

查看：数据科学面试问题

问题 9 – 解释 Pandas 中的分类数据？

分类数据是指可以重复的实时数据；例如，国家、性别、代码等类别下的数据值总是重复的。 pandas 中的分类值也只能采用有限且固定数量的可能值。

无法对此类数据执行数值运算。 pandas 中分类数据的所有值要么在类别中，要么在 np.nan 中。

此数据类型在以下情况下很有用：

如果字符串变量只包含几个不同的值，将其转换为分类变量可以节省一些内存。

它作为对其他 Python 库的信号很有用，因为该列必须被视为分类变量。

词汇顺序可以转换为分类顺序以便正确排序，就像逻辑顺序一样。

问题 10 – 在 Pandas 中使用 Dict 创建一个系列。

将熊猫导入为 pd

将 numpy 导入为 np

ser = {'a'：1，'b'：2，'c'：3}

ans = pd.Series(ser)

打印（答案）

问题 11 – 如何在 Pandas 中创建系列的副本？

要在 pandas 中创建系列的副本，请使用以下语法：

pandas.Series.copy

Series.copy(deep=True)

* 如果 deep 的值设置为 false，它既不会复制数据也不会复制索引。

问题 12 – 如何在 Pandas 中为数据框添加索引、行或列？

要将行添加到 DataFrame，我们可以使用 .loc ()、.iloc () 和 .ix()。 .loc () 是基于标签的，.iloc() 是基于整数的，.ix() 是展位标签和基于整数的。要向 DataFrame 添加列，我们可以再次使用 .loc () 或 .iloc ()。

问题 13 – 您将使用什么方法重命名 Pandas Dataframe 的索引或列？

.rename 方法可用于重命名 DataFrame 的列或索引值

问题 14 – 如何在 Pandas 中迭代 Dataframe？

在 pandas for 循环中迭代 DataFrame 可以与 iterrows () 调用结合使用。

问题 15 – 什么是 Pandas Numpy 数组？

数值 Python (NumPy) 被定义为 Python 中的一个内置包，用于执行数值计算和多维和一维数组元素的处理。

与其他 Python 数组相比，NumPy 数组的计算速度更快。

问题 16 – 如何将数据框转换为 Excel 文件？

要将单个对象转换为 excel 文件，我们可以简单地指定目标文件的名称。但是，要转换多个工作表，我们需要创建一个ExcelWriter对象以及目标文件名，并指定我们希望导出的工作表。

问题 17 – Pandas 中的 Groupby 函数是什么？

在 Pandas 中，groupby() 函数允许程序员通过在现实世界的集合中使用数据来重新排列数据。该函数的主要任务是将数据分成不同的组。

另请阅读：前 15 个 Python 人工智能和机器学习开源项目

结论

我们希望上述P andas 面试题和NumPy 面试题能帮助你为即将到来的面试做准备。如果您正在寻找可以帮助您掌握 Python 语言的课程，upGrad可能是最好的平台。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

熊猫库用于什么目的？

使用 Pandas 的主要原因是数据分析。 Pandas 允许用户从各种格式（如 Microsoft Excel、SQL、JSON 以及逗号分隔值）导入数据。 Pandas 被认为对数据分析非常有用，因为它允许用户执行不同的数据操作操作，例如选择、重塑、合并和数据清理。除此之外，Pandas 还提供各种数据整理功能。

简单来说，我们可以说 Pandas 可以轻松执行各种涉及数据的耗时且重复的任务。使用 Pandas 轻松完成的任务是：

1.合并和加入统计
2.分析数据
3.归一化数据
4.填充数据
5. 清洗数据
6.检查加载和保存数据
7.数据可视化

这些只是使用 Pandas 轻松完成的一些数据操作任务。数据科学家将 Pandas 评为可用于数据分析和操作的最佳工具。

Python Pandas 提供了哪些基本功能？

为了在 Python 中利用 Pandas 库的真正强大功能，您应该探索提供给用户的一些基本功能。在数据分析方面，Pandas 被认为是最强大的工具，它具有许多功能，可以让用户更轻松地进行操作。

在开始使用 Pandas 库之前，您应该了解的一些基本功能是：

1. 数据处理
2.数据对齐和索引
3.数据清洗
4. 处理缺失数据
5.各种读写数据的输入输出工具
6.支持多种文件格式
7. 合并和加入不同的数据集
8.性能优化
9.数据可视化
10.根据要求对数据进行分组
11. 对可用数据执行不同的数学运算
12. 屏蔽不相关的数据，只使用需要的数据
13. 从数据集中的各种重复中取出唯一数据

在 Python 中导入 Pandas 库的原因是什么？

Pandas 是一个开源 Python 库，是用于执行各种数据分析、数据科学和机器学习任务的最广泛使用的库。 Pandas 是最受欢迎的数据处理包，它与 Python 生态系统中的各种其他数据科学模块配合得非常好。当涉及到每个数据科学和数据分析专业人士的数据时，Pandas 库是任何事物的首选。