17个必读的熊猫面试问题和答案[适合新手和有经验的人]

已发表: 2020-07-29

Pandas 是一个 BSD 许可的开源 Python 库,提供高性能、易于使用的数据结构和数据分析工具。 Python with Pandas 用于广泛的学科领域,包括经济学、金融学、统计学、分析学等。 在这篇文章中,我们列出了一些Python 学习者必须知道的Pandas 面试题NumPy 面试题如果您想了解有关 python 的更多信息,请查看我们的数据科学课程。

目录

熊猫面试问答

问题 1 – 定义 Python Pandas。

Pandas 指的是专门为 Python 编写的软件库,用于分析和操作数据。 Pandas 是由 Wes McKinney 创建的开源跨平台库。 它于 2008 年发布,提供数据结构和操作来操作数值和时间序列数据。 可以使用 pip 或 Anaconda 发行版安装 Pandas。 Pandas 使对表格数据执行机器学习操作变得非常容易。

问题 2 – Pandas 中有哪些不同类型的数据结构?

Panda 库支持两种主要类型的数据结构,DataFrames 和 Series。 这两种数据结构都建立在 NumPy 之上。 Series 是一维且最简单的数据结构,而 DataFrame 是二维的。 另一个称为“面板”的轴标签是一个 3 维数据结构,包括诸如major_axis 和minor_axis 之类的项目。

资源

问题 3——用 Pandas 解释系列。

Series 是一个一维数组,可以保存任何类型的数据值(字符串、浮点数、整数、python 对象等)。 它是 Pandas 中最简单的数据结构类型; 在这里,数据的轴标签称为索引。

问题 4 – 在 Pandas 中定义数据框。

DataFrame 是一个二维数组,其中数据以表格形式与行和列对齐。 使用此结构,您可以对行和列执行算术运算。

问题 5 – 如何在 Pandas 中创建一个空数据框?

要在 Pandas 中创建一个空的 DataFrame,请键入

将熊猫导入为 pd

ab = pd.DataFrame()

问题 6 – Pandas 库最重要的功能是什么?

panda 库的重要特点是:

  • 数据对齐
  • 合并和加入
  • 内存高效
  • 时间序列
  • 重塑

阅读: Apache PySpark 中的数据框:综合教程

问题 7 – 您将如何解释 Pandas 中的重新索引?

重新索引意味着修改数据以匹配沿特定轴的特定标签集。

使用索引可以实现各种操作,例如-

  • 在不存在标签数据的标签位置插入缺失值 (NA) 标记。
  • 重新排序现有数据集以匹配新标签集。

问题 8 – 在 pandas 中创建 DataFrame 的不同方法是什么? 举例说明。

可以使用 nd 数组的 Lists 或 Dict 创建 DataFrame。

示例 1 – 使用 List 创建 DataFrame

将熊猫导入为 pd

# 一个字符串列表

Strlist = ['Pandas', 'NumPy']

# 调用列表上的DataFrame构造函数

列表 = pd.DataFrame(Strlist)

打印(列表)

示例 2 – 使用数组的字典创建 DataFrame

将熊猫导入为 pd

list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Commerce', 'Arts',]}

列表 = pd.DataFrame(列表)

打印(列表)

查看:数据科学面试问题

问题 9 – 解释 Pandas 中的分类数据

分类数据是指可以重复的实时数据; 例如,国家、性别、代码等类别下的数据值总是重复的。 pandas 中的分类值也只能采用有限且固定数量的可能值。

无法对此类数据执行数值运算。 pandas 中分类数据的所有值要么在类别中,要么在 np.nan 中。

此数据类型在以下情况下很有用:

如果字符串变量只包含几个不同的值,将其转换为分类变量可以节省一些内存。

它作为对其他 Python 库的信号很有用,因为该列必须被视为分类变量。

词汇顺序可以转换为分类顺序以便正确排序,就像逻辑顺序一样。

问题 10 – 在 Pandas 中使用 Dict 创建一个系列。

将熊猫导入为 pd

将 numpy 导入为 np

ser = {'a':1,'b':2,'c':3}

ans = pd.Series(ser)

打印(答案)

问题 11 – 如何在 Pandas 中创建系列的副本?

要在 pandas 中创建系列的副本,请使用以下语法:

pandas.Series.copy

Series.copy(deep=True)

* 如果 deep 的值设置为 false,它既不会复制数据也不会复制索引。

问题 12 – 如何在 Pandas 中为数据框添加索引、行或列?

要将行添加到 DataFrame,我们可以使用 .loc ()、.iloc () 和 .ix()。 .loc () 是基于标签的,.iloc() 是基于整数的,.ix() 是展位标签和基于整数的。 要向 DataFrame 添加列,我们可以再次使用 .loc () 或 .iloc ()。

问题 13 – 您将使用什么方法重命名 Pandas Dataframe 的索引或列?

.rename 方法可用于重命名 DataFrame 的列或索引值

问题 14 – 如何在 Pandas 中迭代 Dataframe?

在 pandas for 循环中迭代 DataFrame 可以与 iterrows () 调用结合使用。

问题 15 – 什么是 Pandas Numpy 数组?

数值 Python (NumPy) 被定义为 Python 中的一个内置包,用于执行数值计算和多维和一维数组元素的处理。

与其他 Python 数组相比,NumPy 数组的计算速度更快。

问题 16 – 如何将数据框转换为 Excel 文件?

要将单个对象转换为 excel 文件,我们可以简单地指定目标文件的名称。 但是,要转换多个工作表,我们需要创建一个ExcelWriter对象以及目标文件名,并指定我们希望导出的工作表。

问题 17 – Pandas 中的 Groupby 函数是什么?

在 Pandas 中,groupby() 函数允许程序员通过在现实世界的集合中使用数据来重新排列数据。 该函数的主要任务是将数据分成不同的组。

另请阅读:前 15 个 Python 人工智能和机器学习开源项目

结论

我们希望上述P andas 面试题NumPy 面试题能帮助你为即将到来的面试做准备。 如果您正在寻找可以帮助您掌握 Python 语言的课程,upGrad可能是最好的平台。

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一,400 多个小时的学习和顶级公司的工作协助。

熊猫库用于什么目的?

使用 Pandas 的主要原因是数据分析。 Pandas 允许用户从各种格式(如 Microsoft Excel、SQL、JSON 以及逗号分隔值)导入数据。 Pandas 被认为对数据分析非常有用,因为它允许用户执行不同的数据操作操作,例如选择、重塑、合并和数据清理。 除此之外,Pandas 还提供各种数据整理功能。

简单来说,我们可以说 Pandas 可以轻松执行各种涉及数据的耗时且重复的任务。 使用 Pandas 轻松完成的任务是:

1.合并和加入统计
2.分析数据
3.归一化数据
4.填充数据
5. 清洗数据
6.检查加载和保存数据
7.数据可视化

这些只是使用 Pandas 轻松完成的一些数据操作任务。 数据科学家将 Pandas 评为可用于数据分析和操作的最佳工具。

Python Pandas 提供了哪些基本功能?

为了在 Python 中利用 Pandas 库的真正强大功能,您应该探索提供给用户的一些基本功能。 在数据分析方面,Pandas 被认为是最强大的工具,它具有许多功能,可以让用户更轻松地进行操作。

在开始使用 Pandas 库之前,您应该了解的一些基本功能是:

1. 数据处理
2.数据对齐和索引
3.数据清洗
4. 处理缺失数据
5.各种读写数据的输入输出工具
6.支持多种文件格式
7. 合并和加入不同的数据集
8.性能优化
9.数据可视化
10.根据要求对数据进行分组
11. 对可用数据执行不同的数学运算
12. 屏蔽不相关的数据,只使用需要的数据
13. 从数据集中的各种重复中取出唯一数据

在 Python 中导入 Pandas 库的原因是什么?

Pandas 是一个开源 Python 库,是用于执行各种数据分析、数据科学和机器学习任务的最广泛使用的库。 Pandas 是最受欢迎的数据处理包,它与 Python 生态系统中的各种其他数据科学模块配合得非常好。 当涉及到每个数据科学和数据分析专业人士的数据时,Pandas 库是任何事物的首选。