在 Pandas [2022] 中向现有数据框添加新列

已发表: 2021-01-06

Python 是一种解释型、通用的高级编程语言，由于其大量的库和易于实现的特性，它最近已成为一种现象级的计算语言。随着数据科学和数据分析的实施，Python 的流行发生了巨大的飞跃。有数以千计的库可以与 Python 集成，以使其高效地在任何垂直领域工作。

Pandas是专门为 Python 设计的数据分析库之一，用于执行数据操作和数据分析。 Pandas库由特定的数据结构和操作组成，用于处理数值表、分析数据和处理时间序列。在本文中，您将了解如何在已经存在的 Pandas 中向 DataFrame 添加列。

阅读： Pandas Dataframe Astype

什么是数据框？

在了解如何向现有 DataFrame 添加新列之前，让我们先了解一下Pandas中的 DataFrame。 DataFrame 是一种二维数组形式的可变数据结构，可以存储带有标签轴（行和列）的异构值。 DataFrame 是一种数据结构，其中数据以表格（相交的行和列）方式的逻辑排列方式存储。 DataFrame 的三个主要组成部分是行、列和数据。在 Python 中创建 DataFrame 非常简单。

将熊猫导入为 pd

l = ['This', 'is', 'a', 'List', 'preparing', 'for', 'DataFrame']

datfr = pd.DataFrame(l)

打印（datfr）

上面的程序将创建一个 7 行 1 列的 DataFrame。

Pandas 中的现有数据框

如何向现有 DataFrame 添加列？

有多种方法可以在Pandas中向 DataFrame 添加新列。我们已经收集了如何使用Pandas库创建基本 DataFrame 的想法。现在让我们准备一个已经存在的库并对其进行处理。

将熊猫导入为 pd

# 定义一个包含专业人士数据的字典

datfr = {'Name': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

'高度'：[6.2, 5.7, 6.1, 5.9],

“职称”：[“科学家”、“教授”、“数据分析师”、“安全分析师”]}

df = pd.DataFrame(datfr)

打印（df）

输出：

阅读： Python Pandas 教程

技巧一：insert() 方法

现在，要向现有 DataFrame 添加新列，我们必须使用 insert() 方法。在实现 insert() 方法之前，让我们了解它的工作原理。 DataFrame.insert() 允许在数据分析师想要的任何位置添加一列。它还提供了几种注入列值的可能性。程序员可以指定索引以在该特定位置注入数据列。

将熊猫导入为 pd

# 定义一个包含专业人士数据的字典

datfr = {'Name': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

'高度'：[6.2, 5.7, 6.1, 5.9],

“职称”：[“科学家”、“教授”、“数据分析师”、“安全分析师”]}

df = pd.DataFrame(datfr)

df.insert(3, “年龄”, [40, 33, 27, 26], True)

打印（df）

它将在 insert() 方法中定义的第三个索引位置添加“年龄”列作为第一个参数。

技巧 2：assign() 方法

向 DataFrame 添加列的另一种方法是使用 Pandas 库的 assign() 方法。此方法使用不同的方法向现有 DataFrame 添加新列。 Dataframe.assign() 将创建一个新的 DataFrame 以及一列。然后它将其附加到现有的 DataFrame 中。

将熊猫导入为 pd

datfr = {'Name': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

'高度'：[6.2, 5.7, 6.1, 5.9],

“职称”：[“科学家”、“教授”、“数据分析师”、“安全分析师”]}

dfI = pd.DataFrame(datfr)

dfII = dfI.assign（位置 = ['诺伊达'，'阿姆斯特丹'，'剑桥'，'班加罗尔']）

打印（dfII）

输出：

技巧 3：创建新列表作为列

程序员可以用来向 DataFrame 添加列的最后一种方法是生成一个新列表作为单独的数据列，并将该列附加到现有 DataFrame。

将熊猫导入为 pd

datfr = {'Name': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

'高度'：[6.2, 5.7, 6.1, 5.9],

“职称”：[“科学家”、“教授”、“数据分析师”、“安全分析师”]}

df = pd.DataFrame(datfr)

loc = ['诺伊达'，'阿姆斯特丹'，'剑桥'，'班加罗尔']

df['位置'] = loc

打印（df）

输出：

结帐：熊猫面试问题

结论

数据分析师执行主要操作，以按列的形式添加一组额外的数据。数据分析师或程序员可以使用不同的方法向 Pandas 中的现有 DataFrame 添加新列。这些方法将使程序员在分析 Pandas 数据时可以方便地随时添加数据列。

如果您想了解 Pandas 中的 DataFrame，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导，与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

为什么 Pandas 是在 Python 中创建数据帧的首选库之一？

Pandas 库被认为最适合创建数据框，因为它提供了各种功能，可以高效地创建数据框。其中一些功能如下 - Pandas 为我们提供了各种数据帧，这些数据帧不仅允许有效的数据表示，而且使我们能够对其进行操作。它提供有效的对齐和索引功能，提供标记和组织数据的智能方式。 Pandas 的一些特性使代码更简洁，增加了可读性，从而提高了效率。它还可以读取多种文件格式。 JSON、CSV、HDF5 和 Excel 是 Pandas 支持的一些文件格式。对于许多程序员来说，合并多个数据集是一个真正的挑战。 Pandas 也克服了这一点，并且非常有效地合并了多个数据集。 Pandas 还提供对其他重要 Python 库的访问，例如 Matplotlib 和 NumPy，这使其成为一个高效的库。

与 Pandas 库一起使用的其他 Python 库是什么？

Pandas 不仅可以作为创建数据框的中央库，还可以与 Python 的其他库和工具一起使用以提高效率。 Pandas 是基于 NumPy Python 包构建的，这表明大部分 Pandas 库结构都是从 NumPy 包复制而来的。 Pandas 库中数据的统计分析由 SciPy 操作，Matplotlib 上的绘图函数和 Scikit-learn 中的机器学习算法。 Jupyter Notebook 是一个基于 Web 的交互式环境，可用作 IDE，并为 Pandas 提供良好的环境。

除了插入，Dataframe 的基本操作是什么？

在开始任何操作（如添加或删除）之前选择索引或列很重要。一旦你学会了如何从数据框中访问值和选择列，你就可以学习在 Pandas 数据框中添加索引、行或列。如果数据框中的索引不符合您的要求，您可以重置它。要重置索引，您可以使用“reset_index()”函数。