17個必讀的熊貓面試問題和答案[適合新手和有經驗的人]

已發表: 2020-07-29

Pandas 是一個 BSD 許可的開源 Python 庫，提供高性能、易於使用的數據結構和數據分析工具。 Python with Pandas 用於廣泛的學科領域，包括經濟學、金融學、統計學、分析學等。在這篇文章中，我們列出了一些Python 學習者必須知道的Pandas 面試題和NumPy 面試題。如果您想了解有關 python 的更多信息，請查看我們的數據科學課程。

熊貓面試問答

問題 1 – 定義 Python Pandas。

Pandas 指的是專門為 Python 編寫的軟件庫，用於分析和操作數據。 Pandas 是由 Wes McKinney 創建的開源跨平台庫。它於 2008 年發布，提供數據結構和操作來操作數值和時間序列數據。可以使用 pip 或 Anaconda 發行版安裝 Pandas。 Pandas 使對錶格數據執行機器學習操作變得非常容易。

問題 2 – Pandas 中有哪些不同類型的數據結構？

Panda 庫支持兩種主要類型的數據結構，DataFrames 和 Series。這兩種數據結構都建立在 NumPy 之上。 Series 是一維且最簡單的數據結構，而 DataFrame 是二維的。另一個稱為“面板”的軸標籤是一個 3 維數據結構，包括諸如major_axis 和minor_axis 之類的項目。

資源

問題 3——用 Pandas 解釋系列。

Series 是一個一維數組，可以保存任何類型的數據值（字符串、浮點數、整數、python 對像等）。它是 Pandas 中最簡單的數據結構類型；在這裡，數據的軸標籤稱為索引。

問題 4 – 在 Pandas 中定義數據框。

DataFrame 是一個二維數組，其中數據以表格形式與行和列對齊。使用此結構，您可以對行和列執行算術運算。

問題 5 – 如何在 Pandas 中創建一個空數據框？

要在 Pandas 中創建一個空的 DataFrame，請鍵入

將熊貓導入為 pd

ab = pd.DataFrame()

問題 6 – Pandas 庫最重要的功能是什麼？

panda 庫的重要特點是：

數據對齊
合併和加入
內存高效
時間序列
重塑

閱讀： Apache PySpark 中的數據框：綜合教程

問題 7 – 您將如何解釋 Pandas 中的重新索引？

重新索引意味著修改數據以匹配沿特定軸的特定標籤集。

使用索引可以實現各種操作，例如-

在不存在標籤數據的標籤位置插入缺失值 (NA) 標記。
重新排序現有數據集以匹配新標籤集。

問題 8 – 在 pandas 中創建 DataFrame 的不同方法是什麼？ 舉例說明。

可以使用 nd 數組的 Lists 或 Dict 創建 DataFrame。

示例 1 – 使用 List 創建 DataFrame

將熊貓導入為 pd

# 一個字符串列表

Strlist = ['Pandas', 'NumPy']

# 調用列表上的DataFrame構造函數

列表 = pd.DataFrame(Strlist)

打印（列表）

示例 2 – 使用數組的字典創建 DataFrame

將熊貓導入為 pd

list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Commerce', 'Arts',]}

列表 = pd.DataFrame(列表)

打印（列表）

查看：數據科學面試問題

問題 9 – 解釋 Pandas 中的分類數據？

分類數據是指可以重複的實時數據；例如，國家、性別、代碼等類別下的數據值總是重複的。 pandas 中的分類值也只能採用有限且固定數量的可能值。

無法對此類數據執行數值運算。 pandas 中分類數據的所有值要么在類別中，要么在 np.nan 中。

此數據類型在以下情況下很有用：

如果字符串變量只包含幾個不同的值，將其轉換為分類變量可以節省一些內存。

它作為對其他 Python 庫的信號很有用，因為該列必須被視為分類變量。

詞彙順序可以轉換為分類順序以便正確排序，就像邏輯順序一樣。

問題 10 – 在 Pandas 中使用 Dict 創建一個系列。

將熊貓導入為 pd

將 numpy 導入為 np

ser = {'a'：1，'b'：2，'c'：3}

ans = pd.Series(ser)

打印（答案）

問題 11 – 如何在 Pandas 中創建系列的副本？

要在 pandas 中創建系列的副本，請使用以下語法：

pandas.Series.copy

Series.copy(deep=True)

* 如果 deep 的值設置為 false，它既不會復制數據也不會復制索引。

問題 12 – 如何在 Pandas 中為數據框添加索引、行或列？

要將行添加到 DataFrame，我們可以使用 .loc ()、.iloc () 和 .ix()。 .loc () 是基於標籤的，.iloc() 是基於整數的，.ix() 是展位標籤和基於整數的。要向 DataFrame 添加列，我們可以再次使用 .loc () 或 .iloc ()。

問題 13 – 您將使用什麼方法重命名 Pandas Dataframe 的索引或列？

.rename 方法可用於重命名 DataFrame 的列或索引值

問題 14 – 如何在 Pandas 中迭代 Dataframe？

在 pandas for 循環中迭代 DataFrame 可以與 iterrows () 調用結合使用。

問題 15 – 什麼是 Pandas Numpy 數組？

數值 Python (NumPy) 被定義為 Python 中的一個內置包，用於執行數值計算和多維和一維數組元素的處理。

與其他 Python 數組相比，NumPy 數組的計算速度更快。

問題 16 – 如何將數據框轉換為 Excel 文件？

要將單個對象轉換為 excel 文件，我們可以簡單地指定目標文件的名稱。但是，要轉換多個工作表，我們需要創建一個ExcelWriter對像以及目標文件名，並指定我們希望導出的工作表。

問題 17 – Pandas 中的 Groupby 函數是什麼？

在 Pandas 中，groupby() 函數允許程序員通過在現實世界的集合中使用數據來重新排列數據。該函數的主要任務是將數據分成不同的組。

另請閱讀：前 15 個 Python 人工智能和機器學習開源項目

結論

我們希望上述P andas 面試題和NumPy 面試題能幫助你為即將到來的面試做準備。如果您正在尋找可以幫助您掌握 Python 語言的課程，upGrad可能是最好的平台。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃是為在職專業人士創建的，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

熊貓庫用於什麼目的？

使用 Pandas 的主要原因是數據分析。 Pandas 允許用戶從各種格式（如 Microsoft Excel、SQL、JSON 以及逗號分隔值）導入數據。 Pandas 被認為對數據分析非常有用，因為它允許用戶執行不同的數據操作操作，例如選擇、重塑、合併和數據清理。除此之外，Pandas 還提供各種數據整理功能。

簡單來說，我們可以說 Pandas 可以輕鬆執行各種涉及數據的耗時且重複的任務。使用 Pandas 輕鬆完成的任務是：

1.合併和加入統計
2.分析數據
3.歸一化數據
4.填充數據
5. 清洗數據
6.檢查加載和保存數據
7.數據可視化

這些只是使用 Pandas 輕鬆完成的一些數據操作任務。數據科學家將 Pandas 評為可用於數據分析和操作的最佳工具。

Python Pandas 提供了哪些基本功能？

為了在 Python 中利用 Pandas 庫的真正強大功能，您應該探索提供給用戶的一些基本功能。在數據分析方面，Pandas 被認為是最強大的工具，它具有許多功能，可以讓用戶更輕鬆地進行操作。

在開始使用 Pandas 庫之前，您應該了解的一些基本功能是：

1. 數據處理
2.數據對齊和索引
3.數據清洗
4. 處理缺失數據
5.各種讀寫數據的輸入輸出工具
6.支持多種文件格式
7. 合併和加入不同的數據集
8.性能優化
9.數據可視化
10.根據要求對數據進行分組
11. 對可用數據執行不同的數學運算
12. 屏蔽不相關的數據，只使用需要的數據
13. 從數據集中的各種重複中取出唯一數據

在 Python 中導入 Pandas 庫的原因是什麼？

Pandas 是一個開源 Python 庫，是用於執行各種數據分析、數據科學和機器學習任務的最廣泛使用的庫。 Pandas 是最受歡迎的數據處理包，它與 Python 生態系統中的各種其他數據科學模塊配合得非常好。當涉及到每個數據科學和數據分析專業人士的數據時，Pandas 庫是任何事物的首選。