17個必讀的熊貓面試問題和答案[適合新手和有經驗的人]
已發表: 2020-07-29Pandas 是一個 BSD 許可的開源 Python 庫,提供高性能、易於使用的數據結構和數據分析工具。 Python with Pandas 用於廣泛的學科領域,包括經濟學、金融學、統計學、分析學等。 在這篇文章中,我們列出了一些Python 學習者必須知道的Pandas 面試題和NumPy 面試題。 如果您想了解有關 python 的更多信息,請查看我們的數據科學課程。
目錄
熊貓面試問答
問題 1 – 定義 Python Pandas。
Pandas 指的是專門為 Python 編寫的軟件庫,用於分析和操作數據。 Pandas 是由 Wes McKinney 創建的開源跨平台庫。 它於 2008 年發布,提供數據結構和操作來操作數值和時間序列數據。 可以使用 pip 或 Anaconda 發行版安裝 Pandas。 Pandas 使對錶格數據執行機器學習操作變得非常容易。
問題 2 – Pandas 中有哪些不同類型的數據結構?
Panda 庫支持兩種主要類型的數據結構,DataFrames 和 Series。 這兩種數據結構都建立在 NumPy 之上。 Series 是一維且最簡單的數據結構,而 DataFrame 是二維的。 另一個稱為“面板”的軸標籤是一個 3 維數據結構,包括諸如major_axis 和minor_axis 之類的項目。
資源
問題 3——用 Pandas 解釋系列。
Series 是一個一維數組,可以保存任何類型的數據值(字符串、浮點數、整數、python 對像等)。 它是 Pandas 中最簡單的數據結構類型; 在這裡,數據的軸標籤稱為索引。
問題 4 – 在 Pandas 中定義數據框。
DataFrame 是一個二維數組,其中數據以表格形式與行和列對齊。 使用此結構,您可以對行和列執行算術運算。
問題 5 – 如何在 Pandas 中創建一個空數據框?
要在 Pandas 中創建一個空的 DataFrame,請鍵入
將熊貓導入為 pd
ab = pd.DataFrame()
問題 6 – Pandas 庫最重要的功能是什麼?
panda 庫的重要特點是:
- 數據對齊
- 合併和加入
- 內存高效
- 時間序列
- 重塑
閱讀: Apache PySpark 中的數據框:綜合教程
問題 7 – 您將如何解釋 Pandas 中的重新索引?
重新索引意味著修改數據以匹配沿特定軸的特定標籤集。
使用索引可以實現各種操作,例如-
- 在不存在標籤數據的標籤位置插入缺失值 (NA) 標記。
- 重新排序現有數據集以匹配新標籤集。
問題 8 – 在 pandas 中創建 DataFrame 的不同方法是什麼? 舉例說明。
可以使用 nd 數組的 Lists 或 Dict 創建 DataFrame。
示例 1 – 使用 List 創建 DataFrame
將熊貓導入為 pd
# 一個字符串列表
Strlist = ['Pandas', 'NumPy']
# 調用列表上的DataFrame構造函數
列表 = pd.DataFrame(Strlist)
打印(列表)
示例 2 – 使用數組的字典創建 DataFrame
將熊貓導入為 pd
list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Commerce', 'Arts',]}
列表 = pd.DataFrame(列表)
打印(列表)
查看:數據科學面試問題
問題 9 – 解釋 Pandas 中的分類數據?
分類數據是指可以重複的實時數據; 例如,國家、性別、代碼等類別下的數據值總是重複的。 pandas 中的分類值也只能採用有限且固定數量的可能值。
無法對此類數據執行數值運算。 pandas 中分類數據的所有值要么在類別中,要么在 np.nan 中。

此數據類型在以下情況下很有用:
如果字符串變量只包含幾個不同的值,將其轉換為分類變量可以節省一些內存。
它作為對其他 Python 庫的信號很有用,因為該列必須被視為分類變量。
詞彙順序可以轉換為分類順序以便正確排序,就像邏輯順序一樣。
問題 10 – 在 Pandas 中使用 Dict 創建一個系列。
將熊貓導入為 pd
將 numpy 導入為 np
ser = {'a':1,'b':2,'c':3}
ans = pd.Series(ser)
打印(答案)
問題 11 – 如何在 Pandas 中創建系列的副本?
要在 pandas 中創建系列的副本,請使用以下語法:
pandas.Series.copy
Series.copy(deep=True)
* 如果 deep 的值設置為 false,它既不會復制數據也不會復制索引。
問題 12 – 如何在 Pandas 中為數據框添加索引、行或列?
要將行添加到 DataFrame,我們可以使用 .loc ()、.iloc () 和 .ix()。 .loc () 是基於標籤的,.iloc() 是基於整數的,.ix() 是展位標籤和基於整數的。 要向 DataFrame 添加列,我們可以再次使用 .loc () 或 .iloc ()。
問題 13 – 您將使用什麼方法重命名 Pandas Dataframe 的索引或列?
.rename 方法可用於重命名 DataFrame 的列或索引值
問題 14 – 如何在 Pandas 中迭代 Dataframe?
在 pandas for 循環中迭代 DataFrame 可以與 iterrows () 調用結合使用。
問題 15 – 什麼是 Pandas Numpy 數組?
數值 Python (NumPy) 被定義為 Python 中的一個內置包,用於執行數值計算和多維和一維數組元素的處理。
與其他 Python 數組相比,NumPy 數組的計算速度更快。
問題 16 – 如何將數據框轉換為 Excel 文件?
要將單個對象轉換為 excel 文件,我們可以簡單地指定目標文件的名稱。 但是,要轉換多個工作表,我們需要創建一個ExcelWriter對像以及目標文件名,並指定我們希望導出的工作表。
問題 17 – Pandas 中的 Groupby 函數是什麼?
在 Pandas 中,groupby() 函數允許程序員通過在現實世界的集合中使用數據來重新排列數據。 該函數的主要任務是將數據分成不同的組。
另請閱讀:前 15 個 Python 人工智能和機器學習開源項目
結論
我們希望上述P andas 面試題和NumPy 面試題能幫助你為即將到來的面試做準備。 如果您正在尋找可以幫助您掌握 Python 語言的課程,upGrad可能是最好的平台。
如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。
熊貓庫用於什麼目的?
使用 Pandas 的主要原因是數據分析。 Pandas 允許用戶從各種格式(如 Microsoft Excel、SQL、JSON 以及逗號分隔值)導入數據。 Pandas 被認為對數據分析非常有用,因為它允許用戶執行不同的數據操作操作,例如選擇、重塑、合併和數據清理。 除此之外,Pandas 還提供各種數據整理功能。
簡單來說,我們可以說 Pandas 可以輕鬆執行各種涉及數據的耗時且重複的任務。 使用 Pandas 輕鬆完成的任務是:
1.合併和加入統計
2.分析數據
3.歸一化數據
4.填充數據
5. 清洗數據
6.檢查加載和保存數據
7.數據可視化
這些只是使用 Pandas 輕鬆完成的一些數據操作任務。 數據科學家將 Pandas 評為可用於數據分析和操作的最佳工具。
Python Pandas 提供了哪些基本功能?
為了在 Python 中利用 Pandas 庫的真正強大功能,您應該探索提供給用戶的一些基本功能。 在數據分析方面,Pandas 被認為是最強大的工具,它具有許多功能,可以讓用戶更輕鬆地進行操作。
在開始使用 Pandas 庫之前,您應該了解的一些基本功能是:
1. 數據處理
2.數據對齊和索引
3.數據清洗
4. 處理缺失數據
5.各種讀寫數據的輸入輸出工具
6.支持多種文件格式
7. 合併和加入不同的數據集
8.性能優化
9.數據可視化
10.根據要求對數據進行分組
11. 對可用數據執行不同的數學運算
12. 屏蔽不相關的數據,只使用需要的數據
13. 從數據集中的各種重複中取出唯一數據
在 Python 中導入 Pandas 庫的原因是什麼?
Pandas 是一個開源 Python 庫,是用於執行各種數據分析、數據科學和機器學習任務的最廣泛使用的庫。 Pandas 是最受歡迎的數據處理包,它與 Python 生態系統中的各種其他數據科學模塊配合得非常好。 當涉及到每個數據科學和數據分析專業人士的數據時,Pandas 庫是任何事物的首選。