17個必讀的熊貓面試問題和答案[適合新手和有經驗的人]

已發表: 2020-07-29

Pandas 是一個 BSD 許可的開源 Python 庫,提供高性能、易於使用的數據結構和數據分析工具。 Python with Pandas 用於廣泛的學科領域,包括經濟學、金融學、統計學、分析學等。 在這篇文章中,我們列出了一些Python 學習者必須知道的Pandas 面試題NumPy 面試題如果您想了解有關 python 的更多信息,請查看我們的數據科學課程。

目錄

熊貓面試問答

問題 1 – 定義 Python Pandas。

Pandas 指的是專門為 Python 編寫的軟件庫,用於分析和操作數據。 Pandas 是由 Wes McKinney 創建的開源跨平台庫。 它於 2008 年發布,提供數據結構和操作來操作數值和時間序列數據。 可以使用 pip 或 Anaconda 發行版安裝 Pandas。 Pandas 使對錶格數據執行機器學習操作變得非常容易。

問題 2 – Pandas 中有哪些不同類型的數據結構?

Panda 庫支持兩種主要類型的數據結構,DataFrames 和 Series。 這兩種數據結構都建立在 NumPy 之上。 Series 是一維且最簡單的數據結構,而 DataFrame 是二維的。 另一個稱為“面板”的軸標籤是一個 3 維數據結構,包括諸如major_axis 和minor_axis 之類的項目。

資源

問題 3——用 Pandas 解釋系列。

Series 是一個一維數組,可以保存任何類型的數據值(字符串、浮點數、整數、python 對像等)。 它是 Pandas 中最簡單的數據結構類型; 在這裡,數據的軸標籤稱為索引。

問題 4 – 在 Pandas 中定義數據框。

DataFrame 是一個二維數組,其中數據以表格形式與行和列對齊。 使用此結構,您可以對行和列執行算術運算。

問題 5 – 如何在 Pandas 中創建一個空數據框?

要在 Pandas 中創建一個空的 DataFrame,請鍵入

將熊貓導入為 pd

ab = pd.DataFrame()

問題 6 – Pandas 庫最重要的功能是什麼?

panda 庫的重要特點是:

  • 數據對齊
  • 合併和加入
  • 內存高效
  • 時間序列
  • 重塑

閱讀: Apache PySpark 中的數據框:綜合教程

問題 7 – 您將如何解釋 Pandas 中的重新索引?

重新索引意味著修改數據以匹配沿特定軸的特定標籤集。

使用索引可以實現各種操作,例如-

  • 在不存在標籤數據的標籤位置插入缺失值 (NA) 標記。
  • 重新排序現有數據集以匹配新標籤集。

問題 8 – 在 pandas 中創建 DataFrame 的不同方法是什麼? 舉例說明。

可以使用 nd 數組的 Lists 或 Dict 創建 DataFrame。

示例 1 – 使用 List 創建 DataFrame

將熊貓導入為 pd

# 一個字符串列表

Strlist = ['Pandas', 'NumPy']

# 調用列表上的DataFrame構造函數

列表 = pd.DataFrame(Strlist)

打印(列表)

示例 2 – 使用數組的字典創建 DataFrame

將熊貓導入為 pd

list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Commerce', 'Arts',]}

列表 = pd.DataFrame(列表)

打印(列表)

查看:數據科學面試問題

問題 9 – 解釋 Pandas 中的分類數據

分類數據是指可以重複的實時數據; 例如,國家、性別、代碼等類別下的數據值總是重複的。 pandas 中的分類值也只能採用有限且固定數量的可能值。

無法對此類數據執行數值運算。 pandas 中分類數據的所有值要么在類別中,要么在 np.nan 中。

此數據類型在以下情況下很有用:

如果字符串變量只包含幾個不同的值,將其轉換為分類變量可以節省一些內存。

它作為對其他 Python 庫的信號很有用,因為該列必須被視為分類變量。

詞彙順序可以轉換為分類順序以便正確排序,就像邏輯順序一樣。

問題 10 – 在 Pandas 中使用 Dict 創建一個系列。

將熊貓導入為 pd

將 numpy 導入為 np

ser = {'a':1,'b':2,'c':3}

ans = pd.Series(ser)

打印(答案)

問題 11 – 如何在 Pandas 中創建系列的副本?

要在 pandas 中創建系列的副本,請使用以下語法:

pandas.Series.copy

Series.copy(deep=True)

* 如果 deep 的值設置為 false,它既不會復制數據也不會復制索引。

問題 12 – 如何在 Pandas 中為數據框添加索引、行或列?

要將行添加到 DataFrame,我們可以使用 .loc ()、.iloc () 和 .ix()。 .loc () 是基於標籤的,.iloc() 是基於整數的,.ix() 是展位標籤和基於整數的。 要向 DataFrame 添加列,我們可以再次使用 .loc () 或 .iloc ()。

問題 13 – 您將使用什麼方法重命名 Pandas Dataframe 的索引或列?

.rename 方法可用於重命名 DataFrame 的列或索引值

問題 14 – 如何在 Pandas 中迭代 Dataframe?

在 pandas for 循環中迭代 DataFrame 可以與 iterrows () 調用結合使用。

問題 15 – 什麼是 Pandas Numpy 數組?

數值 Python (NumPy) 被定義為 Python 中的一個內置包,用於執行數值計算和多維和一維數組元素的處理。

與其他 Python 數組相比,NumPy 數組的計算速度更快。

問題 16 – 如何將數據框轉換為 Excel 文件?

要將單個對象轉換為 excel 文件,我們可以簡單地指定目標文件的名稱。 但是,要轉換多個工作表,我們需要創建一個ExcelWriter對像以及目標文件名,並指定我們希望導出的工作表。

問題 17 – Pandas 中的 Groupby 函數是什麼?

在 Pandas 中,groupby() 函數允許程序員通過在現實世界的集合中使用數據來重新排列數據。 該函數的主要任務是將數據分成不同的組。

另請閱讀:前 15 個 Python 人工智能和機器學習開源項目

結論

我們希望上述P andas 面試題NumPy 面試題能幫助你為即將到來的面試做準備。 如果您正在尋找可以幫助您掌握 Python 語言的課程,upGrad可能是最好的平台。

如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。

熊貓庫用於什麼目的?

使用 Pandas 的主要原因是數據分析。 Pandas 允許用戶從各種格式(如 Microsoft Excel、SQL、JSON 以及逗號分隔值)導入數據。 Pandas 被認為對數據分析非常有用,因為它允許用戶執行不同的數據操作操作,例如選擇、重塑、合併和數據清理。 除此之外,Pandas 還提供各種數據整理功能。

簡單來說,我們可以說 Pandas 可以輕鬆執行各種涉及數據的耗時且重複的任務。 使用 Pandas 輕鬆完成的任務是:

1.合併和加入統計
2.分析數據
3.歸一化數據
4.填充數據
5. 清洗數據
6.檢查加載和保存數據
7.數據可視化

這些只是使用 Pandas 輕鬆完成的一些數據操作任務。 數據科學家將 Pandas 評為可用於數據分析和操作的最佳工具。

Python Pandas 提供了哪些基本功能?

為了在 Python 中利用 Pandas 庫的真正強大功能,您應該探索提供給用戶的一些基本功能。 在數據分析方面,Pandas 被認為是最強大的工具,它具有許多功能,可以讓用戶更輕鬆地進行操作。

在開始使用 Pandas 庫之前,您應該了解的一些基本功能是:

1. 數據處理
2.數據對齊和索引
3.數據清洗
4. 處理缺失數據
5.各種讀寫數據的輸入輸出工具
6.支持多種文件格式
7. 合併和加入不同的數據集
8.性能優化
9.數據可視化
10.根據要求對數據進行分組
11. 對可用數據執行不同的數學運算
12. 屏蔽不相關的數據,只使用需要的數據
13. 從數據集中的各種重複中取出唯一數據

在 Python 中導入 Pandas 庫的原因是什麼?

Pandas 是一個開源 Python 庫,是用於執行各種數據分析、數據科學和機器學習任務的最廣泛使用的庫。 Pandas 是最受歡迎的數據處理包,它與 Python 生態系統中的各種其他數據科學模塊配合得非常好。 當涉及到每個數據科學和數據分析專業人士的數據時,Pandas 庫是任何事物的首選。