Pandas 備忘單:您應該知道的主要命令 [2022]
已發表: 2021-01-06數據分析已成為一種新的研究類型,這一切都歸功於 Python。 如果你是一個熱愛 Python 的數據分析師,幾乎絕對會使用 Pandas 庫,那麼這篇文章就是為你準備的。 這份Pandas 備忘單將介紹分析數據時派上用場的所有基本方法。 您可能遇到過難以記住在 Pandas 中執行某些操作的特定語法的情況。 這些Pandas 備忘單命令將幫助您輕鬆記住和參考最常見的 Pandas 操作。 如果你是 Python 和數據科學的初學者,upGrad 的數據科學課程絕對可以幫助你深入了解數據和分析的世界。
目錄
使用 Pandas 備忘單
在使用本Pandas 備忘單之前,您應該徹底學習 Pandas 教程,然後參考本備忘單進行記憶和通關。 Pandas 備忘單將幫助您快速查找已學過的方法,即使您要去參加考試或面試,它也能派上用場。 我們收集並分組了數據分析師在 Pandas 中經常使用的所有命令,以便於檢測。 在這個Pandas 備忘單中,我們將使用以下簡寫來表示不同的對象。
- df:用於表示任何 Pandas DataFrame 對象
- ser:用於表示任何 Pandas Series 對象
您必須使用以下這些相關庫來實現本文下面提到的方法。
- 將熊貓導入為 pd
- 將 numpy 導入為 np
必讀:熊貓面試問題
1.從不同文件導入數據
- 從 CSV 文件中讀取所有數據: pd.read_csv(file_name)
- 從分隔文本文件(如 TSV)中讀取所有數據: pd.read_table(file_name)
- 從 Excel 工作表中讀取:pd.read_excel(file_name)
- 從 SQL 數據庫中讀取數據: pd.read_sql(query, connectionObject)
- 從 JSON 格式的字符串或 URL 中獲取數據:pd.read_json(jsonString)
- 獲取剪貼板的內容: pd.read_clipboard()
2.導出不同文件格式的DataFrames
- 將 DataFrame 寫入 CSV 文件:df.to_csv(file_name)
- 將 DataFrame 寫入 Excel 文件:df.to_excel(file_name)
- 將 DataFrame 寫入 SQL 表:df.to_sql(tableName, connectionObject)
- 要將 DataFrame 寫入 JSON 格式的文件:df.to_json(file_name)
3. 檢查 DataFrame 或 Series 的特定部分
- 獲取與索引、數據類型和內存相關的所有信息:df.info()
- 要提取 DataFrame 的起始“n”行:df.head(n)
- 要提取 DataFrame 的結尾“n”行:df.tail(n)
- 要提取 DataFrame 中可用的行數和列數:df.shape
- 總結數字列的統計信息:df.describe()
- 查看唯一值及其計數:ser.value_counts(dropna=False)
4. 選擇數據的特定子集
- 提取第一行:df.iloc[0,:]
- 要提取 DataFrame 第一列的第一個元素:df.iloc[0,0]
- 要將標籤為“col”的列作為系列返回:df[col]
- 要返回具有新 DataFrame 的列:df[[col1,col2]]
- 按位置選擇數據:ser.iloc[0]
- 按索引選擇數據:ser.loc['index_one']
5. 數據清理命令
- 要重命名質量列:df.rename(columns = lambda x: x + 1)
- 有選擇地重命名列: df.rename(columns = {'oldName': 'newName'})
- 要重命名質量索引:df.rename(index = lambda x: x + 1)
- 要按順序重命名列:df.columns = ['x', 'y', 'z']
- 要檢查是否存在空值,請相應地返回一個布爾數組:pd.isnull()
- pd.isnull() 的反面:pd.notnull()
- 刪除所有包含空值的行:df.dropna()
- 刪除所有包含空值的列:df.dropna(axis=1)
- 用“n”替換每個空值:df.fillna(n)
- 要將系列的所有數據類型轉換為浮點數:ser.astype(float)
- 要將所有編號為 1 的 'one' 和 3 替換為 'three': ser.replace([1,2], ['one','two'])
另請閱讀:Pandas Dataframe Astype

6. Groupby、排序和過濾數據
- 要為列值返回 groupby 對象: df.groupby(colm)
- 為多個列值返回 groupby 對象: df.groupby([colm1, colm2])
- 要按升序(按列)對值進行排序:df.sort_values(colm1)
- 要按降序(按列)對值進行排序: df.sort_values(colm2, ascending=False)
- 提取列值大於 0.6 的行:df[df[colm] > 0.6]
7. 其他
- 將第一個 DataFrame 的行添加到第二個 DataFrame 的末尾:df1.append(df2)
- 將第一個 DataFrame 的列添加到第二個 DataFrame 的末尾: pd.concat([df1,df2],axis=1)
- 返回所有列的平均值:df.mean()
- 返回非空值的數量:df.count()
結論
這些Pandas 備忘單僅對快速召回有用。 在直接跳入Pandas 備忘單之前練習命令總是一個好方法。
如果您想了解 Pandas,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1-與行業導師面對面交流,400 多個小時的學習和頂級公司的工作協助。
Pandas 庫的顯著特點是什麼?
以下是使 Pandas 成為最受歡迎的 Python 庫之一的特性: Pandas 為我們提供了各種數據框,這些數據框不僅允許有效的數據表示,而且使我們能夠對其進行操作。 它提供有效的對齊和索引功能,提供標記和組織數據的智能方式。 Pandas 的一些特性使代碼更簡潔,增加了可讀性,從而提高了效率。 它還可以讀取多種文件格式。 JSON、CSV、HDF5 和 Excel 是 Pandas 支持的一些文件格式。 對於許多程序員來說,合併多個數據集是一個真正的挑戰。 Pandas 也克服了這一點,並且非常有效地合併了多個數據集。 Pandas 庫還提供對其他重要 Python 庫的訪問,例如 Matplotlib 和 NumPy,這使其成為一個高效的庫。
補充 Pandas 庫的其他庫和工具是什麼?
Pandas 不僅可以作為創建數據框的中央庫,還可以與 Python 的其他庫和工具一起使用以提高效率。 Pandas 是基於 NumPy Python 包構建的,這表明大部分 Pandas 庫結構都是從 NumPy 包複製而來的。 Pandas 庫中數據的統計分析由 SciPy 操作,Matplotlib 上的繪圖函數和 Scikit-learn 中的機器學習算法。 Jupyter Notebook 是一個基於 Web 的交互式環境,可用作 IDE,並為 Pandas 提供良好的環境。
說明數據框的基本操作
在開始任何操作(如添加或刪除)之前選擇索引或列很重要。 一旦你學會瞭如何從數據框中訪問值和選擇列,你就可以學習在 Pandas 數據框中添加索引、行或列。 如果數據框中的索引不符合您的要求,您可以重置它。 要重置索引,您可以使用“reset_index()”函數。