Python Pandas 教程:初學者需要知道的關於 Python Pandas 的一切
已發表: 2020-03-26在本文中,我們將了解數據專業人員必不可少的流行 Python 庫之一 Pandas。 您將了解它的基礎知識和操作。
讓我們開始吧。
目錄
什麼是熊貓?
Python Pandas 受歡迎的原因有很多。 它的主要應用是數據操作、分析和清理。 您可以將它用於各種數據類型和數據集,包括未標記的數據和有序的時間序列數據。 簡而言之,我們可以說 Pandas 是您的數據之家。 您可以使用此工具對數據執行大量操作。
您可以轉換文件的數據格式、合併兩個數據集、進行計算、通過 Matplotlib 的幫助將其可視化等。具有如此多的功能,它是數據專業人士的熱門選擇。 這就是為什麼學習它是必不可少的。 如果不了解它的工作原理,您將無法使用它,因此在本 Python Pandas 教程中,我們將重點關注這一點。
閱讀: Python 數據可視化庫
Pandas 在數據科學中的作用
Pandas 庫是任何數據專業人員庫中不可或缺的一部分。 它基於另一個流行的 Python 庫 NumPy。 Pandas 中有很多 NumPy 的結構,所以如果你熟悉前者,那麼熟悉後者就不會有任何困難。
大多數時候,專家使用 Pandas 在 SciPy 中提供數據以進行統計分析。 他們還將這些數據與 Matplotlib 或 Scikit-learn 一起用於他們的功能(分別是繪圖功能和機器學習)。
詳細了解 Python 的機器學習庫。
先決條件
在我們開始討論 Python Pandas 的工作原理及其操作之前,我們首先應該明確誰可以正確使用它,誰不能正確使用它。 您應該首先熟悉 Python 的底層代碼和 NumPy。
第一個,即 Python 的基礎,是至關重要的,原因顯而易見。 如果不知道 Python 代碼是如何工作的,你就不會明白太多。 即使你這樣做了,你也無法嘗試代碼,因為你仍然需要先學習底層代碼。
第二個,NumPy,是必不可少的學習,因為 Pandas 是基於它的。 了解 NumPy 將極大地幫助您熟悉 Pandas。
您可以通過我們關於數據科學和 Python 的博客了解 Python 。 我們有許多有用的指南和文章可以讓您熟悉基礎知識。 它是免費的,如果您有任何疑問,可以在評論部分寫下來。
如果您熟悉我們提到的兩個主題,讓我們深入了解一下 Pandas:
安裝熊貓
要使用 Pandas,您必須安裝它。 最棒的是,Pandas 的安裝和導入非常簡單。 只需打開命令行(如果您使用 Mac,則必須打開終端)並使用以下代碼安裝 Pandas:
對於 PC 用戶: pip install pandas
對於 Mac 用戶: conda install pandas
在 Pandas 中,您將處理系列和數據幀。 系列指的是一列,而數據框指的是具有多個系列的多維表。 現在讓我們看一下您可以在 Pandas 中執行的操作。
Pandas 中的操作
既然我們已經討論了它的重要性和定義,我們現在應該考慮在這個 Python Pandas 教程中可以執行的操作。 Pandas 為您提供了很多功能,我們在下面討論了它們:
數據查看
您需要在開始時打印出數據集的一些行,以將它們作為視覺參考。 您可以使用 .head() 函數來做到這一點。
文件 1.head()
此函數為您提供數據框的前五行。 如果您想獲得比前五行更多的行,您可以在函數中傳遞所需的數字。 假設您想要數據框的前 15 行,您將編寫以下代碼:
文件 1.head(15)
您還可以選擇查看數據框的最後五行。 您可以通過使用 .tail() 函數來做到這一點。 就像 .head() 函數一樣,.tail() 函數也可以接受一個數字並為您提供所需的行數。
文件 1.tail(20)
此代碼將為您提供數據框的最後 20 行。
獲取資訊
數據科學家在 Pandas 中使用的第一個函數是 .info()。 這是因為它顯示了有關數據框的信息,並讓您更深入地了解您正在使用的內容。 在 Pandas 中使用它的方法如下:
文件 1.info()
它為您提供了有關數據集的許多有用信息,例如非空值的數量、行數、列中存在的數據類型等。
在許多情況下,了解數據框值的數據類型至關重要。 假設您需要對數據執行算術運算,但它有字符串。 當你運行你的數學運算時,你會看到一個錯誤彈出,因為你不能對字符串執行這樣的運算。 另一方面,如果您在執行任何操作之前使用 .info() 函數,那麼您已經知道您有字符串。
.info() 函數向您顯示有關數據集的一般信息,而 .shape 屬性為您提供數據框的元組。 您可以在 .shape 屬性的幫助下找出您的數據集有多少行和多少列。 您可以通過以下方式使用它:
文件1.shape
這個屬性沒有括號,因為它只給你一個行和列的元組。 在清理數據時,您會經常使用 .shape 屬性。

還可以學習:印度的 Python 開發人員薪水
級聯
現在讓我們討論這個 Python Pandas 教程中的串聯屬性。 連接是指將兩個或多個事物連接在一起。 因此,使用此屬性,您可以組合兩個數據集,而無需以任何方式修改它們的值或數據點。 它們按原樣結合在一起。 為此,您必須使用 .concat() 函數。 這是如何做:
結果 = pd.concat([file1,file2])
它將結合 file1 和 file2 數據框並將它們顯示為單個數據框。
df1 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], “IND_GDP”:[50,45,45,67]},指數=[2001, 2002,2003,2004])
df2 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]},指數=[2005, 2006,2007,2008])
concat= pd.concat([df1,df2])
打印(連接)
上述代碼的輸出:
HPI IND_GDP Int_Rate
2001 80 50 2
2002 90 45 1
2003 70 45 2
2004 60 67 3
2005 80 50 2
2006 90 45 1
2007 70 45 2
2008 60 67 3
您一定已經註意到 .concat() 函數是如何組合兩個數據幀並將它們轉換為一個的。
更改索引
您也可以更改數據框中的索引值。 為此,您需要使用 .set_index() 函數。 在此函數的括號中,您必須輸入詳細信息以更改索引。 請看下面的示例以更好地理解它。
將熊貓導入為 pd
df= pd.DataFrame({“Day”:[1,2,3,4], “Visitors”:[200, 100,230,300], “Bounce_Rate”:[20,45,60,10]})
df.set_index(“天”,就地=真)
打印(df)
上述代碼的輸出:
Bounce_Rate 訪客
日
1 20 200
2 45 100
3 60 230
4 10 300
可以看到我們的代碼根據天數改變了數據的索引值。
更改列標題
您也可以更改 Python Pandas 中的列標題。 您所要做的就是使用 .rename() 函數。 您可以輸入最初出現在括號中的列名以及要出現在輸出代碼中的列名。
假設您有一個表,其列標題為“時間”,並且您想將其更改為“小時”。 您可以使用以下代碼更改此列的名稱:
df = df.rename(columns={“時間” : “小時”})
此代碼會將列標題的名稱從“時間”更改為“小時”。 這是高效實踐的絕佳功能。 讓我們看看如何轉換數據的格式。
數據整理
通過數據處理,您可以選擇轉換特定數據的格式。 您可以將 .csv 文件轉換為 .html 文件,反之亦然。 以下是您如何執行此操作的示例:
將熊貓導入為 pd
country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)
country.to_html('file1.html')
運行此代碼後,它將為您創建一個 HTML 文件,您可以在瀏覽器上運行該文件。 數據整理是一項出色的功能,您會發現它在許多情況下都有用。
結論
現在,我們已經到了這個 Python Pandas 教程的結尾。 我們希望您發現它有用且內容豐富。 Python Pandas 是一個龐大的話題,它擁有眾多的功能,想要完全熟悉它需要一些時間。
如果您有興趣了解更多有關 Python、它的各種庫(包括 Pandas)及其在數據科學中的應用的信息,請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑,該文憑專為在職專業人士創建,提供 10 多個案例研究和項目、實踐實踐研討會、與行業專家的指導、與行業導師的一對一、400 多個小時的學習和頂級公司的工作協助。
我需要了解 Python 才能使用 Pandas 嗎?
在開始使用 Pandas 之前,您需要了解它是為 Python 構建的包。 因此,您絕對需要牢牢掌握 Python 編程的基礎知識和語法,才能輕鬆開始使用 Pandas。 每當談到在 Python 中處理表格數據時,Pandas 都被認為是最佳選擇。
但是,在開始使用 Pandas 之前,您需要弄清楚 Python 中使用的語法。 無需花費大量時間在上面,但您只需要花足夠的時間了解基本語法,以便您可以從涉及 Pandas 的任務開始。
用 Python 學習 Pandas 需要多長時間?
Pandas 是用於處理表格數據的最廣泛使用的 Python 庫。 您可以將 Pandas 用於您可能使用 Excel 完成的所有任務。 如果您已經了解 Python 編程及其語法,那麼您可以在兩週內輕鬆熟悉 Pandas 的功能。 當您開始使用 Pandas 時,您應該從基本的數據操作項目開始,以便掌握。
隨著您的進一步發展,您會注意到 Pandas 是一種非常有用的數據科學工具,它可以成為推動多個行業業務決策的關鍵因素。
我應該先學習 Numpy 還是 Pandas?
最好在 Pandas 之前學習 Numpy,因為 Numpy 是 Python 中用於科學計算的最基本模塊。 您還將獲得高度優化的多維數組的支持,這些數組被認為是每個機器學習算法的最基本數據結構。
一旦你完成了 Numpy 的學習,那麼你應該從 Pandas 開始,因為 Pandas 被認為是 Numpy 的擴展。 這是因為 Pandas 的底層代碼大量使用了 Numpy 庫。