บทช่วยสอน Python Pandas: ทุกสิ่งที่ผู้เริ่มต้นจำเป็นต้องรู้เกี่ยวกับ Python Pandas

เผยแพร่แล้ว: 2020-03-26

ในบทความนี้ เราจะพาไปดูหนึ่งในไลบรารียอดนิยมของ Python ที่จำเป็นสำหรับผู้เชี่ยวชาญด้านข้อมูล Pandas คุณจะได้เรียนรู้เกี่ยวกับพื้นฐานและการทำงานของมัน

มาเริ่มกันเลย.

สารบัญ

แพนด้าคืออะไร?

Python Pandas เป็นที่นิยมด้วยเหตุผลหลายประการ การใช้งานหลักคือการจัดการข้อมูล การวิเคราะห์ และการทำความสะอาด คุณสามารถใช้สำหรับชนิดข้อมูลและชุดข้อมูลต่างๆ รวมถึงข้อมูลที่ไม่มีป้ายกำกับ และข้อมูลอนุกรมเวลาที่สั่งซื้อ พูดง่ายๆ ก็คือ เราสามารถพูดได้ว่า Pandas เป็นบ้านของข้อมูลของคุณ คุณสามารถดำเนินการต่างๆ กับข้อมูลของคุณได้ด้วยเครื่องมือนี้

คุณสามารถแปลงรูปแบบข้อมูลของไฟล์ รวมชุดข้อมูลสองชุด ทำการคำนวณ แสดงภาพโดยใช้ความช่วยเหลือจาก Matplotlib ฯลฯ ด้วยฟังก์ชันมากมาย จึงเป็นตัวเลือกยอดนิยมในหมู่ผู้เชี่ยวชาญด้านข้อมูล นั่นเป็นเหตุผลที่การเรียนรู้เกี่ยวกับมันเป็นสิ่งสำคัญ และถ้าไม่เข้าใจว่ามันใช้งานได้ คุณก็ใช้งานมันไม่ได้ ดังนั้นในบทช่วยสอน Python Pandas นี้ เราจะเน้นไปที่เรื่องเดียวกัน

อ่าน: Python Data Visualization Libraries

บทบาทของนุ่นในวิทยาศาสตร์ข้อมูล

ห้องสมุด Pandas เป็นส่วนสำคัญของคลังแสงของผู้เชี่ยวชาญด้านข้อมูล มันขึ้นอยู่กับ NumPy ซึ่งเป็นไลบรารี Python ยอดนิยมอีกตัวหนึ่ง โครงสร้างของ NumPy จำนวนมากมีอยู่ใน Pandas ดังนั้น หากคุณคุ้นเคยกับอันแรก คุณจะไม่มีปัญหาในการทำความคุ้นเคยกับอันหลัง

โดยส่วนใหญ่ ผู้เชี่ยวชาญใช้ Pandas เพื่อป้อนข้อมูลใน SciPy สำหรับการวิเคราะห์ทางสถิติ พวกเขายังใช้ข้อมูลนี้กับ Matplotlib หรือ Scikit-learn สำหรับฟังก์ชันของตน (ฟังก์ชันพล็อตและการเรียนรู้ของเครื่องตามลำดับ)

เรียนรู้เพิ่มเติมเกี่ยวกับไลบรารีแมชชีนเลิร์นนิงของ Python

ข้อกำหนดเบื้องต้น

ก่อนที่เราจะเริ่มต้นพูดคุยเกี่ยวกับการทำงานของ Python Pandas และการดำเนินงานของ Python เราควรทำให้ชัดเจนว่าใครสามารถใช้งานได้อย่างถูกต้องและใครไม่สามารถใช้งานได้ คุณควรทำความคุ้นเคยกับโค้ดพื้นฐานของ Python และ NumPy ก่อน

ประการแรก นั่นคือ พื้นฐานของ Python มีความสำคัญสำหรับเหตุผลที่ชัดเจน คุณจะไม่เข้าใจอะไรมากหากไม่รู้ว่าโค้ด Python ทำงานอย่างไร และถึงแม้คุณจะทำเช่นนั้น คุณจะไม่สามารถลองใช้โค้ดได้ เนื่องจากคุณยังคงต้องเรียนรู้โค้ดพื้นฐานก่อน

ข้อที่สอง NumPy เป็นสิ่งจำเป็นในการเรียนรู้เพราะ Pandas มีพื้นฐานมาจากมัน การมีความเข้าใจเกี่ยวกับ NumPy จะช่วยให้คุณคุ้นเคยกับ Pandas ได้มาก

คุณสามารถเรียนรู้เกี่ยวกับ Python ผ่าน บล็อกของเราเกี่ยวกับ data science และ Python เรามีคำแนะนำและบทความที่เป็นประโยชน์มากมายที่สามารถทำให้คุณคุ้นเคยกับพื้นฐาน ได้ฟรี และหากคุณมีข้อสงสัยใดๆ คุณสามารถเขียนลงในส่วนความคิดเห็น

หากคุณคุ้นเคยกับทั้งสองหัวข้อที่เรากล่าวถึงแล้ว มาดู Pandas อย่างลึกซึ้งกัน:

การติดตั้ง Pandas

หากต้องการใช้ Pandas คุณจะต้องติดตั้ง สิ่งที่ดีที่สุดคือการติดตั้งและนำเข้า Pandas นั้นง่ายมาก เพียงเปิดบรรทัดคำสั่ง (หากคุณใช้ Mac คุณจะต้องเปิดเทอร์มินัล) และติดตั้ง Pandas โดยใช้รหัสเหล่านี้:

สำหรับผู้ใช้พีซี: pip install pandas

สำหรับผู้ใช้ Mac: conda ติดตั้ง pandas

ใน Pandas คุณจะจัดการกับซีรีส์และดาต้าเฟรม ในขณะที่ชุดข้อมูลอ้างอิงถึงคอลัมน์ กรอบข้อมูลอ้างอิงถึงตารางหลายมิติที่มีชุดข้อมูลหลายชุด มาดูการดำเนินการที่คุณสามารถทำได้ใน Pandas

ปฏิบัติการในแพนด้า

ตอนนี้เราได้พูดถึงความสำคัญและคำจำกัดความแล้ว ตอนนี้เราควรพิจารณาการดำเนินการที่คุณสามารถทำได้ในบทช่วยสอน Python Pandas นี้ Pandas มีฟังก์ชันมากมายให้คุณ และเราได้พูดคุยกันด้านล่าง:

การดูข้อมูล

คุณจะต้องพิมพ์บางแถวของชุดข้อมูลของคุณในตอนต้นเพื่อเก็บไว้เป็นข้อมูลอ้างอิงด้วยภาพ และคุณสามารถทำได้ด้วยฟังก์ชัน .head()

file1.head()

ฟังก์ชันนี้จะให้ห้าแถวแรกของกรอบข้อมูลแก่คุณ หากคุณต้องการได้แถวมากกว่าห้าแถวแรก คุณสามารถส่งตัวเลขที่ต้องการในฟังก์ชันได้ สมมติว่าคุณต้องการ 15 แถวแรกของ data frame คุณจะต้องเขียนโค้ดต่อไปนี้:

file1.head(15)

คุณยังมีตัวเลือกในการดูห้าแถวสุดท้ายของกรอบข้อมูล คุณสามารถทำได้โดยใช้ฟังก์ชัน .tail() และเช่นเดียวกับฟังก์ชัน .head() ฟังก์ชัน .tail() ยังสามารถยอมรับตัวเลขและให้จำนวนแถวที่ต้องการได้

ไฟล์1.หาง(20)

รหัสนี้จะให้ 20 แถวสุดท้ายของกรอบข้อมูลของคุณ

การรับข้อมูล

หนึ่งในฟังก์ชันแรกที่นักวิทยาศาสตร์ข้อมูลที่ใช้กับ Pandas คือ .info() นั่นเป็นเพราะมันแสดงข้อมูลเกี่ยวกับกรอบข้อมูลและช่วยให้คุณเข้าใจอย่างลึกซึ้งยิ่งขึ้นถึงสิ่งที่คุณกำลังทำงานด้วย นี่คือวิธีที่คุณใช้ใน Pandas:

file1.info()

มันให้ข้อมูลที่เป็นประโยชน์มากมายเกี่ยวกับชุดข้อมูลแก่คุณ เช่น ปริมาณของค่าที่ไม่ใช่ค่าว่าง จำนวนแถว ประเภทของข้อมูลที่มีอยู่ในคอลัมน์ เป็นต้น

การทราบประเภทข้อมูลของค่าของ data frame เป็นสิ่งสำคัญในหลายกรณี สมมติว่าคุณจำเป็นต้องดำเนินการเลขคณิตกับข้อมูล แต่มีสตริง เมื่อคุณเรียกใช้การคำนวณทางคณิตศาสตร์ คุณจะเห็นข้อผิดพลาดปรากฏขึ้นเนื่องจากคุณไม่สามารถดำเนินการดังกล่าวกับสตริงได้ ในทางกลับกัน คุณต้องใช้ฟังก์ชัน .info() ก่อนดำเนินการใดๆ คุณจะรู้อยู่แล้วว่าคุณมีสตริง

ในขณะที่ฟังก์ชัน .info() จะแสดงข้อมูลทั่วไปเกี่ยวกับชุดข้อมูลของคุณ แอตทริบิวต์ .shape จะให้ tuple ของกรอบข้อมูลของคุณ คุณสามารถค้นหาจำนวนแถวและคอลัมน์ที่ชุดข้อมูลของคุณมีได้โดยใช้แอตทริบิวต์ .shape และคุณสามารถใช้ในลักษณะต่อไปนี้:

file1.shape

แอตทริบิวต์นี้ไม่มีวงเล็บ เนื่องจากจะให้เฉพาะสองแถวและคอลัมน์เท่านั้น คุณจะใช้แอตทริบิวต์ .shape ค่อนข้างบ่อยในขณะที่ล้างข้อมูลของคุณ

เรียนรู้เพิ่มเติม: เงินเดือนนักพัฒนา Python ในอินเดีย

การต่อกัน

ตอนนี้ มาพูดถึงแอตทริบิวต์การต่อกันในบทช่วยสอน Python Pandas นี้ การต่อกันหมายถึงการรวมสองสิ่งขึ้นไปเข้าด้วยกัน ดังนั้น ด้วยแอตทริบิวต์นี้ คุณสามารถรวมชุดข้อมูลสองชุดโดยไม่ต้องแก้ไขค่าหรือจุดข้อมูลแต่อย่างใด พวกเขารวมกันตามที่เป็นอยู่ คุณจะต้องใช้ฟังก์ชัน .concat() เพื่อจุดประสงค์นี้ โดยใช้วิธีดังนี้:

ผลลัพธ์ = pd.concat([file1,file2])

มันจะรวม dataframes file1 และ file2 และแสดงเป็น data frame เดียว

df1 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], “IND_GDP”:[50,45,45,67]}, ดัชนี=[2001, 2002,2003,2004])

df2 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]}, ดัชนี=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

พิมพ์ (ต่อ)

ผลลัพธ์ของรหัสด้านบน:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2546 70 45 2

2547 60 67 3

2548 80 50 2

2549 90 45 1

2550 70 45 2

2008 60 67 3

คุณต้องสังเกตว่าฟังก์ชัน .concat() ได้รวม dataframe สองอันเข้าด้วยกันและแปลงเป็นหนึ่งเดียวได้อย่างไร

การเปลี่ยนดัชนี

คุณสามารถเปลี่ยนค่าดัชนีใน data frame ของคุณได้เช่นกัน เพื่อจุดประสงค์นั้น คุณจะต้องใช้ฟังก์ชัน .set_index() ในวงเล็บของฟังก์ชันนี้ คุณจะต้องป้อนรายละเอียดเพื่อเปลี่ยนดัชนี ดูตัวอย่างต่อไปนี้เพื่อทำความเข้าใจให้ดีขึ้น

นำเข้าแพนด้าเป็น pd

df= pd.DataFrame({"วัน":[1,2,3,4] "ผู้เข้าชม":[200, 100,230,300], "Bounce_Rate":[20,45,60,10]})

df.set_index("วัน", แทนที่ = จริง)

พิมพ์ (df)

ผลลัพธ์ของรหัสด้านบน:

Bounce_Rate ผู้เข้าชม

วัน

1 20 200

2 45 100

3 60 230

4 10 300

คุณจะเห็นว่ารหัสของเราเปลี่ยนค่าดัชนีของข้อมูลตามวัน

การเปลี่ยนส่วนหัวของคอลัมน์

คุณสามารถเปลี่ยนส่วนหัวของคอลัมน์ใน Python Pandas ได้เช่นกัน สิ่งที่คุณต้องทำคือใช้ฟังก์ชัน .rename() คุณสามารถป้อนชื่อคอลัมน์ที่มีอยู่เดิมในวงเล็บและชื่อคอลัมน์ที่คุณต้องการให้ปรากฏในโค้ดเอาต์พุต

สมมติว่าคุณมีตารางที่มีส่วนหัวของคอลัมน์เป็น 'เวลา' และคุณต้องการเปลี่ยนเป็น 'ชั่วโมง' คุณสามารถเปลี่ยนชื่อคอลัมน์นี้ด้วยรหัสต่อไปนี้:

df = df.rename(columns={“Time” : “Hours”})

รหัสนี้จะเปลี่ยนชื่อของส่วนหัวของคอลัมน์จาก 'เวลา' เป็น 'ชั่วโมง' นี่เป็นฟังก์ชันที่ยอดเยี่ยมสำหรับการปฏิบัติที่มีประสิทธิภาพ มาดูกันว่าคุณจะแปลงรูปแบบข้อมูลของคุณได้อย่างไร

Data Munging

ด้วย data munging คุณมีตัวเลือกในการแปลงรูปแบบของข้อมูลเฉพาะ คุณสามารถแปลงไฟล์ .csv เป็นไฟล์ .html หรือทำในทางกลับกัน นี่คือตัวอย่างวิธีการ:

นำเข้าแพนด้าเป็น pd

ประเทศ = pd.read_csv("D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv",index_col=0)

country.to_html('file1.html')

หลังจากที่คุณเรียกใช้โค้ดนี้แล้ว โปรแกรมจะสร้างไฟล์ HTML ให้คุณ ซึ่งคุณสามารถเรียกใช้บนเบราว์เซอร์ของคุณได้ การทำ Data Munging เป็นฟังก์ชันที่ยอดเยี่ยม และคุณจะพบการใช้งานในหลาย ๆ สถานการณ์

บทสรุป

และตอนนี้ เราก็มาถึงจุดสิ้นสุดของบทช่วยสอน Python Pandas นี้แล้ว เราหวังว่าคุณจะพบว่ามีประโยชน์และให้ข้อมูล Python Pandas เป็นหัวข้อที่กว้างใหญ่ และด้วยฟังก์ชันมากมายที่มี จึงต้องใช้เวลาสักระยะกว่าจะคุ้นเคยกับมันอย่างสมบูรณ์

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับ Python, ห้องสมุดต่างๆ รวมถึง Pandas และการประยุกต์ใช้ในด้านวิทยาศาสตร์ข้อมูล ลองดู PG Diploma in Data Science ของ IIIT-B & upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษามากกว่า 10 กรณี & โครงการ, การประชุมเชิงปฏิบัติการเชิงปฏิบัติ, การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม, ตัวต่อตัวกับที่ปรึกษาในอุตสาหกรรม, การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ฉันจำเป็นต้องรู้ Python เพื่อใช้ Pandas หรือไม่

ก่อนที่คุณจะเริ่มต้นใช้งาน Pandas คุณต้องเข้าใจว่ามันเป็นแพ็คเกจที่สร้างขึ้นสำหรับ Python ดังนั้น คุณจำเป็นต้องมีพื้นฐานที่มั่นคงและไวยากรณ์ของการเขียนโปรแกรม Python เพื่อเริ่มใช้ Pandas อย่างง่ายดาย เมื่อใดก็ตามที่จำเป็นต้องทำงานกับข้อมูลแบบตารางใน Python Pandas ถือเป็นตัวเลือกที่ดีที่สุด

แต่คุณต้องเข้าใจไวยากรณ์ที่ใช้ใน Python ให้ชัดเจนก่อนเริ่มด้วย Pandas ไม่จำเป็นที่จะใช้เวลาจำนวนมากกับมัน แต่คุณจะต้องใช้เวลาให้เพียงพอเพื่อทำความเข้าใจกับรูปแบบพื้นฐาน เพื่อให้คุณสามารถเริ่มงานที่เกี่ยวข้องกับ Pandas ได้

ใช้เวลานานแค่ไหนในการเรียนรู้ Pandas ใน Python

Pandas เป็นไลบรารี Python ที่ใช้กันอย่างแพร่หลายที่สุดสำหรับจัดการกับข้อมูลแบบตาราง คุณสามารถใช้ Pandas สำหรับงานทั้งหมดที่คุณอาจใช้ Excel ได้ หากคุณทราบเกี่ยวกับการเขียนโปรแกรม Python และไวยากรณ์อยู่แล้ว คุณก็จะสามารถทำความคุ้นเคยกับการทำงานของ Pandas ได้ภายในสองสัปดาห์ เมื่อคุณเริ่มต้นกับ Pandas คุณควรเริ่มต้นด้วยโครงการจัดการข้อมูลพื้นฐานเพื่อที่จะได้เข้าใจ

เมื่อคุณก้าวหน้าต่อไป คุณจะสังเกตเห็นว่า Pandas เป็นเครื่องมือวิทยาศาสตร์ข้อมูลที่มีประโยชน์มาก ซึ่งสามารถเป็นปัจจัยสำคัญที่ขับเคลื่อนการตัดสินใจทางธุรกิจในหลายอุตสาหกรรม

ฉันควรชอบเรียนรู้ Numpy หรือ Pandas ก่อนหรือไม่

แนะนำให้เรียน Numpy ก่อน Pandas เพราะ Numpy เป็นโมดูลพื้นฐานที่สุดใน Python สำหรับการคำนวณทางวิทยาศาสตร์ คุณยังจะได้รับการสนับสนุนอาร์เรย์หลายมิติที่ได้รับการปรับให้เหมาะสมที่สุด ซึ่งถือเป็นโครงสร้างข้อมูลพื้นฐานที่สุดของอัลกอริธึม Machine Learning ทุกตัว

เมื่อคุณเรียนรู้ Numpy เสร็จแล้ว คุณควรเริ่มด้วย Pandas เพราะ Pandas ถือเป็นส่วนเสริมของ Numpy เนื่องจากรหัสพื้นฐานของ Pandas ใช้ไลบรารี Numpy อย่างกว้างขวาง