Pandas Cheatsheet: คำสั่งยอดนิยมที่คุณควรรู้ [2022]

เผยแพร่แล้ว: 2021-01-06

การวิเคราะห์ข้อมูลได้กลายเป็นรูปแบบใหม่ของการศึกษา และต้องขอบคุณ Python ทั้งหมด หากคุณเป็นนักวิเคราะห์ข้อมูลผู้คลั่งไคล้ที่ทำงานบน Python เกือบจะใช้ไลบรารี่ Pandas อยู่แล้ว บทความนี้เหมาะสำหรับคุณ สูตรลับของ Pandas นี้ จะอธิบายวิธีการที่จำเป็นทั้งหมดที่มีประโยชน์ขณะวิเคราะห์ข้อมูล คุณอาจเคยพบกับสถานการณ์ที่ยากต่อการจดจำรูปแบบเฉพาะสำหรับการทำบางสิ่งใน Pandas คำสั่ง ชีทของ Pandas เหล่านี้ จะช่วยให้คุณจดจำและอ้างอิงการดำเนินการทั่วไปของ Pandas ได้อย่างง่ายดาย หากคุณเป็นมือใหม่ใน Python และ Data Science หลักสูตรวิทยาศาสตร์ข้อมูลของ upGrad สามารถช่วยให้คุณดำดิ่งสู่โลกของข้อมูลและการวิเคราะห์ได้ลึกซึ้งยิ่งขึ้น

สารบัญ

การใช้โปรแกรมโกง Pandas

ก่อนใช้ แผ่นโกง Pandas นี้ คุณควรเรียนรู้การสอน Pandas อย่างละเอียด จากนั้นอ้างอิงเอกสารโกงนี้สำหรับการจดจำและการกวาดล้าง เอกสารสรุปของ Pandas จะช่วยให้คุณค้นหาวิธีการที่คุณได้เรียนรู้ไปแล้วได้อย่างรวดเร็ว และอาจมีประโยชน์แม้คุณจะไปสอบหรือสัมภาษณ์ เราได้รวบรวมและจัดกลุ่มคำสั่งทั้งหมดที่ใช้บ่อยใน Pandas โดยนักวิเคราะห์ข้อมูลเพื่อให้ตรวจจับได้ง่าย ใน เอกสารสรุป Pandas นี้ เราจะใช้ชวเลขต่อไปนี้เพื่อเป็นตัวแทนของวัตถุต่างๆ

  • df: สำหรับเป็นตัวแทนของ Pandas DataFrame object
  • ser: สำหรับเป็นตัวแทนของอ็อบเจกต์ Pandas Series

คุณต้องใช้ไลบรารีที่เกี่ยวข้องต่อไปนี้เพื่อใช้วิธีการที่กล่าวถึงด้านล่างในบทความนี้

  • นำเข้าแพนด้าเป็น pd
  • นำเข้า numpy เป็น np

ต้องอ่าน: คำถามสัมภาษณ์แพนด้า

1. นำเข้าข้อมูลจากไฟล์ต่างๆ

  • วิธีอ่านข้อมูลทั้งหมดจากไฟล์ CSV: pd.read_csv(file_name)
  • หากต้องการอ่านข้อมูลทั้งหมดจากไฟล์ข้อความที่มีตัวคั่น (เช่น TSV): pd.read_table(file_name)
  • วิธีอ่านจากแผ่นงาน Excel: pd.read_excel(file_name)
  • วิธีอ่านข้อมูลจากฐานข้อมูล SQL: pd.read_sql(query, connectionObject)
  • กำลังดึงข้อมูลจากสตริงหรือ URL ที่จัดรูปแบบ JSON: pd.read_json(jsonString)
  • ในการนำเนื้อหาของคลิปบอร์ดของคุณ: pd.read_clipboard()

2. ส่งออก DataFrames ในรูปแบบไฟล์ต่างๆ

  • ในการเขียน DataFrame ลงในไฟล์ CSV: df.to_csv(file_name)
  • ในการเขียน DataFrame ลงในไฟล์ Excel: df.to_excel(file_name)
  • ในการเขียน DataFrame ไปยังตาราง SQL: df.to_sql(tableName, connectionObject)
  • ในการเขียน DataFrame ไปยังไฟล์ในรูปแบบ JSON: df.to_json(file_name)

3. ตรวจสอบส่วนใดส่วนหนึ่งของ DataFrame หรือ Series . ของคุณ

  • วิธีดึงข้อมูลทั้งหมดที่เกี่ยวข้องกับดัชนี ประเภทข้อมูล และหน่วยความจำ: df.info()
  • วิธีแยกแถว 'n' เริ่มต้นของ DataFrame ของคุณ: df.head(n)
  • วิธีแยกแถวสิ้นสุด 'n' ของ DataFrame ของคุณ: df.tail(n)
  • วิธีแยกจำนวนแถวและคอลัมน์ที่มีอยู่ใน DataFrame ของคุณ: df.shape
  • เพื่อสรุปสถิติสำหรับคอลัมน์ตัวเลข: df.describe()
  • หากต้องการดูค่าที่ไม่ซ้ำพร้อมกับจำนวน: ser.value_counts(dropna=False)

4. การเลือกชุดย่อยเฉพาะของข้อมูลของคุณ

  • แยกแถวแรก: df.iloc[0,:]
  • วิธีแยกองค์ประกอบแรกของคอลัมน์แรกของ DataFrame: df.iloc[0,0]
  • ในการส่งคืนคอลัมน์ที่มีป้ายกำกับ 'col' เป็น Series: df[col]
  • ในการส่งคืนคอลัมน์ที่มี DataFrame ใหม่: df[[col1,col2]]
  • ในการเลือกข้อมูลตามตำแหน่ง: ser.iloc[0]
  • ในการเลือกข้อมูลตามดัชนี: ser.loc['index_one']

5. คำสั่งการล้างข้อมูล

  • ในการเปลี่ยนชื่อคอลัมน์จำนวนมาก: df.rename(columns = lambda x: x + 1)
  • ในการเปลี่ยนชื่อคอลัมน์แบบเลือก: df.rename(columns = {'oldName': 'newName'})
  • ในการเปลี่ยนชื่อดัชนีเป็นกลุ่ม: df.rename(index = lambda x: x + 1)
  • ในการเปลี่ยนชื่อคอลัมน์ตามลำดับ: df.columns = ['x', 'y', 'z']
  • หากต้องการตรวจสอบว่ามีค่า null อยู่หรือไม่ ให้ส่งคืนอาร์เรย์บูลีนตามลำดับ: pd.isnull()
  • ย้อนกลับของ pd.isnull(): pd.notnull()
  • วางแถวทั้งหมดที่มีค่า Null: df.dropna()
  • ดรอปคอลัมน์ทั้งหมดที่มีค่า Null: df.dropna(axis=1)
  • หากต้องการแทนที่ค่า Null แต่ละค่าด้วย 'n': df.fillna(n)
  • ในการแปลงประเภทข้อมูลทั้งหมดของชุดข้อมูลเป็นแบบลอย: ser.astype(float)
  • หากต้องการแทนที่หมายเลข 1 ทั้งหมดด้วย 'หนึ่ง' และ 3 ด้วย 'สาม': ser.replace([1,2], ['one','two'])

อ่านเพิ่มเติม: Pandas Dataframe Astype

6. จัดกลุ่ม จัดเรียง และกรองข้อมูล

  • ในการส่งคืนวัตถุ groupby สำหรับค่าคอลัมน์: df.groupby(colm)
  • ในการส่งคืนวัตถุ groupby สำหรับค่าคอลัมน์หลายค่า: df.groupby([colm1, colm2])
  • ในการเรียงลำดับค่าจากน้อยไปมาก (ตามคอลัมน์): df.sort_values(colm1)
  • ในการเรียงลำดับค่าจากมากไปหาน้อย (ตามคอลัมน์): df.sort_values(colm2, ascending=False)
  • แยกแถวที่มีค่าคอลัมน์มากกว่า 0.6: df[df[colm] > 0.6]

7. อื่นๆ

  • เพิ่มแถวของ DataFrame แรกต่อท้าย DataFrame ที่สอง: df1.append(df2)
  • เพิ่มคอลัมน์ของ DataFrame แรกต่อท้าย DataFrame ที่สอง: pd.concat([df1,df2],axis=1)
  • วิธีคืนค่าค่าเฉลี่ยของคอลัมน์ทั้งหมด: df.mean()
  • วิธีคืนค่าจำนวนค่าที่ไม่ใช่ค่าว่าง: df.count()

บทสรุป

แผ่นโกง Pandas เหล่านี้ จะมีประโยชน์สำหรับการเรียกคืนอย่างรวดเร็วเท่านั้น เป็นแนวทางที่ดีเสมอในการฝึกคำสั่งก่อนที่จะกระโดดเข้าสู่ ชีต Pandas โดยตรง

หากคุณอยากรู้ที่จะเรียนรู้เกี่ยวกับ Pandas โปรดดูที่ IIIT-B & upGrad's Executive PG Program in Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ, เวิร์กช็อปภาคปฏิบัติ, การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม, 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

อะไรคือคุณสมบัติเด่นของห้องสมุด Pandas?

ต่อไปนี้เป็นคุณสมบัติที่ทำให้ Pandas เป็นหนึ่งในไลบรารี่ Python ที่ได้รับความนิยมมากที่สุด: Pandas มีกรอบข้อมูลต่างๆ ที่ไม่เพียงแต่อนุญาตให้แสดงข้อมูลอย่างมีประสิทธิภาพเท่านั้น แต่ยังช่วยให้เราจัดการได้ มีคุณสมบัติการจัดตำแหน่งและการทำดัชนีที่มีประสิทธิภาพซึ่งให้วิธีการติดฉลากและจัดระเบียบข้อมูลอย่างชาญฉลาด คุณลักษณะบางอย่างของ Pandas ทำให้โค้ดสะอาดและเพิ่มความสามารถในการอ่าน ซึ่งทำให้มีประสิทธิภาพมากขึ้น นอกจากนี้ยังสามารถอ่านไฟล์ได้หลายรูปแบบ JSON, CSV, HDF5 และ Excel เป็นรูปแบบไฟล์บางรูปแบบที่ Pandas รองรับ การรวมชุดข้อมูลหลายชุดเข้าด้วยกันเป็นความท้าทายอย่างแท้จริงสำหรับโปรแกรมเมอร์หลายคน แพนด้าก็เอาชนะสิ่งนี้เช่นกันและรวมชุดข้อมูลหลายชุดเข้าด้วยกันอย่างมีประสิทธิภาพ ห้องสมุด Pandas ยังให้การเข้าถึงไลบรารี Python ที่สำคัญอื่น ๆ เช่น Matplotlib และ NumPy ซึ่งทำให้เป็นห้องสมุดที่มีประสิทธิภาพสูง

ห้องสมุดและเครื่องมืออื่นๆ ที่เสริมห้องสมุด Pandas มีอะไรบ้าง

Pandas ไม่เพียงแต่ทำงานเป็นห้องสมุดกลางสำหรับการสร้างกรอบข้อมูลเท่านั้น แต่ยังทำงานร่วมกับไลบรารี่และเครื่องมืออื่นๆ ของ Python เพื่อให้มีประสิทธิภาพมากขึ้น Pandas สร้างขึ้นบนแพ็คเกจ NumPy Python ซึ่งบ่งชี้ว่าโครงสร้างไลบรารี Pandas ส่วนใหญ่นั้นจำลองจากแพ็คเกจ NumPy การวิเคราะห์ทางสถิติเกี่ยวกับข้อมูลในไลบรารี Pandas ดำเนินการโดย SciPy การพล็อตฟังก์ชันบน Matplotlib และอัลกอริธึมการเรียนรู้ของเครื่องใน Scikit-learn Jupyter Notebook เป็นสภาพแวดล้อมแบบโต้ตอบบนเว็บที่ทำงานเป็น IDE และมีสภาพแวดล้อมที่ดีสำหรับ Pandas

ระบุการทำงานพื้นฐานของ data frame

การเลือกดัชนีหรือคอลัมน์ก่อนเริ่มดำเนินการใดๆ เช่น การเพิ่มหรือการลบเป็นสิ่งสำคัญ เมื่อคุณเรียนรู้วิธีเข้าถึงค่าและเลือกคอลัมน์จาก Data Frame แล้ว คุณสามารถเรียนรู้วิธีเพิ่มดัชนี แถว หรือคอลัมน์ใน Pandas Dataframe หากดัชนีใน data frame ไม่ออกมาตามที่คุณต้องการ คุณสามารถรีเซ็ตได้ สำหรับการรีเซ็ตดัชนี คุณสามารถใช้ฟังก์ชัน “reset_index()”