คำถามและคำตอบสัมภาษณ์ 17 ข้อที่ต้องอ่านของ Pandas [สำหรับมือใหม่และผู้มีประสบการณ์]

เผยแพร่แล้ว: 2020-07-29

Pandas เป็นไลบรารี Python แบบโอเพ่นซอร์สที่ได้รับอนุญาตจาก BSD ซึ่งมีโครงสร้างข้อมูลประสิทธิภาพสูง ใช้งานง่าย และเครื่องมือวิเคราะห์ข้อมูล Python กับ Pandas ถูกใช้ในหลากหลายสาขาวิชา รวมถึงเศรษฐศาสตร์ การเงิน สถิติ การวิเคราะห์ และอื่นๆ ในบทความนี้ เราได้ระบุ คำถามสัมภาษณ์แพนด้า ที่จำเป็น และ คำถาม สัมภาษณ์ NumPy ที่ผู้เรียนหลามต้องรู้ หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับไพ ธ อน โปรดดูโปรแกรมวิทยาศาสตร์ข้อมูลของเรา

สารบัญ

คำถามสัมภาษณ์แพนด้า & คำตอบ

คำถามที่ 1 – กำหนด Python Pandas

Pandas หมายถึงไลบรารีซอฟต์แวร์ที่เขียนขึ้นอย่างชัดเจนสำหรับ Python ซึ่งใช้ในการวิเคราะห์และจัดการข้อมูล Pandas เป็นไลบรารีโอเพนซอร์ซข้ามแพลตฟอร์มที่สร้างโดย Wes McKinney เปิดตัวในปี 2551 และจัดเตรียมโครงสร้างข้อมูลและการดำเนินการเพื่อจัดการข้อมูลตัวเลขและอนุกรมเวลา สามารถติดตั้ง Pandas ได้โดยใช้ pip หรือ Anaconda distribution Pandas ทำให้การดำเนินการแมชชีนเลิร์นนิงกับข้อมูลแบบตารางทำได้ง่ายมาก

คำถามที่ 2 – โครงสร้างข้อมูลประเภทต่าง ๆ ใน Pandas มีอะไรบ้าง

ไลบรารี Panda รองรับโครงสร้างข้อมูลหลักสองประเภทคือ DataFrames และ Series โครงสร้างข้อมูลทั้งสองนี้สร้างขึ้นบน NumPy ซีรีส์เป็นโครงสร้างข้อมูลแบบหนึ่งมิติและเรียบง่ายที่สุด ในขณะที่ DataFrame เป็นแบบสองมิติ ป้ายชื่อแกนอื่นที่เรียกว่า "แผง" คือโครงสร้างข้อมูล 3 มิติและรวมรายการต่างๆ เช่น major_axis และ minor_axis

แหล่งที่มา

คำถามที่ 3 – อธิบายซีรี่ส์ใน Pandas

ซีรีส์คืออาร์เรย์หนึ่งมิติที่สามารถเก็บค่าข้อมูลได้ทุกประเภท (สตริง ทุ่น จำนวนเต็ม ออบเจ็กต์ไพธอน ฯลฯ) เป็นโครงสร้างข้อมูลแบบง่ายที่สุดใน Pandas ในที่นี้ ป้ายกำกับแกนของข้อมูลเรียกว่าดัชนี

คำถามที่ 4 – กำหนด Dataframe ใน Pandas

DataFrame คืออาร์เรย์ 2 มิติที่ข้อมูลถูกจัดแนวในรูปแบบตารางที่มีแถวและคอลัมน์ ด้วยโครงสร้างนี้ คุณสามารถดำเนินการคำนวณในแถวและคอลัมน์ได้

คำถามที่ 5 – คุณจะสร้าง Dataframe เปล่าใน Pandas ได้อย่างไร

หากต้องการสร้าง DataFrame ว่างใน Pandas ให้พิมพ์

นำเข้าแพนด้าเป็น pd

ab = pd.DataFrame()

คำถามที่ 6 – อะไรคือคุณสมบัติที่สำคัญที่สุดของห้องสมุด Pandas?

คุณสมบัติที่สำคัญของห้องสมุดแพนด้าคือ:

  • การจัดตำแหน่งข้อมูล
  • ผสานและเข้าร่วม
  • หน่วยความจำที่มีประสิทธิภาพ
  • อนุกรมเวลา
  • ก่อร่างใหม่

อ่าน: Dataframe ใน Apache PySpark: บทช่วยสอนที่ครอบคลุม

คำถามที่ 7 – คุณจะอธิบายการทำดัชนีใหม่ในหมีแพนด้าอย่างไร

การทำดัชนีใหม่หมายถึงการแก้ไขข้อมูลเพื่อให้ตรงกับชุดป้ายกำกับตามแกนเฉพาะ

การดำเนินการต่างๆ สามารถทำได้โดยใช้การจัดทำดัชนี เช่น-

  • แทรกเครื่องหมายค่าที่ขาดหายไป (NA) ในตำแหน่งป้ายกำกับที่ไม่มีข้อมูลสำหรับป้ายกำกับ
  • จัดลำดับชุดข้อมูลที่มีอยู่ใหม่เพื่อให้ตรงกับชุดป้ายกำกับใหม่

คำถามที่ 8 – อะไรคือวิธีต่างๆ ในการสร้าง DataFrame ในแพนด้า? อธิบายด้วยตัวอย่าง

สามารถสร้าง DataFrame ได้โดยใช้ Lists หรือ Dict of nd arrays

ตัวอย่างที่ 1 – การสร้าง DataFrame โดยใช้ List

นำเข้าแพนด้าเป็น pd

# รายการสตริง

Strlist = ['หมีแพนด้า', 'NumPy']

# กำลังเรียกตัวสร้าง DataFrame ในรายการ

รายการ = pd.DataFrame(Strlist)

พิมพ์ (รายการ)

ตัวอย่างที่ 2 – การสร้าง DataFrame โดยใช้ dict ของอาร์เรย์

นำเข้าแพนด้าเป็น pd

รายการ = {'ID': [1001, 1002, 1003], 'แผนก': ['วิทยาศาสตร์', 'การค้า', 'ศิลปะ',]}

รายการ = pd.DataFrame (รายการ)

พิมพ์ (รายการ)

เช็คเอาท์: คำถามสัมภาษณ์วิทยาศาสตร์ข้อมูล

คำถามที่ 9 – อธิบายข้อมูลหมวดหมู่ในหมีแพนด้า ?

ข้อมูลตามหมวดหมู่หมายถึงข้อมูลแบบเรียลไทม์ที่สามารถทำซ้ำได้ ตัวอย่างเช่น ค่าข้อมูลภายใต้หมวดหมู่ เช่น ประเทศ เพศ รหัสจะซ้ำกันเสมอ ค่าตามหมวดหมู่ในแพนด้ายังรับค่าที่เป็นไปได้ในจำนวนจำกัดและคงที่เท่านั้น

ไม่สามารถดำเนินการเชิงตัวเลขกับข้อมูลดังกล่าวได้ ค่าทั้งหมดของข้อมูลหมวดหมู่ในแพนด้าอยู่ในหมวดหมู่หรือ np.nan

ชนิดข้อมูลนี้อาจมีประโยชน์ในกรณีต่อไปนี้:

หากตัวแปรสตริงมีค่าต่างกันเพียงไม่กี่ค่า การแปลงเป็นตัวแปรหมวดหมู่จะช่วยประหยัดหน่วยความจำบางส่วนได้

มีประโยชน์เป็นสัญญาณไปยังไลบรารี Python อื่น ๆ เนื่องจากคอลัมน์นี้ต้องถือเป็นตัวแปรหมวดหมู่

ลำดับคำศัพท์สามารถแปลงเป็นลำดับหมวดหมู่เพื่อจัดเรียงอย่างถูกต้อง เช่น ลำดับตรรกะ

คำถามที่ 10 – สร้างซีรีส์โดยใช้ Dict In Pandas

นำเข้าแพนด้าเป็น pd

นำเข้า numpy เป็น np

ser = {'a' : 1, 'b' : 2, 'c' : 3}

ตอบ = pd.Series(ser)

พิมพ์ (อ.)

คำถามที่ 11 – วิธีการสร้างสำเนาของซีรีส์ในหมีแพนด้า?

ในการสร้างสำเนาของซีรีส์ในแพนด้า จะใช้ไวยากรณ์ต่อไปนี้:

pandas.Series.copy

Series.copy(ลึก=จริง)

* หากตั้งค่า deep เป็นเท็จ จะไม่คัดลอกข้อมูลหรือดัชนี

คำถามที่ 12 – คุณจะเพิ่มดัชนี แถว หรือคอลัมน์ใน Dataframe ใน Pandas ได้อย่างไร

ในการเพิ่มแถวใน DataFrame เราสามารถใช้ .loc (), .iloc () และ .ix() .loc () เป็นป้ายกำกับ .iloc() เป็นจำนวนเต็ม และ .ix() เป็นป้ายกำกับบูธและอิงตามจำนวนเต็ม ในการเพิ่มคอลัมน์ใน DataFrame เราสามารถใช้ .loc () หรือ .iloc () ได้อีกครั้ง

คำถามที่ 13 – คุณจะใช้วิธีใดในการเปลี่ยนชื่อดัชนีหรือคอลัมน์ของ Pandas Dataframe

สามารถใช้เมธอด .rename เพื่อเปลี่ยนชื่อคอลัมน์หรือค่าดัชนีของ DataFrame

คำถามที่ 14 – คุณจะวนซ้ำ Dataframe ใน Pandas ได้อย่างไร

หากต้องการวนซ้ำบน DataFrame ใน pandas for loop สามารถใช้ร่วมกับการเรียก iterrows ()

คำถามที่ 15 – Pandas Numpy Array คืออะไร?

Numerical Python (NumPy) ถูกกำหนดให้เป็นแพ็คเกจ inbuilt ใน python เพื่อดำเนินการคำนวณเชิงตัวเลขและประมวลผลองค์ประกอบอาร์เรย์หลายมิติและมิติเดียว

อาร์เรย์ NumPy คำนวณได้เร็วกว่าเมื่อเทียบกับอาร์เรย์ Python อื่นๆ

คำถามที่ 16 – ดาต้าเฟรมสามารถแปลงเป็นไฟล์ Excel ได้อย่างไร

ในการแปลงวัตถุเดียวเป็นไฟล์ excel เราสามารถระบุชื่อไฟล์เป้าหมายได้ อย่างไรก็ตาม ในการแปลงหลายแผ่น เราจำเป็นต้องสร้าง วัตถุ ExcelWriter พร้อมกับชื่อไฟล์เป้าหมาย และระบุแผ่นงานที่ต้องการส่งออก

คำถามที่ 17 – ฟังก์ชัน Groupby ใน Pandas คืออะไร?

ใน Pandas ฟังก์ชัน groupby () อนุญาตให้โปรแกรมเมอร์จัดเรียงข้อมูลใหม่โดยใช้ข้อมูลเหล่านี้กับชุดในโลกแห่งความเป็นจริง งานหลักของฟังก์ชันคือการแบ่งข้อมูลออกเป็นกลุ่มต่างๆ

อ่านเพิ่มเติม: โครงการโอเพ่นซอร์ส 15 Python AI และการเรียนรู้ของเครื่อง

บทสรุป

เราหวังว่าคำถามสัมภาษณ์ P andas ที่กล่าวถึงข้างต้น และ คำถาม สัมภาษณ์ NumPy จะช่วยให้คุณเตรียมพร้อมสำหรับการสัมภาษณ์ครั้งต่อไป หากคุณกำลังมองหาหลักสูตรที่สามารถช่วยให้คุณเข้าใจภาษา Python upGrad อาจเป็นแพลตฟอร์มที่ดีที่สุด

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดูโปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ห้องสมุด Pandas ใช้เพื่อวัตถุประสงค์ใด

สาเหตุหลักที่อยู่เบื้องหลังการใช้ Pandas นั้นมาจากการวิเคราะห์ข้อมูล Pandas อนุญาตให้ผู้ใช้นำเข้าข้อมูลจากรูปแบบต่างๆ เช่น Microsoft Excel, SQL, JSON และค่าที่คั่นด้วยเครื่องหมายจุลภาค Pandas ถือว่ามีประโยชน์มากสำหรับการวิเคราะห์ข้อมูล เนื่องจากอนุญาตให้ผู้ใช้ดำเนินการจัดการข้อมูลต่างๆ เช่น การเลือก การปรับรูปร่าง การรวม และการล้างข้อมูลด้วย นอกจากนั้น Pandas ยังมีคุณสมบัติการโต้แย้งข้อมูลต่างๆ

พูดง่ายๆ ก็คือ เราสามารถพูดได้ว่า Pandas ช่วยให้ทำงานต่างๆ ที่ใช้เวลานานและซ้ำซากจำเจซึ่งเกี่ยวข้องกับข้อมูลได้ง่าย งานที่ทำได้ง่ายกับ Pandas คือ:

1. การรวมและการรวมสถิติ
2.วิเคราะห์ข้อมูล
3. การทำให้เป็นมาตรฐาน ข้อมูล
4. กรอกข้อมูล
5. การล้างข้อมูล
6. การตรวจสอบ กำลังโหลดและบันทึกข้อมูล
7. การสร้างภาพข้อมูล

นี่เป็นเพียงส่วนน้อยของงานการจัดการข้อมูลที่ทำได้ง่ายๆ ด้วย Pandas นักวิทยาศาสตร์ข้อมูลโหวตให้ Pandas เป็นเครื่องมือที่ดีที่สุดสำหรับการวิเคราะห์และการจัดการข้อมูล

Python Pandas มีฟีเจอร์สำคัญอะไรบ้าง?

สำหรับการควบคุมพลังที่แท้จริงของห้องสมุด Pandas ใน Python คุณควรสำรวจคุณสมบัติที่สำคัญบางอย่างที่เสนอให้กับผู้ใช้ เมื่อพูดถึงการวิเคราะห์ข้อมูล Pandas ถือเป็นเครื่องมือที่ทรงพลังที่สุดพร้อมฟีเจอร์มากมายที่ช่วยให้ผู้ใช้ใช้งานได้ง่ายขึ้น

คุณลักษณะสำคัญบางประการที่คุณควรรู้ก่อนเริ่มใช้งานกับห้องสมุด Pandas ได้แก่:

1. การจัดการข้อมูล
2. การจัดตำแหน่งข้อมูลและการจัดทำดัชนี
3. การล้างข้อมูล
4. การจัดการข้อมูลที่ขาดหายไป
5. เครื่องมืออินพุตและเอาต์พุตต่างๆ สำหรับการอ่านและเขียนข้อมูล
6. รองรับไฟล์ได้หลายรูปแบบ
7. รวมและเข้าร่วมชุดข้อมูลต่างๆ
8. การเพิ่มประสิทธิภาพการทำงาน
9. การสร้างภาพข้อมูล
10. จัดกลุ่มข้อมูลตามความต้องการ
11. ดำเนินการทางคณิตศาสตร์ที่แตกต่างกันกับข้อมูลที่มีอยู่
12. ปิดบังข้อมูลที่ไม่เกี่ยวข้องเพื่อใช้เฉพาะข้อมูลที่จำเป็นเท่านั้น
13. ดึงข้อมูลเฉพาะจากการทำซ้ำต่างๆ ในชุดข้อมูล

อะไรคือเหตุผลที่อยู่เบื้องหลังการนำเข้าไลบรารี Pandas ใน Python?

Pandas เป็นไลบรารี Python แบบโอเพ่นซอร์สที่ใช้กันอย่างแพร่หลายมากที่สุดสำหรับการวิเคราะห์ข้อมูล วิทยาศาสตร์ข้อมูล และงานการเรียนรู้ของเครื่อง Pandas เป็นแพ็คเกจที่ได้รับความนิยมมากที่สุดสำหรับการโต้แย้งข้อมูล และมันใช้งานได้ดีกับโมดูลวิทยาศาสตร์ข้อมูลอื่นๆ ในระบบนิเวศของ Python ห้องสมุด Pandas เป็นตัวเลือกแรกสำหรับทุกสิ่งเมื่อพูดถึงข้อมูลสำหรับวิทยาการข้อมูลและผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลทุกคน