การแสดงภาพพล็อตกล่องพร้อมแพนด้า [คู่มือฉบับสมบูรณ์]

เผยแพร่แล้ว: 2020-09-03

ในขณะที่จัดการกับโครงการวิเคราะห์ข้อมูลทางสถิติ มีเครื่องมือที่มีประโยชน์มากมายที่คุณสามารถใช้ได้ แนวคิดพื้นฐานคือการระบุคำถามและใช้ฟังก์ชันที่จำเป็นเพื่อตอบคำถามนั้น ตัวอย่างเช่น ถ้าจำเป็นต้องดูการกระจายข้อมูล คำตอบในอุดมคติคือการพล็อตฟังก์ชันการกระจายข้อมูล

หากจำเป็นต้องดูค่าและเปรียบเทียบกับค่าของคอลัมน์อื่นๆ วิธีที่ดีที่สุดคือการลงจุดกราฟแท่งหรือฮิสโตแกรม แต่ถ้าต้องกรอกแบบสอบถามทางสถิติล่ะ? สามารถสังเกตแนวโน้มได้ในฟังก์ชันการกระจาย แต่ไม่มีวิธีง่าย ๆ หากเราต้องตรวจสอบเปอร์เซ็นไทล์ของข้อมูลที่เฉพาะเจาะจง ตรวจสอบการฝึกอบรมด้านวิทยาศาสตร์ข้อมูลของเราจากมหาวิทยาลัยที่ได้รับการยอมรับเพื่อรับความได้เปรียบเหนือการแข่งขัน

Boxplot เป็นวิธีแก้ปัญหาข้างต้น Boxplots ใช้เพื่ออธิบายค่าเปอร์เซ็นไทล์ของแอตทริบิวต์ ตามคอลัมน์ที่ลงจุดไว้ Boxplot สามารถมีความเข้าใจอย่างลึกซึ้งในด้านวิศวกรรมแบบจำลองตามกฎ เช่นเดียวกับการวิเคราะห์ข้อมูลเชิงสำรวจโดยทั่วไป

Boxplot เกี่ยวข้องกับควอร์ไทล์

ก่อนอื่นเรามาพลอตบ็อกซ์พล็อต แพนด้า ก่อน แล้วค่อยทำความเข้าใจส่วนต่าง ๆ ของมัน

สารบัญ

พล็อตเรื่อง Pandas Boxplot

ในการใช้งานกล่อง พล็อตแพนด้า มีเพียงสองข้อกำหนดคือ Pandas และ matplotlib การใช้ matplotlib คือการแสดงภาพแผนผังและดูแผนผังภายในสมุดบันทึก Jupyter

นี่คือวิธีที่เรานำเข้าทั้งสองไลบรารี เราใช้ฟังก์ชันเวทย์มนตร์แบบอินไลน์เพื่อให้สามารถมองเห็นโครงเรื่องได้โดยตรงภายในสมุดบันทึก

รหัส:

นำเข้า แพนด้า เป็น pd

นำเข้า matplotlib.pyplot เป็น plt

%matplotlib แบบอินไลน์

ตอนนี้ เรานำเข้าข้อมูลของเราและอ่านลงใน DataFrame นี่คือวิธีการทำ

รหัส:

data = pd.read_csv (“สถิติ FIFA 2018.csv”)

DataFrame เป็นโครงสร้างข้อมูลพื้นฐานของ Pandas นี่คือตัวอย่างข้อมูลห้าตัวอย่างแรกของเรา

หลังจากที่นำเข้าข้อมูลแล้ว เราก็สามารถใช้ ฟังก์ชันบ็อกซ์พล็อต แพนด้า บนออบเจกต์ DataFrame ได้โดยตรง นี่คือวิธีการใช้งาน:

รหัส:

data.boxplot(by=”รอบ”, column=['คะแนนเป้าหมาย'])

ฟังก์ชัน boxplot ของ pandas มีอาร์กิวเมนต์สองอาร์กิวเมนต์ พารามิเตอร์ 'by' ใช้เพื่อเลือกแกน X และ 'คอลัมน์' คือข้อมูลที่จะลงจุดบนแกน Y

เรากำลังวางแผนการทำประตูจากรอบ

นี่คือพล็อต:

ชำระเงิน: คำถามสัมภาษณ์ Python

การอ่านบ็อกซ์พล็อต

ตอนนี้ให้เราอ่านพล็อต ขั้นแรก ทำความเข้าใจค่าของแกน แกน Y มีจำนวนประตูที่ทำได้ในการแข่งขัน และแกน X แสดงรอบที่เล่นเกม มาดูตัวอย่างรอบสุดท้ายกัน

หากเราสังเกตให้ดี กล่องจะถูกสร้างขึ้นระหว่างสองถึงสี่ โดยเส้นกลางอยู่ที่สาม กล่องถูกพล็อตโดยใช้ค่าสามค่า – ค่าเปอร์เซ็นไทล์ที่ 25, 50 และ 75 บรรทัดล่างของโครงเรื่องแสดงถึงเปอร์เซ็นต์ไทล์ที่ 25 ของประตูที่ทำได้ในการแข่งขัน ตรงกลางหมายถึงเปอร์เซ็นต์ไทล์ที่ 50 และบรรทัดบนแสดงถึงเปอร์เซ็นต์ไทล์ที่ 75 ดังนั้น boxplot จึงทำงานร่วมกับช่วงระหว่างควอร์ไทล์ (IQR) ของข้อมูล

อ่าน: บทช่วยสอน Python Pandas: ทุกสิ่งที่ผู้เริ่มต้นจำเป็นต้องรู้เกี่ยวกับ Python Pandas

ตอนนี้ มีอีกอย่างหนึ่งที่วาดด้านบนและด้านล่างกล่อง เส้นเหล่านี้เรียกว่าหนวด ดังนั้นบางครั้ง boxplot จึงเป็นที่รู้จักกันในนาม box-and-whiskers

ไม่มีวิธีพิเศษใดในการวางแผนหนวดเครา วิธีที่ใช้บ่อยที่สุดในการแสดงเคราคือการทำเครื่องหมายไว้ที่ค่าต่ำสุดและสูงสุดในคอลัมน์ข้อมูล ห้องสมุดบางแห่งเช่น seaborn ใช้ค่า IQR แบบทวีคูณเพื่อทำเครื่องหมายเครา Boxplot Pandas ใช้ค่าสูงสุดและต่ำสุดเพื่อทำเครื่องหมายเครา

หากคุณสังเกตเห็น มีบางจุดระหว่างสี่ถึงหก สิ่งเหล่านี้เรียกว่าค่าผิดปกติ Boxplots มีประโยชน์อย่างสมเหตุสมผลในระบบที่อิงตามกฎ เช่น การคำนวณข้อผิดพลาด หรือสามารถระบุการจัดประเภทที่ไม่ถูกต้องได้อย่างรวดเร็ว ตัวอย่างเช่น ในกราฟ หากคุณต้องการแยกความแตกต่างระหว่างรอบที่ 3 และรอบสุดท้าย คุณสามารถสร้างระบบตามกฎได้ง่าย ซึ่งจะจัดหมวดหมู่ข้อมูลของคุณอย่างแม่นยำ ถ้าระหว่างศูนย์ถึงสอง ให้ทำเครื่องหมายรอบที่ 3 และถ้าระหว่างสองถึงสี่ ให้ทำเครื่องหมายรอบสุดท้าย

Boxplots ช่วยให้เข้าใจการกระจายโดยรวมของคอลัมน์ข้อมูล แปลงแสดงการแจกแจงโดยใช้ค่าควอร์ไทล์ ช่วยให้คุณวิเคราะห์ข้อมูลได้อย่างรวดเร็วได้ง่ายขึ้น เนื่องจากมีการทำเครื่องหมายการกระจายอย่างเหมาะสม หนวดแสดงถึงค่าที่เหลืออยู่ในคอลัมน์

บทสรุป

ปลายล่างแสดงถึงข้อมูลที่ต่ำกว่า 25% ในขณะที่ปลายบนแสดงถึงข้อมูลที่สูงกว่า 75% หากค่าผิดปกติน้อยกว่า บ็อกซ์พล็อต แพนด้า สามารถช่วยระบุสิ่งเหล่านั้นได้อย่างรวดเร็ว โดยรวมแล้ว หากคุณสามารถอ่านได้อย่างถูกต้อง บ็อกซ์พล็อตจะมีประโยชน์อย่างเหลือเชื่อในการวิเคราะห์ข้อมูล

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดู โปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ข้อมูลประเภทใดที่แผนภาพกล่องแสดง

การสร้างภาพข้อมูลกล่องพล็อตถูกใช้อย่างมากในสถิติเชิงพรรณนา เป็นแผนภูมิประเภทหนึ่งที่มักใช้สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ ด้วยการแสดงควอร์ไทล์ (เปอร์เซ็นต์) และค่าเฉลี่ย แผนภาพกล่องสามารถแสดงภาพการกระจายของข้อมูลตัวเลขพร้อมกับความเบ้ได้

บทสรุปของชุดข้อมูลจะแสดงโดยใช้แผนผังกล่องในรูปแบบภาพภายใต้หมวดหมู่ต่างๆ ห้าประเภท ข้อมูลที่จัดทำโดยพล็อตกล่องคือ:

1. คะแนนขั้นต่ำ
2. อย่างแรกหรือเราสามารถพูดได้ว่าควอไทล์ล่าง
3. ค่ามัธยฐานของโครงกล่อง ที่สาม หรือเราสามารถพูดได้ว่าควอไทล์บน
4.คะแนนสูงสุด

ข้อมูลในที่นี้ถูกแบ่งออกเป็นส่วนต่างๆ เพื่อให้ง่ายต่อการแสดงข้อมูลและทำความเข้าใจข้อมูลด้วยภาพที่เห็นได้ง่าย

เหตุใดจึงพบว่าแปลงกล่องมีประโยชน์

งานของแผนภาพกล่องคือการแบ่งชุดข้อมูลออกเป็นส่วนต่างๆ โดยที่ทุกๆ ส่วนโดยประมาณจะมีข้อมูลประมาณ 25% แผนภาพกล่องพบว่ามีประโยชน์จริง ๆ เนื่องจากให้ภาพสรุปข้อมูลที่มีอยู่ ซึ่งช่วยให้นักวิจัยระบุค่ากลางได้ง่าย ค้นหาสัญญาณความเบ้ และทราบการกระจายของชุดข้อมูล

พล็อตกล่องสามารถให้ภาพแก่คุณเพื่อดูว่าชุดข้อมูลทางสถิติเอียงหรือกระจายตามปกติหรือไม่ หากมีการกระจายแบบปกติ ค่ามัธยฐานจะอยู่ตรงกลางกล่อง และกล่องจะสมมาตร ในทางกลับกัน กล่องจะไม่สมมาตร และค่ามัธยฐานจะอยู่ด้านล่างหรือด้านบนของกล่องเมื่อการกระจายเอียง

เราสามารถใช้ Pandas สำหรับการแสดงข้อมูลได้หรือไม่

Pandas ขึ้นชื่อว่าเป็นห้องสมุดที่มีประโยชน์ที่สุดในภาษา Python เมื่อพูดถึง Data Science พบว่า Pandas มีประโยชน์อย่างมากในการจัดการ นำเข้า และทำความสะอาดชุดข้อมูล นอกจากนั้น Pandas ยังใช้กันอย่างแพร่หลายสำหรับการสร้างภาพข้อมูล

ในการสร้างภาพข้อมูล Pandas ใช้สำหรับพล็อตพล็อตพื้นฐานต่างๆ ฟังก์ชันต่างๆ ของไลบรารีนี้ยังพบได้ในการแสดงข้อมูลอนุกรมเวลาด้วย กล่าวง่ายๆ ก็คือ หากคุณต้องการพล็อตแถบ นับพล็อต หรือเส้นอย่างง่าย คุณควรใช้ Pandas ในการสร้างภาพข้อมูล