تصور مربع مؤامرة مع الباندا [دليل شامل]

نشرت: 2020-09-03

أثناء التعامل مع أي مشروع لتحليل البيانات الإحصائية ، هناك العديد من الأدوات المفيدة التي يمكنك تطبيقها. الفكرة الأساسية هي تحديد السؤال واستخدام الوظيفة اللازمة للإجابة على هذا السؤال. على سبيل المثال ، إذا كان من الضروري رؤية توزيع البيانات ، فإن الإجابة المثالية هي رسم دالة توزيع البيانات.

إذا كان من الضروري رؤية القيم ومقارنتها بقيمة الأعمدة الأخرى ، فإن أفضل طريقة هي رسم مخطط شريطي أو مدرج تكراري. ولكن ماذا لو كان هناك حاجة إلى استيفاء استعلام إحصائي؟ يمكن ملاحظة الاتجاه في دالة التوزيع ، ولكن لا توجد طريقة سهلة للخروج إذا احتجنا إلى التحقق من نسبة مئوية معينة من البيانات. تحقق من تدريبنا على علوم البيانات من جامعات معترف بها للاستفادة من المنافسة.

يأتي Boxplot كحل للمشكلة المذكورة أعلاه. يتم استخدام Boxplots لوصف القيم المئوية للسمة ، وفقًا للعمود الذي تم رسمه مقابله. يمكن أن يكون Boxplot ثاقبًا في هندسة النماذج القائمة على القواعد وكذلك تحليل البيانات الاستكشافية بشكل عام.

Boxplot يتعامل مع الرباعيات.

دعونا أولاً نرسم مخطط مربع للباندا ثم نفهم أجزاء منه.

جدول المحتويات

رسم الباندا Boxplot

لتنفيذ مخطط مربع الباندا ، هناك متطلبان فقط ، Pandas و matplotlib. استخدام matplotlib هو تصور المؤامرات ورؤية المؤامرات داخل دفتر Jupyter.

إليك كيفية استيراد كلتا المكتبتين. نستخدم الوظيفة السحرية المضمنة بحيث يمكن رؤية المؤامرات مباشرة داخل الكمبيوتر المحمول.

رمز:

استيراد الباندا كما pd

استيراد matplotlib.pyplot كـ PLT

٪ matplotlib مضمنة

الآن ، نقوم باستيراد بياناتنا وقراءتها في DataFrame. هنا كيفية القيام بذلك.

رمز:

data = pd.read_csv (“إحصائيات FIFA 2018.csv”)

DataFrame هو هيكل البيانات الأساسي لباندا. فيما يلي العينات الخمس الأولى من بياناتنا.

بعد استيراد البيانات ، يمكننا استخدام وظيفة pandas boxplot مباشرة على كائن DataFrame. إليك كيفية استخدامه:

رمز:

data.boxplot (by = "Round" ، العمود = ["Goal Scored"])

تأخذ وظيفة pandas boxplot وسيطين . يتم استخدام معلمة "بواسطة" لتحديد المحور س. و "العمود" هو البيانات المراد رسمها على المحور ص.

نحن هنا نرسم الأهداف التي سجلها كل جولة.

ها هي الحبكة:

الخروج: أسئلة مقابلة بايثون

قراءة boxplots

الآن دعونا نقرأ المؤامرات. أولاً ، افهم قيم المحور. يحتوي المحور Y على عدد الأهداف التي تم تسجيلها في المباراة ، ويظهر المحور X الجولات التي تم لعب اللعبة تحتها. دعونا نأخذ مثال الجولة الأخيرة.

إذا لاحظنا ذلك بعناية ، فإن المربع مصنوع في مكان ما بين اثنين وأربعة ، والخط الأوسط عند ثلاثة. تم رسم المربع باستخدام ثلاث قيم - القيم المئوية 25 و 50 و 75. يشير السطر السفلي من الحبكة إلى النسبة المئوية الخامسة والعشرين للأهداف التي تم تسجيلها في المباراة ، ويشير الوسط إلى النسبة المئوية الخمسين ، ويشير الخط العلوي إلى النسبة المئوية الخامسة والسبعين. لذلك ، يعمل boxplot مع النطاق الرباعي (IQR) للبيانات.

قراءة: دروس Python Pandas: كل ما يحتاج المبتدئين إلى معرفته عن Python Pandas

الآن ، هناك شيء آخر مرسوم أعلى وأسفل الصندوق. تُعرف هذه الخطوط بالشعيرات. ومن ثم ، في بعض الأحيان يُعرف Boxplot أيضًا بمؤامرة الصندوق والشعيرات.

لا توجد طريقة فريدة لرسم الشعيرات. الطريقة الأكثر شيوعًا للإشارة إلى الشعيرات هي تمييزها بالحد الأدنى والأقصى للقيم في عمود البيانات. تستخدم بعض المكتبات مثل seaborn قيمة مضاعفة لـ IQR لتمييز الشعيرات. يستخدم Pandas boxplot القيم القصوى والدنيا لتمييز الشعيرات.

إذا لاحظت ، فهناك بعض النقاط بين الرابعة والسادسة. تُعرف هذه القيم المتطرفة. Boxplots مفيدة بشكل معقول في الأنظمة المستندة إلى القواعد مثل حساب الخطأ ، أو يمكنها التعرف بسرعة على سوء التصنيف. على سبيل المثال ، في الرسم البياني ، إذا كنت تحتاج فقط إلى التمييز بين جولات المركز الثالث والجولات النهائية ، فيمكنك بسهولة إنشاء نظام قائم على القواعد ، والذي سيصنف بياناتك بدقة. إذا كان بين صفر إلى اثنين ، ضع علامة على الجولة الثالثة ، وإذا كان بين اثنين إلى أربعة ، حدد الجولة الأخيرة.

تساعد Boxplots في فهم التوزيع العام لأعمدة البيانات. تُظهر المخططات التوزيعات باستخدام القيم الربعية. يسهل عليك تحليل البيانات بسرعة ، حيث تم وضع علامة على التوزيع بشكل مناسب. تشير الشعيرات إلى القيم المتبقية في العمود.

خاتمة

تشير النهاية السفلية إلى البيانات الأقل من 25٪ ، بينما تشير النهاية العليا إلى أعلى من 75٪. إذا كانت القيم المتطرفة أقل ، يمكن أن تساعد حبكات الباندا في التعرف عليها بسرعة. بشكل عام ، إذا كنت تستطيع قراءتها بشكل صحيح ، فإن boxplots مفيدة بشكل لا يصدق في تحليل البيانات.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما نوع البيانات التي يصورها مخطط المربع؟

يستخدم تصور مربع الرسم بشكل كبير في الإحصاء الوصفي. إنه نوع من الرسم البياني يستخدم غالبًا لتحليل البيانات الاستكشافية. من خلال عرض الربعية (النسب المئوية) والمتوسطات ، يمكن لمخططات الصندوق أن تصور بصريًا توزيع البيانات الرقمية جنبًا إلى جنب مع انحرافها.

يتم عرض ملخص مجموعة البيانات بمساعدة المخططات الصندوقية بتنسيق مرئي ضمن خمس فئات مختلفة. البيانات التي يوفرها مخطط الصندوق هي:

1. الحد الأدنى من النقاط
2. أولاً ، أو يمكننا أن نقول الربيع الأدنى
3. متوسط ​​مخطط الصندوق الثالث أو يمكننا أن نقول الربع الأعلى
4. أقصى درجة

البيانات هنا مقسمة إلى أقسام مختلفة لتسهيل تمثيل البيانات وفهم البيانات بصريًا بسهولة تامة.

لماذا وجدت المخططات الصندوقية لتكون مفيدة؟

يتمثل عمل المخططات الصندوقية في تقسيم مجموعة البيانات إلى أقسام مختلفة ، حيث يحتوي كل قسم تقريبًا على 25٪ من البيانات. تم العثور على مخططات الصندوق لتكون مفيدة حقًا لأنها توفر ملخصًا مرئيًا للبيانات الموجودة. يتيح ذلك للباحثين تحديد القيم المتوسطة بسهولة ، والعثور على علامات الانحراف ، ومعرفة تشتت مجموعات البيانات.

يمكن أن يوفر لك مخطط الصندوق صورة مرئية لمعرفة ما إذا كانت مجموعة البيانات الإحصائية منحرفة أو موزعة بشكل طبيعي. إذا تم توزيعه بشكل طبيعي ، فسيكون الوسيط في منتصف المربع ، وسيكون المربع متماثلًا. من ناحية أخرى ، سيكون المربع غير متماثل ، وسيكون الوسيط باتجاه أسفل أو أعلى المربع عندما يكون التوزيع منحرفًا.

هل يمكننا استخدام الباندا لتصور البيانات؟

من المعروف أن Pandas هي المكتبة الأكثر فائدة في لغة Python عندما يتعلق الأمر بعلوم البيانات. تم العثور على Pandas لتكون مفيدة حقًا في معالجة مجموعات البيانات واستيرادها وتنظيفها أيضًا. بخلاف ذلك ، يتم استخدام Pandas أيضًا على نطاق واسع لتصور البيانات.

في تصور البيانات ، يتم استخدام Pandas لتخطيط المؤامرات الأساسية المختلفة. تم العثور على وظائف هذه المكتبة أيضًا في تصور بيانات السلاسل الزمنية. بكلمات بسيطة ، يمكن القول أنه إذا كنت ترغب في رسم شريط بسيط أو عدد المخططات أو الخطوط ، فيجب عليك استخدام Pandas في تصور البيانات.