ورقة غش الباندا: أهم الأوامر التي يجب أن تعرفها [2022]

نشرت: 2021-01-06

أصبح تحليل البيانات نوعًا جديدًا من الدراسة ، وكل ذلك بفضل Python. إذا كنت محللًا متحمسًا للبيانات يعمل على Python ، فعليك استخدام مكتبة Pandas بشكل شبه كامل ، فهذه المقالة مناسبة لك. ستخوض ورقة الغش Pandas هذه من خلال جميع الطرق الأساسية التي تكون في متناول اليد أثناء تحليل البيانات. ربما واجهت مواقف يصعب فيها تذكر بناء الجملة المحدد لفعل شيء ما في Pandas. ستساعدك أوامر ورقة الغش في Pandas على تذكر عمليات Pandas الأكثر شيوعًا والرجوع إليها بسهولة. إذا كنت مبتدئًا في بايثون وعلوم البيانات ، يمكن لدورات upGrad لعلوم البيانات أن تساعدك بالتأكيد على الغوص بشكل أعمق في عالم البيانات والتحليلات.

جدول المحتويات

استخدام ورقة غش الباندا
- 1. استيراد البيانات من ملفات مختلفة
- 2. تصدير DataFrames بتنسيقات ملفات مختلفة
- 3. افحص قسمًا معينًا من DataFrame أو Series
- 4. تحديد مجموعة فرعية معينة من البيانات الخاصة بك
- 5. أوامر تنظيف البيانات
- 6. تجميع البيانات وفرزها وتصفيتها
- 7. آخرون
خاتمة
- ما هي السمات البارزة لمكتبات الباندا؟
- ما هي المكتبات والأدوات الأخرى التي تكمل مكتبة Pandas؟
- حدد العمليات الأساسية لإطار البيانات

استخدام ورقة غش الباندا

قبل استخدام ورقة الغش من Pandas ، يجب أن تتعلم تمامًا دروس Pandas ثم الرجوع إلى ورقة الغش هذه للتذكر والتخليص. ستساعدك ورقة الغش في Pandas على البحث بسرعة عن الأساليب التي تعلمتها بالفعل ، ويمكن أن تكون مفيدة حتى لو كنت ذاهبًا لامتحان أو مقابلة. لقد قمنا بتجميع وتجميع جميع الأوامر المستخدمة بشكل متكرر في Pandas بواسطة محلل بيانات لسهولة اكتشافها. في ورقة الغش Pandas هذه ، سنستخدم الاختصار التالي لتمثيل كائنات مختلفة.

df: لتمثيل أي كائن Pandas DataFrame
ser: لتمثيل أي كائن من سلسلة Pandas

يجب عليك استخدام هذه المكتبات التالية ذات الصلة لتنفيذ الأساليب المذكورة أدناه في هذه المقالة.

استيراد الباندا كما pd
استيراد numpy كـ np

يجب أن تقرأ: أسئلة مقابلة الباندا

1. استيراد البيانات من ملفات مختلفة

لقراءة جميع البيانات من ملف CSV: pd.read_csv (file_name)
لقراءة جميع البيانات من ملف نصي محدد (مثل TSV): pd.read_table (file_name)
للقراءة من ورقة Excel: pd.read_excel (file_name)
لقراءة البيانات من قاعدة بيانات SQL: pd.read_sql (استعلام ، ConnectionObject)
إحضار البيانات من سلسلة بتنسيق JSON أو عنوان URL: pd.read_json (jsonString)
لأخذ محتويات الحافظة الخاصة بك: pd.read_clipboard ()

2. تصدير DataFrames بتنسيقات ملفات مختلفة

لكتابة DataFrame إلى ملف CSV: df.to_csv (file_name)
لكتابة DataFrame إلى ملف Excel: df.to_excel (file_name)
لكتابة DataFrame إلى جدول SQL: df.to_sql (tableName ، connectionObject)
لكتابة DataFrame إلى ملف بتنسيق JSON: df.to_json (اسم_الملف)

3. افحص قسمًا معينًا من DataFrame أو Series

لجلب جميع المعلومات المتعلقة بالفهرس ونوع البيانات والذاكرة: df.info ()
لاستخراج صفوف البداية 'n' من DataFrame الخاص بك: df.head (n)
لاستخراج صفوف النهاية 'n' من DataFrame الخاص بك: df.tail (n)
لاستخراج عدد الصفوف والأعمدة المتوفرة في DataFrame الخاص بك: df.shape
لتلخيص إحصائيات الأعمدة الرقمية: df.describe ()
لعرض القيم الفريدة مع أعدادها: ser.value_counts (dropna = False)

4. تحديد مجموعة فرعية معينة من البيانات الخاصة بك

قم باستخراج الصف الأول: df.iloc [0 ،:]
لاستخراج العنصر الأول من العمود الأول في DataFrame: df.iloc [0،0]
لإرجاع الأعمدة التي تحمل التصنيف "عمود" كسلسلة: df [col]
لإرجاع الأعمدة التي تحتوي على إطار بيانات جديد: df [[col1، col2]]
لتحديد البيانات حسب الموقع: ser.iloc [0]
لتحديد البيانات حسب الفهرس: ser.loc ['index_one']

5. أوامر تنظيف البيانات

لإعادة تسمية الأعمدة في الكتل: df.rename (الأعمدة = lambda x: x + 1)
لإعادة تسمية الأعمدة بشكل انتقائي: df.rename (الأعمدة = {'oldName': 'newName'})
لإعادة تسمية الفهرس في الكتل: df.rename (index = lambda x: x + 1)
لإعادة تسمية الأعمدة بالتسلسل: df.columns = ['x'، 'y'، 'z']
للتحقق من وجود قيم خالية ، يتم إرجاع سهم منطقي وفقًا لذلك: pd.isnull ()
عكس pd.isnull (): pd.notnull ()
يسقط كل الصفوف التي تحتوي على قيم خالية: df.dropna ()
إسقاط كافة الأعمدة التي تحتوي على قيم خالية: df.dropna (المحور = 1)
لاستبدال كل قيمة فارغة بـ "n": df.fillna (n)
لتحويل جميع أنواع بيانات السلسلة إلى عدد عشري: ser.astype (عائم)
لاستبدال كل الأرقام 1 بـ "واحد" و 3 بـ "ثلاثة": ser.replace ([1،2]، ['one'، 'two'])

اقرأ أيضًا: Pandas Dataframe Astype

6. تجميع البيانات وفرزها وتصفيتها

لإرجاع كائن groupby لقيم العمود: df.groupby (colm)
لإرجاع كائن groupby لقيم أعمدة متعددة: df.groupby ([colm1، colm2])
لفرز القيم بترتيب تصاعدي (حسب العمود): df.sort_values (colm1)
لفرز القيم بترتيب تنازلي (حسب العمود): df.sort_values (colm2 ، تصاعدي = خطأ)
استخراج الصفوف حيث تكون قيمة العمود أكبر من 0.6: df [df [colm]> 0.6]

7. آخرون

أضف صفوف DataFrame الأول إلى نهاية إطار DataFrame الثاني: df1.append (df2)
أضف أعمدة إطار البيانات الأول إلى نهاية إطار البيانات الثاني: pd.concat ([df1، df2] ، المحور = 1)
لإرجاع متوسط كل الأعمدة: df.mean ()
لإرجاع عدد القيم غير الخالية: df.count ()

خاتمة

ستكون أوراق الغش من Pandas مفيدة فقط للتذكير السريع. إنها دائمًا طريقة جيدة لممارسة الأوامر قبل القفز مباشرة إلى ورقة الغش في Pandas .

إذا كنت مهتمًا بالتعرف على Pandas ، فراجع IIIT-B & upGrad's Executive PG Program in Data Science الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هي السمات البارزة لمكتبات الباندا؟

فيما يلي الميزات التي تجعل Pandas واحدة من مكتبات Python الأكثر شيوعًا: تزودنا Pandas بإطارات بيانات مختلفة لا تسمح فقط بتمثيل البيانات بكفاءة بل تمكننا أيضًا من معالجتها. يوفر ميزات محاذاة وفهرسة فعالة توفر طرقًا ذكية لتصنيف البيانات وتنظيمها. بعض ميزات Pandas تجعل الكود نظيفًا ويزيد من قابليته للقراءة ، مما يجعله أكثر كفاءة. يمكنه أيضًا قراءة تنسيقات ملفات متعددة. JSON و CSV و HDF5 و Excel هي بعض تنسيقات الملفات التي يدعمها Pandas. كان دمج مجموعات البيانات المتعددة تحديًا حقيقيًا للعديد من المبرمجين. تغلب الباندا على هذا أيضًا ودمج مجموعات بيانات متعددة بكفاءة عالية. توفر مكتبة Pandas أيضًا الوصول إلى مكتبات Python المهمة الأخرى مثل Matplotlib و NumPy مما يجعلها مكتبة عالية الكفاءة.

ما هي المكتبات والأدوات الأخرى التي تكمل مكتبة Pandas؟

لا تعمل Pandas كمكتبة مركزية لإنشاء إطارات البيانات فحسب ، بل تعمل أيضًا مع مكتبات وأدوات أخرى في Python لتكون أكثر كفاءة. تم بناء Pandas على حزمة NumPy Python مما يشير إلى أن معظم بنية مكتبة Pandas يتم نسخها من حزمة NumPy. يتم تشغيل التحليل الإحصائي للبيانات الموجودة في مكتبة Pandas بواسطة SciPy ، ووظائف التخطيط على Matplotlib ، وخوارزميات التعلم الآلي في Scikit-Learn. Jupyter Notebook عبارة عن بيئة تفاعلية قائمة على الويب تعمل بمثابة IDE وتوفر بيئة جيدة لـ Pandas.

حدد العمليات الأساسية لإطار البيانات

من المهم تحديد فهرس أو عمود قبل بدء أي عملية مثل الإضافة أو الحذف. بمجرد أن تتعلم كيفية الوصول إلى القيم وتحديد الأعمدة من إطار البيانات ، يمكنك تعلم إضافة فهرس أو صف أو عمود في Pandas Dataframe. إذا لم يظهر الفهرس في إطار البيانات بالشكل الذي تريده ، فيمكنك إعادة تعيينه. لإعادة ضبط الفهرس ، يمكنك استخدام وظيفة "reset_index ()".