إطارات البيانات المتسلسلة من Pandas [2022]
نشرت: 2021-01-06تخيل أن لديك مجموعتين من البيانات التي يجب عليك دمجها لإجراء التحليل. أثناء استخدام SQL ، يمكن دمج السجلات من جدولين أو أكثر في قاعدة البيانات باستخدام عمليات ربط SQL. وبالمثل ، هناك خيارات في Python أيضًا لسلسلة إطارات البيانات. إذن ما هو إطار البيانات؟ يحتوي إطار البيانات في Python على صفوف وأعمدة متعددة. إنه مشابه لجدول في SQL. لديك مكتبة برامج الباندا لتحليل البيانات في بايثون. تساعدنا إطارات البيانات المتسلسلة من Pandas على دمج إطارات البيانات بناءً على منطق معين.
الطرق المختلفة لدمج إطارات البيانات:
- الانضمام الداخلي: الصلة الداخلية تشبه إلى حد بعيد تقاطع مجموعتين. في حالة الصلة الداخلية ، يتم إرجاع إطار بيانات يحتوي فقط على تلك الصفوف التي لها خصائص مشتركة. وبالتالي ، يجب أن يكون لكل صف في إطاري البيانات المدمجين قيم أعمدة متطابقة.
- الانضمام الأيسر: تقوم الصلة اليسرى بإرجاع جميع الصفوف من إطار البيانات الأيسر والصفوف المتطابقة فقط من إطار البيانات الأيمن.
- الانضمام الأيمن: تقوم الصلة اليمنى بإرجاع جميع الصفوف من إطار البيانات الأيمن والصفوف المتطابقة فقط من إطار البيانات الأيسر.
- انضمام كامل أو خارجي: تحافظ الصلة الكاملة على كل الصفوف من إطار البيانات الأيسر وإطار البيانات الأيمن.
مصدر
دعونا الآن نلقي نظرة على الوظائف الموجودة في Pandas لدمج إطارات البيانات أو المتسلسلات.
جدول المحتويات
وظائف في الباندا
1. وظيفة الانضمام
كما قرأنا ، لدى Python الكثير من ميزات SQL المشابهة المتاحة لدمج البيانات. تحتوي إطارات البيانات على فهرس يعمل كعنوان. عادةً ، تتم الإشارة إلى فهارس الصفوف بالفهرس بينما تتم معالجة الأعمدة بواسطة أسماء الأعمدة. تسمح لك عملية الانضمام بدمج كل الأعمدة من إطاري بيانات. يمكنك إعادة تسمية العمود الأيمن والأيسر عن طريق تحديث معلمات "lsuffix" و "rsuffix". يمكنك الحصول على خيار لاختيار طريقة الدمج عن طريق تحديث معلمة "كيف".
2. وظيفة الدمج
تتشابه وظيفة الدمج تمامًا مع عملية الانضمام. ومع ذلك ، يمكنك الحصول على تحكم مرن أثناء دمج كل الأعمدة من إطارين للبيانات. يمكنك استخدام = اسم العمود لدمج إطارات البيانات في العمود المشترك. يمكنك تحديث left_on = اسم العمود أو right_on = اسم العمود لمحاذاة الجداول باستخدام أعمدة من إطار البيانات الأيسر أو الأيمن كمفاتيح. يتيح لك اختيار left_index = True أو right_index = True ، استخدام تسميات الصفوف من إطار البيانات الأيسر أو إطار البيانات الأيمن كمفاتيح ربط.
بناء الجملة:
DataFrame.merge ( self ، right ، how = 'left' ، on = None ، left_on = None ،
right_on = None ، left_index = False ، right_index = False ، sort = False ، لاحقات = ('_ x' ، '_y') ، copy = True ، Indicator = False ، Validate = None )

قراءة: أسئلة مقابلة الباندا
3. وظيفة Concat
باستخدام وظيفة Concat ، يمكنك دمج البيانات في الأعمدة أو الصفوف بناءً على اختيارك. يمكنك ضبط منطق الانضمام (يسار / يمين / داخلي / كامل) على أي من المحورين. يمكنك أيضًا الحصول على خيار للتحقق مما إذا كان المحور المتسلسل الجديد يحتوي على قيم مكررة موجودة باستخدام التحقق من التكامل. إذا لم يتم تحديد قيمة فهرس على محور التسلسل ، فسيتم تسمية المحور الناتج كـ 0،1 ، ... n-1. تتيح لك معلمة المفاتيح تكوين فهرسة هرمية باستخدام المفاتيح التي تم تمريرها.
بناء الجملة
pandas.concat ( objs ، المحور = 0 ، انضم = 'يسار' ، Join_axes = لا شيء ،
ignore_index = خطأ ، مفاتيح = بلا ، مستويات = لا شيء ، أسماء = لا شيء ،
Verify_integrity = False ، sort = None ، copy = True )
قراءة: خوارزمية بنية البيانات في بايثون
تغليف
كما رأينا في pandas.DataFrame ، تُستخدم وظائف الدمج والجمع لدمج إطارات البيانات التي تعمل على الأعمدة. يوجد أيضًا خيار لإعادة تسمية الأعمدة بناءً على اللاحقة المتوفرة. توفر وظيفة الدمج مزيدًا من المرونة في حالة المحاذاة على مستوى الصفوف. على العكس من ذلك ، يمكن أن تعمل وظيفة Concat في الباندا على صفوف أو أعمدة.
لا تتم إعادة تسمية الأعمدة أثناء استخدام وظيفة Concat. تعد إطارات البيانات المتسلسلة من Pandas ميزة أساسية عندما يتعين علينا دمج إطارات بيانات اثنين. يساعدك دمج إطاري بيانات باستخدام شروط معينة على تجهيز البيانات اللازمة للتحليل والمهام الأخرى. وبالتالي فإن إطارات البيانات المتسلسلة الباندا لمكتبة البرامج هي وظيفة متكاملة.
هل أنت مهتم بمعرفة المزيد حول الوظائف المختلفة المتوفرة في حيوانات الباندا والتعمق في تحليلات البيانات؟ يمكنك التحقق من دبلوم PG في علوم البيانات المقدم من upGrad. يتم إجراء الدورات من قبل خبراء الصناعة وستساعدك على معرفة المزيد حول تحليل البيانات الاستكشافية ، وتقنيات تصور البيانات المختلفة ، والخوارزميات في التعلم الآلي. ابدأ حياتك المهنية في مجال تحليلات البيانات والتعلم الآلي مع upGrad.
ما هي أنواع المفاصل المختلفة في Pandas؟
توفر مكتبة Pandas أربعة أنواع من الصلات المختلفة لدمج إطارات البيانات. هذه الصلات هي كما يلي - الوصلة الداخلية هي الوصلة الأساسية لدمج إطارات البيانات. ترجع الصلة الداخلية إطار بيانات يحتوي فقط على تلك الصفوف التي لها خصائص مشتركة. ومن ثم ، يجب أن يكون لكل من إطارات البيانات المدمجة قيم مشتركة. ترجع الصلة الكاملة أو الخارجية كل صفوف إطارات البيانات اليمنى واليسرى. بمعنى آخر ، يوفر اتحاد كل من إطارات البيانات. ترجع الصلة اليسرى جميع صفوف إطار البيانات الأيسر جنبًا إلى جنب مع الصفوف المطابقة لإطار البيانات الأيمن. الوصلة اليمنى هي عكس الصلة اليسرى تمامًا. تقوم بإرجاع جميع صفوف إطار البيانات الأيمن جنبًا إلى جنب مع الصفوف المطابقة لإطار البيانات الأيسر.
ما هي الطرق المختلفة لربط الصفوف أو الأعمدة؟
يمكن ربط صفوف أو أعمدة إطاري بيانات بالطرق التالية: 1. ربط إطار البيانات باستخدام .concat () - هذه هي أبسط طريقة لربط صفين أو عمودين حيث نستخدم وظيفة ".concat ()". 2. ربط DataFrame عن طريق تحديد المنطق على المحاور - في هذه الطريقة ، نحدد منطقًا مختلفًا على المحاور. فيما يلي طرق تعيين المحاور: خذ الاتحاد (صلة = خارجي) ، خذ التقاطع (صلة = داخلي) ، باستخدام فهرس محدد. 3. ربط DataFrame باستخدام .append () - تُستخدم الوظيفة ".append ()" قبل وظيفة ".concat ()" مباشرةً وتتصل على طول المحور = 0. 4. ربط DataFrame بتجاهل الفهارس - في هذه الطريقة ، نتجاهل المؤشرات التي لا معنى لها ونلحق إطار البيانات. نستخدم ignore_index كحجة لتجاهل المؤشرات المتداخلة.
ماذا تعرف عن وظيفة الدمج؟
تعمل وظيفة الدمج على إطاري بيانات لدمج الصفوف أو الأعمدة. إنها عملية ربط ذات ذاكرة عالية وتشبه قواعد البيانات العلائقية. يمكنك استخدام = اسم العمود لدمج إطارات البيانات في العمود المشترك.
يمكنك تحديث left_on = اسم العمود أو right_on = اسم العمود لمحاذاة الجداول باستخدام أعمدة من إطار البيانات الأيسر أو الأيمن كمفاتيح. يتيح لك اختيار left_index = True أو right_index = True ، استخدام تسميات الصفوف من إطار البيانات الأيسر أو إطار البيانات الأيمن كمفاتيح ربط.