برنامج Python Pandas التعليمي: كل ما يحتاج المبتدئين إلى معرفته عن Python Pandas

نشرت: 2020-03-26

في هذه المقالة ، سنلقي نظرة على واحدة من مكتبات Python الشهيرة والضرورية لمحترفي البيانات ، Pandas. ستتعرف على أساسياته بالإضافة إلى عملياته.

هيا بنا نبدأ.

جدول المحتويات

ما هو الباندا؟

تشتهر Python Pandas بالعديد من الأسباب. تطبيقه الأساسي هو معالجة البيانات وتحليلها وتنظيفها. يمكنك استخدامه لأنواع البيانات ومجموعات البيانات المختلفة ، بما في ذلك البيانات غير الموسومة ، وبيانات السلاسل الزمنية المرتبة. ببساطة ، يمكننا القول أن Pandas هي موطن بياناتك. يمكنك إجراء العديد من العمليات على بياناتك باستخدام هذه الأداة.

يمكنك تحويل تنسيق البيانات لملف ، ودمج مجموعتين من البيانات ، وإجراء العمليات الحسابية ، وتصورها من خلال الحصول على مساعدة من Matplotlib ، وما إلى ذلك. مع وجود العديد من الوظائف ، يعد خيارًا شائعًا بين محترفي البيانات. هذا هو السبب في أن التعلم عنها أمر ضروري. وبدون فهم طريقة عملها ، لا يمكنك استخدامها ، لذلك في هذا البرنامج التعليمي Python Pandas ، سنركز على نفس الشيء.

قراءة: مكتبات تصور بيانات Python

دور الباندا في علم البيانات

تعد مكتبة Pandas جزءًا لا يتجزأ من ترسانة أي متخصص في البيانات. يعتمد على NumPy ، وهي مكتبة أخرى مشهورة في Python. يوجد الكثير من بنية NumPy في Pandas ، لذلك إذا كنت معتادًا على السابق ، فلن تواجه أي صعوبة في التعرف على الأخير.

في معظم الأحيان ، يستخدم الخبراء الباندا لتغذية البيانات في SciPy للتحليل الإحصائي. كما أنهم يستخدمون هذه البيانات مع Matplotlib أو Scikit-Learn لوظائفهم (وظائف التخطيط والتعلم الآلي ، على التوالي).

تعرف على المزيد حول مكتبات تعلم الآلة في Python.

المتطلبات الأساسية

قبل أن نبدأ في مناقشة عمل Python Pandas وعملياتها ، يجب أن نوضح أولاً لمن يمكنه استخدامها بشكل صحيح ومن لا يستطيع. يجب أولاً أن تكون على دراية بكود Python الأساسي و NumPy.

الأول ، أي أساسيات بايثون ، أمر حيوي لأسباب واضحة. لن تفهم الكثير دون معرفة كيفية عمل كود بايثون. وحتى إذا قمت بذلك ، فلن تكون قادرًا على تجربة الكود لأنك لا تزال بحاجة إلى تعلم الكود الأساسي أولاً.

الثاني ، NumPy ، ضروري للتعلم لأن الباندا مبنية عليه. سيساعدك فهم NumPy بشكل كبير في التعرف على Pandas.

يمكنك التعرف على Python من خلال مدوناتنا الخاصة بعلوم البيانات و Python . لدينا العديد من الأدلة والمقالات المفيدة التي يمكن أن تجعلك على دراية بالأساسيات. إنه مجاني ، وإذا كانت لديك أي شكوك ، فيمكنك كتابتها في قسم التعليقات.

إذا كنت معتادًا على كلا الموضوعين اللذين ذكرناهما ، فلنلقِ نظرة عميقة على Pandas:

تركيب الباندا

لاستخدام Pandas ، سيتعين عليك تثبيته. أفضل شيء هو أن تركيب واستيراد الباندا سهل للغاية. ما عليك سوى فتح سطر الأوامر (إذا كنت تستخدم جهاز Mac ، فسيتعين عليك فتح الجهاز) وتثبيت Pandas باستخدام هذه الرموز:

لمستخدمي الكمبيوتر الشخصي: Pip install pandas

لمستخدمي ماك: Conda install pandas

في Pandas ، ستتعامل مع السلاسل وأطر البيانات. بينما تشير السلسلة إلى عمود ، يشير إطار البيانات إلى جدول متعدد الأبعاد يحتوي على سلاسل متعددة. دعنا الآن نلقي نظرة على العمليات التي يمكنك إجراؤها في Pandas.

العمليات في الباندا

الآن بعد أن ناقشنا أهميتها وتعريفها ، يجب أن نفكر الآن في الإجراءات التي يمكنك القيام بها في هذا البرنامج التعليمي Python Pandas. يوفر لك Pandas الكثير من الوظائف ، وقد ناقشناها أدناه:

عرض البيانات

ستحتاج إلى طباعة بعض صفوف مجموعة البيانات الخاصة بك في البداية للاحتفاظ بها كمرجع مرئي. ويمكنك القيام بذلك باستخدام وظيفة .head ().

file1.head ()

تمنحك هذه الوظيفة الصفوف الخمسة الأولى من إطار البيانات. إذا كنت ترغب في الحصول على صفوف أكثر من الصفوف الخمسة الأولى ، يمكنك فقط تمرير الرقم المطلوب في الوظيفة. لنفترض أنك تريد أول 15 صفًا من إطار البيانات ، فستكتب الكود التالي:

file1.head (15)

لديك أيضًا خيار عرض آخر خمسة صفوف من إطار البيانات. يمكنك القيام بذلك باستخدام وظيفة .tail (). ومثل وظيفة .head () ، يمكن أن تقبل وظيفة .tail () أيضًا رقمًا وتوفر لك الكمية المطلوبة من الصفوف.

file1.tail (20)

سيعطيك هذا الرمز آخر 20 صفًا من إطار البيانات الخاص بك.

الحصول على المعلومات

واحدة من أولى الوظائف التي يستخدمها علماء البيانات مع Pandas هي .info (). هذا لأنه يعرض معلومات حول إطار البيانات ويمنحك فهمًا أعمق لما تعمل به. إليك كيفية استخدامه في Pandas:

file1.info ()

يوفر لك الكثير من المعلومات المفيدة حول مجموعة البيانات ، مثل كمية القيم غير الفارغة ، وعدد الصفوف ، ونوع البيانات الموجودة في عمود ، وما إلى ذلك.

تعد معرفة نوع البيانات لقيم إطار البيانات أمرًا ضروريًا في كثير من الحالات. افترض أنك بحاجة إلى إجراء عمليات حسابية على البيانات ولكنها تحتوي على سلاسل. عندما تقوم بتشغيل عملياتك الحسابية ، سترى خطأ منبثقًا لأنك لا تستطيع إجراء مثل هذه العمليات على السلاسل. إذا من ناحية أخرى ، ستستخدم وظيفة .info () قبل القيام بأي عمليات ، فأنت تعلم بالفعل أن لديك سلاسل.

بينما تعرض لك وظيفة .info () المعلومات العامة حول مجموعة البيانات الخاصة بك ، تمنحك السمة .shape مجموعة من إطار البيانات الخاص بك. يمكنك معرفة عدد الصفوف والأعمدة الموجودة في مجموعة البيانات الخاصة بك بمساعدة السمة .shape. ويمكنك استخدامه بالطريقة التالية:

file1.shape

لا تحتوي هذه السمة على أقواس لأنها تمنحك فقط مجموعة من الصفوف والأعمدة. ستستخدم السمة .shape كثيرًا أثناء تنظيف بياناتك.

تعلم أيضًا: راتب مطور Python في الهند

سلسلة

دعنا الآن نناقش سمة التسلسل في هذا البرنامج التعليمي Python Pandas. يشير التسلسل إلى ضم شيئين أو أكثر معًا. لذلك ، باستخدام هذه السمة ، يمكنك دمج مجموعتي بيانات دون تعديل قيمهما أو نقاط بياناتهما بأي شكل من الأشكال. يتحدون معا كما هو. سيتعين عليك استخدام وظيفة .concat () لهذا الغرض. إليك الطريقة:

النتيجة = pd.concat ([file1، file2])

سيتم دمج إطارات البيانات file1 و file2 وإظهارها كإطار بيانات واحد.

df1 = pd.DataFrame ({“HPI”: [80،90،70،60]، “Int_Rate”: [2،1،2،3]، “IND_GDP”: [50،45،45،67]} ، الفهرس = [2001، 2002،2003،2004])

df2 = pd.DataFrame ({"HPI": [80،90،70،60]، "Int_Rate": [2،1،2،3]، "IND_GDP": [50،45،45،67]} ، الفهرس = [2005، 2006،2007،2008])

concat = pd.concat ([df1، df2])

طباعة (concat)

إخراج الكود أعلاه:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

يجب أن تكون قد لاحظت كيف قامت الدالة .concat () بدمج إطاري البيانات وتحويلهما إلى واحد.

تغيير الفهرس

يمكنك أيضًا تغيير قيم الفهرس في إطار البيانات. لهذا الغرض ، ستحتاج إلى استخدام وظيفة .set_index (). في أقواس هذه الوظيفة ، يجب عليك إدخال التفاصيل لتغيير الفهرس. ألق نظرة على المثال التالي لفهمه بشكل أفضل.

استيراد الباندا كما pd

df = pd.DataFrame ({"Day": [1،2،3،4]، "Visitors": [200، 100،230،300]، “Bounce_Rate”: [20،45،60،10]})

df.set_index (“Day”، inplace = True)

طباعة (مدافع)

إخراج الكود أعلاه:

Bounce_Rate الزوار

يوم

1 20200 _

100 45 2

3 60230 _

4 10300 _

يمكنك أن ترى أن الكود الخاص بنا قد غير قيمة فهرس البيانات وفقًا للأيام.

تغيير رؤوس الأعمدة

يمكنك أيضًا تغيير رؤوس الأعمدة في Python Pandas. كل ما عليك فعله هو استخدام وظيفة .rename (). يمكنك إدخال أسماء الأعمدة التي كانت موجودة في البداية بين الأقواس وأسماء الأعمدة التي تريدها أن تظهر في كود الإخراج.

لنفترض أن لديك جدولاً بعنوان "الوقت" وتريد تغييره إلى "الساعات". يمكنك تغيير اسم هذا العمود بالرمز التالي:

df = df.rename (الأعمدة = {"الوقت": "الساعات"})

سيغير هذا الرمز اسم رأس العمود من "الوقت" إلى "الساعات". هذه وظيفة ممتازة للممارسات الفعالة. دعنا نلقي نظرة على كيفية تحويل تنسيقات بياناتك.

البيانات Munging

باستخدام البيانات ، لديك خيار تحويل تنسيق بيانات محددة. يمكنك تحويل ملف .csv إلى ملف .html أو القيام بالعكس. فيما يلي مثال على كيفية القيام بذلك:

استيراد الباندا كما pd

country = pd.read_csv ("D: UsersUser1Downloadsworld-bank-youth -employAPI_ILO_country_YU.csv"، index_col = 0)

country.to_html ('file1.html')

بعد تشغيل هذا الرمز ، سيتم إنشاء ملف HTML لك ، والذي يمكنك تشغيله على متصفحك. تعد إدارة البيانات وظيفة ممتازة ، وستجد استخدامها في العديد من المواقف.

خاتمة

والآن ، وصلنا إلى نهاية برنامج Python Pandas التعليمي. نأمل أن تكون قد وجدتها مفيدة وغنية بالمعلومات. تعد Python Pandas موضوعًا واسعًا ، ومع الوظائف العديدة التي تتضمنها ، قد يستغرق الأمر بعض الوقت حتى يتعرف المرء عليها تمامًا.

إذا كنت مهتمًا بمعرفة المزيد عن Python ، ومكتباتها المختلفة ، بما في ذلك Pandas ، وتطبيقها في علم البيانات ، فراجع IIIT-B & upGrad's دبلوم PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة و المشاريع ، وورش العمل العملية ، والإرشاد مع خبراء الصناعة ، وجهاً لوجه مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

هل أحتاج إلى معرفة Python لاستخدام Pandas؟

قبل أن تبدأ مع Pandas ، عليك أن تفهم أنها حزمة مصممة لـ Python. لذا ، فأنت بالتأكيد بحاجة إلى إحكام قبضتك على الأساسيات وكذلك بناء جملة برمجة Python لبدء استخدام Pandas بسهولة. عندما يتعلق الأمر بالعمل مع البيانات الجدولية في Python ، يعتبر Pandas الخيار الأفضل.

لكن عليك أن تكون واضحًا بشأن الصيغة المستخدمة في Python قبل البدء بـ Pandas. ليس من الضروري قضاء قدر كبير من الوقت في ذلك ، لكن ما عليك سوى تخصيص وقت كافٍ لتوضيح البنية الأساسية حتى تتمكن من البدء بالمهام التي تنطوي على Pandas.

كم من الوقت يستغرق تعلم الباندا في بايثون؟

Pandas هي مكتبة Python الأكثر استخدامًا للتعامل مع البيانات الجدولية. يمكنك استخدام Pandas لجميع المهام التي قد تستخدم Excel من أجلها. إذا كنت على دراية ببرمجة Python وصياغتها ، فيمكنك بسهولة التعرف على عمل Pandas في غضون أسبوعين. عندما تبدأ مع Pandas ، يجب أن تبدأ بمشاريع معالجة البيانات الأساسية من أجل السيطرة.

كلما تقدمت أكثر ، ستلاحظ أن Pandas هي أداة مفيدة جدًا لعلوم البيانات يمكن أن تكون عاملاً رئيسيًا يقود قرارات الأعمال في العديد من الصناعات.

هل أفضل تعلم Numpy أو Pandas أولاً؟

يُفضل تعلم Numpy قبل Pandas لأن Numpy هي الوحدة الأساسية في Python للحوسبة العلمية. ستتلقى أيضًا دعمًا من المصفوفات متعددة الأبعاد المُحسّنة للغاية والتي تُعتبر هيكل البيانات الأساسي لكل خوارزمية تعلم الآلة.

بمجرد الانتهاء من تعلم Numpy ، يجب أن تبدأ بـ Pandas لأن Pandas تعتبر امتدادًا لـ Numpy. هذا لأن الكود الأساسي لـ Pandas يستخدم مكتبة Numpy على نطاق واسع.