يجب قراءة 17 أسئلة وأجوبة مقابلة Pandas [للمبتدئين وذوي الخبرة]

نشرت: 2020-07-29

Pandas هي مكتبة Python مفتوحة المصدر ومرخصة من BSD تقدم هياكل بيانات عالية الأداء وسهلة الاستخدام وأدوات تحليل البيانات. يتم استخدام Python مع Pandas في مجموعة واسعة من التخصصات ، بما في ذلك الاقتصاد والتمويل والإحصاءات والتحليلات والمزيد. في هذه المقالة ، قمنا بإدراج بعض أسئلة مقابلة الباندا الأساسية وأسئلة مقابلة NumPy التي يجب أن يعرفها متعلم الثعبان. إذا كنت تريد معرفة المزيد عن Python ، فراجع برامج علوم البيانات لدينا.

جدول المحتويات

أسئلة وأجوبة مقابلة Pandas

السؤال 1 - تحديد Python Pandas.

تشير Pandas إلى مكتبة برامج مكتوبة بشكل صريح لـ Python ، والتي تُستخدم لتحليل البيانات ومعالجتها. Pandas هي مكتبة مفتوحة المصدر ومتعددة المنصات أنشأها Wes McKinney. تم إصداره في عام 2008 وقدم هياكل البيانات والعمليات لمعالجة البيانات العددية والمتسلسلة الزمنية. يمكن تثبيت Pandas باستخدام توزيع Pip أو Anaconda. تجعل Pandas من السهل جدًا إجراء عمليات التعلم الآلي على البيانات المجدولة.

السؤال 2 - ما هي الأنواع المختلفة لهياكل البيانات في الباندا؟

تدعم مكتبة Panda نوعين رئيسيين من هياكل البيانات ، وهما DataFrames والسلسلة. تم بناء كل من هياكل البيانات هذه في الجزء العلوي من NumPy. السلسلة هي بنية بيانات أحادية الأبعاد وأبسط ، بينما DataFrame ثنائي الأبعاد. تسمية المحور الأخرى المعروفة باسم "اللوحة" هي بنية بيانات ثلاثية الأبعاد وتتضمن عناصر مثل المحور الرئيسي والمحور الصغرى.

مصدر

السؤال 3 - اشرح المتسلسلة في الباندا.

السلسلة عبارة عن مصفوفة أحادية البعد يمكنها الاحتفاظ بقيم بيانات من أي نوع (سلسلة ، عدد صحيح ، كائنات بيثون ، إلخ). إنه أبسط نوع من هياكل البيانات في Pandas ؛ هنا ، تسميات محور البيانات تسمى الفهرس.

السؤال 4 - تحديد Dataframe في Pandas.

إن DataFrame عبارة عن صفيف ثنائي الأبعاد تتم فيه محاذاة البيانات في شكل جدول مع صفوف وأعمدة. باستخدام هذه البنية ، يمكنك إجراء عملية حسابية على الصفوف والأعمدة.

السؤال 5 - كيف يمكنك إنشاء إطار بيانات فارغ في الباندا؟

لإنشاء DataFrame فارغ في Pandas ، اكتب

استيراد الباندا كما pd

أب = pd.DataFrame ()

السؤال 6 - ما هي أهم ميزات مكتبة الباندا؟

الميزات الهامة لمكتبة الباندا هي:

محاذاة البيانات
دمج والانضمام
كفاءة الذاكرة
السلاسل الزمنية
إعادة التشكيل

قراءة: Dataframe في Apache PySpark: برنامج تعليمي شامل

السؤال 7 - كيف ستشرح إعادة الفهرسة في الباندا؟

تعني إعادة الفهرسة تعديل البيانات لمطابقة مجموعة معينة من التسميات على طول محور معين.

يمكن إجراء عمليات مختلفة باستخدام الفهرسة ، مثل-

أدخل علامات القيمة المفقودة (NA) في مواقع الملصقات حيث لا توجد بيانات للتسمية.
أعد ترتيب مجموعة البيانات الحالية لتتطابق مع مجموعة جديدة من التسميات.

السؤال 8 - ما هي الطرق المختلفة لإنشاء DataFrame في الباندا؟ اشرح بالأمثلة.

يمكن إنشاء DataFrame باستخدام Lists أو Dict of nd arrays.

مثال 1 - إنشاء DataFrame باستخدام القائمة

استيراد الباندا كما pd

# قائمة السلاسل

Strlist = ['Pandas'، 'NumPy']

# استدعاء مُنشئ DataFrame في القائمة

list = pd.DataFrame (Strlist)

طباعة (قائمة)

مثال 2 - إنشاء DataFrame باستخدام ديكت من المصفوفات

استيراد الباندا كما pd

list = {'ID': [1001، 1002، 1003]، 'Department': ['Science'، 'Commerce'، 'Arts'،]}

list = pd.DataFrame (قائمة)

طباعة (قائمة)

تحقق من: أسئلة مقابلة علوم البيانات

السؤال 9 - شرح البيانات الفئوية في الباندا ؟

تشير البيانات الفئوية إلى البيانات في الوقت الفعلي التي يمكن أن تكون متكررة ؛ على سبيل المثال ، ستكون قيم البيانات ضمن فئات مثل البلد والجنس والرموز متكررة دائمًا. يمكن أن تأخذ القيم الفئوية في الباندا أيضًا عددًا محدودًا وثابتًا من القيم الممكنة.

لا يمكن إجراء العمليات العددية على مثل هذه البيانات. جميع قيم البيانات الفئوية في الباندا إما في فئات أو np.nan.

يمكن أن يكون نوع البيانات هذا مفيدًا في الحالات التالية:

إذا كان متغير سلسلة يحتوي فقط على عدد قليل من القيم المختلفة ، فإن تحويله إلى متغير فئوي يمكن أن يوفر بعض الذاكرة.

إنه مفيد كإشارة إلى مكتبات Python الأخرى لأنه يجب التعامل مع هذا العمود كمتغير فئوي.

يمكن تحويل الترتيب المعجمي إلى ترتيب فئوي ليتم ترتيبه بشكل صحيح ، مثل الترتيب المنطقي.

السؤال 10 - إنشاء سلسلة باستخدام Dict In Pandas.

استيراد الباندا كما pd

استيراد numpy كـ np

ser = {'a': 1، 'b': 2، 'c': 3}

الجواب = pd.Series (ser)

طباعة (الجواب)

السؤال 11 - كيفية إنشاء نسخة من السلسلة في الباندا؟

لإنشاء نسخة من السلسلة في حيوانات الباندا ، يتم استخدام الصيغة التالية:

pandas.Series.copy

Series.copy (عميق = صحيح)

* إذا تم تعيين قيمة deep على "خطأ" ، فلن يتم نسخ البيانات أو المؤشرات.

السؤال 12 - كيف ستضيف فهرسًا أو صفًا أو عمودًا إلى إطار بيانات في الباندا؟

لإضافة صفوف إلى DataFrame ، يمكننا استخدام .loc () و .iloc () و .ix (). .loc () يعتمد على التسمية ، .iloc () يعتمد على عدد صحيح و .ix () هو تسمية كشك وعدد صحيح. لإضافة أعمدة إلى DataFrame ، يمكننا مرة أخرى استخدام .loc () أو .iloc ().

السؤال 13 - ما هي الطريقة التي ستستخدمها لإعادة تسمية فهرس أو أعمدة Pandas Dataframe؟

يمكن استخدام طريقة .rename لإعادة تسمية الأعمدة أو فهرس قيم DataFrame

السؤال 14 - كيف يمكنك التكرار عبر إطار البيانات في الباندا؟

للتكرار عبر DataFrame في pandas for loop ، يمكن استخدامه مع استدعاء iterrows ().

السؤال 15 - ما هو Pandas Numpy Array؟

يتم تعريف Python العددية (NumPy) على أنها حزمة مضمنة في Python لإجراء عمليات حسابية رقمية ومعالجة عناصر مصفوفة متعددة الأبعاد وأحادية البعد.

تحسب مصفوفة NumPy بشكل أسرع مقارنة بمصفوفات Python الأخرى.

السؤال 16 - كيف يمكن تحويل إطار البيانات إلى ملف Excel؟

لتحويل كائن واحد إلى ملف Excel ، يمكننا ببساطة تحديد اسم الملف الهدف. ومع ذلك ، لتحويل أوراق متعددة ، نحتاج إلى إنشاء كائن ExcelWriter مع اسم الملف الهدف وتحديد الورقة التي نرغب في تصديرها.

السؤال 17 - ما هي وظيفة Groupby في الباندا؟

في Pandas ، تسمح وظيفة groupby () للمبرمجين بإعادة ترتيب البيانات باستخدامها في مجموعات حقيقية. المهمة الأساسية للوظيفة هي تقسيم البيانات إلى مجموعات مختلفة.

اقرأ أيضًا: أفضل 15 مشروعًا مفتوح المصدر للذكاء الاصطناعي والتعلم الآلي من Python

خاتمة

نأمل أن تساعدك أسئلة المقابلة المذكورة أعلاه وأسئلة مقابلة NumPy على الاستعداد لجلسات المقابلة القادمة. إذا كنت تبحث عن دورات يمكن أن تساعدك في اكتساب لغة بايثون ، يمكن أن تكون upGrad أفضل منصة.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

لأي غرض تستخدم مكتبة الباندا؟

السبب الرئيسي وراء استخدام Pandas هو تحليل البيانات. يسمح Pandas للمستخدمين باستيراد البيانات من تنسيقات مختلفة مثل Microsoft Excel و SQL و JSON وكذلك القيم المفصولة بفواصل. تعتبر Pandas مفيدة جدًا لتحليل البيانات لأنها تتيح للمستخدمين إجراء عمليات معالجة بيانات مختلفة مثل الاختيار وإعادة التشكيل والدمج وتنظيف البيانات أيضًا. بخلاف ذلك ، توفر Pandas أيضًا العديد من ميزات مشاكل البيانات.

بعبارات بسيطة ، يمكننا القول أن Pandas تجعل من السهل أداء العديد من المهام المتكررة التي تستغرق وقتًا طويلاً والتي تتضمن البيانات. المهام التي تم تسهيلها باستخدام Pandas هي:

1. الدمج والانضمام الإحصائي
2. تحليل البيانات
3. بيانات التطبيع
4. تعبئة البيانات
5. تطهير البيانات
6. التفتيش تحميل وحفظ البيانات
7. تصور البيانات

هذه ليست سوى عدد قليل من مهام معالجة البيانات التي تم تسهيلها باستخدام Pandas. يصوّت علماء البيانات الباندا لتكون أفضل أداة متاحة لتحليل البيانات ومعالجتها.

ما هي بعض الميزات الأساسية التي تقدمها Python Pandas؟

لتسخير القوة الحقيقية لمكتبة Pandas في Python ، يجب عليك استكشاف بعض الميزات الأساسية التي يتم تقديمها للمستخدمين. عندما يتعلق الأمر بتحليل البيانات ، تعتبر Pandas أقوى أداة مع الكثير من الميزات لتسهيل الأمور على المستخدمين.

بعض الميزات الأساسية التي يجب أن تعرفها قبل بدء استخدامك مع مكتبة Pandas هي:

1. معالجة البيانات
2. محاذاة البيانات والفهرسة
3. تنظيف البيانات
4. معالجة البيانات المفقودة
5. أدوات الإدخال والإخراج المختلفة لقراءة البيانات وكتابتها
6. يدعم تنسيقات ملفات متعددة
7. دمج والانضمام إلى مجموعات البيانات المختلفة
8. تحسين الأداء
9. تصور البيانات
10. تجميع البيانات حسب المتطلبات
11. إجراء عمليات حسابية مختلفة على البيانات المتاحة
12. إخفاء البيانات غير ذات الصلة لاستخدام البيانات المطلوبة فقط
13. أخذ بيانات فريدة من التكرارات المختلفة في مجموعة البيانات

ما سبب استيراد مكتبة Pandas في Python؟

Pandas هي مكتبة Python مفتوحة المصدر وهي الأكثر استخدامًا على نطاق واسع لإجراء تحليل البيانات المختلفة وعلوم البيانات ومهام التعلم الآلي. Pandas هي الحزمة الأكثر شيوعًا لمجادلة البيانات ، وهي تعمل بشكل جيد مع العديد من وحدات علوم البيانات الأخرى في نظام Python البيئي. مكتبة Pandas هي التفضيل الأول لأي شيء عندما يتعلق الأمر بالبيانات لكل متخصص في علوم البيانات وتحليل البيانات.