أسئلة مقابلة مشرف Hadoop الأكثر شيوعًا للطلاب الجدد [2022]
نشرت: 2021-01-03يتم احتساب مديري Hadoop كواحد من المهنيين الأعلى أجرا في الصناعة. علاوة على ذلك ، فإن جمع البيانات واستخدامها يتزايد بشكل كبير يومًا بعد يوم. مع هذه الزيادة ، يتزايد أيضًا الطلب على الأشخاص الذين يمكنهم العمل بسهولة مع Hadoop. في هذه المدونة ، سنطلعك على بعض أسئلة المقابلة المهمة التي طُرحت لمحترفي Hadoop.
يجب قراءة أسئلة وأجوبة مقابلة Hadoop
س 1. شرح بعض تطبيقات صناعة Hadoop.
ج: Apache Hadoop ، والمعروفة باسم Hadoop ، هي مرحلة برمجة مفتوحة المصدر لتحليل قابل للتكيف ونشر لأحجام ضخمة من المعلومات. يوفر تحقيقًا سريعًا ومتفوقًا وعمليًا للمعلومات المنظمة وغير المنظمة التي يتم إنتاجها داخل المنظمة. يتم استخدامه عمليا في جميع المكاتب والمجالات اليوم.
بعض الاستخدامات الصناعية الرئيسية لـ Hadoop:
- الإشراف على السير على الطرق.
- الاستعدادات الجري.
- إدارة المحتوى وحفظ الرسائل الإلكترونية.
- إعداد العلامات العصبية للدماغ القوارض باستخدام مجموعة Hadoop.
- تحديد الاحتيال.
- تستخدم العروض الترويجية التي تركز على المراحل Hadoop لالتقاط وتفكيك معلومات النقل السريع والتبادل والفيديو والوسائط عبر الإنترنت.
- الإشراف على المحتوى والمنشورات والصور والتسجيلات عبر مراحل الإعلام عبر الإنترنت.
- التحقيق في معلومات العميل بشكل مستمر لتحسين تنفيذ الأعمال.
- مجالات المنطقة العامة ، على سبيل المثال ، البصيرة ، والحراسة ، والحماية الرقمية ، والاستكشاف المنطقي.
- الحصول على قبول للمعلومات غير المنظمة ، على سبيل المثال ، العائد من الأدوات السريرية ، وملاحظات المتخصصين ، والمراسلات السريرية ، والمعلومات السريرية ، ونتائج المختبر ، وتقارير التصوير ، والمعلومات المالية.
س 2. قارن Hadoop بأنظمة الحوسبة المتوازية.
ج: Hadoop هو إطار عمل سجل موزع يتيح لك تخزين كميات هائلة من المعلومات على الأجهزة البعيدة والتعامل معها ، مع الاهتمام بأي تكرار غير مرغوب فيه للمعلومات.

الميزة الأساسية لـ Hadoop هي أنه نظرًا لأنه يتم تخزين المعلومات في عدد قليل من المحاور ، تسمى العقد ، فمن الأسهل التعامل معها بطريقة مناسبة. يمكن لكل محور أو عقدة التعامل مع المعلومات المخزنة عليه بدلاً من استثمار الطاقة في نقل المعلومات مرارًا وتكرارًا.
من المثير للدهشة ، أنه في إطار معالجة RDBMS ، يمكننا تقديم استفسارات حول المعلومات بشكل مستمر. ومع ذلك ، ليس من المفيد تخزين المعلومات في الجداول والسجلات والأقسام ، خاصةً عندما تكون البيانات بأحجام كبيرة.
قراءة: كيف تصبح مسؤول Hadoop؟
Q3 قم بتسمية الأوضاع المختلفة التي يمكن تشغيل Hadoop فيها.
ج: الوضع المستقل : الطريقة الافتراضية لـ Hadoop تستخدم إطار عمل تخزين محلي لأخذ المدخلات وإعطاء المخرجات. يتم استخدام هذا الوضع بشكل أساسي بسبب خيارات التصحيح السهلة ، ولا يدعم HDFS.
لا يوجد إعداد مخصص مطلوب لسجلات mapred-site.xml و center site.xml و hdfs-site.xml. يعمل هذا الوضع بشكل أسرع بكثير من الأوضاع الأخرى.
- الوضع الموزع الزائف (الكتلة أحادية العقدة) : في هذا الوضع ، بالنسبة لجميع السجلات الثلاثة التي تحدثنا عنها سابقًا ، نحتاج إلى إعداد منفصل. بالنسبة لهذا الوضع ، يتم تشغيل جميع البرامج المساعدة على عقدة واحدة ، وعلى طول هذه الخطوط ، تصبح لوحات المحاور الرئيسية والتابعة بشكل أساسي هي نفسها.
- الوضع الموزع بالكامل (Multi-hub Cluster) : يتم تعريف هذا الوضع على أنه فترة إنشاء Hadoop حيث يتم استخدام المعلومات وتوزيعها على عدد قليل من العقد على مجموعة Hadoop. يتم تقسيم المحاور المنفصلة على أنها رئيسية وتابعة.
س 4: اشرح الاختلاف الرئيسي بين كتلة InputSplit و HDFS.
ج: يمكن تعريف الكتلة على أنها تمثيل مادي للمعلومات والبيانات بينما التقسيم هو التمثيل المنطقي لأي بيانات موجودة في الكتلة. يعمل الانقسام كجسر بين الكتلة ورسام الخرائط.
افترض أن لدينا كتلتين:

- الثاني nntteell
- أنا ببات
إذا اتبعنا مبادئ الخريطة ، فسوف تقرأ الكتلة 1 من ii إلى ll ولكنها لن تعرف كيفية قراءة المربع 2 في هذه الحالة. لحل هذه المشكلة ، سنحتاج إلى حزمة منطقية من البلوك 1 و 2 يمكن قراءتها بسهولة ككتلة واحدة. هذا هو المكان الذي يلعب فيه سبليت.
علاوة على ذلك ، يُشكل الانقسام زوجًا ذي قيمة رئيسية من خلال استخدام InputFormat ويقوم بعمل سجلات متعددة للقارئ ومعالجة ذلك إلى الخريطة للمعالجة اللاحقة بواسطة InputSplit. كما أنه يمنحنا مرونة التخزين ، مما يمكننا من زيادة حجم الانقسام لتقليل العدد الإجمالي للخرائط التي يتم تشكيلها.
Q5: قم بتسمية بعض تنسيقات الإدخال الشائعة المستخدمة في Hadoop.
ج: هناك 3 تنسيقات إدخال أساسية في Hadoop:
- تنسيق إدخال النص : يستخدم هذا كإعداد افتراضي في Hadoop.
- تنسيق إدخال قيمة المفتاح : يُفضل إلى حد كبير عند تقسيم الملفات النصية إلى عدة أسطر.
- تنسيق إدخال ملف التسلسل : يستخدم بشكل رئيسي لقراءة الملفات بالتسلسل.
اقرأ أيضًا: مواضيع وأفكار مشروع Hadoop
س 6: قم بإدراج المكونات الرئيسية لأي تطبيق Hadoop.
ج: المكونات الرئيسية لبرنامج Hadoop هي-
- HBase لتخزين البيانات
- Apache Flume و Sqoop و Chukwa - تُستخدم كمكون تكامل البيانات
- Ambari و Oozie و ZooKeeper - مكون يستخدم لإدارة البيانات والمراقبة
- مكونات Thrift and Avro - Data Serialization
- Apache Mahout and Drill - لأغراض استخبارات البيانات
- Hadoop المشتركة
- HDFS
- Hadoop MapReduce
- غزل
- PIG و HIVE
س 7: ما هو "رف الوعي"؟
ج: يستخدم NameNode في Hadoop نظام Rack Awareness لتحديد كيفية وجود الكتل ونسخها في مجموعة Hadoop. حركة المرور بين DataNodes داخل رف مشابه محدودة بتعريفات الحامل. في هذا النظام ، سيتم تخزين أول نسختين متماثلتين للكتلة في رف واحد ، وسيتم تخزين النسخة المتماثلة الثالثة في كتلة مختلفة.

خاتمة
آمل أن تكون قد أحببت مدونتنا على أسئلة مقابلة مشرف Hadoop . ومع ذلك ، من المهم حقًا أن يكون لديك مجموعة شاملة من مهارات ومعارف Hadoop قبل أن تظهر للمقابلة. يمكنك الرجوع إلى بعض دروس Hadoop المهمة على مدونتنا هنا ،
برنامج Hadoop التعليمي: الدليل النهائي لتعلم Hadoop البيانات الضخمة 2022
ما هو Hadoop؟ مقدمة إلى Hadoop والميزات وحالات الاستخدام
إذا كنت متحمسًا للبيانات وترغب في معرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة. تم تصميم هذا البرنامج خصيصًا للموظفين الحاليين ويتألف من أكثر من 7 دراسات حالة ومشاريع. وهي تغطي 14 لغة وأدوات برمجة ، تعلوها ورش عمل عملية وأكثر من 400 ساعة من التعلم والمشاركة الصارمة والمساعدة في التوظيف مع الشركات الكبرى.
تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
