35 يجب أن تعرف أسئلة وأجوبة مقابلة البيانات الضخمة 2022: للطلاب الجدد وذوي الخبرة

نشرت: 2021-01-05

حضور مقابلة البيانات الضخمة والتساؤل عن كل الأسئلة والمناقشات التي ستخوضها؟ قبل حضور مقابلة البيانات الضخمة ، من الأفضل أن يكون لديك فكرة عن نوع أسئلة مقابلة البيانات الضخمة حتى تتمكن من تحضير إجابات لها ذهنيًا.

لمساعدتك ، قمت بإنشاء أفضل دليل لأسئلة وأجوبة مقابلات البيانات الضخمة لفهم العمق والهدف الحقيقي لأسئلة مقابلة البيانات الضخمة.

لن تصدق كيف غير هذا البرنامج مسيرة الطلاب

نحن في عصر البيانات الضخمة والتحليلات. مع تشغيل البيانات لكل شيء من حولنا ، كان هناك ارتفاع مفاجئ في الطلب على متخصصي البيانات المهرة. تبحث المؤسسات دائمًا عن الأفراد المهرة الذين يمكنهم مساعدتهم في فهم أكوام البيانات لديهم.

أسئلة مقابلة البيانات الضخمة

الكلمة الرئيسية هنا "ماهرة" ، وبالتالي فإن مقابلات البيانات الضخمة ليست في الحقيقة نزهة. هناك بعض الأسئلة الأساسية المتعلقة بمقابلة البيانات الضخمة والتي يجب أن تعرفها قبل حضور أحدها. سوف تساعدك هذه في العثور على طريقك من خلال.

تم ترتيب الأسئلة بالترتيب الذي سيساعدك على الانتقاء من الأساسيات والوصول إلى مستوى متقدم إلى حد ما.

أسئلة وأجوبة مقابلة البيانات الضخمة

1. حدد البيانات الضخمة واشرح مقابل البيانات الضخمة.

هذا هو أحد الأسئلة التمهيدية والأكثر أهمية في مقابلة البيانات الضخمة. الإجابة على هذا السؤال واضحة تمامًا:

يمكن تعريف البيانات الضخمة على أنها مجموعة من مجموعات البيانات المعقدة غير المنظمة أو شبه المنظمة والتي لديها القدرة على تقديم رؤى قابلة للتنفيذ.

أفضل الدورات قصيرة المدى

الأربعة مقابل البيانات الضخمة هي -
الحجم - يتحدث عن كمية البيانات
التنوع - يتحدث عن الأشكال المختلفة للبيانات
السرعة - يتحدث عن السرعة المتزايدة التي تنمو بها البيانات
الصدق - يتحدث عن درجة دقة البيانات المتاحة

دروس البيانات الضخمة للمبتدئين: كل ما تحتاج إلى معرفته

2. كيف يرتبط Hadoop بالبيانات الضخمة؟

عندما نتحدث عن البيانات الضخمة ، نتحدث عن Hadoop. إذن ، هذا سؤال آخر لمقابلة البيانات الضخمة ستواجهه بالتأكيد في مقابلة.

Hadoop هو إطار عمل مفتوح المصدر لتخزين ومعالجة وتحليل مجموعات البيانات المعقدة غير المهيكلة لاشتقاق الرؤى والذكاء.

3. حدد HDFS و YARN ، وتحدث عن مكونات كل منهما.

الآن بعد أن أصبحنا في منطقة Hadoop ، فإن سؤال مقابلة البيانات الضخمة التالي الذي قد تواجهه سوف يدور حول نفسه.

HDFS هي وحدة التخزين الافتراضية لـ Hadoop وهي مسؤولة عن تخزين أنواع مختلفة من البيانات في بيئة موزعة.

يحتوي HDFS على المكونين التاليين:

NameNode - هذه هي العقدة الرئيسية التي تحتوي على معلومات البيانات الوصفية لجميع كتل البيانات في HDFS.
DataNode - هذه هي العقد التي تعمل كعقد تابعة وهي مسؤولة عن تخزين البيانات.
YARN ، اختصار لعبارة "مفاوض آخر عن الموارد " ، هي المسؤولة عن إدارة الموارد وتوفير بيئة تنفيذ للعمليات المذكورة.
المكونان الرئيسيان لـ YARN هما -
ResourceManager - مسؤول عن تخصيص الموارد لمدراء NodeManager المعنيين بناءً على الاحتياجات.
NodeManager - ينفذ المهام على كل DataNode.
7 مشاريع بيانات ضخمة مثيرة للاهتمام تحتاج إلى الانتباه لها

4. ماذا تقصد بالسلعة الأجهزة؟

هذا سؤال آخر في مقابلة البيانات الضخمة من المرجح أن تصادفه في أي مقابلة تجلس من أجلها.

تشير Commodity Hardware إلى الحد الأدنى من موارد الأجهزة اللازمة لتشغيل إطار عمل Apache Hadoop. يُعرف أي جهاز يدعم الحد الأدنى من متطلبات Hadoop باسم "أجهزة السلع".

5. تعريف ووصف مصطلح FSCK.

FSCK تعني فحص نظام الملفات. إنه أمر يستخدم لتشغيل تقرير ملخص Hadoop الذي يصف حالة HDFS. إنه يتحقق فقط من الأخطاء ولا يصححها. يمكن تنفيذ هذا الأمر على النظام بأكمله أو على مجموعة فرعية من الملفات.

6. ما هو الغرض من أمر JPS في Hadoop؟

يتم استخدام الأمر JPS لاختبار عمل كل عفاريت Hadoop. يختبر على وجه التحديد شياطين مثل NameNode و DataNode و ResourceManager و NodeManager والمزيد.
(في أي مقابلة مع البيانات الضخمة ، من المحتمل أن تجد سؤالاً واحدًا عن JPS وأهميته.)
البيانات الضخمة: يجب أن تعرف الأدوات والتقنيات

7. قم بتسمية الأوامر المختلفة لبدء وإغلاق برنامج Hadoop Daemons.

هذا أحد أهم أسئلة مقابلة البيانات الضخمة لمساعدة القائم بإجراء المقابلة على قياس معرفتك بالأوامر.

لبدء كل الشياطين:
./sbin/start-all.sh

لإغلاق كل الشياطين:
./sbin/stop-all.sh

8. لماذا نحتاج Hadoop لتحليلات البيانات الضخمة؟

تختبر أسئلة مقابلة Hadoop هذه وعيك فيما يتعلق بالجوانب العملية للبيانات الضخمة والتحليلات.

في معظم الحالات ، يساعد Hadoop في استكشاف وتحليل مجموعات البيانات الكبيرة وغير المنظمة. يقدم Hadoop إمكانات التخزين والمعالجة وجمع البيانات التي تساعد في التحليلات.

9. شرح الميزات المختلفة لبرنامج Hadoop.

تم إدراجها في العديد من أسئلة وأجوبة مقابلات البيانات الضخمة ، وأفضل إجابة على ذلك هي -

المصدر المفتوح - Hadoop عبارة عن منصة مفتوحة المصدر. يسمح بإعادة كتابة الكود أو تعديله وفقًا لمتطلبات المستخدم والتحليلات.
قابلية التوسع - يدعم Hadoop إضافة موارد الأجهزة إلى العقد الجديدة.
استعادة البيانات - يتبع Hadoop النسخ المتماثل الذي يسمح باستعادة البيانات في حالة حدوث أي فشل.
منطقة البيانات - هذا يعني أن Hadoop ينقل الحساب إلى البيانات وليس العكس. بهذه الطريقة ، يتم تسريع العملية برمتها.

10. حدد أرقام المنفذ لـ NameNode و Task Tracker و Job Tracker.

NameNode - المنفذ 50070
متعقب المهام - المنفذ 50060
متعقب الوظائف - المنفذ 50030

11. ماذا تقصد بالفهرسة في HDFS؟

يقوم HDFS بفهرسة كتل البيانات بناءً على أحجامها. تشير نهاية كتلة البيانات إلى عنوان مكان تخزين الكتلة التالية من كتل البيانات. تقوم DataNodes بتخزين كتل البيانات بينما يقوم NameNode بتخزين كتل البيانات هذه.
تطبيقات البيانات الضخمة في الثقافة الشعبية

12. ما هي العقد الحافة في Hadoop؟

تشير عُقد الحافة إلى عُقد البوابة التي تعمل كواجهة بين مجموعة Hadoop والشبكة الخارجية. تقوم هذه العقد بتشغيل تطبيقات العميل وأدوات إدارة الكتلة ويتم استخدامها كمناطق انطلاق أيضًا. تعد إمكانات التخزين من فئة المؤسسات مطلوبة لعقد الحافة ، وعادة ما تكفي عقدة الحافة الواحدة لمجموعات Hadoop المتعددة.

13. ما هي بعض أدوات إدارة البيانات المستخدمة مع Edge Nodes في Hadoop؟

يهدف سؤال مقابلة البيانات الضخمة هذا إلى اختبار وعيك فيما يتعلق بالأدوات والأطر المختلفة.

Oozie و Ambari و Pig و Flume هي أدوات إدارة البيانات الأكثر شيوعًا التي تعمل مع Edge Nodes في Hadoop.

14. شرح الطرق الأساسية للمخفض.

هناك ثلاث طرق أساسية للمخفض. هم انهم-

الإعداد () - يستخدم هذا لتكوين معلمات مختلفة مثل حجم الكومة وذاكرة التخزين المؤقت الموزعة وبيانات الإدخال.
تقليل () - معلمة يتم استدعاؤها مرة واحدة لكل مفتاح مع مهمة التقليل المعنية
cleanup () - يمسح كل الملفات المؤقتة ولا يُستدعى إلا في نهاية مهمة المخفض.

15. تحدث عن علامات شواهد القبور المختلفة المستخدمة لأغراض الحذف في HBase.

يتعمق سؤال مقابلة البيانات الضخمة في معرفتك بـ HBase وعملها.
هناك ثلاث علامات شواهد رئيسية تستخدم للحذف في HBase. هم انهم-

علامة حذف العائلة - لوضع علامة على جميع أعمدة عائلة الأعمدة.
علامة حذف الإصدار - لوضع علامة على إصدار واحد لعمود واحد.
علامة حذف العمود - لتمييز جميع إصدارات عمود واحد.
مهندسو البيانات الضخمة: الخرافات مقابل الحقائق

16. كيف يمكن للبيانات الضخمة أن تضيف قيمة إلى الأعمال؟

أحد أكثر أسئلة مقابلة البيانات الضخمة شيوعًا. في السيناريو الحالي ، البيانات الضخمة هي كل شيء. إذا كانت لديك بيانات ، فلديك أقوى أداة تحت تصرفك. تساعد تحليلات البيانات الكبيرة الشركات على تحويل البيانات الأولية إلى رؤى هادفة وقابلة للتنفيذ يمكنها تشكيل استراتيجيات أعمالها. أهم مساهمة للبيانات الضخمة في الأعمال هي قرارات الأعمال التي تعتمد على البيانات. تتيح البيانات الضخمة للمؤسسات أن تبني قراراتها على معلومات ورؤى ملموسة.

أسئلة مقابلة البيانات الضخمة

علاوة على ذلك ، تسمح التحليلات التنبؤية للشركات بصياغة توصيات مخصصة واستراتيجيات تسويق لمختلف شخصيات المشترين. تساعد أدوات وتقنيات البيانات الضخمة معًا في زيادة الإيرادات وتبسيط العمليات التجارية وزيادة الإنتاجية وتعزيز رضا العملاء. في الواقع ، فإن أي شخص لا يستفيد من البيانات الضخمة اليوم يخسر بحرًا من الفرص.

17. كيف تنشر حل البيانات الضخمة؟

يمكنك نشر حل البيانات الضخمة في ثلاث خطوات:

استيعاب البيانات - هذه هي الخطوة الأولى في نشر حل البيانات الضخمة. تبدأ بجمع البيانات من مصادر متعددة ، سواء كانت منصات وسائط اجتماعية أو ملفات السجل أو مستندات العمل أو أي شيء ذي صلة بعملك. يمكن استخراج البيانات إما من خلال الدفق في الوقت الفعلي أو في وظائف مجمعة.
تخزين البيانات - بمجرد استخراج البيانات ، يجب تخزين البيانات في قاعدة بيانات. يمكن أن يكون HDFS أو HBase. في حين أن تخزين HDFS مثالي للوصول المتسلسل ، فإن HBase مثالي للوصول العشوائي للقراءة / الكتابة.
معالجة البيانات - الخطوة الأخيرة في نشر الحل هي معالجة البيانات. عادةً ما تتم معالجة البيانات عبر أطر عمل مثل Hadoop و Spark و MapReduce و Flink و Pig ، على سبيل المثال لا الحصر.

18. كيف تختلف NFS عن HDFS؟

يعد نظام ملفات الشبكة (NFS) أحد أقدم أنظمة تخزين الملفات الموزعة ، بينما ظهر نظام الملفات الموزعة Hadoop (HDFS) في دائرة الضوء مؤخرًا فقط بعد زيادة البيانات الكبيرة.

يوضح الجدول أدناه بعضًا من أبرز الاختلافات بين NFS و HDFS:

NFS	HDFS
يمكنه تخزين ومعالجة كميات صغيرة من البيانات.	إنه مصمم بشكل صريح لتخزين ومعالجة البيانات الضخمة.
يتم تخزين البيانات في أجهزة مخصصة.	يتم تقسيم البيانات إلى كتل بيانات يتم توزيعها على محركات الأقراص المحلية للأجهزة.
في حالة فشل النظام ، لا يمكنك الوصول إلى البيانات.	يمكن الوصول إلى البيانات حتى في حالة فشل النظام.
نظرًا لأن NFS يعمل على جهاز واحد ، فليس هناك فرصة لتكرار البيانات.	يعمل HDFS على مجموعة من الأجهزة ، وبالتالي ، قد يؤدي بروتوكول النسخ المتماثل إلى بيانات زائدة عن الحاجة.

19. سرد أذونات الملفات المختلفة في HDFS للملفات أو مستويات الدليل.

أحد الأسئلة الشائعة لمقابلة البيانات الضخمة. يحتوي نظام الملفات الموزعة Hadoop (HDFS) على أذونات محددة للملفات والأدلة. هناك ثلاثة مستويات للمستخدم في HDFS - المالك والمجموعة والآخرين. لكل مستوى من مستويات المستخدم ، هناك ثلاثة أذونات متاحة:

قراءة (ص)
الكتابة (ث)
نفذ (x).

تعمل هذه الأذونات الثلاثة بشكل فريد للملفات والدلائل.

للملفات -

إذن r لقراءة ملف
إذن w هو كتابة ملف.

على الرغم من وجود إذن تنفيذ (x) ، لا يمكنك تنفيذ ملفات HDFS.

للأدلة -

يسرد الإذن r محتويات دليل معين.
يقوم الإذن w بإنشاء دليل أو حذفه.
إذن X هو للوصول إلى دليل فرعي.

20. وضح العمليات التي تكتب فوق عوامل النسخ المتماثل في HDFS.

في HDFS ، هناك طريقتان للكتابة فوق عوامل النسخ المتماثل - على أساس الملف وعلى أساس الدليل.

على أساس الملف

في هذه الطريقة ، يتغير عامل النسخ طبقًا للملف باستخدام قشرة Hadoop FS. يتم استخدام الأمر التالي لهذا:

hadoop fs - setrep –w2 / my / test_file

هنا ، يشير ملف test_file إلى اسم الملف الذي سيتم تعيين عامل النسخ المتماثل الخاص به على 2.

على أساس الدليل

تقوم هذه الطريقة بتغيير عامل النسخ المتماثل وفقًا للدليل ، على هذا النحو ، يتغير عامل النسخ المتماثل لجميع الملفات الموجودة ضمن دليل معين. يتم استخدام الأمر التالي لهذا:

$ hadoop fs –setrep –w5 / my / test_dir

هنا ، يشير test_dir إلى اسم الدليل الذي سيتم تعيين عامل النسخ المتماثل وجميع الملفات الموجودة فيه على 5.

21. قم بتسمية الأوضاع الثلاثة التي يمكنك من خلالها تشغيل Hadoop.

أحد الأسئلة الأكثر شيوعًا في أي مقابلة للبيانات الضخمة. الأوضاع الثلاثة هي:

الوضع المستقل - هذا هو الوضع الافتراضي لـ Hadoop الذي يستخدم نظام الملفات المحلي لكل من عمليات الإدخال والإخراج. الغرض الرئيسي من الوضع المستقل هو التصحيح. لا يدعم HDFS ويفتقر أيضًا إلى التكوين المخصص المطلوب لملفات mapred-site.xml و core-site.xml و hdfs-site.xml.
الوضع الموزع الزائف - المعروف أيضًا باسم الكتلة أحادية العقدة ، يتضمن الوضع الموزع الزائف كلاً من NameNode و DataNode داخل نفس الجهاز. في هذا الوضع ، سيتم تشغيل جميع عفاريت Hadoop على عقدة واحدة ، وبالتالي ، فإن العقدتين Master و Slave هي نفسها.
الوضع الموزع بالكامل - يُعرف هذا الوضع باسم الكتلة متعددة العقد حيث تعمل العقد المتعددة في وقت واحد لتنفيذ وظائف Hadoop . هنا ، تعمل جميع شياطين Hadoop على عقد مختلفة. لذلك ، يتم تشغيل العقدتين Master و Slave بشكل منفصل.

22. اشرح "Overfitting".

يشير Overfitting إلى خطأ في النمذجة يحدث عندما تكون الوظيفة مناسبة بإحكام (متأثرة) بمجموعة محدودة من نقاط البيانات. ينتج عن التجاوز في نموذج معقد للغاية يجعل من الصعب شرح الخصائص المميزة أو الخصوصيات في البيانات الموجودة. نظرًا لأنه يؤثر سلبًا على قدرة التعميم للنموذج ، يصبح من الصعب تحديد الحاصل التنبئي للنماذج المجهزة بشكل زائد. تفشل هذه النماذج في الأداء عند تطبيقها على البيانات الخارجية (البيانات التي ليست جزءًا من بيانات العينة) أو مجموعات البيانات الجديدة.

يعد التجهيز الإضافي أحد أكثر المشكلات شيوعًا في التعلم الآلي. يعتبر النموذج مُجهزًا بشكل زائد عندما يكون أداؤه أفضل في مجموعة التدريب ولكنه يفشل فشلاً ذريعًا في مجموعة الاختبار. ومع ذلك ، هناك العديد من الطرق لمنع مشكلة فرط التجهيز ، مثل التحقق المتبادل ، والتقليم ، والتوقف المبكر ، والتسوية ، والتجميع.

23. ما هو اختيار الميزة؟

يشير اختيار الميزة إلى عملية استخراج الميزات المطلوبة فقط من مجموعة بيانات محددة. عند استخراج البيانات من مصادر مختلفة ، ليست كل البيانات مفيدة في جميع الأوقات - تتطلب احتياجات العمل المختلفة رؤى بيانات مختلفة. هذا هو المكان الذي يأتي فيه اختيار الميزة لتحديد واختيار تلك الميزات ذات الصلة بمتطلبات عمل معينة أو مرحلة من معالجة البيانات.

الهدف الرئيسي من اختيار الميزات هو تبسيط نماذج ML لتسهيل تحليلها وتفسيرها. يعزز اختيار الميزة من قدرات التعميم للنموذج ويزيل مشاكل الأبعاد ، وبالتالي ، يمنع احتمالات التجهيز الزائد. وبالتالي ، يوفر اختيار الميزة فهماً أفضل للبيانات قيد الدراسة ، ويحسن أداء التنبؤ للنموذج ، ويقلل من وقت الحساب بشكل كبير.

يمكن اختيار الميزة من خلال ثلاث تقنيات:

طريقة الفلاتر

في هذه الطريقة ، لا تعتمد الميزات المحددة على المصنفات المحددة. يتم استخدام تقنية الترتيب المتغير لتحديد المتغيرات لأغراض الطلب. أثناء عملية التصنيف ، تأخذ تقنية الترتيب المتغير في الاعتبار أهمية الميزة وفائدتها. يعد اختبار Chi-Square ، وعتبة التباين ، وكسب المعلومات بعض الأمثلة على طريقة المرشحات.

طريقة الأغلفة

في هذه الطريقة ، توجد الخوارزمية المستخدمة في اختيار مجموعة الميزات الفرعية كـ "غلاف" حول خوارزمية الاستقراء. تعمل خوارزمية الاستقراء مثل "الصندوق الأسود" الذي ينتج المصنف الذي سيتم استخدامه بشكل أكبر في تصنيف الميزات. يتمثل العيب أو القيود الرئيسية لطريقة الأغلفة في أنه للحصول على مجموعة الميزات الفرعية ، تحتاج إلى إجراء أعمال حسابية ثقيلة. تعد الخوارزميات الجينية ، واختيار الميزات المتسلسل ، والقضاء المتكرر على الميزات أمثلة لطريقة الأغلفة.

الطريقة المضمنة

تجمع الطريقة المضمنة بين أفضل ما في العالمين - فهي تتضمن أفضل ميزات طرق المرشحات والأغلفة. في هذه الطريقة ، يتم اختيار المتغير أثناء عملية التدريب ، مما يتيح لك تحديد الميزات الأكثر دقة لنموذج معين. تعد تقنية تنظيم L1 وانحدار ريدج مثالين شائعين للطريقة المضمنة.

24. تحديد "القيم المتطرفة".

يشير الخارج إلى نقطة بيانات أو ملاحظة تقع على مسافة غير طبيعية من القيم الأخرى في عينة عشوائية. بمعنى آخر ، القيم المتطرفة هي القيم البعيدة عن المجموعة ؛ لا ينتمون إلى أي مجموعة أو مجموعة محددة في مجموعة البيانات. عادةً ما يؤثر وجود القيم المتطرفة على سلوك النموذج - فقد يؤدي ذلك إلى تضليل عملية تدريب خوارزميات تعلم الآلة. تتضمن بعض الآثار السلبية للقيم المتطرفة وقت تدريب أطول ونماذج غير دقيقة ونتائج سيئة.

ومع ذلك ، قد تحتوي القيم المتطرفة في بعض الأحيان على معلومات قيمة. لهذا السبب يجب التحقيق معهم بدقة ومعالجتهم وفقًا لذلك.

25. اسم بعض تقنيات الكشف الخارجة.

مرة أخرى ، أحد أهم أسئلة مقابلة البيانات الضخمة. فيما يلي ست طرق كشف خارجية:

تحليل القيمة القصوى - تحدد هذه الطريقة الأطراف الإحصائية لتوزيع البيانات. تعتبر الأساليب الإحصائية مثل "z-scores" على البيانات أحادية المتغير مثالًا مثاليًا لتحليل القيمة القصوى.
النماذج الاحتمالية والإحصائية - تحدد هذه الطريقة "الحالات غير المحتملة" من "النموذج الاحتمالي" للبيانات. وخير مثال على ذلك هو تحسين نماذج المزيج الغاوسي باستخدام "تعظيم التوقع".
النماذج الخطية - تقوم هذه الطريقة بنمذجة البيانات إلى أبعاد أقل. النماذج المستندة إلى القرب - في هذا النهج ، يتم تحديد مثيلات البيانات المعزولة عن مجموعة البيانات بواسطة الكتلة أو الكثافة أو تحليل أقرب الجوار.
نماذج نظرية المعلومات - يسعى هذا النهج إلى اكتشاف القيم المتطرفة مثل حالات البيانات السيئة التي تزيد من تعقيد مجموعة البيانات.
الكشف الخارجي عالي الأبعاد - تحدد هذه الطريقة المسافات الفرعية للقيم المتطرفة وفقًا لمقاييس المسافة في الأبعاد الأعلى.

26. شرح رف الوعي في Hadoop.

يعد Rack Awareness أحد الأسئلة الشائعة في مقابلة البيانات الضخمة. إدراك Rach هو خوارزمية تحدد وتحدد DataNodes الأقرب إلى NameNode بناءً على معلومات الحامل الخاصة بهم. يتم تطبيقه على NameNode لتحديد كيفية وضع كتل البيانات والنسخ المتماثلة الخاصة بهم. أثناء عملية التثبيت ، يكون الافتراض الافتراضي هو أن جميع العقد تنتمي إلى نفس الرف.

يساعد الوعي بالأرفف على:

تحسين موثوقية البيانات وإمكانية الوصول إليها.
تحسين أداء الكتلة.
تحسين عرض النطاق الترددي للشبكة.
حافظ على التدفق السائب داخل الرف كلما أمكن ذلك.
منع فقدان البيانات في حالة حدوث عطل كامل في الحامل.

27. هل يمكنك استعادة NameNode عندما يكون معطلاً؟ إذا كان الأمر كذلك ، فكيف؟

نعم ، من الممكن استعادة NameNode عندما يكون معطلاً. إليك كيف يمكنك القيام بذلك:

استخدم FsImage (النسخة المتماثلة للبيانات الوصفية لنظام الملفات) لبدء تشغيل NameNode جديد.
قم بتكوين DataNodes جنبًا إلى جنب مع العملاء حتى يتمكنوا من الإقرار والرجوع إلى NameNode الذي بدأ حديثًا.
عندما يكتمل NameNode الذي تم إنشاؤه حديثًا تحميل آخر نقطة تفتيش من عملية تحميل FsImage (التي تلقت الآن تقارير كتلة كافية من DataNodes) ، ستكون جاهزة لبدء خدمة العميل.

ومع ذلك ، فإن عملية استرداد NameNode تكون مجدية فقط لمجموعات أصغر. بالنسبة لمجموعات Hadoop الكبيرة ، عادةً ما تستغرق عملية الاسترداد قدرًا كبيرًا من الوقت ، مما يجعلها مهمة صعبة للغاية.

28. اسم معلمات التكوين لإطار عمل MapReduce.

تتضمن معلمات التكوين في إطار عمل MapReduce ما يلي:

تنسيق إدخال البيانات.
تنسيق إخراج البيانات.
موقع إدخال الوظائف في نظام الملفات الموزع.
موقع إخراج الوظائف في نظام الملفات الموزع.
الفئة التي تحتوي على وظيفة الخريطة
الفئة التي تحتوي على وظيفة تقليل
ملف JAR الذي يحتوي على فئات المخطط والمخفض والسائق.

29. ما هي ذاكرة التخزين المؤقت الموزعة؟ ما هي فوائده؟

لن يكتمل أي دليل لأسئلة وأجوبة مقابلة البيانات الضخمة بدون هذا السؤال. ذاكرة التخزين المؤقت الموزعة في Hadoop هي خدمة يقدمها إطار عمل MapReduce المستخدم لتخزين الملفات مؤقتًا. إذا تم تخزين ملف مؤقتًا لوظيفة معينة ، فإن Hadoop يجعله متاحًا على DataNodes الفردية في كل من الذاكرة والنظام حيث يتم تنفيذ الخريطة وتقليل المهام في وقت واحد. يتيح لك ذلك الوصول بسرعة إلى الملفات المخزنة مؤقتًا وقراءتها لملء أي مجموعة (مثل المصفوفات وعلامات التجزئة وما إلى ذلك) في رمز.

تقدم ذاكرة التخزين المؤقت الموزعة الفوائد التالية:

يقوم بتوزيع ملفات نصية / بيانات بسيطة للقراءة فقط وأنواع معقدة أخرى مثل الجرار والمحفوظات وما إلى ذلك.
يتتبع الطوابع الزمنية لتعديل ملفات ذاكرة التخزين المؤقت التي تبرز الملفات التي لا ينبغي تعديلها حتى يتم تنفيذ المهمة بنجاح.

30. ما هو ملف التسلسل في Hadoop؟

في Hadoop ، يعد SequenceFile ملفًا ثابتًا يحتوي على أزواج قيمة مفتاح ثنائية. هو الأكثر استخدامًا في تنسيقات MapReduce I / O. يتم تخزين مخرجات الخريطة داخليًا كملف SequenceFile الذي يوفر فئات القارئ والكاتب والفارز.

توجد ثلاثة تنسيقات لملف SequenceFile:

سجلات قيمة المفتاح غير المضغوطة
سجل سجلات القيمة الرئيسية المضغوطة (يتم ضغط "القيم" فقط).
حظر سجلات قيمة المفتاح المضغوطة (هنا ، يتم جمع كل من المفاتيح والقيم في "كتل" بشكل منفصل ثم ضغطها).

31. اشرح دور متعقب الوظائف.

أحد الأسئلة الشائعة لمقابلة البيانات الضخمة. الوظيفة الأساسية لـ JobTracker هي إدارة الموارد ، والتي تعني بشكل أساسي إدارة TaskTrackers. بصرف النظر عن هذا ، يتتبع JobTracker أيضًا توافر الموارد ويتعامل مع إدارة دورة حياة المهام (تتبع تقدم المهام والتسامح مع الأخطاء).

بعض الميزات الأساسية لـ JobTracker هي:

إنها عملية يتم تشغيلها على عقدة منفصلة (وليس على DataNode).
يتواصل مع NameNode لتحديد موقع البيانات.
يتتبع تنفيذ MapReduce أحمال العمل.
يخصص عقد TaskTracker بناءً على الفتحات المتاحة.
يراقب كل TaskTracker ويقدم تقرير الوظيفة الشامل إلى العميل.
يجد أفضل عقد TaskTracker لتنفيذ مهام محددة على عقد معينة.

32. اسم تنسيقات الإدخال الشائعة في Hadoop.

يحتوي Hadoop على ثلاثة تنسيقات إدخال شائعة:

تنسيق إدخال النص - هذا هو تنسيق الإدخال الافتراضي في Hadoop.
تنسيق إدخال ملف التسلسل - يستخدم تنسيق الإدخال هذا لقراءة الملفات في تسلسل.
تنسيق إدخال قيمة المفتاح - يُستخدم تنسيق الإدخال هذا لملفات النص العادي (الملفات المقسمة إلى أسطر).

33. ما هي الحاجة إلى منطقة البيانات في Hadoop؟

أحد الأسئلة المهمة لمقابلة البيانات الضخمة. في HDFS ، يتم تخزين مجموعات البيانات ككتل في DataNodes في مجموعة Hadoop. عند تنفيذ مهمة MapReduce ، يقوم مخطط الخرائط الفردي بمعالجة كتل البيانات (تقسيمات الإدخال). إذا لم تكن البيانات موجودة في نفس العقدة حيث ينفذ المخطط المهمة ، فيجب نسخ البيانات من DataNode حيث توجد عبر الشبكة إلى Mapper DataNode.

عندما تحتوي مهمة MapReduce على أكثر من مائة مصمم خرائط ويحاول كل مخطط DataNode نسخ البيانات من DataNode آخر في المجموعة في وقت واحد ، سيؤدي ذلك إلى ازدحام الشبكة ، وبالتالي يكون له تأثير سلبي على الأداء الكلي للنظام. هذا هو المكان الذي تدخل فيه منطقة البيانات السيناريو. بدلاً من نقل جزء كبير من البيانات إلى الحساب ، تنقل منطقة البيانات حساب البيانات بالقرب من مكان وجود البيانات الفعلية على DataNode. يساعد هذا في تحسين الأداء العام للنظام ، دون التسبب في تأخير غير ضروري.

34. ما هي خطوات تحقيق الأمن في Hadoop؟

في Hadoop ، يتم استخدام Kerberos - بروتوكول مصادقة الشبكة - لتحقيق الأمان. تم تصميم Kerberos لتقديم مصادقة قوية لتطبيقات العميل / الخادم عبر تشفير المفتاح السري.

عندما تستخدم Kerberos للوصول إلى خدمة ما ، يجب عليك الخضوع لثلاث خطوات ، تتضمن كل خطوة منها تبادل الرسائل مع خادم. والخطوات هي كما يلي:

المصادقة - هذه هي الخطوة الأولى التي يتم فيها مصادقة العميل عبر خادم المصادقة ، وبعد ذلك يتم منح العميل TGT (تذكرة منح التذكرة) مختومة بالوقت.
التفويض - في الخطوة الثانية ، يستخدم العميل TGT لطلب تذكرة خدمة من TGS (خادم منح التذاكر).
طلب الخدمة - في الخطوة الأخيرة ، يستخدم العميل بطاقة الخدمة لمصادقة نفسه على الخادم.

35. كيف يمكنك التعامل مع القيم المفقودة في البيانات الضخمة؟

السؤال الأخير في دليل أسئلة وأجوبة مقابلة البيانات الضخمة. تشير القيم المفقودة إلى القيم غير الموجودة في العمود. يحدث عندما لا توجد قيمة بيانات لمتغير في الملاحظة. إذا لم يتم التعامل مع القيم المفقودة بشكل صحيح ، فمن المحتم أن يؤدي إلى بيانات خاطئة والتي بدورها ستؤدي إلى نتائج غير صحيحة. وبالتالي ، يوصى بشدة بمعالجة القيم المفقودة بشكل صحيح قبل معالجة مجموعات البيانات. عادةً ، إذا كان عدد القيم المفقودة صغيرًا ، يتم إسقاط البيانات ، ولكن إذا كان هناك عدد كبير من القيم المفقودة ، فإن احتساب البيانات هو المسار المفضل للعمل.

في الإحصاء ، توجد طرق مختلفة لتقدير القيم المفقودة. وتشمل هذه الانحدار ، واحتساب البيانات المتعددة ، والحذف بطريقة القوائم / الزوجية ، وتقدير الاحتمالية القصوى ، وإقلاع بايز التقريبي.

خاتمة

نأمل أن يكون دليل أسئلة وأجوبة البيانات الضخمة مفيدًا. سنقوم بتحديث الدليل بانتظام لإطلاعك على آخر المستجدات.

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

قيادة الثورة التكنولوجية المدفوعة بالبيانات

400+ ساعة من التعلم. 14 لغة وأدوات. حالة خريجي IIIT-B.

برنامج الشهادة المتقدم في البيانات الضخمة من معهد IIIT بنغالور