أفضل 28 أسئلة وأجوبة مقابلة مهندس البيانات للمبتدئين وذوي الخبرة
نشرت: 2020-03-11تستعد لمقابلة ولكن لا تعرف كيف تفعل ذلك؟ يمكنك البدء بقائمة أسئلة وأجوبة مقابلة مهندس البيانات.
مقابلات مهندس البيانات هي واحدة من أصعب المقابلات. هناك الكثير الذي يجب أن تعرفه عنه. لكن لا تقلق ، لأن قائمة أسئلة المقابلة لدينا ستساعدك في هذا الصدد. بعد استعراض هذه القائمة ، ستعرف إجابات العديد من الأسئلة البارزة التي قد يطرحها المجند. أيضًا ، ستمنحك هذه القائمة فكرة عما يجب أن تدرسه وتتعلمه أثناء التحضير للمقابلة.
هيا بنا نبدأ.
أسئلة وأجوبة مقابلة مهندس البيانات الأعلى
س 1 - ما هي هندسة البيانات؟
هندسة البيانات هي نهج هندسة البرمجيات لتطوير وتصميم نظم المعلومات. يركز على جمع وتحليل البيانات. بينما يقوم علماء البيانات بمهام مختلفة باستخدام البيانات الضخمة ، يتعين على شخص ما جمع كل هذه البيانات من قبل ، ويقوم مهندسو البيانات بهذه المهمة. مهندسو البيانات مسؤولون عن تطوير قواعد البيانات وصيانتها أيضًا. يقوم مهندسو البيانات بتحويل البيانات الأولية إلى بيانات قابلة للاستخدام.
س 2 - ماذا تفهم بنمذجة البيانات؟
عند إنشاء نموذج بيانات لنظام معلومات حتى تتمكن من تتبع بياناته ، يُطلق عليه اسم نمذجة البيانات. تصبح نماذج البيانات هذه جداول في قاعدة بيانات (DB). على سبيل المثال ، إذا كنت ترغب في تحليل سلوكيات العملاء الخاصة بك ، فسيكون كل عميل في قاعدة البيانات الخاصة بك نموذجًا للبيانات. إنه التمثيل المفاهيمي لقيم البيانات المرتبطة بالقواعد.
س 3 - ما هو Hadoop؟
Hadoop عبارة عن مجموعة برامج مفتوحة المصدر من الأدوات المساعدة التي تتيح لك استخدام شبكة من أجهزة كمبيوتر متعددة لحل المشكلات المتعلقة بالبيانات الضخمة. يحتوي على مكونات مختلفة تتيح لك معالجة كميات كبيرة من البيانات. مطور Hadoop هو مؤسسة Apache. تتيح لك مجموعته الواسعة من الأدوات والمكونات أداء العديد من تطبيقات البيانات الضخمة القوية بكفاءة.
س 4 - ما هي المكونات المختلفة لبرنامج Hadoop؟
يتكون Hadoop بشكل أساسي من 4 مكونات ، وهي HDFS و MapReduce و YARN و Hadoop Common.
HDFS هو نظام الملفات الذي يخزن جميع بيانات Hadoop. لديها نطاق ترددي عالٍ كنظام تخزين موزع.
يعالج MapReduce كميات كبيرة من البيانات ؛ YARN هي إدارة موارد Hadoop وتخصص الموارد المطلوبة وفقًا لذلك. Hadoop Common هي مجموعة من المكتبات والأدوات المساعدة التي يمكنك استخدامها في Hadoop.
س 5 - ما المقصود بـ HDFS؟
HDFS هو أحد مكونات Hadoop. HDFS تعني نظام الملفات الموزعة Hadoop.
س 6 - ما هي NameNode؟
يعد NameNode جزءًا من تخزين البيانات في HDFS ويتتبع الملفات المختلفة الموجودة في مجموعات. لا تخزن NameNodes البيانات. يقومون بتخزين البيانات الوصفية لـ DataNodes ، حيث يقوم HDFS بتخزين بياناته الفعلية.
س 7 - ما الفرق بين البيانات غير المهيكلة والبيانات المنظمة؟
تخزن الأنظمة البيانات غير المهيكلة في هياكل ملفات غير مُدارة بينما تخزين البيانات المنظمة هو DBMS. يعد تحجيم مخطط البيانات المنظمة أمرًا صعبًا ، ولكن من السهل جدًا القيام به مع البيانات غير المهيكلة. يمكنك استخدام ELT (استخراج وتحويل وتحميل) للبيانات المنظمة. من ناحية أخرى ، ستحتاج إلى إجراء معالجة مجمعة أو إدخال بيانات.
س 8 - كم عدد أنواع مخططات التصميم الموجودة في نمذجة البيانات؟ ما هم؟
هناك نوعان من مخططات التصميم في نمذجة البيانات ، وهما: مخطط ندفة الثلج ومخطط النجوم.
س 9 - ماذا يحدث عندما يعثر Block Scanner على كتلة تالفة من البيانات؟ يشرح.
هذا أحد أسئلة مقابلة مهندس البيانات الشائعة. لذا تأكد من إعداده قبل أن يعثر Block Scanner على كتلة تالفة من البيانات ، يقوم DataNode بالإبلاغ عنها إلى NameNode. بعد ذلك ، تبدأ NameNode في إنشاء نسخة طبق الأصل من الكتلة التالفة باستخدام أحد نماذجها الحالية. إذا لم يقم النظام بحذف كتلة البيانات التالفة ، فإنه يقوم بإنشاء العديد من النسخ المتماثلة مثل عامل النسخ المتماثل. يجب أن يطابق عدد النسخ المتماثل نفس الشيء.
Q.10 - قم بتسمية جميع ملفات تكوين XML الموجودة في Hadoop.
ملفات تكوين XML الموجودة في Hadoop هي HDFS-site و Mapred-site و Yarn-site و Core-site.
س 11 - ما هو الحظر في HDFS؟ ما هو الماسح الضوئي؟
في Hadoop ، الكتلة هي أصغر وحدة بيانات. الماسح الضوئي للكتل هو مكون يقوم بفحص الكتل الموجودة على DataNode والتحقق منها. يقسم Hadoop ملفات البيانات الكبيرة إلى كتل بيانات صغيرة لسهولة التخزين.
س 12- ما هي الرسائل التي يرسلها DataNode إلى NameNode؟
ترسل DataNodes إشارات إلى NameNodes لإبلاغهم بأنهم يعملون. اسم هذه الإشارات هو Heartbeat. وإذا فشلت DataNodes في إرسال نبضة قلب ، تحدد NameNode أنها ماتت وتوقف عن العمل.
س 13 - حدد القيم المركزية للبيانات الضخمة.
العناصر الأربعة المركزية للبيانات الضخمة هي السرعة ، والتنوع ، والحجم ، والصدق.
س 14 - ما المقصود ب COSHH؟
يشير COSHH إلى الجدول الزمني القائم على التصنيف والتحسين لأنظمة Hadoop غير المتجانسة.
س 15 - هل يمكنك وصف مخطط النجوم؟
المخطط النجمي له هيكل مشابه للنجم ؛ هذا هو سبب تسميته. يمكن أن يحتوي مركز النجمة على جدول حقائق به جداول أبعاد مختلفة مرتبطة به. يستخدمه مهندسو البيانات للاستعلام عن مجموعات البيانات الأساسية.
س 16 - ما هو مخطط ندفة الثلج؟
مخطط ندفة الثلج هو شكل من أشكال مخطط النجوم. الاختلاف الوحيد هو أن لها أبعادًا إضافية ، وتستمد اسمها من هيكلها الشبيه بالثلج. يحتوي على جداول أبعاد طبيعية ، نظرًا لأنه يحتوي على جداول أخرى.
س 17- ما هي الأساليب الأساسية للمخفض في Hadoop؟
هناك عدة طرق أساسية في Reducer. الأول هو الإعداد () الذي يقوم بتكوين المعلمات ، والتنظيف () ينظف مجموعات البيانات المؤقتة ، ويعمل Reducer على تقليل () الأسلوب مع كل مهمة مخفضة.
س 18 - ما هو FSCK؟
FSCK تعني فحص نظام الملفات. إنه أمر لـ HDFS ، ويستخدم هذا الأمر لاكتشاف المشكلات والتناقضات في ملف.

س 19 - هل لدى Hadoop أوضاع متعددة؟ إذا كان الأمر كذلك، ما هي؟
نعم ، يحتوي Hadoop على ثلاثة أوضاع متميزة. وهي: الوضع المستقل ، والوضع الموزع بالكامل ، والوضع الموزع الزائف.
س 20 - ماذا تعني YARN؟
YARN تعني مفاوض موارد آخر.
س 21 - كيف تقوم بتأمين Hadoop؟
لهذا الغرض ، ستقوم أولاً بتمكين التشفير في حالة السكون وأثناء النقل. ستحتاج إلى استخدام الإصدارات الآمنة من البروتوكولات التي تستخدمها في Hadoop. ستسمح لـ SASL بحماية بيانات RPC. يمكنك تمكين SASL من خلال الخاصية hadoop.rpc.protection.
ستؤمن قناة المصادقة أيضًا. يمكن للعميل استخدام الطابع الزمني لقناة المصادقة للحصول على تذكرة خدمة ، والتي يمكنك بعد ذلك استخدامها للمصادقة الذاتية.
س 22 - هل يمكنك التوسع في HDFS (نظام الملفات الموزعة Hadoop)؟
Hadoop قادر على العمل مع أنظمة الملفات الموزعة مثل FS و HFTP و S3. نظام ملفات Google هو أساس HDFS ، ويمكن تشغيله على مجموعة كبيرة من الأنظمة الصغيرة.
س 23 - ما هي الاختلافات بين ندفة الثلج ومخطط النجوم؟
في مخطط Star ، لديك فرصة أكبر لتكرار البيانات ، وهذا ليس هو الحال مع مخطط Snowflake. تصميم DB لمخطط Star أكثر وضوحًا من Snowflake. يؤدي الارتباط المعقد لمخطط Snowflake إلى إبطاء معالجة المكعبات ، وهو ما لا يحدث مع مخطط Star.
س 24 - ما هي دقات القلب في Hadoop؟
في Hadoop ، هناك نوعان من العقد ، NameNode و DataNode. تتحمل NameNode مسؤولية تخزين البيانات الوصفية لـ DataNodes وتتبع حالتها. ترسل DataNodes إشارات إلى NameNode لإعلامهم بأنهم على قيد الحياة ويعملون. هذه الإشارة هي نبضات القلب.
س 25 - ما الذي تفهمه من خلال البيانات الضخمة؟
عندما يكون لديك كميات هائلة من البيانات غير المهيكلة والمنظمة التي لا يمكنك معالجتها بالطرق التقليدية ، يطلق عليها اسم البيانات الضخمة. البيانات الضخمة هي مجال تحليل واستخدام مجموعات البيانات شديدة التعقيد لجمع المعلومات. لا تعمل الطرق التقليدية لتحليل البيانات بشكل جيد مع مثل هذه الكميات الكبيرة من البيانات المعقدة. في البيانات الضخمة ، يضطلع مهندسو البيانات بمهمة تحليل البيانات الأولية وتحويلها إلى بيانات قابلة للاستخدام.
س 26 - ما هي الموضوعات ولغات البرمجة التي يجب أن يعرفها مهندس البيانات؟
يجب أن يعرف مهندس البيانات تحليل الاتجاه ، والتعلم الآلي ، و SQL ، و Hive QL ، والاحتمال ، والانحدار ، والجبر الخطي. يمكن لمهندس البيانات معرفة العديد من الموضوعات الأخرى ، لكن هذه أشياء ضرورية.
س 27 - ما هي الاختلافات بين DAS و NAS في Hadoop؟
هذا أحد أكثر أسئلة مقابلة مهندس البيانات شيوعًا ، لذا انتبه جيدًا لإجابته. يشير DAS إلى التخزين المتصل المباشر ، بينما يرمز NAS إلى التخزين المتصل بالشبكة. تبلغ سعة تخزين NAS 10 ^ 9 إلى 10 ^ 12 بالبايت. من ناحية أخرى ، تتمتع DAS بسعة تخزين تبلغ 10 ^ 9 بايت. تكاليف إدارة NAS أقل بكثير من DAS أيضًا.
س 28 - ما المقصود بالمسافة بين العقد في Hadoop؟ كيف تحسبها؟
في Hadoop ، المسافة بين عقدتين تساوي مجموع الطول لأقرب عقدتين. يمكنك استخدام getDistance () للعثور على المسافة بين عقدتين في Hadoop.
تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
خاتمة
بمساعدة أسئلة المقابلة هذه ، نحن على يقين من أنك ستستعد بسهولة تامة. لا يجب أن تكون مقابلات هندسة البيانات مرهقة. تأكد من حصولك على قسط كافٍ من النوم قبل الاجتماع ، حيث يشعر الكثير من الناس بالقلق الشديد.
وإذا كانت لديك أي أسئلة تتعلق بهندسة البيانات أو المقابلات ، فلا تتردد في طرحها علينا. نحن نحب مساعدتك.
ما هي مهام ومسؤوليات مهندسي البيانات؟
بالنسبة لمهندسي البيانات ، فإن مسؤوليتهم الأساسية هي إعداد البيانات للأغراض التحليلية أو التشغيلية. كجزء من صناعة تكنولوجيا المعلومات ، ينشئ هؤلاء المهندسون خطوط أنابيب بيانات تربط البيانات من عدة أنظمة مصدر. يقومون بدمج البيانات وتوحيدها وتنقيتها قبل هيكلتها لاستخدامها في تطبيقات التحليلات. تتكون معظم الفرق التحليلية للشركات من مهندسي البيانات وعلماء البيانات الذين يسهلون الوصول إلى البيانات ويزيدون بيئة البيانات الضخمة لشركاتهم. يقدم المهندسون البيانات بتنسيقات قابلة للاستخدام لعلماء البيانات ، الذين يستخدمون المعلومات لإجراء الاستعلامات والخوارزميات للتحليلات التنبؤية والتعلم الآلي وتطبيقات استخراج البيانات.
ما هي المهارات المطلوبة للعمل كمهندس بيانات؟
إن معرفة تطوير وإدارة أنظمة قواعد البيانات أمر لا بد منه لمهندسي البيانات. يجب أن يجيدوا لغات البرمجة مثل SQL و Python و R وما إلى ذلك ، ويجب أن يكون لديهم فهم أساسي للتعلم الآلي والخوارزميات. يجب أن يعرف مهندسو البيانات أيضًا حلول التخزين وأدوات ETL (الاستخراج والتحويل والتحميل). علم البيانات هو تخصص تعاوني للغاية ، ويتعاون مهندسو البيانات مع مجموعة متنوعة من أصحاب المصلحة ، بدءًا من محللي البيانات إلى كبار المسؤولين التقنيين. لذلك ، يجب أن تكون المهارات الشخصية ، مثل مهارات الاتصال الجيدة ومهارات التعاون العالية ، جزءًا من مجموعة مهارات كل مهندس بيانات.
هل هندسة البيانات مسار وظيفي جيد؟ كم يكسب مهندس البيانات في المتوسط؟
وفقًا لتقرير Dice 2020 Tech Job ، فإن هندسة البيانات هي الخيار الوظيفي الأسرع نموًا في مجال التكنولوجيا في عام 2019 ، مع زيادة بنسبة 50٪ على أساس سنوي في عدد الفرص المتاحة. إنه يكتسب أهمية في العالم التكنولوجي وأصبح خيارًا مهنيًا مربحًا مع نمو الطلب على إدارة المعلومات. براتب مبتدئ يبلغ 4،57،532 يورو ، ترتفع أجور مهندسي البيانات مع سنوات الخبرة المتزايدة. يحصل مهندسو البيانات الذين يتمتعون بخبرة تتراوح بين 1 و 4 سنوات على متوسط راتب يبلغ 7،20،395 يورو ، في حين أن مهندسي البيانات في منتصف حياتهم المهنية الذين يتمتعون بخبرة تتراوح بين 5 إلى 9 سنوات ومهندسي البيانات ذوي الخبرة الذين يتمتعون بخبرة تتراوح بين 10 و 19 عامًا يكسبون متوسط دخل إجمالي قدره ₹ 12،94،336 و ₹ 18،67،992 ، على التوالي.