20 سؤال مقابلة التنقيب عن البيانات

نشرت: 2020-02-10

هذا يعني أنه سيكون هناك الكثير من مجالات العمل في الذكاء الاصطناعي والتعلم الآلي ، وبما أن تعدين البيانات جزء لا يتجزأ من كليهما ، يجب عليك بناء أساس متين في تعدين البيانات. يشير تعدين البيانات إلى التقنية المستخدمة لتحويل البيانات الأولية إلى رؤى ذات مغزى يمكن أن تستخدمها الشركات والمؤسسات. تتضمن بعض الجوانب الأساسية لتعدين البيانات إدارة البيانات وقواعد البيانات والمعالجة المسبقة للبيانات والتحقق من صحة البيانات والتحديث عبر الإنترنت واكتشاف الأنماط القيمة المخفية داخل مجموعات البيانات المعقدة. يركز التنقيب في البيانات بشكل أساسي على التحليل التلقائي لكميات كبيرة من البيانات لاستخراج الاتجاهات والرؤى المخفية منها. هذا هو بالضبط سبب وجوب أن تكون مستعدًا للإجابة على أي سؤال يتعلق بتعدين البيانات يضعه القائم بإجراء المقابلة أمامك إذا كنت ترغب في الحصول على وظيفة أحلامك في AI / ML.

تعلم دورة شهادة علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

في هذا المنشور ، قمنا بتجميع قائمة بأسئلة المقابلة الأكثر شيوعًا في مجال تنقيب البيانات. يغطي جميع مستويات أسئلة ومفاهيم مقابلة التنقيب عن البيانات (المستويات الأساسية والمتقدمة) التي يجب أن يعرفها كل طالب في مجال الذكاء الاصطناعي / التعلم الآلي.

لذلك ، دون مزيد من التأخير ، دعنا ندخله مباشرة!

قم بتسمية تقنيات التنقيب في البيانات المختلفة واشرح نطاق التنقيب في البيانات.

تقنيات التنقيب في البيانات المختلفة هي:

التنبؤ - يكتشف العلاقة بين الحالات المستقلة والتابعة. على سبيل المثال ، عند التفكير في بيانات المبيعات ، إذا كنت ترغب في التنبؤ بالربح المستقبلي ، فإن البيع يعمل كمثيل مستقل ، في حين أن الربح هو مثيل تابع. وفقًا لذلك ، بناءً على البيانات التاريخية للمبيعات والأرباح ، يتم توقع القيمة المرتبطة بالربح.
أشجار القرار - يعمل جذر شجرة القرار كشرط / سؤال له إجابات متعددة. كل إجابة تؤدي إلى بيانات محددة تساعد في تحديد القرار النهائي بناءً على البيانات.
الأنماط المتسلسلة - تشير إلى تحليل النمط المستخدم لاكتشاف الأنماط المتطابقة في بيانات المعاملات أو الأحداث العادية. على سبيل المثال ، تساعد البيانات التاريخية للعملاء العلامة التجارية على تحديد أنماط المعاملات التي حدثت في العام الماضي.
التحليل العنقودي - في هذه التقنية ، يتم تكوين مجموعة من الكائنات ذات الخصائص المتشابهة تلقائيًا. تحدد طريقة التجميع الفئات ثم تضع كائنات مناسبة في كل فئة.
تحليل التصنيف - في هذه الطريقة القائمة على ML ، يتم تصنيف كل عنصر في مجموعة معينة إلى مجموعات محددة مسبقًا. يستخدم تقنيات متقدمة مثل البرمجة الخطية والشبكات العصبية وأشجار القرار وما إلى ذلك.
تعلم قواعد الاقتران - تنشئ هذه الطريقة نمطًا بناءً على علاقة العناصر في معاملة واحدة.

نطاق التنقيب في البيانات هو:

توقع الاتجاهات والسلوكيات - يقوم التنقيب في البيانات بأتمتة عملية تحديد المعلومات التنبؤية في مجموعات البيانات / قواعد البيانات الكبيرة.
اكتشاف الأنماط غير المعروفة سابقًا - تقوم أدوات التنقيب عن البيانات بالتنقيب عن مجموعة واسعة ومتنوعة من قواعد البيانات لتحديد الاتجاهات المخفية سابقًا. هذه ليست سوى عملية اكتشاف الأنماط.

ما هي أنواع التنقيب عن البيانات؟

يمكن تصنيف التنقيب في البيانات إلى الأنواع التالية:

اندماج
اختيار
تنظيف البيانات
تقييم النمط
تحويل البيانات
تمثيل المعرفة

ما هي تطهير البيانات؟

تطهير البيانات هو إجراء حاسم في أنظمة إدارة قواعد البيانات. يساعد في الحفاظ على البيانات ذات الصلة في قاعدة بيانات. يشير إلى عملية تنظيف البيانات غير المرغوب فيها عن طريق حذف أو حذف القيم الفارغة غير الضرورية للصف والأعمدة. كلما احتجت إلى تحميل بيانات جديدة في قاعدة البيانات ، أولاً ، من الضروري مسح البيانات غير ذات الصلة.

مع التطهير المتكرر للبيانات من قاعدة البيانات ، يمكنك التخلص من البيانات غير المرغوب فيها التي تستهلك قدرًا كبيرًا من ذاكرة قاعدة البيانات ، وبالتالي إبطاء أداء قاعدة البيانات.

ما هو الفرق الأساسي بين تخزين البيانات واستخراج البيانات؟

تخزين البيانات هو الأسلوب المستخدم لاستخراج البيانات من مصادر مختلفة. ثم يتم تنظيفها وتخزينها لاستخدامها في المستقبل. من ناحية أخرى ، التنقيب في البيانات هو عملية استكشاف البيانات المستخرجة باستخدام الاستعلامات ثم تحليل النتائج أو النتائج. إنه ضروري في إعداد التقارير وتخطيط الإستراتيجية وتصور الرؤى القيمة داخل البيانات.

اشرح المراحل المختلفة للتنقيب في البيانات.

هناك ثلاث مراحل رئيسية للتنقيب في البيانات:

الاستكشاف - تركز هذه المرحلة بشكل أساسي على جمع البيانات من مصادر متعددة وإعدادها لمزيد من الأنشطة مثل التنظيف والتحويل. بمجرد تنظيف البيانات وتحويلها ، يمكن تحليلها للحصول على رؤى.

بناء النموذج والتحقق من صحته - تتضمن هذه المرحلة التحقق من صحة البيانات من خلال تطبيق نماذج مختلفة عليها ومقارنة النتائج للحصول على أفضل أداء. تسمى هذه الخطوة أيضًا باسم تحديد النمط. إنها عملية تستغرق وقتًا طويلاً حيث يتعين على المستخدم تحديد النمط الأنسب يدويًا للتنبؤات السهلة.

النشر - بمجرد تحديد النمط الأنسب للتنبؤ ، يتم تطبيقه على مجموعة البيانات للحصول على التنبؤات أو النتائج المقدرة.

ما فائدة استعلامات التنقيب في البيانات؟

تساعد استعلامات استخراج البيانات في تسهيل تطبيق النموذج على البيانات الجديدة ، إما لعمل نتائج فردية أو متعددة. يمكن للاستعلامات استرداد الحالات التي تناسب نمطًا معينًا بشكل أكثر فعالية. يستخرجون الذاكرة الإحصائية لبيانات التدريب ويساعدون في الحصول على النمط الدقيق جنبًا إلى جنب مع قاعدة الحالة النموذجية التي تمثل نمطًا في النموذج. علاوة على ذلك ، يمكن للاستعلامات استخراج صيغ الانحدار وحسابات أخرى لشرح الأنماط. يمكنهم أيضًا استرداد التفاصيل حول الحالات الفردية المستخدمة في النموذج.

ما هي البيانات "المنفصلة" و "المستمرة" في التنقيب عن البيانات؟

في تعدين البيانات ، البيانات المنفصلة هي البيانات المحدودة ولها معنى مرتبط بها. الجنس هو مثال كلاسيكي للبيانات المنفصلة. البيانات المستمرة ، من ناحية أخرى ، هي البيانات التي تستمر في التغيير بطريقة جيدة التنظيم. العمر هو مثال ممتاز للبيانات المستمرة.

ما هو OLAP؟ كيف تختلف عن OLTP؟

OLAP (المعالجة التحليلية عبر الإنترنت) هي تقنية مستخدمة في العديد من تطبيقات ذكاء الأعمال التي تتضمن حسابات تحليلية معقدة. بصرف النظر عن الحسابات المعقدة ، يتم استخدام OLAP لتحليل الاتجاهات ونمذجة البيانات المتقدمة. الغرض الأساسي من استخدام أنظمة OLAP هو تقليل وقت استجابة الاستعلام مع تعزيز فعالية إعداد التقارير في نفس الوقت. تخزن قاعدة بيانات OLAP البيانات التاريخية المجمعة في مخطط متعدد الأبعاد. نظرًا لكونه قاعدة بيانات متعددة الأبعاد ، يتيح OLAP للمستخدم فهم كيفية وصول البيانات عبر مصادر مختلفة.

OLTP تعني المعاملات والمعالجة عبر الإنترنت. إنه يختلف بطبيعته عن OLAP لأنه يتم استخدامه في التطبيقات التي تتضمن معاملات مجمعة وكميات كبيرة من البيانات. توجد هذه التطبيقات بشكل أساسي في قطاع BFSI. بنية OLTP هي بنية خادم العميل التي يمكنها دعم المعاملات عبر الشبكة.

هل تريد تسمية نماذج التخزين المختلفة المتوفرة في OLAP؟

نماذج التخزين المختلفة المتوفرة في OLAP هي:

MOLAP (المعالجة التحليلية متعددة الأبعاد عبر الإنترنت) - هذا نوع من تخزين البيانات حيث يتم تخزين البيانات في مكعبات متعددة الأبعاد بدلاً من قواعد البيانات العلائقية القياسية. هذه هي الميزة التي تجعل أداء الاستعلام ممتازًا.
ROLAP (المعالجة التحليلية العلائقية عبر الإنترنت) - في تخزين البيانات هذا ، يتم تخزين البيانات في قواعد البيانات العلائقية ، وبالتالي ، فهي قادرة على التعامل مع حجم هائل من البيانات.
HOLAP (المعالجة التحليلية الهجينة عبر الإنترنت) - هذا هو مزيج من MOLAP و ROLAP. يستخدم HOLAP نموذج MOLAP لاستخراج المعلومات الملخصة من المكعب ، بينما بالنسبة لإمكانيات البحث ، فإنه يستخدم نموذج ROLAP.

ما هو "كيوب"؟

في تعدين البيانات ، يشير المصطلح "مكعب" إلى مساحة تخزين البيانات حيث يتم تخزين البيانات. يساعد تخزين البيانات في مكعب على تسريع عملية تحليل البيانات. بشكل أساسي ، المكعبات هي التمثيل المنطقي للبيانات متعددة الأبعاد. بينما تحتوي حافة المكعب على أعضاء البعد ، فإن جسم المكعب يحتوي على قيم البيانات.

لنفترض أن الشركة تخزن بيانات (سجلات) موظفيها في مكعب. عندما ترغب في تقييم أداء الموظف على أساس أسبوعي أو شهري ، يصبح الأسبوع / الشهر أبعاد المكعب.

ما هو تجميع البيانات وتعميمها؟

تجميع البيانات هو العملية التي يتم فيها دمج البيانات أو تجميعها معًا لإنشاء مكعب لتحليل البيانات. التعميم هو عملية استبدال البيانات منخفضة المستوى بمفاهيم عالية المستوى بحيث يمكن تعميم البيانات وإنتاج رؤى ذات مغزى.

اشرح شجرة القرار وخوارزميات السلاسل الزمنية.

في خوارزمية شجرة القرار ، تكون كل عقدة إما عقدة طرفية أو عقدة قرار. في كل مرة تقوم فيها بإدخال كائن في الخوارزمية ، ينتج عن ذلك قرار. يتم إنشاء شجرة القرار باستخدام انتظام البيانات. يتم الوصول إلى جميع المسارات التي تربط العقدة الجذرية بالعقدة الطرفية إما باستخدام "و" أو "أو" أو "كلاهما". من المهم ملاحظة أن شجرة القرار تظل غير متأثرة بالتحضير التلقائي للبيانات.

تُستخدم خوارزمية السلاسل الزمنية لأنواع البيانات التي تتغير قيمها باستمرار بناءً على الوقت (على سبيل المثال ، عمر الشخص). عندما تقوم بتدريب الخوارزمية وضبطها للتنبؤ بمجموعة البيانات ، يمكنها تتبع البيانات المستمرة وإجراء تنبؤات دقيقة بنجاح. تُنشئ خوارزمية السلاسل الزمنية نموذجًا محددًا يمكنه التنبؤ بالاتجاهات المستقبلية للبيانات بناءً على مجموعة البيانات الأصلية.

ما هو التجمع؟

في تعدين البيانات ، التجميع هو العملية المستخدمة لتجميع الكائنات المجردة في فئات تحتوي على كائنات مماثلة. هنا ، يتم التعامل مع مجموعة كائنات البيانات كمجموعة واحدة. وبالتالي ، أثناء عملية التحليل ، يحدث قسم البيانات في مجموعات يتم تصنيفها بعد ذلك بناءً على بيانات متطابقة. يعد تحليل الكتلة أمرًا محوريًا لاستخراج البيانات لأنه قابل للتطوير والأبعاد بدرجة كبيرة ، ويمكنه أيضًا التعامل مع السمات المختلفة ، وقابلية التفسير ، والبيانات الفوضوية.

يتم استخدام تجميع البيانات في العديد من التطبيقات ، بما في ذلك معالجة الصور والتعرف على الأنماط واكتشاف الاحتيال وأبحاث السوق.

ما هي المشكلات الشائعة التي تواجهها أثناء التنقيب في البيانات؟

أثناء عملية التنقيب في البيانات ، قد تواجه المشكلات التالية:

معالجة عدم اليقين
التعامل مع القيم المفقودة
التعامل مع البيانات المزعجة
كفاءة الخوارزميات
دمج معرفة المجال
حجم وتعقيد البيانات
اختيار البيانات
التضارب بين البيانات والمعرفة المكتشفة.

حدد صيغة - مواصفات مقاييس الاهتمام وعرض النموذج ومواصفات التصور ومواصفات البيانات ذات الصلة بالمهمة.

صيغة مواصفات مقاييس الاهتمام هي:

مع <interest_measure_name> عتبة = عتبة_قيمة

بناء جملة مواصفات عرض الأنماط والتصور هي:

عرض على شكل <result_form>

صيغة مواصفات البيانات ذات الصلة بالمهام هي:

استخدام اسم قاعدة البيانات

أو

استخدام data_warehouse_name لمستودع البيانات

ذات صلة بـ att_or_dim_list

من علاقة (علاقات) / مكعب (ق) [حيث الشرط] ترتيب حسب order_list

تجميع حسب grouping_list

اسم المستوى المختلف للتحليل في التنقيب عن البيانات؟

مستويات التحليل المختلفة في التنقيب عن البيانات هي:

الاستقراء القاعدة
عرض مرئي للمعلومات
الخوارزميات الجينية
شبكة اعصاب صناعية
أقرب طريقة الجار

ما هو ستينج؟

STING تعني شبكة المعلومات الإحصائية. إنها طريقة تجميع قائمة على الشبكة ومتعددة الدقة يتم فيها احتواء جميع الكائنات في خلايا مستطيلة. بينما يتم الاحتفاظ بالخلايا في مستويات مختلفة من الدقة ، يتم ترتيب هذه المستويات في هيكل هرمي.

ما هو ETL؟ قم بتسمية بعض من أفضل أدوات ETL.

ETL تعني استخراج وتحويل وتحميل. إنه برنامج يمكنه قراءة البيانات من مصدر البيانات المحدد واستخراج مجموعة فرعية مرغوبة من البيانات. بعد ذلك ، يقوم بتحويل البيانات باستخدام القواعد وجداول البحث وتحويلها إلى النموذج المطلوب. أخيرًا ، تستخدم وظيفة التحميل لتحميل البيانات الناتجة في قاعدة البيانات الهدف.

أفضل أدوات ETL هي:

وحي
أب Initio
مرحلة البيانات
انفورماتيكا
مفرق البيانات
باني مستودع

ما هي البيانات الوصفية؟

بكلمات بسيطة ، البيانات الوصفية هي البيانات الملخصة التي تؤدي إلى مجموعة البيانات الأكبر. تحتوي البيانات الوصفية على معلومات مهمة مثل عدد الأعمدة المستخدمة وترتيب الحقول وأنواع بيانات الحقول وعرض الإصلاح والعرض المحدود وما إلى ذلك.

ما هي مزايا التنقيب في البيانات؟

يتمتع التنقيب في البيانات بأربع مزايا أساسية:

يساعد في فهم البيانات الأولية واستكشاف الأنماط المخفية داخل البيانات وتحديدها وفهمها.
يساعد في أتمتة عملية العثور على المعلومات التنبؤية في قواعد البيانات الكبيرة ، مما يساعد على تحديد الأنماط المخفية سابقًا على الفور.
يساعد في فحص البيانات والتحقق من صحتها وفهم مصدرها.
يعزز اتخاذ القرار بشكل أسرع وأفضل ، وبالتالي يساعد الشركات على اتخاذ الإجراءات اللازمة لزيادة الإيرادات وخفض التكاليف التشغيلية.

هذه هي الأسباب التي جعلت تعدين البيانات جزءًا لا يتجزأ من العديد من الصناعات ، بما في ذلك التسويق والإعلان وتكنولوجيا المعلومات / ITES وذكاء الأعمال وحتى الاستخبارات الحكومية.

نأمل أن تساعدك أسئلة المقابلة الخاصة بتعدين البيانات وإجاباتها على كسر الجليد مع التنقيب في البيانات. على الرغم من أن هذه ليست سوى عدد قليل من الأسئلة الأساسية التي يجب أن تعرفها ، إلا أنها ستساعدك على الانخراط في التدفق والتعمق في الموضوع.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هي عيوب استخدام خوارزمية شجرة القرار؟

حتى التغيير الطفيف في البيانات يمكن أن يتسبب في تغيير كبير في هيكل شجرة القرار ، مما يؤدي إلى عدم الاستقرار. عند مقارنتها بالخوارزميات الأخرى ، قد يكون حساب شجرة القرار معقدًا إلى حد ما في بعض الأحيان. يعد تدريب شجرة القرار مكلفًا نسبيًا نظرًا للتعقيد والوقت المطلوب. فشل أسلوب شجرة القرار عندما يتعلق الأمر بتطبيق الانحدار والتنبؤ بالقيم المستمرة.

ما هو الفرق بين تجميع البيانات وتصنيفها؟

التجميع هو أسلوب التعلم غير الخاضع للإشراف ، في حين أن التصنيف هو طريقة للتعلم الخاضع للإشراف. التجميع هو عملية تجميع نقاط البيانات في مجموعات بناءً على قواسمها المشتركة. يستلزم التصنيف تسمية بيانات الإدخال بإحدى تسميات فئة متغير الإخراج. يقسم التجميع مجموعة البيانات إلى مجموعات فرعية ، مما يسمح بتجميع الأمثلة ذات الوظائف المماثلة معًا. لا تعتمد على البيانات المصنفة أو مجموعة التدريب للعمل. من ناحية أخرى ، يصنف التصنيف البيانات الجديدة بناءً على الملاحظات من مجموعة التدريب.

هل هناك أي عيوب للتنقيب عن البيانات؟

تنشأ العديد من مشكلات الخصوصية عند استخدام التنقيب عن البيانات. على الرغم من حقيقة أن التنقيب في البيانات قد فتح الطريق لجمع البيانات البسيطة بطريقته الخاصة. عندما يتعلق الأمر بالدقة ، فلا يزال لها حدود معينة. قد تكون البيانات التي تم الحصول عليها غير صحيحة ، مما يؤدي إلى مشاكل في اتخاذ القرار. يستخدم إجراء جمع البيانات لاستخراج البيانات الكثير من التكنولوجيا. تتطلب كل قطعة من البيانات التي تم إنشاؤها تخزينها وصيانتها. قد ترتفع تكلفة التنفيذ نتيجة لذلك.