33 أسئلة وأجوبة مقابلة التعلم الآلي - الانحدار اللوجستي

نشرت: 2018-07-05

مرحبًا بكم في الجزء الثاني من سلسلة أسئلة المقابلة الشائعة استنادًا إلى خوارزميات التعلم الآلي. نأمل أن يكون القسم السابق حول الانحدار الخطي مفيدًا لك.

جدول المحتويات

دعنا نجد إجابات للأسئلة حول الانحدار اللوجستي:
- 1. ما هي الوظيفة اللوجستية؟ ما هو نطاق قيم الدالة اللوجيستية؟
- 2. لماذا يحظى الانحدار اللوجستي بشعبية كبيرة؟
- 3. ما هي صيغة دالة الانحدار اللوجستي؟
- 4. كيف يمكن التعبير عن احتمال نموذج الانحدار اللوجستي كاحتمال مشروط؟
- 5. ما هي الاحتمالات؟
- 6. ما هي مخرجات النموذج اللوجستي والوظيفة اللوجستية؟
- 7. كيف نفسر نتائج نموذج الانحدار اللوجستي؟ أو ما معاني ألفا وبيتا في نموذج الانحدار اللوجستي؟
- 8. ما هي نسبة الأرجحية؟
- 9. ما هي صيغة حساب نسبة الأرجحية؟
- 10. لماذا لا يمكن استخدام الانحدار الخطي بدلاً من الانحدار اللوجستي للتصنيف الثنائي؟
- 11. هل حدود القرار خطية أم غير خطية في حالة نموذج الانحدار اللوجستي؟
- 12. ما هي وظيفة الاحتمال؟
- 13. ما هو مقدر الاحتمالية القصوى (MLE)؟
- 14. ما هي الطرق المختلفة لـ MLE ومتى تفضل كل طريقة؟
- 15. ما هي مزايا وعيوب الأساليب المشروطة وغير المشروطة لـ MLE؟
- 16. ما هو ناتج برنامج MLE القياسي؟
- 17. لماذا لا يمكننا استخدام متوسط الخطأ التربيعي (MSE) كدالة تكلفة للانحدار اللوجستي؟
- 18. لماذا الدقة ليست مقياسًا جيدًا لمشاكل التصنيف؟
- 19. ما هي أهمية خط الأساس في مشكلة التصنيف؟
- 20. ما هي الإيجابيات الكاذبة والسلبيات الكاذبة؟
- 21. ما هو المعدل الإيجابي الحقيقي (TPR) ، والمعدل السلبي الحقيقي (TNR) ، والمعدل الإيجابي الكاذب (FPR) ، والمعدل السلبي الكاذب (FNR)؟
- 22. ما هي الدقة والاستدعاء؟
- 23. ما هو قياس F؟
- 24. ما هي الدقة؟
- 25. ما هي الحساسية والنوعية؟
- 26. كيف يتم اختيار نقطة القطع في حالة نموذج الانحدار اللوجستي؟
- 27. كيف يتعامل الانحدار اللوجستي مع المتغيرات الفئوية؟
- 28. ما هو منحنى الاستجابة التراكمية (CRV)؟
- 29. ما هى منحنيات الرفع؟
- 30. ما هي الخوارزمية الأفضل في التعامل مع الانحدار اللوجستي المتطرف أو SVM؟
- 31. كيف ستتعامل مع مشكلة التصنيف متعدد الفئات باستخدام الانحدار اللوجستي؟
- 32. شرح استخدام منحنيات ROC و AUC لمنحنى ROC.
- 33. كيف يمكنك استخدام مفهوم ROC في تصنيف متعدد الطبقات؟
ما هي مخططات الكسب والرفع التراكمية؟
ما هي بعض الافتراضات التي يتم إجراؤها أثناء استخدام الانحدار اللوجستي؟
هل يمكنني الحصول على وظيفة عالم بيانات إذا كانت لدي معرفة جيدة بالتعلم الآلي؟

دعنا نجد إجابات للأسئلة حول الانحدار اللوجستي:

1. ما هي الوظيفة اللوجستية؟ ما هو نطاق قيم الدالة اللوجيستية؟

و (ض) = 1 / (1 + e ^-z )
تتراوح قيم الدالة اللوجيستية من 0 إلى 1. وتتنوع قيم Z من - لا نهاية إلى + ما لا نهاية.

2. لماذا يحظى الانحدار اللوجستي بشعبية كبيرة؟

الانحدار اللوجستي مشهور لأنه يمكنه تحويل قيم السجلات (logodds) ، والتي يمكن أن تتراوح من - اللانهاية إلى + اللانهاية إلى نطاق بين 0 و 1. نظرًا لأن الوظائف اللوجيستية تُخرج احتمالية حدوث حدث ، فيمكن تطبيقها على العديد من سيناريوهات الحياة الواقعية. ولهذا السبب فإن نموذج الانحدار اللوجستي شائع جدًا.

3. ما هي صيغة دالة الانحدار اللوجستي؟

f (z) = 1 / (1 + e ^{- (α + 1X1 + 2X2 +…. + kXk)} )
الفرق بين علم البيانات والتعلم الآلي والبيانات الضخمة!

4. كيف يمكن التعبير عن احتمال نموذج الانحدار اللوجستي كاحتمال مشروط؟

P (قيمة منفصلة للمتغير الهدف | X1 ، X2 ، X3 .... Xk). هو احتمال أن يأخذ المتغير المستهدف قيمة منفصلة (إما 0 أو 1 في حالة مشاكل التصنيف الثنائي) عندما يتم إعطاء قيم المتغيرات المستقلة. على سبيل المثال ، احتمال قيام الموظف بتأدية (متغير مستهدف) بالنظر إلى سماته مثل عمره وراتبه و KRA وما إلى ذلك.

5. ما هي الاحتمالات؟

هي نسبة احتمال وقوع حدث إلى احتمال عدم وقوع الحدث. على سبيل المثال ، لنفترض أن احتمال الفوز باليانصيب هو 0.01. إذن ، فإن احتمال عدم الفوز هو 1- 0.01 = 0.99.
احتمالات الفوز باليانصيب = (احتمالية الفوز) / (احتمالية عدم الفوز)
احتمالات الفوز باليانصيب = 0.01 / 0.99
تتراوح احتمالات الفوز باليانصيب من 1 إلى 99 ، واحتمال عدم الفوز باليانصيب هو 99 إلى 1.

6. ما هي مخرجات النموذج اللوجستي والوظيفة اللوجستية؟

يقوم النموذج اللوجستي بإخراج السجلات ، أي احتمالات السجل ؛ والدالة اللوجيستية تُخرج الاحتمالات.
النموذج اللوجستي = α + 1X1 + 2X2 +…. + kXk. سيكون إخراج نفسه هو السجلات.
الوظيفة اللوجستية = f (z) = 1 / (1 + e ^{- (α + 1X1 + 2X2 +…. + kXk)} ) . سيكون الناتج ، في هذه الحالة ، هو الاحتمالات.

7. كيف نفسر نتائج نموذج الانحدار اللوجستي؟ أو ما معاني ألفا وبيتا في نموذج الانحدار اللوجستي؟

ألفا هو الأساس في نموذج الانحدار اللوجستي. إنها احتمالات السجل لمثيل عندما تكون جميع السمات (X1 ، X2 ، ...........................) صفرًا. في السيناريوهات العملية ، يكون احتمال أن تكون جميع السمات صفرًا منخفضًا جدًا. في تفسير آخر ، ألفا هي احتمالات السجل لمثيل عندما لا يتم أخذ أي من السمات في الاعتبار.
بيتا هي القيمة التي تتغير بها احتمالات السجل من خلال تغيير الوحدة في سمة معينة عن طريق الحفاظ على جميع السمات الأخرى ثابتة أو بدون تغيير (متغيرات التحكم).

8. ما هي نسبة الأرجحية؟

نسبة الأرجحية هي نسبة الأرجحية بين مجموعتين. على سبيل المثال ، لنفترض أننا نحاول التأكد من فعالية الدواء. قمنا بإعطاء هذا الدواء لمجموعة "التدخل" وعلاج وهمي لمجموعة "المراقبة".
نسبة الأرجحية (OR) = (احتمالات مجموعة التدخل) / (احتمالات المجموعة الضابطة)
تفسير
إذا كانت نسبة الأرجحية = 1 ، فلا فرق بين مجموعة التدخل ومجموعة التحكم
إذا كانت نسبة الأرجحية أكبر من 1 ، فإن المجموعة الضابطة أفضل من مجموعة التدخل
إذا كانت نسبة الأرجحية أقل من 1 ، فإن مجموعة التدخل أفضل من المجموعة الضابطة.
5 تطبيقات متطورة للتعلم الآلي

9. ما هي صيغة حساب نسبة الأرجحية؟

في الصيغة أعلاه ، تمثل X ₁ و X ₀ مجموعتين مختلفتين يجب حساب نسبة الأرجحية فيهما. X _{1 i} تعني المثال " i " في المجموعة X ₁ . X _{o i} تعني المثال " i " في المجموعة X ₀ . لتقف على معامل نموذج الانحدار اللوجستي. لاحظ أن خط الأساس غير مدرج في هذه الصيغة.

10. لماذا لا يمكن استخدام الانحدار الخطي بدلاً من الانحدار اللوجستي للتصنيف الثنائي؟

فيما يلي أسباب عدم إمكانية استخدام الانحدارات الخطية في حالة التصنيف الثنائي:
توزيع شروط الخطأ : توزيع البيانات في حالة الانحدار الخطي واللوجستي مختلف. يفترض الانحدار الخطي أن شروط الخطأ يتم توزيعها بشكل طبيعي. في حالة التصنيف الثنائي ، فإن هذا الافتراض لا يكون صحيحًا.
خرج النموذج : في الانحدار الخطي ، يكون الناتج مستمرًا. في حالة التصنيف الثنائي ، فإن ناتج القيمة المستمرة لا معنى له. بالنسبة لمشاكل التصنيف الثنائي ، قد يتنبأ الانحدار الخطي بقيم يمكن أن تتجاوز 0 و 1. إذا كنا نريد المخرجات في شكل احتمالات ، والتي يمكن تعيينها إلى فئتين مختلفتين ، فيجب أن يقتصر نطاقها على 0 و 1. كما يمكن لنموذج الانحدار اللوجستي إخراج الاحتمالات باستخدام دالة لوجستية / سينية ، ويفضل على الانحدار الخطي.
تباين الأخطاء المتبقية : يفترض الانحدار الخطي أن تباين الأخطاء العشوائية ثابت. يتم انتهاك هذا الافتراض أيضًا في حالة الانحدار اللوجستي.

11. هل حدود القرار خطية أم غير خطية في حالة نموذج الانحدار اللوجستي؟

حدود القرار عبارة عن خط يفصل المتغيرات المستهدفة إلى فئات مختلفة. يمكن أن تكون حدود القرار إما خطية أو غير خطية. في حالة نموذج الانحدار اللوجستي ، تكون حدود القرار خطًا مستقيمًا.
صيغة نموذج الانحدار اللوجستي = α + 1X1 + 2X2 +…. + kXk. هذا يمثل بوضوح خط مستقيم. يكون الانحدار اللوجستي مناسبًا فقط في مثل هذه الحالات التي يكون فيها الخط المستقيم قادرًا على فصل الطبقات المختلفة. إذا كان الخط المستقيم غير قادر على القيام بذلك ، فيجب استخدام الخوارزميات غير الخطية لتحقيق نتائج أفضل.

12. ما هي وظيفة الاحتمال؟

وظيفة الاحتمال هي الاحتمال المشترك لمراقبة البيانات. على سبيل المثال ، لنفترض أنه تم رمي عملة معدنية 100 مرة ونريد معرفة احتمال الحصول على 60 وجهًا من القذف. هذا المثال يتبع صيغة التوزيع ذات الحدين.
p = احتمالية ظهور رؤوس من رمية عملة واحدة
ن = 100 (عدد رميات العملة)
س = 60 (عدد الرؤوس - النجاح)
nx = 30 (عدد ذيول)
العلاقات العامة (س = 60 | ن = 100 ، ص)
دالة الاحتمالية هي احتمال أن يكون عدد الرؤوس المستلمة 60 في مسار 100 رمى للعملة ، حيث يكون احتمال تلقي الوجه في كل قرعة عملة هو p. هنا نتيجة قرعة العملة تتبع التوزيع ذي الحدين.
يمكن إعادة صياغة هذا على النحو التالي:
العلاقات العامة (X = 60 | ن = 100 ، ف) = cx p60x (1-p) 100-60
ج = ثابت
ع = معلمة غير معروفة
تعطي دالة الاحتمال احتمال مراقبة النتائج باستخدام معلمات غير معروفة.

13. ما هو مقدر الاحتمالية القصوى (MLE)؟

تختار MLE تلك المجموعات من المعلمات غير المعروفة (المقدر) التي تزيد من وظيفة الاحتمال. تتمثل طريقة العثور على MLE في استخدام حساب التفاضل والتكامل وتعيين مشتق الوظيفة اللوجستية فيما يتعلق بمعامل غير معروف إلى الصفر ، وسيعطي حلها MLE. بالنسبة للنموذج ذي الحدين ، سيكون هذا سهلاً ، ولكن بالنسبة للنموذج اللوجستي ، تكون الحسابات معقدة. تُستخدم برامج الكمبيوتر لاشتقاق MLE للنماذج اللوجستية.
(إليك طريقة أخرى للإجابة على السؤال).
MLE هو نهج إحصائي لتقدير معلمات النموذج الرياضي. يعطي تقدير MLE والمربع العادي نفس النتائج للانحدار الخطي إذا افترض أن المتغير التابع يتم توزيعه بشكل طبيعي. لا تفترض MLE أي شيء عن المتغيرات المستقلة.

14. ما هي الطرق المختلفة لـ MLE ومتى تفضل كل طريقة؟

في حالة الانحدار اللوجستي ، هناك طريقتان لـ MLE. إنها طرق مشروطة وغير مشروطة. الطرق الشرطية وغير المشروطة هي خوارزميات تستخدم وظائف احتمالية مختلفة. تستخدم الصيغة غير المشروطة الاحتمالية المشتركة للإيجابيات (على سبيل المثال ، الخضخضة) والسلبية (على سبيل المثال ، عدم التموج). الصيغة الشرطية هي نسبة احتمال البيانات المرصودة إلى احتمال جميع التكوينات الممكنة.
يُفضل الأسلوب غير الشرطي إذا كان عدد المعلمات أقل مقارنة بعدد الحالات. إذا كان عدد المعلمات مرتفعًا مقارنة بعدد المثيلات ، فمن الأفضل تفضيل MLE الشرطي. يقترح الإحصائيون استخدام MLE الشرطي عند الشك. ستوفر MLE الشرطية دائمًا نتائج غير متحيزة.
تعمل تقنيات التعلم الآلي الست هذه على تحسين الرعاية الصحية

15. ما هي مزايا وعيوب الأساليب المشروطة وغير المشروطة لـ MLE؟

الطرق الشرطية لا تقدر المعلمات غير المرغوب فيها. الطرق غير المشروطة تقدر قيم المعلمات غير المرغوب فيها أيضًا. يمكن تطوير الصيغ غير المشروطة مباشرةً باستخدام الاحتمالات المشتركة. لا يمكن القيام بذلك مع الاحتمال الشرطي. إذا كان عدد المعلمات مرتفعًا بالنسبة إلى عدد الحالات ، فإن الطريقة غير المشروطة ستعطي نتائج متحيزة. ستكون النتائج المشروطة غير متحيزة في مثل هذه الحالات.

16. ما هو ناتج برنامج MLE القياسي؟

ناتج برنامج MLE القياسي هو كما يلي:
قيمة الاحتمالية القصوى : هذه هي القيمة العددية التي تم الحصول عليها عن طريق استبدال قيم المعلمات غير المعروفة في دالة الاحتمال بمقدر معلمة MLE.
مصفوفة التباين - التغاير المقدرة : يتكون قطري هذه المصفوفة من الفروق المقدرة لتقديرات ML. يتكون خارج القطر من التباينات بين أزواج تقديرات ML.

17. لماذا لا يمكننا استخدام متوسط الخطأ التربيعي (MSE) كدالة تكلفة للانحدار اللوجستي؟

في الانحدار اللوجستي ، نستخدم الدالة السينية ونقوم بإجراء تحويل غير خطي للحصول على الاحتمالات. سيؤدي تربيع هذا التحول غير الخطي إلى عدم التحدب مع الحدود الدنيا المحلية. العثور على الحد الأدنى العالمي في مثل هذه الحالات باستخدام النسب المتدرج غير ممكن. لهذا السبب ، فإن MSE غير مناسب للانحدار اللوجستي. يتم استخدام الانتروبيا المتقاطعة أو فقدان السجل كدالة تكلفة للانحدار اللوجستي. في دالة التكلفة للانحدار اللوجستي ، يتم معاقبة التوقعات الخاطئة الواثقة بشدة. تكافأ التوقعات الصحيحة الواثقة أقل. من خلال تحسين دالة التكلفة هذه ، يتحقق التقارب.

18. لماذا الدقة ليست مقياسًا جيدًا لمشاكل التصنيف؟

الدقة ليست مقياسًا جيدًا لمشاكل التصنيف لأنها تعطي أهمية متساوية لكل من الإيجابيات الزائفة والسلبية الزائفة. ومع ذلك ، قد لا يكون هذا هو الحال في معظم مشاكل العمل. على سبيل المثال ، في حالة التنبؤ بالسرطان ، يعتبر إعلان السرطان على أنه حميد أكثر خطورة من إبلاغ المريض خطأً بأنه يعاني من مرض السرطان. تعطي الدقة أهمية متساوية لكلتا الحالتين ولا يمكن التفريق بينهما.

19. ما هي أهمية خط الأساس في مشكلة التصنيف؟

تتعامل معظم مشاكل التصنيف مع مجموعات البيانات غير المتوازنة. تشمل الأمثلة اضطراب الاتصالات ، وتناقص الموظفين ، والتنبؤ بالسرطان ، واكتشاف الاحتيال ، واستهداف الإعلانات عبر الإنترنت ، وما إلى ذلك. في كل هذه المشاكل ، سيكون عدد الفئات الإيجابية منخفضًا جدًا عند مقارنته بالفئات السلبية. في بعض الحالات ، من الشائع وجود فئات إيجابية أقل من 1٪ من إجمالي العينة. في مثل هذه الحالات ، قد تبدو الدقة البالغة 99٪ جيدة جدًا ولكنها في الواقع قد لا تكون كذلك.
هنا ، السلبيات هي 99٪ ، وبالتالي ، سيبقى خط الأساس كما هو. إذا توقعت الخوارزميات أن جميع الحالات سالبة ، فستكون الدقة أيضًا 99٪. في هذه الحالة ، سيتم توقع جميع الإيجابيات بشكل خاطئ ، وهو أمر مهم جدًا لأي عمل تجاري. على الرغم من أن جميع الإيجابيات تم توقعها بشكل خاطئ ، إلا أنه تم تحقيق دقة تصل إلى 99٪. لذا ، فإن خط الأساس مهم للغاية ، ويجب تقييم الخوارزمية بالنسبة إلى خط الأساس.

20. ما هي الإيجابيات الكاذبة والسلبيات الكاذبة؟

الإيجابيات الكاذبة هي تلك الحالات التي يتم فيها توقع السلبيات بشكل خاطئ على أنها إيجابية. على سبيل المثال ، توقع أن العميل سوف يتخبط في حين أنه في الواقع لا يتماوج.
السلبيات الكاذبة هي تلك الحالات التي يتم فيها توقع الإيجابيات بشكل خاطئ على أنها سلبيات. على سبيل المثال ، توقع أن العميل لن يتخبط عندما يقوم ، في الواقع ، بالتخبط.

21. ما هو المعدل الإيجابي الحقيقي (TPR) ، والمعدل السلبي الحقيقي (TNR) ، والمعدل الإيجابي الكاذب (FPR) ، والمعدل السلبي الكاذب (FNR)؟

يشير TPR إلى نسبة الإيجابيات المتوقعة بشكل صحيح من جميع الملصقات الحقيقية. بكلمات بسيطة ، هو تكرار التسميات الحقيقية المتوقعة بشكل صحيح.
TPR = TP / TP + FN
يشير TNR إلى نسبة السلبيات التي تم التنبؤ بها بشكل صحيح من جميع الملصقات الخاطئة. إنه تكرار التسميات الخاطئة المتوقعة بشكل صحيح.
TNR = TN / TN + FP
يشير FPR إلى نسبة الإيجابيات التي تم توقعها بشكل غير صحيح من جميع الملصقات الحقيقية. إنه تكرار التسميات الخاطئة التي تم توقعها بشكل غير صحيح.
FPR = FP / TN + FP
يشير FNR إلى نسبة السلبيات التي تم توقعها بشكل غير صحيح من جميع الملصقات الخاطئة. إنه تكرار التسميات الحقيقية التي تم توقعها بشكل غير صحيح.
FNR = FN / TP + FN

22. ما هي الدقة والاستدعاء؟

الدقة هي نسبة الإيجابيات الحقيقية من الإيجابيات المتوقعة. بعبارة أخرى ، إنها دقة التنبؤ. يُعرف أيضًا باسم "القيمة التنبؤية الإيجابية".
الدقة = TP / TP + FP
الاستدعاء هو نفس المعدل الإيجابي الحقيقي (TPR).
كيف يعمل التعلم الآلي غير الخاضع للإشراف؟

23. ما هو قياس F؟

إنها الوسيلة التوافقية للدقة والاستدعاء. في بعض الحالات ، سيكون هناك مفاضلة بين الدقة والاسترجاع. في مثل هذه الحالات ، سينخفض مقياس F. ستكون عالية عندما تكون كل من الدقة والاستدعاء عالية. اعتمادًا على حالة العمل المطروحة وهدف تحليلات البيانات ، يجب تحديد مقياس مناسب.
قياس F = 2 X (الدقة X Recall) / (Precision + Recall)

24. ما هي الدقة؟

إنه عدد التنبؤات الصحيحة من جميع التنبؤات التي تم إجراؤها.
الدقة = (TP + TN) / (العدد الإجمالي للتنبؤات)

25. ما هي الحساسية والنوعية؟

الخصوصية هي نفسها المعدل السلبي الحقيقي ، أو تساوي 1 - المعدل الإيجابي الخاطئ.
خصوصية = TN / TN + FP.
الحساسية هي المعدل الإيجابي الحقيقي.
الحساسية = TP / TP + FN

26. كيف يتم اختيار نقطة القطع في حالة نموذج الانحدار اللوجستي؟

تعتمد نقطة الانقطاع على هدف العمل. اعتمادًا على أهداف عملك ، يجب تحديد نقطة الانقطاع. على سبيل المثال ، لنأخذ في الاعتبار حالات التخلف عن سداد القروض. إذا كان هدف العمل هو تقليل الخسارة ، فيجب أن تكون الخصوصية عالية. إذا كان الهدف هو زيادة الأرباح ، فهذه مسألة مختلفة تمامًا. قد لا يكون الأمر كذلك أن الأرباح ستزداد بتجنب منح القروض لجميع حالات التخلف عن السداد المتوقعة. ولكن قد يكون الأمر كذلك أن الشركة تضطر إلى صرف قروض لحالات التخلف عن السداد التي تكون أقل خطورة قليلاً لزيادة الأرباح. في مثل هذه الحالة ، ستكون هناك حاجة إلى نقطة قطع مختلفة ، مما يؤدي إلى زيادة الربح. في معظم الحالات ، ستعمل الشركات حول العديد من القيود. لن تكون نقطة الانقطاع التي تلبي هدف العمل هي نفسها مع وبدون قيود. يجب تحديد نقطة القطع مع مراعاة كل هذه النقاط. كقاعدة عامة ، اختر قيمة حدية تعادل نسبة الإيجابيات في مجموعة البيانات.

ما هو التعلم الآلي ولماذا هو مهم

27. كيف يتعامل الانحدار اللوجستي مع المتغيرات الفئوية؟

يجب أن تكون مدخلات نموذج الانحدار اللوجستي رقمية. لا تستطيع الخوارزمية التعامل مع المتغيرات الفئوية مباشرة. لذلك ، يجب تحويلها إلى تنسيق مناسب للخوارزمية للمعالجة. المستويات المختلفة للمتغير الفئوي سيتم تخصيص قيمة رقمية فريدة تعرف باسم المتغير الوهمي. يتم التعامل مع هذه المتغيرات الوهمية بواسطة نموذج الانحدار اللوجستي كأي قيمة رقمية أخرى.

28. ما هو منحنى الاستجابة التراكمية (CRV)؟

من أجل نقل نتائج التحليل إلى الإدارة ، يتم استخدام "منحنى الاستجابة التراكمية" ، وهو أكثر سهولة من منحنى ROC. من الصعب جدًا فهم منحنى ROC لشخص ما خارج مجال علم البيانات. يتكون CRV من المعدل الإيجابي الحقيقي أو النسبة المئوية للإيجابيات المصنفة بشكل صحيح على المحور Y والنسبة المئوية للسكان المستهدفين على المحور X. من المهم ملاحظة أن النسبة المئوية للسكان سيتم ترتيبها حسب النموذج بترتيب تنازلي (إما الاحتمالات أو القيم المتوقعة). إذا كان النموذج جيدًا ، فعند استهداف الجزء العلوي من القائمة المصنفة ، سيتم التقاط جميع النسب المئوية العالية للإيجابيات. كما هو الحال مع منحنى ROC ، سيكون هناك خط قطري يمثل الأداء العشوائي. دعونا نفهم هذا الأداء العشوائي كمثال. بافتراض أن 50٪ من القائمة مستهدفة ، فمن المتوقع أن تحصل على 50٪ من الإيجابيات. يتم التقاط هذا التوقع بواسطة الخط القطري ، والذي يشبه منحنى ROC.

29. ما هى منحنيات الرفع؟

المصعد هو التحسن في أداء النموذج (زيادة في المعدل الإيجابي الحقيقي) عند مقارنته بالأداء العشوائي. يعني الأداء العشوائي أنه إذا تم استهداف 50٪ من الحالات ، فمن المتوقع أن تكتشف 50٪ من الإيجابيات. الرفع مقارنة بالأداء العشوائي للنموذج. إذا كان أداء النموذج أفضل من الأداء العشوائي ، فسيكون رفعه أكبر من 1.
في منحنى الرفع ، يتم رسم الرفع على المحور ص والنسبة المئوية للسكان (مرتبة ترتيبًا تنازليًا) على المحور السيني. عند نسبة معينة من السكان المستهدفين ، يفضل النموذج ذو الرفع العالي.

30. ما هي الخوارزمية الأفضل في التعامل مع الانحدار اللوجستي المتطرف أو SVM؟

سيجد الانحدار اللوجستي حدًا خطيًا إذا كان موجودًا لاستيعاب القيم المتطرفة. سيؤدي الانحدار اللوجستي إلى تغيير الحدود الخطية لاستيعاب القيم المتطرفة. SVM غير حساس للعينات الفردية. لن يكون هناك تحول كبير في الحد الخطي لاستيعاب الانحراف. يأتي جهاز SVM مزودًا بعناصر تحكم في التعقيد تحمل في ثناياه عوامل ، والتي تهتم بالتركيب الزائد. هذا غير صحيح في حالة الانحدار اللوجستي.

31. كيف ستتعامل مع مشكلة التصنيف متعدد الفئات باستخدام الانحدار اللوجستي؟

أشهر طريقة للتعامل مع التصنيف متعدد الفئات باستخدام الانحدار اللوجستي هو استخدام نهج واحد مقابل الكل. في ظل هذا النهج ، يتم تدريب عدد من النماذج ، وهو ما يعادل عدد الفصول. النماذج تعمل بطريقة محددة. على سبيل المثال ، يصنف النموذج الأول نقطة البيانات اعتمادًا على ما إذا كان ينتمي إلى الفئة 1 أو فئة أخرى ؛ النموذج الثاني يصنف نقطة البيانات إلى فئة 2 أو فئة أخرى. بهذه الطريقة ، يمكن التحقق من كل نقطة بيانات في جميع الفئات.

32. شرح استخدام منحنيات ROC و AUC لمنحنى ROC.

يوضح منحنى ROC (خاصية تشغيل جهاز الاستقبال) أداء نموذج التصنيف الثنائي. إنه في الأساس منحنى TPR مقابل FPR (المعدل الإيجابي الحقيقي مقابل المعدل الإيجابي الخاطئ) لجميع قيم العتبة التي تتراوح من 0 إلى 1. في منحنى ROC ، سترتبط كل نقطة في فضاء ROC بمصفوفة ارتباك مختلفة. يمثل الخط المائل من أسفل اليسار إلى أعلى اليمين على الرسم البياني ROC تخمينًا عشوائيًا. تشير المنطقة الواقعة تحت المنحنى (AUC) إلى مدى جودة نموذج المصنف. إذا كانت قيمة AUC عالية (بالقرب من 1) ، فإن النموذج يعمل بشكل مرض ، بينما إذا كانت القيمة منخفضة (حوالي 0.5) ، فإن النموذج لا يعمل بشكل صحيح ويخمن فقط بشكل عشوائي.

33. كيف يمكنك استخدام مفهوم ROC في تصنيف متعدد الطبقات؟

يمكن استخدام مفهوم منحنيات ROC بسهولة لتصنيف متعدد الطبقات باستخدام نهج واحد مقابل الكل. على سبيل المثال ، لنفترض أن لدينا ثلاث فئات "أ" و "ب" و "ج". بعد ذلك ، تشتمل الفئة الأولى على الفئة "أ" (فئة صحيحة) وتتألف الفئة الثانية من كلا الصنفين "ب" والفئة "ج" معًا (فئة خاطئة). وهكذا ، يتم رسم منحنى ROC. وبالمثل ، بالنسبة لجميع الفئات الثلاثة ، سنقوم برسم منحنيات ROC الثلاثة وإجراء تحليلنا للجامعة الأمريكية بالقاهرة.
لقد قمنا حتى الآن بتغطية أهم خوارزميات تعلم الآلة ، الانحدار الخطي واللوجستي ، ونأمل أن تكون قد وجدت هذه الموارد مفيدة.

تعلم دورة ML من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.

مهندسو التعلم الآلي: الخرافات مقابل الحقائق

الجزء التالي من هذه السلسلة يعتمد على خوارزمية ML أخرى مهمة للغاية ، Clustering . لا تتردد في نشر شكوكك وأسئلتك في قسم التعليقات أدناه.
كاتب مُشارك: - Ojas Agarwal

ما هي مخططات الكسب والرفع التراكمية؟

مخطط الكسب والرفع هو نهج مرئي لتقييم كفاءة العديد من نماذج التعلم الآلي بطرق مختلفة. بالإضافة إلى مساعدتك في تقييم مدى نجاح نموذج التنبؤ الخاص بك ، فإنها تعرض بصريًا كيف يختلف معدل الاستجابة لمجموعة مستهدفة عن معدل استجابة المجموعة المختارة عشوائيًا. هذه المخططات ذات قيمة في إعدادات الشركة ، مثل التسويق المستهدف. يمكن أيضًا تطبيقها في مجالات أخرى ، مثل نمذجة المخاطر وتحليلات سلسلة التوريد وما إلى ذلك. بمعنى آخر ، تعد مخططات الكسب والرفع طريقتين للتعامل مع صعوبات التصنيف التي تنطوي على مجموعات بيانات غير متوازنة.

ما هي بعض الافتراضات التي يتم إجراؤها أثناء استخدام الانحدار اللوجستي؟

يتم وضع بعض الافتراضات أثناء استخدام الانحدار اللوجستي. أحدها هو أن المتنبئين المستمر ليس لديهم قيم مؤثرة (قيم متطرفة أو قيم متطرفة). يفترض الانحدار اللوجستي ، الذي ينقسم إلى فئتين ، أن يكون المتغير التابع ثنائيًا ، بينما يتطلب الانحدار اللوجستي المنظم ترتيب المتغير التابع. من المفترض أيضًا أنه لا توجد ارتباطات كبيرة (أي علاقة خطية متعددة) بين المتنبئين. كما تعتبر أن الملاحظات مستقلة عن بعضها البعض.

هل يمكنني الحصول على وظيفة عالم بيانات إذا كانت لدي معرفة جيدة بالتعلم الآلي؟

يقوم عالم البيانات بجمع كميات هائلة من البيانات وتحليلها وتفسيرها باستخدام تقنيات التحليلات المتطورة مثل التعلم الآلي والنمذجة التنبؤية. ثم يتم استخدام هذه من قبل قادة الشركة لاتخاذ أفضل خيارات العمل. وبالتالي ، بالإضافة إلى المهارات الأخرى مثل التنقيب عن البيانات وفهم منهجيات البحث الإحصائي ، يعد التعلم الآلي اختصاصًا مهمًا لعالم البيانات. ولكن إذا كنت ترغب في العمل كعالم بيانات ، فيجب أن تكون أيضًا على دراية بمنصات وتقنيات البيانات الضخمة مثل Hadoop و Pig و Hive و Spark وغيرها ، بالإضافة إلى لغات البرمجة مثل SQL و Python وغيرها.