عبر التحقق من الصحة في التعلم الآلي: 4 أنواع من المصادقة المتقاطعة

نشرت: 2020-11-30

جدول المحتويات

مقدمة

يعد تطوير النموذج خطوة مهمة في دورة حياة مشروع علوم البيانات حيث سنحاول تدريب مجموعة البيانات الخاصة بنا بأنواع مختلفة من نماذج التعلم الآلي إما من الخوارزميات الخاضعة للإشراف أو غير الخاضعة للإشراف بناءً على مشكلة العمل.

نظرًا لأننا ندرك أن لدينا الكثير من النماذج التي يمكن استخدامها لحل مشكلة العمل ، فنحن بحاجة إلى التأكد من أن أي نموذج نختاره في نهاية هذه المرحلة يجب أن يعمل بشكل جيد على البيانات غير المرئية. لذلك ، لا يمكننا استخدام مقاييس التقييم فقط من أجل اختيار نموذجنا الأفضل أداءً.

نحتاج إلى شيء آخر بعيدًا عن المقياس الذي يمكن أن يساعدنا في اتخاذ قرار بشأن نموذج التعلم الآلي النهائي الذي يمكننا نشره في الإنتاج.

تُعرف عملية تحديد ما إذا كانت النتائج الرياضية التي تحسب العلاقات بين المتغيرات مقبولة لأن أوصاف البيانات تُعرف باسم التحقق من الصحة . عادة ، يتم إجراء تقدير الخطأ للنموذج بعد تدريب النموذج على مجموعة بيانات القطار ، والمعروف باسم تقييم المخلفات.

في هذه العملية ، نقيس خطأ التدريب عن طريق حساب الفرق بين الاستجابة المتوقعة والاستجابة الأصلية. لكن لا يمكن الوثوق بهذا المقياس لأنه يعمل بشكل جيد فقط مع بيانات التدريب. من الممكن أن يكون النموذج غير ملائم للبيانات أو يزيد من ملاءمتها .

لذا ، فإن مشكلة أسلوب التقييم هذا أو أي مقياس تقييم آخر هو أنه لا يعطي إشارة إلى مدى جودة أداء النموذج لمجموعة بيانات غير مرئية. تُعرف التقنية التي تساعد في معرفة ذلك عن نموذجنا باسم التحقق المتقاطع .

في هذه المقالة ، سنتعرف أكثر على الأنواع المختلفة لتقنيات التحقق المتبادل وإيجابيات وسلبيات كل أسلوب. لنبدأ بتعريف التحقق المتقاطع.

عبر المصادقة

Cross-Validation (التحقق المتقاطع) هو أسلوب لإعادة التشكيل يساعد على التأكد من أن نموذجنا يتأكد من كفاءته ودقته على البيانات غير المرئية. إنها طريقة لتقييم نماذج التعلم الآلي من خلال تدريب العديد من نماذج التعلم الآلي الأخرى على مجموعات فرعية من مجموعة بيانات الإدخال المتاحة وتقييمها في مجموعة فرعية من مجموعة البيانات.

لدينا أنواع مختلفة من تقنيات التحقق المتقاطع ولكن دعنا نرى الوظيفة الأساسية للتحقق المتقاطع: الخطوة الأولى هي تقسيم مجموعة البيانات التي تم تنظيفها إلى أقسام K ذات الحجم المتساوي.

ثم نحتاج إلى التعامل مع Fold-1 كطية اختبار بينما يطوي الآخر K-1 كقطار ونحسب درجة حظيرة الاختبار.
نحتاج إلى تكرار الخطوة 2 لجميع الطيات التي تأخذ طية أخرى كاختبار أثناء البقاء كقطار.
ستكون الخطوة الأخيرة هي أخذ متوسط درجات جميع الطيات.

قراءة: مشاريع التعلم الآلي للمبتدئين

أنواع المصادقة المتقاطعة

1. طريقة التوقف

تعمل هذه التقنية على إزالة جزء من مجموعة بيانات التدريب وإرسالها إلى نموذج تم تدريبه على بقية مجموعة البيانات للحصول على التنبؤات. ثم نحسب تقدير الخطأ الذي يخبرنا عن أداء نموذجنا في مجموعات البيانات غير المرئية. يُعرف هذا باسم طريقة Holdout.

الايجابيات

هذه الطريقة مستقلة تمامًا عن البيانات.
هذه الطريقة تحتاج إلى أن يتم تشغيلها مرة واحدة فقط لذلك لديها تكاليف حسابية أقل.

سلبيات

يخضع الأداء لتباين أعلى نظرًا لصغر حجم البيانات.

2. K-Fold عبر التحقق من الصحة

في العالم المستند إلى البيانات ، لا توجد بيانات كافية على الإطلاق لتدريب النموذج الخاص بك ، علاوة على ذلك ، فإن إزالة جزء منه للتحقق من الصحة يطرح مشكلة أكبر من عدم الملائمة ونخاطر بفقدان أنماط واتجاهات مهمة في مجموعة البيانات الخاصة بنا ، والتي بدورها يزيد التحيز. لذلك ، من الناحية المثالية ، نطلب طريقة توفر كميات كبيرة من البيانات لتدريب النموذج وتترك كميات كبيرة من البيانات لمجموعات التحقق من الصحة.

في التحقق المتقاطع من K-Fold ، يتم تقسيم البيانات إلى مجموعات فرعية k أو يمكن أن نأخذها كطريقة احتفاظ تتكرر k مرة ، بحيث يتم في كل مرة استخدام إحدى المجموعات الفرعية k كمجموعة التحقق والأخرى k-1 مجموعات فرعية كمجموعة التدريب. تم حساب متوسط الخطأ على جميع تجارب k للحصول على الكفاءة الإجمالية لنموذجنا.

يمكننا أن نرى أن كل نقطة بيانات ستكون في مجموعة التحقق مرة واحدة بالضبط وستكون في مجموعة تدريب k-1 مرة. يساعدنا هذا في تقليل التحيز لأننا نستخدم معظم البيانات للتوافق وتقليل التباين حيث يتم أيضًا استخدام معظم البيانات في مجموعة التحقق من الصحة.

الايجابيات

سيساعد هذا في التغلب على مشكلة القوة الحسابية.
قد لا تتأثر النماذج كثيرًا في حالة وجود عنصر خارجي في البيانات.
يساعدنا في التغلب على مشكلة التباين.

سلبيات

مجموعات البيانات غير المتوازنة ستؤثر على نموذجنا.

3. التحقق المتقاطع K-Fold الطبقي

لن تعمل تقنية K Fold Cross Validation كما هو متوقع لمجموعة بيانات غير متوازنة. عندما يكون لدينا مجموعة بيانات غير متوازنة ، نحتاج إلى تغيير طفيف في تقنية التحقق من صحة K Fold ، بحيث تحتوي كل طية تقريبًا على نفس طبقات عينات كل فئة إخراج مثل كاملة. يُعرف هذا الاختلاف في استخدام طبقة في التحقق من صحة K Fold Cross باسم التحقق من صحة K Fold Cross.

الايجابيات

يمكنه تحسين النماذج المختلفة باستخدام ضبط المعلمة المفرطة.
يساعدنا في مقارنة النماذج.
يساعد في تقليل كل من التحيز والتباين.

4. L eave-P-Out Cross-Validation

في هذا النهج ، نترك نقاط بيانات p من بيانات التدريب من إجمالي n من نقاط البيانات ، ثم تُستخدم عينات np لتدريب النموذج وتستخدم نقاط p كمجموعة التحقق من الصحة. يتكرر هذا لجميع المجموعات ، ثم يتم حساب متوسط الخطأ.

الايجابيات

إنها عشوائية صفرية
سيكون التحيز أقل

سلبيات

هذه الطريقة شاملة وغير مجدية من الناحية الحسابية.

اقرأ أيضًا: مهنة في تعلم الآلة

خاتمة

في هذه المقالة ، تعلمنا عن أهمية التحقق من صحة نموذج التعلم الآلي في دورة حياة مشروع علوم البيانات ، وتعرّفنا على ما هو التحقق من الصحة والتحقق المتبادل ، واستكشفنا الأنواع المختلفة لتقنيات التحقق المتقاطع ، وتعرّفنا على بعض مزايا وعيوب تلك التقنيات.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

ما الحاجة إلى التحقق المتبادل في التعلم الآلي؟

التحقق المتقاطع هو أسلوب تعلم آلي حيث يتم تقسيم بيانات التدريب إلى جزأين: مجموعة تدريب ومجموعة اختبار. يتم استخدام مجموعة التدريب لبناء النموذج ، ويتم استخدام مجموعة الاختبار لتقييم مدى جودة أداء النموذج أثناء الإنتاج. والسبب في القيام بذلك هو وجود خطر يتمثل في أن النموذج الذي قمت بإنشائه لا يعمل بشكل جيد في العالم الحقيقي. إذا لم تقم بالتحقق من صحة النموذج الخاص بك ، فهناك مخاطرة أنك قمت ببناء نموذج يعمل بشكل رائع على بيانات التدريب ، ولكنه لا يعمل بشكل جيد على بيانات العالم الحقيقي.

ما هو التحقق من صحة أضعاف k؟

في التعلم الآلي واستخراج البيانات ، يعد التحقق المتقاطع من k-fold ، الذي يُطلق عليه أحيانًا التحقق من صحة ترك واحد-out-one-out cross-validation ، شكلاً من أشكال التحقق المتبادل حيث يتم تقسيم بيانات التدريب إلى مجموعات فرعية متساوية تقريبًا ، مع كل من k- 1 مجموعات فرعية تستخدم كبيانات اختبار بدورها وتستخدم المجموعة الفرعية المتبقية كبيانات تدريب. غالبًا ما تكون K 10 أو 5. يعتبر التحقق من صحة K-fold مفيدًا بشكل خاص في اختيار النموذج ، لأنه يقلل من تباين تقديرات خطأ التعميم.

ما هي مزايا التحقق المتبادل؟

التحقق المتقاطع هو شكل من أشكال التحقق يتم فيه تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار (أو مجموعة التحقق المتبادل). ثم يتم استخدام هذه المجموعة لاختبار دقة النموذج الخاص بك. بمعنى آخر ، يمنحك منهجية لقياس مدى جودة نموذجك بناءً على عينة من بياناتك. على سبيل المثال ، يتم استخدامه لتقدير خطأ النموذج الناجم عن التناقض بين مدخلات التدريب ومدخلات الاختبار.