ما هو التحسين والتناسب في التعلم الآلي؟ [كل ما تحتاج إلى تعلمه]
نشرت: 2020-02-18التعلم الآلي ليس أسهل موضوع يمكن إتقانه. يعد Overfitting و Underfitting عددًا قليلاً من العديد من المصطلحات الشائعة في مجتمع التعلم الآلي. إن فهم هذه المفاهيم سيضع الأساس لتعلمك المستقبلي.
سنتعرف على هذه المفاهيم بعمق في هذه المقالة. سنناقش أيضًا الفكرة الأساسية لهذه الأخطاء ولماذا تحدث وكيف يمكنك إصلاحها. ستتعلم القليل عن نماذج البيانات وعلاقتها بهذه الأخطاء أيضًا.
لذلك دون الالتفاف حول الأدغال ، دعنا نتعمق في:
جدول المحتويات
ما هو نموذج البيانات؟
قبل أن نبدأ في مناقشة ماهية Overfitting و Underfitting ، دعونا أولاً نفهم ماهية النموذج. نموذج البيانات هو نظام لعمل تنبؤات باستخدام المدخلات. يمكنك القول أن النموذج هو نظرية لحل مشكلة. على سبيل المثال ، إذا كنت تريد توقع نمو العديد من الشركات ، فيمكنك أخذ أرباحها كمدخلات وتوليد النتائج بناءً على العلاقة بين أرباحها ونموها. سيكون ناتج هذا المثال هو النمو المتوقع للشركات.
إذن المدخل هو الربح الحالي للشركات ، في حين أن توقعات نموها هي الناتج. العلاقة بين هذين هو النموذج. النماذج ضرورية لتوليد النواتج.
يفهم النموذج العلاقة بين المدخلات والمخرجات من خلال مجموعة بيانات التدريب. نحن نسمي ميزات المدخلات وتسميات المخرجات. لذلك ، قد ترى هذه الأسماء في المقالة أيضًا. أثناء تدريب النموذج ، ستمنحه الميزات بالإضافة إلى التسميات وتدعه يكتشف العلاقة بينهما. بمجرد الانتهاء من التدريب ، يمكنك تجربة النموذج من خلال إعطائه مجموعة من الميزات فقط ، والتي تتوفر لك تنبؤاتها الصحيحة.

بعد إنشاء تنبؤاته ، يمكنك مقارنتها بالتنبؤات الصحيحة التي لديك ومعرفة مدى دقة النموذج. النماذج ذات أشكال عديدة.
تدريب واختبار البيانات
قد تمنح نموذج البيانات الخاص بك ميزات مثالية عندما تكون مبتدئًا ، ولكن هذا ليس ما يحدث في العالم الحقيقي. البيانات في العالم الحقيقي مليئة بالضوضاء والمعلومات غير المفيدة. بغض النظر عن مصدر بياناتك ، ستجد بعض المتغيرات الموجودة فيه ، والتي لا تتناسب مع الاتجاه.
في مثالنا على توقعات نمو الشركات ، أنت تعلم أن نموها لن يعتمد كليًا على أرباحها. سيكون هناك الكثير من العوامل في اللعب. أثناء تدريب النموذج الخاص بك ، يجب إضافة بعض الضوضاء لجعله واقعيًا. بمجرد إنشاء بياناتك ، سيتعين عليك تقسيمها إلى مجموعتين للتدريب والاختبار.
ستستخدم بيانات التدريب لمساعدة النموذج في التعرف على العلاقة بين الميزات والتسميات. ويمكنك استخدام بيانات الاختبار لتقييم أدائها.
هناك العديد من أشكال النماذج الموجودة في عالم البيانات. قد يكون اختيار أحدهم أمرًا شاقًا بعض الشيء ، ولكن مع القليل من الممارسة ، يصبح الأمر أسهل. النموذج القياسي هو انحدار متعدد الحدود. إنه شكل من أشكال الانحدار الخطي حيث يتم رفع المدخلات إلى مجموعة متنوعة من القوى. إنه نوع من الانحدار الخطي ، لكنه لا يشكل خطًا مستقيمًا. اقرأ المزيد عن تنفيذ الانحدار الخطي.
تقوم بتعريف كثير الحدود بترتيبها. إن ترتيب كثير الحدود هو أعلى قوة لـ x في معادلتها. ويظهر ترتيب كثير الحدود درجتها أيضًا. على سبيل المثال ، معادلة الخط المستقيم 1 درجة.
أهمية إصلاح التخصيص الزائد والملاءمة في التعلم الآلي
يحدث التجاوز والتركيب عند التعامل مع الدرجة متعددة الحدود الخاصة بنموذجك. كما ذكرنا سابقًا ، تعتمد درجة كثير الحدود على أعلى قوة لـ x في معادلتها. تشير هذه القيمة إلى مدى مرونة نموذجك. إذا كان نموذجك يتمتع بدرجة عالية ، فسيتمتع بقدر أكبر من الحرية. بدرجة عالية ، يمكن للنموذج أن يغطي العديد من كائنات البيانات.
من ناحية أخرى ، لن يكون النموذج الذي يحتوي على درجات أقل من المطلوب قادرًا على تغطية كائنات بيانات كافية. كلتا الحالتين يمكن أن تؤدي إلى نتائج متسخة غير مفيدة.
كانت المشكلة السابقة ذات الدرجة الأعلى من اللازم هي فرط التجهيز. والمشكلة الثانية التي كانت تقل عن الدرجة المطلوبة هي نقص الملاءمة. كما ترى ، كلاهما يمكن أن يضر بنموذجك ويلحق الضرر بنتائجك.

إذا لم تقم بإصلاح هذه المشكلات ، فلن يمنحك نموذجك نتائج دقيقة ، وسيكون لديك تسميات غير مفيدة لاستخدامها.
الآن بعد أن عرفنا مفهومهم الأساسي ، دعنا نناقش كل واحد منهم بالتفصيل:
ما هو Overfitting؟
عندما تبدأ خوارزمية التعلم الآلي في تسجيل ضوضاء داخل البيانات ، فإننا نسميها Overfitting. بكلمات أبسط ، عندما تبدأ الخوارزمية في إيلاء الكثير من الاهتمام للتفاصيل الصغيرة. في التعلم الآلي ، تكون النتيجة توقع المخرجات المحتملة ، وبسبب التجهيز الزائد ، يمكن أن يعيق دقته وقتًا كبيرًا. نحن نعلم أنه يبدو شيئًا جيدًا ، لكنه ليس كذلك.
يمكن أن يكون الرسم البياني أحد الأمثلة الشديدة على Overfitting في التعلم الآلي حيث تتصل جميع النقاط خطيًا. نريد التقاط الاتجاه ، لكن الرسم البياني لا يفعل ذلك.
النموذج غير القادر على عمل تنبؤات جيدة ولكنه يتعلم كل شيء ممكن من البيانات غير مجدي لأنه يؤدي إلى نتائج غير دقيقة.
ماذا تفعل عندما تلاحظ overfitting؟
يمكننا حل هذه المشكلة ببساطة عن طريق تقليل كمية البيانات التي تستخدمها الخوارزمية وعدم زيادة تحميل النظام. التباين العالي (التجهيز الزائد) يجعل الأمور أسوأ من الأفضل. بعض التقنيات التقليدية المستخدمة لحل فرط التخصيص هي كما يلي:
تقليل التكرارات
من خلال تقليل عدد التكرارات التي يتم إجراؤها قبل حدوث Overfitting ، يمكننا منع حدوث ذلك. يمكنك العثور على المقدار الدقيق للتكرارات من خلال طريقة التجربة والخطأ.
تنظيم
إنه يقيد تقديرات المعامل ، والتي تكون قريبة من الصفر. وبكلمات أبسط ، يمكننا القول أنه يخبر الخوارزمية باستخدام نموذج أكثر تساهلاً بدلاً من نموذج جامد. تعرف على المزيد حول التنظيم وكيفية تجنب فرط التجهيز.
التقليم (قياسي)
الطريقة الأسهل والأكثر شيوعًا لتجنب التجهيز الزائد هي التقليم. يتخلص من أي عقد تضيف القليل من القدرة التنبؤية أو لا تضيف أيًا منها.
التحقق من صحة خمسة أضعاف
يعد استخدام التحقق المتقاطع إحدى الطرق الأقل تعقيدًا للتحقق من التجهيز الزائد.
ما هو الانقطاع؟
كما يوحي الاسم ، فإن Underfitting هو عندما لا يكون النموذج مناسبًا بما يكفي لإعطائك النتائج. لا يعرف نموذج البيانات غير الملائمة كيفية استهداف كائنات بيانات كافية. بدرجة أقل ، ينتهي الرسم البياني بفقدان معظم الميزات الموجودة.
بعبارة أخرى ، يكون النموذج "بسيطًا جدًا" لتوليد النتائج إذا كان غير ملائم. ومع ذلك ، فإن حل هذه المشكلة أكثر راحة ولا يتطلب الكثير من الجهد كما فعلت Overfitting سابقًا.
ماذا تفعل عندما تلاحظ عدم الملائمة؟
إذا كان النموذج الخاص بك غير ملائم ، فيجب أن تمنحه المزيد من الميزات. مع المزيد من الميزات ، سيكون لها مساحة فرضية أكبر. يمكنه استخدام تلك المساحة لتوليد نتائج دقيقة. يعد اكتشاف عدم الملائمة أكثر راحة بالمقارنة مع Overfitting بحيث لا تواجه أي مشكلة في تحديد هذا الخطأ. ومع ذلك ، يجب عليك فقط زيادة الميزات وليس البيانات بأكملها أثناء التعامل مع نموذج غير مناسب. يؤدي توسيع البيانات إلى مزيد من الأخطاء في هذه الحالة.

قراءة: أفكار مثيرة للاهتمام لمشروع التعلم الآلي
ضرب المكان الجميل
في التعلم الآلي ، قد ترغب في أن يظل نموذج البيانات الخاص بك بين Underfitting و Overfitting. لا ينبغي أن تغطي الكثير من نقاط البيانات ولا القليل منها. كلما قمت بتدريب نموذجك بشكل أكبر ، يمكنك تحسينه بشكل أكبر وإصلاح أخطائه. ستبدأ أخطاء نموذجك في الانخفاض بالأرقام مع مجموعة التدريب ومجموعة الاختبار.
هناك طريقة رائعة للوصول إلى النقطة المثالية بين Overfitting و Underfitting وهي التوقف عن تدريب نموذجك قبل أن تبدأ أخطائه في الزيادة. إنه حل عام يمكنك استخدامه بصرف النظر عن الطرق التي ذكرناها سابقًا في هذه المقالة.
خاتمة
يواجه كل متخصص في البيانات مشكلة التجهيز الزائد والملاءمة. إن تدريب نموذج البيانات ليس بالأمر السهل ، ويستغرق الكثير من التدريب للتعرف عليه. ومع ذلك ، من خلال الخبرة ، ستبدأ في تحديد المشكلات مبكرًا وتجنب أسباب الأخطاء تمامًا.
من الضروري أن تكون على دراية بمثل هذه الأخطاء إذا كنت تريد أن تصبح خبيرًا في التعلم الآلي. إذا كنت مهتمًا بمعرفة المزيد عن التعلم الآلي وعلوم البيانات ، فراجع IIIT-B & upGrad's دبلوم PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، حالة خريجي IIIT-B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع كبرى الشركات.