مقاييس التقييم في التعلم الآلي: أهم 10 مقاييس يجب أن تعرفها

نشرت: 2021-01-05

يعد تحديد المقياس الصحيح خطوة حاسمة في أي مشروع لتعلم الآلة. يجب تقييم كل نموذج من نماذج التعلم الآلي مقابل بعض المقاييس للتحقق من مدى تعلمه للبيانات وأدائه على بيانات الاختبار. تسمى هذه مقاييس الأداء وتختلف عن نماذج الانحدار والتصنيف.

بنهاية هذا البرنامج التعليمي ، ستعرف:

مقاييس الانحدار
مقاييس لأنواع مختلفة من التصنيف
متى تفضل أي نوع من المقياس

جدول المحتويات

مقاييس الانحدار

تتضمن مشاكل الانحدار توقع هدف بقيم مستمرة من مجموعة من الميزات المستقلة. هذا نوع من التعلم الخاضع للإشراف حيث نقارن التنبؤ بالقيمة الفعلية ثم نحسب مصطلح الاختلاف / الخطأ. كلما قل الخطأ ، كان أداء النموذج أفضل. لدينا أنواع مختلفة من مقاييس الانحدار الأكثر استخدامًا حاليًا. دعنا نتفوق عليهم واحدًا تلو الآخر.

1. متوسط الخطأ التربيعي

متوسط الخطأ التربيعي (MSE) هو مقياس الانحدار الأكثر استخدامًا. يستخدم الأخطاء التربيعية (Y_Pred - Y_actual) لحساب الأخطاء. ينتج عن التربيع تغييرين مهمين لحساب الخطأ المعتاد. أولاً ، أن الخطأ يمكن أن يكون سالبًا وأن تربيع الأخطاء سيحول جميع الأخطاء إلى مصطلحات موجبة وبالتالي يمكن إضافتها بسهولة.

ثانيًا ، أن التربيع يزيد الأخطاء الكبيرة بالفعل ويقلل الأخطاء بقيم أقل من 1. هذا التأثير المكبر يعاقب الحالات التي يكون فيها الخطأ كبيرًا. يفضل MSE بشدة لأنه قابل للتفاضل في جميع النقاط لحساب التدرج اللوني لوظيفة الخسارة.

2. جذر متوسط الخطأ التربيعي

عيب MSE هو أنه يربّع شروط الخطأ التي تؤدي إلى المبالغة في تقدير الأخطاء. من ناحية أخرى ، يأخذ خطأ التربيع المتوسط الجذر (RMSE) جذرًا تربيعيًا لتقليل هذا التأثير. هذا مفيد عندما لا تكون الأخطاء الكبيرة مرغوبة.

3. يعني الخطأ المطلق

يحسب متوسط الخطأ المطلق (MAE) الخطأ بأخذ القيمة المطلقة للخطأ وهي Y_Pred - Y_Actual. هذا مفيد لأنه لا يبالغ في تقدير الأخطاء الأكبر على عكس MSE كما أنه قوي بالنسبة للقيم المتطرفة. لذلك ، فهي غير مناسبة للتطبيقات التي تتطلب معاملة خاصة للقيم المتطرفة. MAE عبارة عن درجة خطية مما يعني أن جميع الفروق الفردية يتم ترجيحها بالتساوي.

4. R التربيع خطأ

R Squared هو مقياس ملائم لنماذج الانحدار. يقوم بحساب تشتت نقاط البيانات على طول خط ملائمة الانحدار. ويسمى أيضًا معامل التحديد. تعني قيمة R التربيعية الأعلى أن هناك فرقًا أقل بين القيمة المرصودة والقيم الفعلية.

تستمر قيمة R التربيعية في الزيادة مع إضافة المزيد والمزيد من الميزات إلى النموذج. هذا يعني أن R Squared ليس القياس الصحيح للأداء لأنه قد يعطي مربع R كبير حتى لو لم تضيف الميزات أي قيمة.

في تحليل الانحدار ، يستخدم R تربيع لتحديد قوة الارتباط بين الميزات والهدف. بعبارات بسيطة ، يقيس قوة العلاقة بين نموذجك والمتغير التابع على مقياس من 0 إلى 100٪. R تربيع هي النسبة بين المجموع المتبقي للمربعات (SSR) وإجمالي المربعات (SST). يتم تعريف R sqr على أنه:

R Sqr = 1 - SSR / SST ، أين

SSR هو مجموع مربعات الفرق بين القيمة الفعلية الملاحظة Y والقيمة المتوقعة Y_Pred. SST هو مجموع مربعات الفرق بين القيمة الفعلية الملاحظة Y ومتوسط القيمة الملاحظة Y_Avg.

بشكل عام ، أكثر من R sqr ، أفضل هو النموذج. ولكن هل هذا هو الحال دائما؟ رقم.

5. خطأ مربع R المعدل

يتغلب خطأ مربع R المعدل على عيب R Squared المتمثل في عدم القدرة على تقدير التحسن في أداء النموذج بشكل صحيح عند إضافة المزيد من الميزات. تُظهر قيمة المربع R صورة غير كاملة ويمكن أن تكون مضللة للغاية.

في جوهرها ، تزيد قيمة R sqr دائمًا عند إضافة ميزات جديدة ، حتى لو كانت الميزة تقلل من أداء النموذج. قد لا تعرف متى بدأ نموذجك في التجهيز.

تعدل R Sqr المعدلة لهذه الزيادة في المتغيرات وتقل قيمتها عندما لا تعمل الميزة على تحسين النموذج. نستخدم R sqr المعدلة لمقارنة ملاءمة الملاءمة لنماذج الانحدار التي تحتوي على أعداد مختلفة من المتغيرات المستقلة.

قراءة: التحقق المتقاطع في تعلم Machin

مقاييس التصنيف

تمامًا مثل مقاييس الانحدار ، هناك أنواع مختلفة من المقاييس للتصنيف أيضًا. يتم استخدام أنواع مختلفة من المقاييس لأنواع مختلفة من التصنيف والبيانات. دعنا نتفوق عليهم واحدًا تلو الآخر.

1. الدقة

الدقة هي المقياس الأكثر وضوحًا وبساطة للتصنيف. إنها تحسب فقط النسبة المئوية للتنبؤات الصحيحة من العدد الإجمالي للحالات. على سبيل المثال ، إذا تم توقع 90 حالة من أصل 100 بشكل صحيح ، فستكون الدقة 90٪. ومع ذلك ، فإن الدقة ليست المقياس الصحيح لمعظم مهام التصنيف لأنها لا تأخذ في الاعتبار عدم توازن الفئة.

2. الدقة ، أذكر

للحصول على صورة أفضل لأداء النموذج ، نحتاج إلى معرفة عدد الإيجابيات الخاطئة التي تم توقعها وعدد السلبيات الخاطئة التي تنبأ بها النموذج. تخبرنا الدقة عن عدد الإيجابيات الإجمالية التي تم توقعها على أنها إيجابية. أو بعبارة أخرى ، نسبة الحالات الإيجابية التي تم توقعها بشكل صحيح على أنها إيجابية من إجمالي التوقعات الإيجابية. يخبرنا برنامج Recall عن عدد الإيجابيات الحقيقية التي تم توقعها من إجمالي الإيجابيات الفعلية. أو بعبارة أخرى ، فإنه يعطي نسبة الإيجابيات الحقيقية المتوقعة من العدد الإجمالي للإيجابيات الفعلية.

3. مصفوفة الارتباك

مصفوفة الارتباك هي مزيج من الإيجابيات الحقيقية والسلبيات الحقيقية والإيجابيات الكاذبة والسلبيات الكاذبة. يخبرنا كم تم توقعه من بين الإيجابيات والسلبيات الحقيقية الفعلية. إنها مصفوفة NxN حيث N هو عدد الفئات. مصفوفة الارتباك ليست مربكة للغاية بعد كل شيء!

4. نقاط F1

تجمع نقاط F1 بين الدقة والاستدعاء في مقياس واحد لقيمة خرج متوسطة. درجة F1 هي في الواقع المتوسط التوافقي لقيم الدقة والاسترجاع. هذا أمر بالغ الأهمية لأنه إذا كانت قيمة الاسترجاع في بعض الحالات 1 ، أي 100٪ وكانت قيمة الدقة 0 ، فإن درجة F1 ستكون 0.5 إذا أخذنا المتوسط الحسابي لـ Precision & Recall بدلاً من الوسط التوافقي. ولكن إذا أخذنا المتوسط التوافقي ، فستكون درجة F1 0. وهذا يخبرنا أن المتوسط التوافقي يعاقب القيم المتطرفة بشكل أكبر.

راجع: 5 أنواع من خوارزميات التصنيف في التعلم الآلي

5. AUC-ROC

الدقة ودرجة F1 ليست مقاييس جيدة عندما يتعلق الأمر بالبيانات غير المتوازنة. يخبرنا منحنى AUC (المنطقة الواقعة تحت المنحنى) ROC (خصائص مشغل المستقبل) درجة قابلية فصل الفئات التي يتنبأ بها النموذج. كلما زادت النتيجة ، زادت قدرة النموذج على توقع الأصفار على أنها أصفار وواحدة على أنها 1 ثانية. يتم رسم منحنى AUC ROC باستخدام المعدل الإيجابي الحقيقي (TPR) على المحور Y والمعدل الإيجابي الكاذب على المحور X.

TPR = TP / TP + FN

FPR = FP / TN + FP

إذا كانت AUC ROC هي 1 ، فهذا يعني أن النموذج يتنبأ بشكل صحيح بجميع الفئات وهناك إمكانية فصل كاملة.

إذا كانت 0.5 ، فهذا يعني أنه لا توجد إمكانية للفصل ويتنبأ النموذج بجميع المخرجات العشوائية.

إذا كانت تساوي 0 ، فهذا يعني أن النموذج يتنبأ بالفئات المقلوبة. وهذا يعني ، 0s كـ 1s و 1s كـ 0s.

قبل ان تذهب

في هذه المقالة ، ناقشنا مقاييس الأداء المختلفة للتصنيف والانحدار. هذه هي المقاييس الأكثر استخدامًا وبالتالي من الضروري معرفتها. بالنسبة للتصنيف ، هناك المزيد من المقاييس المصممة خصيصًا للتصنيف متعدد الفئات والتصنيف متعدد العلامات مثل Kappa Score و Precision at K و Average Precision at K ، إلخ.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

قيادة الثورة التكنولوجية التي يقودها الذكاء الاصطناعي

دبلوم PG في التعلم الآلي والذكاء الاصطناعي

يتعلم أكثر