إزالة الغموض عن مصفوفة الارتباك في التعلم الآلي [مذهل]

نشرت: 2020-12-07

التعلم الآلي هو مصطلح شامل يقوم بموجبه بتجميع معالجة البيانات ، واستخلاص رؤى ذات مغزى من البيانات ، ونمذجة البيانات. بعد الانتهاء من نمذجة البيانات ، يجب قياس النموذج لتقييم أدائه والمعلمات الأخرى المستندة إلى الصناعة وأحد المقاييس الأكثر شيوعًا هو مصفوفة الارتباك.

جدول المحتويات

ما هي مصفوفة الارتباك ولماذا يتم استخدامها؟

إنه مقياس أداء يستخدم في مشاكل التصنيف حيث قد تكون فئات المخرجات اثنين أو أكثر وتمثل هذه المصفوفة جميع مجموعات القيم المتوقعة بواسطة نموذج مع القيم الفعلية المرتبطة بهذا المدخلات. يطلق عليه اسم "مصفوفة الارتباك" لأنه يبدو سهلاً من خلال اتباع التعريفات ، ولكن بينما نمضي قدمًا لاستنباط معاملات أكثر قيمة ، ينشأ الارتباك فيما يتعلق بالمعامل الأنسب في مكان معين.

يتم استخدامه في الأماكن التي تكون فيها مشكلة التصنيف غير متوازنة للغاية وتهيمن فئة واحدة على الفئات الأخرى. في مثل هذه السيناريوهات ، قد تفاجأ برؤية دقة النموذج تبلغ ذروتها بنسبة 99٪ ولكن في الواقع ، فإن النموذج متحيز للغاية تجاه الطبقة المهيمنة. هناك احتمال ضئيل للغاية بأن تحصل على تنبؤات حول فئات الأقليات. لذلك ، لاختبار مجموعة البيانات غير المتوازنة هذه ، فإننا نعتبر مصفوفة الارتباك.

هيكل مصفوفة الارتباك

حجم المصفوفة يتناسب طرديا مع عدد فئات الإخراج. إنها مصفوفة مربعة حيث نفترض أن رؤوس الأعمدة كقيم فعلية ورؤوس الصفوف كتنبؤات نموذجية. القيم الصحيحة والمتوقعة بواسطة النموذج هي الإيجابيات الحقيقية (TP) ، وتنبؤات القيمة السلبية الصحيحة هي True Negative (TN) ، والقيم التي كانت سلبية ولكن تم توقعها على أنها صحيحة هي False Positives (FP) والقيم الإيجابية المتوقعة على أنها سلبية هي السلبيات الكاذبة (FN) . الق نظرة على هذه الصورة:

قراءة: أنواع خوارزمية التصنيف في التعلم الآلي

ماذا يمكننا أن نتعلم من هذا؟

يطرح السؤال الصحيح وهو ما يمكننا فعله بهذه المصفوفة. هناك بعض المصطلحات الهامة التي تستند إلى هذا:

الدقة: هي جزء القيم التي حددها النموذج على أنها صحيحة وذات صلة بحل بيان المشكلة. يمكننا أيضًا اقتباس هذا كقيم ، وهي جزء من إجمالي النتائج الإيجابية التي يقدمها النموذج وتكون موجبة. لذلك ، يمكننا إعطاء صيغتها على أنها TP / (TP + FP).
تذكر: هو جزء من القيم التي تم تحديدها بشكل صحيح على أنها موجبة بواسطة النموذج. يُطلق عليه أيضًا السعر الإيجابي الحقيقي أو الحساسية. صيغته هي TP / (TP + FN).
درجة F-1: هي المتوسط التوافقي للدقة والاستدعاء. هذا يعني أننا إذا قمنا بمقارنة نموذجين ، فإن هذا المقياس سيقمع القيم القصوى ويأخذ في الاعتبار كل من الإيجابيات الكاذبة والسلبيات الكاذبة في نفس الوقت. يمكن اقتباسها على أنها 2 * الدقة * استدعاء / (الدقة + الاستدعاء).
الدقة: جزء من القيم يتم تحديده بشكل صحيح بغض النظر عما إذا كانت إيجابية أو سلبية. وهذا يعني أن كل الإيجابيات الحقيقية والسلبيات الحقيقية متضمنة في هذا. الصيغة الخاصة بذلك هي (TP + TN) / (TP + TN + FP + FN).

من بين جميع المصطلحات ، يتم استخدام الدقة والاسترجاع على نطاق واسع. المقايضة بينهما هي مقياس مفيد لنجاح التنبؤ. من المفترض أن يكون للنموذج المطلوب دقة عالية واستدعاء عالي ، لكن هذا فقط في بيانات قابلة للفصل تمامًا. في حالات الاستخدام العملي ، تكون البيانات غير منظمة وغير متوازنة إلى حد كبير.

كيفية إنشاء كود لمصفوفة الارتباك في بايثون؟

توفر مكتبة sklearn مجموعة متنوعة من الوظائف لأداء جميع مهام التعلم الآلي بدقة متناهية وقد تم تنفيذ كل شيء تقريبًا هنا. ضع في اعتبارك مجموعة بيانات Iris الشهيرة مع تنفيذ جميع عبارات الاستيراد بالفعل ، سيكون رمز مصفوفة الارتباك هو:

iris = datasets.load_iris ()

X = iris.data

y = iris.target

class_names = iris.target_names

X_train ، X_test ، y_train ، y_test = train_test_split (X ، y ، random_state = 0 )

المصنف = svm.SVC (النواة = 'خطي' ، C = 0.01 ) . تناسب (X_train ، y_train)

plot_confusion_matrix (مصنف ، X_test ، y_test ، display_labels = class_names ، cmap = plt . cm . Blues)

ملاحظة: المصفوفة التي أرجعها هذا لها جوانب معكوسة ، هنا على اليسار لدينا قيم فعلية وفي الأعلى ، لدينا قيم متوقعة. إذا كنت تريد تجنب الالتباس ، فقم بتنفيذ هذه الوظيفة للحصول على ملخص مفصل (تقرير تصنيف) بدلاً من حسابه يدويًا:

طباعة (تصنيف_تقرير (y_true = y_test ، y_pred = y_pred ، target_names = class_names))

اقرأ أيضًا: خوارزمية التعلم العميق

أي واحد يستخدم وأين؟

هذا هو السؤال الأكثر شيوعًا الذي يظهر أثناء نمذجة البيانات والحل يكمن في مجال بيان المشكلة. ضع في اعتبارك هاتين الحالتين:

افترض أنك تتوقع ما إذا كان الشخص سيصاب بسكتة قلبية. في هذا السيناريو ، لا يمكنك تحمل أي تصنيف خاطئ ويجب أن تكون جميع التوقعات دقيقة. مع ذلك ، فإن تكلفة السلبيات الكاذبة مرتفعة ، لذلك كان الشخص عرضة للهجوم ولكن تم توقعه على أنه آمن. يجب تجنب هذه الحالات. في هذه المواقف ، نحتاج إلى نموذج ذي قدرة عالية على الاسترجاع.
لنفترض أن أحد محركات البحث قدم نتائج عشوائية يُتوقع أن تكون جميعها إيجابية بواسطة النموذج ، فحينئذٍ هناك احتمال ضئيل جدًا أن يعتمد المستخدم عليها. لذلك ، في هذا السيناريو ، نحتاج إلى نموذج بدقة عالية حتى تتحسن تجربة المستخدم ، وينمو موقع الويب في الاتجاه الصحيح.

خاتمة

تعد مصفوفة الارتباك طريقة رائعة لتقييم نموذج التصنيف. إنه يعطي نظرة ثاقبة فعلية حول مدى دقة النموذج في تصنيف الفئات بناءً على المدخلات المقدمة وكيف يمكن تصنيف هذه الفئة بشكل خاطئ.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

قيادة الثورة التكنولوجية التي يقودها الذكاء الاصطناعي

دبلوم PG في التعلم الآلي والذكاء الاصطناعي

يتعلم أكثر