تصنيف صور شبه خاضع للإشراف مع بيانات غير مصنفة

نشرت: 2022-03-11

كان التعلم الخاضع للإشراف في طليعة الأبحاث في مجال رؤية الكمبيوتر والتعلم العميق على مدار العقد الماضي.

في إعداد التعلم الخاضع للإشراف ، يُطلب من البشر إضافة تعليق توضيحي على كمية كبيرة من مجموعة البيانات يدويًا. بعد ذلك ، تستخدم النماذج هذه البيانات لتعلم العلاقات الأساسية المعقدة بين البيانات والتسمية وتطوير القدرة على التنبؤ بالتسمية ، بالنظر إلى البيانات. عادةً ما تكون نماذج التعلم العميق متعطشة للبيانات وتتطلب كميات هائلة من مجموعات البيانات لتحقيق أداء جيد. كانت الأجهزة التي تتحسن باستمرار وتوافر مجموعات البيانات الكبيرة التي تحمل علامات بشرية هي السبب وراء النجاحات الأخيرة في التعلم العميق.

أحد العوائق الرئيسية للتعلم العميق الخاضع للإشراف هو أنه يعتمد على وجود كمية كبيرة من مجموعات البيانات التي تحمل علامات بشرية للتدريب. لا تتوفر هذه الرفاهية في جميع المجالات حيث قد يكون من الصعب لوجستيًا ومكلفًا للغاية الحصول على مجموعات بيانات ضخمة مشروحة من قبل المتخصصين. في حين أن الحصول على البيانات المصنفة يمكن أن يكون مسعىً صعبًا ومكلفًا ، فإننا عادة ما نتمكن من الوصول إلى كميات كبيرة من مجموعات البيانات غير المسماة ، وخاصة بيانات الصور والنصوص. لذلك ، نحتاج إلى إيجاد طريقة للاستفادة من مجموعات البيانات غير المستغلة بشكل كافٍ واستخدامها في التعلم.

نقل التعلم من النماذج سابقة التدريب

في حالة عدم وجود كميات كبيرة من البيانات المصنفة ، عادة ما نلجأ إلى استخدام نقل التعلم . إذن ما هو نقل التعلم؟

يعني نقل التعلم استخدام المعرفة من مهمة مماثلة لحل مشكلة في متناول اليد. من الناحية العملية ، يعني هذا عادةً استخدام أوزان الشبكة العصبية العميقة التي تم تعلمها من مهمة مماثلة كتهيئة ، بدلاً من البدء من التهيئة العشوائية للأوزان ، ثم مزيد من التدريب على النموذج على البيانات المصنفة المتاحة لحل المهمة المطروحة.

يمكّننا التعلم عن طريق النقل من تدريب النماذج على مجموعات بيانات صغيرة مثل بضعة آلاف من الأمثلة ، ويمكن أن يقدم أداءً جيدًا للغاية. يمكن إجراء نقل التعلم من النماذج سابقة التدريب بثلاث طرق:

1. ميزة استخراج

عادةً ما تقوم الطبقات الأخيرة من الشبكة العصبية بإجراء العمليات الحسابية الأكثر تجريدًا والخاصة بالمهام ، والتي لا يمكن نقلها بسهولة إلى مهام أخرى بشكل عام. على النقيض من ذلك ، تتعلم الطبقات الأولية للشبكة بعض الميزات الأساسية مثل الحواف والأشكال الشائعة ، والتي يمكن نقلها بسهولة عبر المهام.

توضح الصورة أدناه ما تتعلمه نواة الالتواء على مستويات مختلفة في الشبكة العصبية التلافيفية (CNN). نرى تمثيلًا هرميًا ، حيث تتعلم الطبقات الأولية الأشكال الأساسية ، وتتعلم الطبقات العليا بشكل تدريجي مفاهيم دلالية أكثر تعقيدًا.

التمثيل الهرمي: الطبقات الأولية والطبقات العليا

من الممارسات الشائعة أخذ نموذج تم اختباره مسبقًا على مجموعات بيانات صور ذات تصنيف كبير (مثل ImageNet) وقطع الطبقات المتصلة بالكامل في النهاية. ثم يتم إرفاق طبقات جديدة متصلة بالكامل وتكوينها وفقًا لعدد الفئات المطلوب. يتم تجميد الطبقات المنقولة ، ويتم تدريب الطبقات الجديدة على البيانات ذات العلامات المتاحة لمهمتك.

في هذا الإعداد ، يتم استخدام النموذج الجاهز كمستخرج ميزة ، ويمكن اعتبار الطبقات المتصلة بالكامل في الجزء العلوي مصنفًا ضحلًا. يعد هذا الإعداد أكثر قوة من التجهيز الزائد نظرًا لأن عدد المعلمات القابلة للتدريب صغير نسبيًا ، لذلك يعمل هذا التكوين جيدًا عندما تكون البيانات المصنفة المتاحة نادرة جدًا. عادةً ما يكون حجم مجموعة البيانات المؤهل كمجموعة بيانات صغيرة جدًا مشكلة صعبة مع العديد من جوانب الاعتبار ، بما في ذلك المشكلة المطروحة وحجم العمود الفقري للنموذج. بشكل تقريبي ، سأستخدم هذه الإستراتيجية لمجموعة بيانات تتكون من ألفي صورة.

2. صقل

بدلاً من ذلك ، يمكننا نقل الطبقات من شبكة تم اختبارها مسبقًا وتدريب الشبكة بالكامل على البيانات ذات العلامات المتاحة. يحتاج هذا الإعداد إلى مزيد من البيانات المصنفة لأنك تقوم بتدريب الشبكة بالكامل وبالتالي عدد كبير من المعلمات. هذا الإعداد أكثر عرضة للإفراط في التخصيص عندما يكون هناك ندرة في البيانات.

3. نقل التعلم على مرحلتين

هذا النهج هو المفضل لدي شخصيًا وعادة ما يؤدي إلى أفضل النتائج ، على الأقل في تجربتي. هنا ، نقوم بتدريب الطبقات المرفقة حديثًا أثناء تجميد الطبقات المنقولة لبضع فترات قبل ضبط الشبكة بالكامل.

يمكن أن يؤدي الضبط الدقيق للشبكة بأكملها دون إعطاء بضع فترات للطبقات النهائية إلى انتشار التدرجات الضارة من الطبقات المهيأة عشوائيًا إلى الشبكة الأساسية. علاوة على ذلك ، يتطلب الضبط الدقيق معدل تعلم أصغر نسبيًا ، ويعتبر النهج المكون من مرحلتين حلاً مناسبًا لذلك.

الحاجة إلى طرق شبه خاضعة للإشراف وغير خاضعة للإشراف

عادةً ما يعمل هذا بشكل جيد جدًا لمعظم مهام تصنيف الصور لأن لدينا مجموعات بيانات صور ضخمة مثل ImageNet التي تغطي جزءًا كبيرًا من مساحة الصورة الممكنة - وعادةً ما تكون الأوزان المستفادة منها قابلة للتحويل إلى مهام تصنيف الصور المخصصة. علاوة على ذلك ، فإن الشبكات التي تم اختبارها مسبقًا متوفرة بسهولة على الرفوف ، مما يسهل العملية.

ومع ذلك ، لن يعمل هذا النهج بشكل جيد إذا كان توزيع الصور في مهمتك مختلفًا بشكل كبير عن الصور التي تم تدريب الشبكة الأساسية عليها. على سبيل المثال ، إذا كنت تتعامل مع صور ذات تدرجات رمادية تم إنشاؤها بواسطة جهاز تصوير طبي ، فلن يكون نقل التعلم من أوزان ImageNet بهذه الفعالية وستحتاج إلى أكثر من بضعة آلاف من الصور المصنفة لتدريب شبكتك على الأداء المرضي.

في المقابل ، قد تتمكن من الوصول إلى كميات كبيرة من مجموعات البيانات غير المصنفة لمشكلتك. هذا هو السبب في أن القدرة على التعلم من مجموعات البيانات غير المصنفة أمر بالغ الأهمية. بالإضافة إلى ذلك ، عادةً ما تكون مجموعة البيانات غير المسماة أكبر بكثير من حيث التنوع والحجم حتى من أكبر مجموعات البيانات المصنفة.

أظهرت الأساليب شبه الخاضعة للإشراف أنها تحقق أداءً فائقًا للنُهج الخاضعة للإشراف في معايير كبيرة مثل ImageNet. يؤكد تشبيه الكيك الشهير لـ Yann LeCun على أهمية التعلم غير الخاضع للإشراف:

التعلم شبه الخاضع للإشراف

يستفيد هذا النهج من البيانات المصنفة وغير المصنفة للتعلم ، ومن ثم يطلق عليه التعلم شبه الخاضع للإشراف. عادةً ما يكون هذا هو الأسلوب المفضل عندما يكون لديك كمية صغيرة من البيانات المصنفة وكمية كبيرة من البيانات غير المسماة. هناك تقنيات تتعلم فيها من البيانات المصنفة وغير المصنفة في وقت واحد ، لكننا سنناقش المشكلة في سياق نهج من مرحلتين: التعلم غير الخاضع للإشراف على البيانات غير المسماة ، ونقل التعلم باستخدام إحدى الاستراتيجيات الموضحة أعلاه لحل مهمة التصنيف الخاصة بك .

في هذه الحالات ، يعد التعلم غير الخاضع للإشراف مصطلحًا محيرًا إلى حد ما. هذه الأساليب ليست خاضعة للإشراف حقًا بمعنى أن هناك إشارة إشرافية توجه تعلم الأوزان ، ولكن إشارة الإشراف مستمدة من البيانات نفسها. ومن ثم ، يُشار إليه أحيانًا على أنه التعلم الذاتي الإشراف ولكن تم استخدام هذه المصطلحات بالتبادل في الأدبيات للإشارة إلى نفس النهج.

يمكن تقسيم التقنيات الرئيسية في التعلم تحت الإشراف الذاتي من خلال كيفية توليد إشارة الإشراف هذه من البيانات ، كما هو موضح أدناه.

طرق التوليد

تهدف الأساليب التوليدية إلى إعادة بناء دقيقة للبيانات بعد تمريرها عبر عنق الزجاجة. أحد الأمثلة على هذه الشبكات هو التشفير التلقائي. إنها تقلل المدخلات في مساحة تمثيل منخفضة الأبعاد باستخدام شبكة تشفير وتعيد بناء الصورة باستخدام شبكة وحدة فك التشفير.

في هذا الإعداد ، يصبح الإدخال نفسه إشارة الإشراف (التسمية) لتدريب الشبكة. يمكن بعد ذلك استخراج شبكة التشفير واستخدامها كنقطة بداية لبناء المصنف الخاص بك ، باستخدام إحدى تقنيات تعلم النقل التي تمت مناقشتها في القسم أعلاه.

وبالمثل ، يمكن استخدام شكل آخر من الشبكات التوليدية - شبكات الخصومة التوليدية (GANs) - للتدريب المسبق على البيانات غير المسماة. بعد ذلك ، يمكن اعتماد أداة تمييز وصقلها بشكل أكبر لمهمة التصنيف.

طرق التمييز

تعمل المناهج التمييزية على تدريب شبكة عصبية لتعلم مهمة تصنيف مساعدة. يتم اختيار مهمة مساعدة بحيث يمكن اشتقاق إشارة الإشراف من البيانات نفسها ، دون تعليق توضيحي بشري.

أمثلة على هذا النوع من المهام هي تعلم المواضع النسبية لبقع الصور ، أو تلوين الصور ذات التدرج الرمادي ، أو تعلم التحويلات الهندسية المطبقة على الصور. سنناقش اثنين منهم بمزيد من التفصيل.

تعلم المواقف النسبية من بقع الصور

في هذه التقنية ، يتم استخراج تصحيحات الصور من الصورة المصدر لتشكيل شبكة تشبه أحجية الصور المقطوعة. يتم تبديل مواضع المسار عشوائيًا ، ويتم إدخال المدخلات العشوائية في الشبكة ، والتي يتم تدريبها على التنبؤ بشكل صحيح بموقع كل تصحيح في الشبكة. وبالتالي ، فإن إشارة الإشراف هي الموقع الفعلي لكل مسار في الشبكة.

في تعلم القيام بذلك ، تتعلم الشبكة البنية النسبية واتجاه الكائنات بالإضافة إلى استمرارية الميزات المرئية منخفضة المستوى مثل اللون. تظهر النتائج أن الميزات التي تم تعلمها من خلال حل أحجية الصور المقطوعة هذه قابلة للتحويل بشكل كبير إلى مهام مثل تصنيف الصور واكتشاف الأشياء.

تعلم التحولات الهندسية المطبقة على الصور

تطبق هذه الأساليب مجموعة صغيرة من التحولات الهندسية على صور الإدخال وتدريب المصنف على التنبؤ بالتحول المطبق من خلال النظر إلى الصورة المحولة وحدها. أحد الأمثلة على هذه الأساليب هو تطبيق دوران ثنائي الأبعاد على الصور غير المسماة للحصول على مجموعة من الصور المستديرة ثم تدريب الشبكة على التنبؤ بتدوير كل صورة.

تجبر إشارة الإشراف البسيطة هذه الشبكة على تعلم كيفية توطين الكائنات في الصورة وفهم اتجاهها. لقد أثبتت الميزات المكتسبة من خلال هذه الأساليب أنها قابلة للتحويل بشكل كبير وتنتج أداءً متطورًا لمهام التصنيف في الإعدادات شبه الخاضعة للإشراف.

النهج القائمة على التشابه

تعمل هذه الأساليب على عرض الصور في مساحة تمثيل ثابتة الحجم حيث تكون الصور المتشابهة أقرب لبعضها البعض وتتباعد الصور المختلفة. تتمثل إحدى طرق تحقيق ذلك في استخدام شبكات السيامي بناءً على خسارة ثلاثية ، مما يقلل المسافة بين الصور المتشابهة لغويًا. يحتاج الخسارة الثلاثية إلى مرساة ، ومثال إيجابي ، ومثال سلبي ، وتحاول تقريب الإيجابية إلى المرساة من السلبية من حيث المسافة الإقليدية في الفضاء الكامن. المرساة والإيجابية من نفس الفئة ، والمثال السلبي يتم اختياره عشوائيًا من الفئات المتبقية.

في البيانات غير المسماة ، نحتاج إلى التوصل إلى استراتيجية لإنتاج هذه المجموعة الثلاثية من الأمثلة الإيجابية والسلبية للمرساة دون معرفة فئات الصور. تتمثل إحدى طرق القيام بذلك في استخدام تحويل أفيني عشوائي لصورة الارتساء كمثال إيجابي واختيار صورة أخرى بشكل عشوائي كمثال سلبي.

تجربة - قام بتجارب

في هذا القسم ، سأربط تجربة تحدد بشكل تجريبي إمكانات التدريب المسبق غير الخاضع للإشراف لتصنيف الصور. كان هذا مشروعي الفصلي لصف التعلم العميق الذي أخذته مع Yann LeCun في جامعة نيويورك الربيع الماضي.

مجموعة البيانات . وهو يتألف من 128 كيلو من الأمثلة المصنفة ، نصفها للتدريب والنصف الآخر للتحقق. علاوة على ذلك ، يتم تزويدنا بـ 512 ألف صورة غير مصنفة. تحتوي البيانات على 1000 فئة في المجموع.
تدريب مسبق غير خاضع للإشراف . تم تدريب AlexNet على تصنيف التناوب باستخدام زيادة البيانات المكثفة لـ 63 حقبة. استخدمنا المعلمات الفائقة التي وثقتها روتنت في ورقتهم.
تدريب المصنف . تم استخلاص السمات من طبقة الالتواء الرابعة ، وألحق بها ثلاث طبقات متصلة بالكامل. تمت تهيئة هذه الطبقات وتدريبها بشكل عشوائي بمعدل تعليمي متناقص مجدول ، وتم تنفيذ الإيقاف المبكر لإيقاف التدريب.
صقل الشبكة بالكامل . في النهاية ، قمنا بضبط الشبكة المدربة على البيانات المصنفة بالكامل. تم ضبط كل من أداة الاستخراج والمصنف ، اللذان تم تدريبهما بشكل منفصل من قبل ، مع معدل تعلم صغير لمدة 15 حقبة.

قمنا بتدريب سبعة نماذج ، كل منها يستخدم عددًا مختلفًا من أمثلة التدريب المصنفة لكل فصل. تم إجراء ذلك لفهم كيف يؤثر حجم بيانات التدريب على أداء إعدادنا شبه الخاضع للإشراف.

تمكنا من الحصول على معدل دقة 82٪ للتدريب المسبق على تصنيف التناوب. بالنسبة لتدريب المصنف ، تم تشبع أعلى 5٪ من الدقة بقيمة 46.24٪ ، وأسفر الضبط الدقيق للشبكة بأكملها عن الرقم النهائي البالغ 50.17٪. من خلال الاستفادة من التدريب المسبق ، حصلنا على أداء أفضل من التدريب الخاضع للإشراف ، والذي يوفر 40٪ من أفضل 5 درجات دقة.

كما هو متوقع ، تقل دقة التحقق مع انخفاض بيانات التدريب المسمى. ومع ذلك ، فإن الانخفاض في الأداء ليس بالقدر الذي يتوقعه المرء في بيئة خاضعة للإشراف. يؤدي الانخفاض بنسبة 50٪ في بيانات التدريب من 64 مثالًا لكل فصل إلى 32 مثالًا لكل فصل إلى انخفاض بنسبة 15٪ في دقة التحقق من الصحة.

باستخدام 32 نموذجًا فقط لكل فصل ، يحقق نموذجنا شبه الخاضع للإشراف أداءً فائقًا للنموذج الخاضع للإشراف الذي تم تدريبه باستخدام 64 مثالًا لكل فصل. يوفر هذا دليلًا تجريبيًا على إمكانات الأساليب شبه الخاضعة للإشراف لتصنيف الصور على مجموعات البيانات ذات الموارد المنخفضة.

تغليف

يمكننا أن نستنتج أن التعلم غير الخاضع للإشراف هو نموذج قوي لديه القدرة على تعزيز الأداء لمجموعات البيانات منخفضة الموارد. لا يزال التعلم غير الخاضع للإشراف في مهده حاليًا ولكنه سيزيد تدريجياً حصته في مساحة رؤية الكمبيوتر من خلال تمكين التعلم من البيانات الرخيصة التي يسهل الوصول إليها وغير المصنفة.

مزيد من القراءة على مدونة Toptal Engineering:

علم بيانات الرسم البياني باستخدام Python / NetworkX