تسريع باستخدام BERT: نماذج تحسين البرمجة اللغوية العصبية

نشرت: 2022-03-11

تسريع البرمجة اللغوية العصبية باستخدام BERT: نتائج عالمية ببيانات أقل 100 مرة

هناك نوعان من الصعوبات الأساسية عند بناء نماذج تصنيف معالجة اللغة الطبيعية للتعلم العميق (NLP).

جمع البيانات (الحصول على آلاف أو ملايين نقاط البيانات المصنفة)
بنية التعلم العميق والتدريب

عادةً ما تتطلب قدرتنا على بناء نماذج التعلم العميق المعقدة القادرة على فهم تعقيد اللغة سنوات من الخبرة عبر هذه المجالات. كلما زادت صعوبة مشكلتك ، زادت تنوع مخرجاتك ، زاد الوقت الذي تحتاجه لقضاء كل خطوة من هذه الخطوات.

يعتبر جمع البيانات مرهقًا ، ويستغرق وقتًا طويلاً ، ومكلفًا ، وهو العامل المحدد الأول لمشاريع البرمجة اللغوية العصبية الناجحة. يمكن أن يستغرق تحضير البيانات ، وبناء خطوط الأنابيب المرنة ، والاختيار من بين مئات خيارات الإعداد المحتملة ، والحصول على "نموذج جاهز" شهورًا من الجهد بسهولة حتى مع مهندسي التعلم الآلي الموهوبين. أخيرًا ، يتطلب التدريب وتحسين نماذج التعلم العميق مزيجًا من الفهم البديهي والخبرة الفنية والقدرة على الاستمرار في حل مشكلة ما.

في هذه المقالة ، سوف نغطي

الاتجاهات في التعلم العميق للغة البرمجة اللغوية العصبية: كيف يعمل التعلم الانتقالي على جعل النماذج ذات المستوى العالمي مفتوحة المصدر
مقدمة إلى BERT: مقدمة لأقوى "أداة" في البرمجة اللغوية العصبية حتى الآن - تمثيلات المشفر ثنائي الاتجاه من المحولات (BERT)
كيف يعمل BERT ولماذا سيغير الطريقة التي تنفذ بها الشركات مشاريع البرمجة اللغوية العصبية

الاتجاهات في التعلم العميق

بطبيعة الحال ، بدأ تحسين هذه العملية بدقة متزايدة. أحدثت شبكات LSTM (الذاكرة طويلة المدى) ثورة في العديد من مهام البرمجة اللغوية العصبية ، لكنها كانت (ولا تزال) متعطشة للبيانات بشكل لا يصدق. قد يستغرق تحسين هذه النماذج وتدريبها أيامًا أو أسابيع على آلات كبيرة ومكلفة. أخيرًا ، يعد نشر هذه النماذج الكبيرة في الإنتاج أمرًا مكلفًا ومرهقًا.

لتقليل عوامل خلق التعقيد هذه ، لطالما استفاد مجال رؤية الكمبيوتر من نقل التعلم. التعلم عن طريق النقل هو القدرة على استخدام نموذج تم تدريبه على مهمة مختلفة ولكنها متشابهة لتسريع الحل الخاص بك في حل جديد. يتطلب الأمر جهدًا أقل بكثير لإعادة تدريب نموذج يمكنه بالفعل تصنيف الأشجار مقارنةً بتدريب نموذج جديد للتعرف على الشجيرات من البداية.

تخيل سيناريو لم ير فيه شخص ما شجيرة من قبل ولكنه رأى العديد من الأشجار في حياته. ستجد أنه من الأسهل بكثير أن تشرح لهم كيف تبدو الأدغال من حيث ما يعرفونه عن الأشجار بدلاً من وصف الأدغال من الصفر. التعلم عن طريق النقل هو وسيلة بشرية للتعلم ، لذلك فمن المنطقي أن هذا سيعمل في مهام التعلم العميق.

تعني BERT أنك بحاجة إلى بيانات أقل ووقت تدريب أقل وتحصل على قيمة عمل أكبر. أصبحت جودة منتجات البرمجة اللغوية العصبية التي يمكن لأي شركة بناءها على مستوى عالمي.

في يأتي BERT

يستخدم BERT ما يسمى بالمحولات وهو مصمم لإنتاج ترميزات الجملة. بشكل أساسي ، BERT هو نموذج لغوي يعتمد على نموذج تعلم عميق محدد. تم تصميمه خصيصًا لإعطاء تمثيل سياقي ورقمي لجملة أو سلسلة من الجمل. هذا التمثيل الرقمي هو المدخلات إلى نموذج ضحل وغير معقد. ليس هذا فقط ، ولكن النتائج بشكل عام متفوقة وتتطلب جزءًا صغيرًا من بيانات الإدخال لمهمة لم يتم حلها بعد.

تخيل أن تكون قادرًا على قضاء يوم في جمع البيانات بدلاً من عام والقدرة على بناء نماذج حول مجموعات البيانات التي لم يكن لديك بيانات كافية لإنشاء نموذج LSTM لولا ذلك. عدد مهام البرمجة اللغوية العصبية التي سيتم فتحها للأعمال التجارية التي لم يكن بمقدورها سابقًا توفير وقت التطوير والخبرة المطلوبة مذهل.

كيف يعمل بيرت

في البرمجة اللغوية العصبية التقليدية ، تكون نقطة البداية للتدريب النموذجي هي متجهات الكلمات. متجهات الكلمات هي قائمة بالأرقام [0.55 ، 0.24 ، 0.90 ، ...] التي تحاول تمثيل معنى هذه الكلمة رقميًا. من خلال التمثيل الرقمي ، يمكننا استخدام هذه الكلمات في تدريب النماذج المعقدة ، وباستخدام متجهات الكلمات الكبيرة ، يمكننا تضمين معلومات حول الكلمات في نماذجنا.

يقوم BERT بعمل شيء مشابه (في الواقع ، نقطة البداية هي متجهات الكلمات) ، لكنه ينشئ تمثيلًا رقميًا لجملة إدخال كاملة (أو جمل).

بالمقارنة مع نماذج LSTM ، يقوم BERT بالعديد من الأشياء بشكل مختلف.

يقرأ كل الكلمات دفعة واحدة بدلاً من قراءة الكلمات من اليسار إلى اليمين أو من اليمين إلى اليسار
يتم اختيار 15٪ من الكلمات عشوائيًا ليتم "إخفاءها" (يتم استبدالها حرفيًا برمز [MASK]) أثناء وقت التدريب
- 10٪ من الكلمات المختارة عشوائيًا تُترك دون تغيير
- يتم استبدال 10٪ من الكلمات المقنعة بكلمات عشوائية
- (أ) و (ب) يعملان معًا لإجبار النموذج على التنبؤ بكل كلمة في الجملة (النماذج كسولة)
يحاول BERT بعد ذلك توقع جميع الكلمات في الجملة ، ولا تساهم سوى الكلمات المقنعة في وظيفة الخسارة - بما في ذلك الكلمات غير المتغيرة والمستبدلة عشوائيًا
تم تعديل النموذج وفقًا لتنبؤ الجملة التالية. في هذه الخطوة ، يحاول النموذج تحديد ما إذا كانت جملة معينة هي الجملة التالية في النص

التقارب بطيء ، ويستغرق تدريب BERT وقتًا طويلاً. ومع ذلك ، فإنه يتعلم العلاقات السياقية في النص بشكل أفضل بكثير. متجهات الكلمات عبارة عن تمثيلات ضحلة جدًا تحد من التعقيد الذي يمكنها نمذجته - لا يوجد لدى BERT هذا القيد.

يمكن لمعظم الشركات الاستفادة من النماذج المدربة مسبقًا والتي تستخدم العديد من وحدات معالجة الرسومات واستغرق الأمر أيامًا للتدريب على تطبيقها. هناك حالات قليلة لا يمكن فيها استخدام نماذج BERT الحالية في مكانها أو ضبطها وفقًا لحالة استخدام معينة. يسمح BERT للفريق بتسريع الحلول بعشرة أضعاف. يمكن للمرء أن يتحرك لتحديد حل الأعمال ، لبناء دليل على المفهوم ، وأخيراً نقل هذا المفهوم إلى الإنتاج في جزء صغير من الوقت.

تنفيذ BERT ومقارنة قيمة الأعمال

نظرًا لأن هذه المقالة تركز على التطبيقات التجارية والهندسية لبناء منتج حقيقي ، فسنقوم بإنشاء وتدريب نموذجين لفهم القيمة المقارنة بشكل أفضل.

بيرت: خط أنابيب بيرت الأكثر وضوحًا. نقوم بمعالجة النص بطريقة قياسية ، وننتج ترميز جملة BERT ، ونقوم بتغذية ترميزات الجملة هذه في شبكة عصبية ضحلة
LSTM: معيار Embed - Encode - Attend - Pred architecture (في الصورة أعلاه)

المهمة؟ توقع أصل الأفلام بناءً على حبكتها من موقع IMDB. تغطي مجموعة البيانات الخاصة بنا أفلامًا من أمريكا ، وأستراليا ، وبريطانيا ، وكندا ، ويابانية ، وصينية ، وكورية جنوبية ، وروسية بالإضافة إلى ستة عشر فيلمًا آخر لما مجموعه 24 فيلمًا. لدينا أقل من 35000 مثال تدريب.

هنا هو مثال مقتطف من مؤامرة.

منذ آلاف السنين ، حاول Steppenwolf وجحافله من Parademons الاستيلاء على الأرض بالطاقات المشتركة لثلاث صناديق الأم. تم إحباطهم من قبل جيش موحد يضم الآلهة الأولمبية ، والأمازون ، والأطلنطيين ، والبشرية ، وفيلق الفانوس الأخضر. بعد صد جيش Steppenwolf ، تم فصل "Mother Boxes" وإخفائها في مواقع على هذا الكوكب. في الوقت الحاضر ، تعيش البشرية في حداد على سوبرمان ، الذي أدى موته إلى إعادة تنشيط "الصناديق الأم" وعودة Steppenwolf إلى الأرض في محاولة لاستعادة سمعته مع سيده Darkseid. يهدف Steppenwolf إلى جمع القطع الأثرية لتشكيل "الوحدة" ، والتي ستدمر بيئة الأرض وتعيد تشكيلها على صورة ...

إذا لم تكن قد خمنت ، فهذه هي حبكة فيلم Justice League - فيلم أمريكي.

النتائج

قمنا بتدريب مجموعة متنوعة من المعلمات لفهم كيفية استجابة النتائج لكميات متفاوتة من البيانات وأحجام النماذج. كما قلنا ، فإن أهم قيمة مضافة من BERT هي الحاجة إلى بيانات أقل بكثير.

بالنسبة لنموذج LSTM ، قمنا بتدريب أكبر نموذج يمكننا استخدامه على وحدة معالجة الرسومات الخاصة بنا وقمنا بتغيير حجم المفردات وطول الكلمة للعثور على النموذج الأفضل أداءً. بالنسبة لنموذج بيرت ، لم يكن لدينا أكثر من طبقة واحدة.

لقد أصلحنا مجموعة الاختبار الخاصة بنا عبر كل هذه العينات ، لذلك نحن نسجل باستمرار نفس مجموعة التدريب.

في هذه المهمة ، وصل النموذج الذي تم تدريبه باستخدام ترميز جمل BERT إلى درجة F1 مثيرة للإعجاب تبلغ 0.84 بعد 1000 عينة فقط. لا تتجاوز شبكة LSTM أبدًا 0.60. والأكثر إثارة للإعجاب ، أن تدريب نماذج BERT استغرق في المتوسط 1/20 من الوقت من إعداد نماذج LSTM.

خاتمة

بأي مقياس ، تشير هذه النتائج إلى ثورة في البرمجة اللغوية العصبية. باستخدام بيانات أقل 100 مرة ووقت تدريب أقل 20 مرة ، حققنا نتائج عالمية المستوى. إن القدرة على تدريب نماذج عالية الجودة في ثوانٍ أو دقائق بدلاً من ساعات أو أيام تفتح البرمجة اللغوية العصبية في المناطق التي لم يكن من الممكن توفيرها فيها سابقًا.

يستخدم BERT العديد من الاستخدامات أكثر من تلك الموجودة في هذا المنشور. هناك نماذج متعددة اللغات. يمكن استخدامه لحل العديد من مهام البرمجة اللغوية العصبية المختلفة ، إما بشكل فردي كما في هذا المنشور أو باستخدام مخرجات متعددة في نفس الوقت. تم تعيين ترميزات جمل BERT لتصبح حجر الزاوية للعديد من مشاريع البرمجة اللغوية العصبية للمضي قدمًا.

الكود وراء هذا المنشور متاح على جيثب. أشجع القراء أيضًا على التحقق من Bert-as-a-service ، والذي كان حجر الزاوية في بناء ترميز جملة BERT لهذا المنشور.

الموضوعات ذات الصلة: الحصول على أقصى استفادة من النماذج المدربة مسبقًا