أفضل 15 أداة من أدوات البرمجة اللغوية العصبية في عام 2022 يجب أن يكون كل مهندس تعلم آلي عمليًا

نشرت: 2021-01-01

يعد البرمجة اللغوية العصبية أحد أكثر المجالات رواجًا في مجال الذكاء الاصطناعي / علم البيانات في عام 2022. ولديه مجموعة متنوعة من التطبيقات ويجد حالات استخدامه التي اعتمدتها العديد من الصناعات. أهم الصناعات التي تمارس البرمجة اللغوية العصبية اليوم هي المالية / التكنولوجيا المالية ، والخدمات المصرفية ، والقانون ، والرعاية الصحية ، والتأمين ، والبيع بالتجزئة ، والإعلان والوسائط ، ووسائل النشر ، ويمكن للقائمة أن تطول.

لذلك ، إذا كان شخص ما يتطلع إلى بناء مهنة في الذكاء الاصطناعي ، فمن المؤكد أن البرمجة اللغوية العصبية يجب أن تكون على رأس قائمتهم. في الآونة الأخيرة ، كانت هناك قفزات وأبحاث ملزمة مرتبطة بها. ولكن إذا ضاع المرء في المحيط ، فدعني أدرج أفضل أدوات البرمجة اللغوية العصبية لاستخدامها في عام 2022.

سأصنفها أيضًا على أنها مفيدة ، وأساسية ، ولا غنى عنها حيث تكون المساعدة هي أقل مرتبة ولا غنى عنها هي الأعلى.

جدول المحتويات

أ. الغرض العام

2. NLTK : لا يزال NLTK الجيد مناسبًا في عام 2022 لمجموعة متنوعة من مهام المعالجة المسبقة للنص مثل الترميز ، والاشتقاق ، ووضع العلامات ، والتحليل ، والتفكير الدلالي ، وما إلى ذلك. ولكن حتى لو كان NLTK سهل الاستخدام ، فإن حالة استخدامه محدودة اليوم تطبيق. لا تحتاج العديد من الخوارزميات الحديثة إلى الكثير من المعالجة المسبقة للنص.

  • جيثب : github.com/nltk/nltk
  • الحكم : مفيد
  • السبب : الصلة في عام 2022

2. Spacy : Spacy هي مكتبة NLP مثالية الكل في واحد مع واجهة برمجة تطبيقات سهلة الاستخدام وسهلة الاستخدام. مثل NLTK ، فإنه يدعم أيضًا مجموعة متنوعة من مهام المعالجة المسبقة. لكن أفضل جزء من Spacy هو دعمه للعديد من مهام البرمجة اللغوية العصبية الشائعة مثل NER ، وعلامات POS ، والترميز ، والنمذجة الإحصائية ، وتجزئة الجملة المبنية على بناء الجملة ، وما إلى ذلك ، خارج الصندوق مع أكثر من 59 لغة. سيكون Spacy 3.0 القادم بمثابة تغيير في اللعبة مع دعم هندسة المحولات.

  • جيثب : github.com/explosion/spaCy
  • الحكم : لا غنى عنه
  • السبب : سهل ، يدعم مجموعة متنوعة من المهام المشتركة بسرعة وسرعة.

3. Clean-text : توفر Python regex للتلاعب بالسلسلة ، لكن العمل بنمطها يعد عملًا مؤلمًا. يمكن القيام بهذه المهمة بسهولة باستخدام نص نظيف. إنه بسيط للغاية وسهل الاستخدام ولكنه قوي أيضًا في نفس الوقت. يمكنه حتى تنظيف أحرف ASCII غير الأبجدية الرقمية.

  • جيثب : github.com/jfilter/clean-text
  • الحكم : مفيد
  • السبب : حالة استخدام محدودة ولكنها سهلة الاستخدام.

قراءة: أهم أدوات التعلم العميق

ب. الأدوات القائمة على التعلم العميق:

4. تعانق محولات الوجه : النماذج القائمة على المحولات هي الإحساس الحالي لعالم البرمجة اللغوية العصبية. توفر مكتبة Hugging Face transformers جميع طرز SOTA (مثل BERT و GPT2 و RoBERTa وما إلى ذلك) المستخدمة مع TF 2.0 و Pytorch. يمكن استخدام نماذجهم المدربة مسبقًا خارج الصندوق لمجموعة متنوعة من المهام النهائية مثل NER ، التصنيف التسلسلي ، الإجابة على الأسئلة الاستخراجية ، نمذجة اللغة ، إنشاء النص ، التلخيص ، الترجمة. كما يوفر دعمًا للضبط الدقيق لمجموعة بيانات مخصصة. تحقق من المستندات الممتازة والملحق النموذجي للبدء.

  • جيثب : github.com/huggingface/transformers
  • الحكم : لا غنى عنه
  • السبب : يوفر الإحساس الحالي بعالم البرمجة اللغوية العصبية عددًا كبيرًا من النماذج المدربة مسبقًا لمجموعة متنوعة من المهام النهائية

5. Spark NLP : في الآونة الأخيرة ، تعد Spark NLP هي التي تحدث الضجيج الأكبر في عالم البرمجة اللغوية العصبية ، وخاصة في قطاع الرعاية الصحية. نظرًا لأنه يستخدم Apache Spark كخلفية ، فإن الأداء الممتاز والسرعة مضمونان. تدعي المعايير التي يقدمونها أفضل أداء تدريبي مقارنة بمحولات Hugging Face و TensorFlow و Spacy.

الشيء الوحيد الذي يبرز هو الوصول إلى عدد الكلمات المضمنة مثل BERT و ELMO و Universal Wholesale Encoder و GloVe و Word2Vec وما إلى ذلك ، التي يوفرها. كما يسمح بتدريب نموذج لأي حالة استخدام نظرًا لطبيعة الأغراض العامة. العديد من الشركات ، بما في ذلك FAANG ، تستخدمها.

  • جيثب : github.com/JohnSnowLabs/spark-nlp
  • الحكم : لا غنى عنه
  • السبب : أداء ممتاز بدرجة الإنتاج ، طبيعة الأغراض العامة.

6. الذكاء الاصطناعي السريع : إنه مبني على قمة Pytorch ويمكن استخدامه لتصميم أي إطار عمل ، بما في ذلك يعتمد على البرمجة اللغوية العصبية. واجهات برمجة التطبيقات الخاصة بها بديهية للغاية بهدف الحد الأدنى من التعليمات البرمجية والتركيز على التطبيق العملي أكثر من النظرية. يمكن أيضًا أن يتكامل بسهولة مع محولات الوجه المعانقة. مؤلف المكتبة هو جيريمي هوارد ، الذي يشدد دائمًا على استخدام أفضل الممارسات.

  • جيثب : github.com/fastai/fastai
  • الحكم : أساسي
  • السبب : واجهات برمجة التطبيقات المفيدة ، والتركيز على التطبيق العملي.

7. محولات بسيطة : تعتمد على محولات الوجه المعانقة وتعمل نوعًا من واجهة برمجة التطبيقات عالية المستوى السهلة لذلك. لكن لا تفترض أن هذا هو حدودها. بالنسبة لأي شخص لا يتطلع إلى تصميم معماري مخصص ولكنه يريد تطوير نموذج بناءً على خطوات قياسية ، فلا توجد مكتبة أخرى أفضل منه.

وهو يدعم جميع حالات استخدام البرمجة اللغوية العصبية المستخدمة في الغالب مثل تصنيف النص ، وتصنيف الرمز المميز ، والإجابة على الأسئلة ، ونمذجة اللغة ، وتوليد اللغة ، والتصنيف متعدد الوسائط ، والذكاء الاصطناعي للمحادثة ، وإنشاء تمثيل النص. كما أن لديها مستندات ممتازة.

  • جيثب : github.com/ThilinaRajapakse/simpletransformers
  • الحكم : أساسي
  • السبب : التصرف مثل واجهة برمجة تطبيقات سهلة وعالية المستوى لمحولات Hugging Face

اقرأ أيضًا: كيف تصنع chatbot في Python؟

حالات الاستخدام المتخصصة:

8. راسا : إنها إلى حد بعيد الأداة الأكثر اكتمالا للذكاء الاصطناعي للمحادثة لبناء روبوت محادثة ذكي ، ومساعد قائم على النص والصوت. تدريب مرن للغاية.

  • جيثب :
  • الحكم : مفيد
  • السبب : حالة استخدام محدودة ولكن في نفس الوقت الأفضل في الفصل.

9. TextAttack : ممارس تعلم الآلة المخضرم يزن دائمًا الاختبار أكثر من التدريب. هذا الإطار مخصص للهجمات العدائية ، والتدريب على الخصومة ، وزيادة البيانات في البرمجة اللغوية العصبية. يساعد في التحقق من متانة نظام البرمجة اللغوية العصبية. قد يكون الأمر محيرًا بعض الشيء في البدء به ولكن اتبع مستنداتهم للبدء وفهم الدافع وراء استخدامه.

  • جيثب : github.com/QData/TextAttack
  • الحكم : أساسي
  • السبب : أداة فريدة وقوية.

10. محول الجملة : إن إنشاء تضمين أو تحويل النص إلى متجهات هو لبنة البناء الأساسية لتصميم أي إطار عمل للغة البرمجة اللغوية العصبية. إحدى الأساليب المدرسية القديمة هي استخدام TF-IDF ، لكنها تفتقر إلى السياق. يمكن استخدام المحولات معالجة هذه المشكلة. هناك عدد غير قليل من الأدوات التي يمكن أن تولد زخارف قائمة على المحولات (حتى محولات تعانق الوجه يمكن تعديلها واستخدامها) ، لكن لا أحد منها يجعلها بسيطة تمامًا مثل محول الجملة.

  • جيثب : github.com/UKPLab/sentence-transformers
  • الحكم : مفيد
  • السبب : حالة استخدام محدودة ولكن إنجاز المهمة.

11. بيرتوبيك : إذا كان أي شخص يتطلع إلى تصميم نظام قوي لنمذجة الموضوعات ، فلا تنظر إلى أبعد من بيرتوبيك. يستخدم حفلات الزفاف BERT و c-TF-IDF (النسخة المعدلة للمؤلف من TF-IDF) لإنشاء مجموعات كثيفة تسمح بمواضيع يمكن تفسيرها بسهولة مع الاحتفاظ بالكلمات المهمة في أوصاف الموضوع.

  • جيثب : github.com/MaartenGr/BERTopic
  • الحكم : مفيد
  • السبب : حالة استخدام محدودة ولكن في نفس الوقت الأفضل في الفصل

12. Bert Extractive Summarizer : هذه أداة رائعة أخرى تعتمد على معانقة الوجه التي يمكن استخدامها لتلخيص النص. إنه يلخص نص الإدخال بناءً على السياق ، لذلك لا داعي للقلق بشأن فقد المعلومات القيمة.

  • جيثب : github.com/dmmiller612/bert-extractive-summarizer
  • الحكم : مفيد
  • السبب : حالة استخدام محدودة ولكن في نفس الوقت الأفضل في الفصل

د. أدوات أخرى (غير ترميزية):

13. Doccano : هي أداة بسيطة لكنها قوية لوضع علامات على البيانات ويمكن استخدامها لتمييز تحليل المشاعر ، والتعرف على الكيانات المسماة ، وتلخيص النص ، وما إلى ذلك. هناك عدد قليل جدًا من الأدوات ، ولكن Doccano هو الأسهل في الإعداد والأسرع للذهاب.

  • جيثب : github.com/doccano/doccano
  • الحكم : أساسي
  • السبب : سريع وسهل البدء ، يدعم تنسيقات متعددة.

14. إجراءات Github : في الوقت الحالي ، أفضل ميزة لـ Github ليست مجانية (حتى خاصة) لاستضافة الكود ولكن عمل Github الخاص بها. إنها واحدة من أفضل أدوات CI / CD المتوفرة. إذا كنت لا تستخدمها بطريقة ما ، فأنت تفتقد الكثير. أداة CI / CD تجعل التطوير سريعًا ويمكن الاعتماد عليه.

  • الحكم : لا غنى عنه
  • السبب : أداة CI / CD مجانية مع دعم كبير من المجتمع.

15. DVC (التحكم في إصدار البيانات): البيانات هي قلب أي مشروع لعلوم البيانات ، لذا فإن إدارتها هي المفتاح. DVC مستوحاة من Git. يتكامل مع Git دون عناء. إنها تمكننا من تغيير بياناتنا المُنسخة ذهابًا وإيابًا أو السفر عبر الزمن للبيانات. كما أنه يعمل مع التخزين السحابي مثل aws s3 ، وتخزين blob الأزرق السماوي ، والتخزين السحابي gcp ، وما إلى ذلك.

  • جيثب : github.com/iterative/dvc
  • الحكم : لا غنى عنه
  • السبب : يعمل مع git والتخزين السحابي ويمكن استخدامه لإدارة حجم ضخم من البيانات

إذا كنت ترغب في إتقان التعلم الآلي وتعلم كيفية تدريب وكيل على لعب tic tac toe ، أو لتدريب روبوت محادثة ، وما إلى ذلك ، تحقق من دورة Grad's Machine Learning والذكاء الاصطناعي PG.

ما هي خوارزمية معالجة اللغة الطبيعية الأكثر دقة؟

توفر خوارزمية Naive Bayes النتائج الأكثر دقة. إنه يعمل على مفهوم نظرية بايز. أيضًا ، عند مقارنتها بالخوارزميات الأخرى ، فإنها تتطلب وقت تدريب أقل. يستخدم بشكل رئيسي في حالات مشاكل التصنيف. عندما تكون هناك فئات متعددة معطاة أو يكون تصنيف النص مطلوبًا ، يفضل استخدام خوارزمية Naive Bayes.

هل البرمجة اللغوية العصبية صعبة أم سهلة؟

تعتبر معالجة اللغة الطبيعية مفيدة للغاية ولكنها معقدة بعض الشيء أيضًا. العالم ضخم ، وكذلك عدد اللغات الطبيعية. تأتي كل لغة طبيعية بصيغة ونصوص مختلفة. أيضًا ، يتغير معنى الكلمات عندما يتغير السياق. وبالتالي ، فإن تنفيذ البرمجة اللغوية العصبية مهمة تمامًا ، ولكن إذا كان هذا هو ما يثير اهتمامك حقًا ، فستبدو العملية أسهل بالنسبة لك بمرور الوقت ومع الممارسة.

ما الذي يتم في عملية الاشتقاق في البرمجة اللغوية العصبية؟

مع وجود العديد من اللغات الطبيعية ، قد يصبح تنفيذ البرمجة اللغوية العصبية أمرًا صعبًا للغاية. وهكذا ، للحصول على الكلمة الأولى أو الجذر ، يتم الاشتقاق. بمساعدة القواعد المعممة والفعالة جيدًا ، يتم قطع جميع الرموز المميزة ويتم العثور على الكلمة الأصلية أو الجذر. يتم تنفيذ هذه العملية لتبسيط المهمة.