أهم مشاريع البرمجة اللغوية العصبية على Github يجب أن تكون عمليًا [2022]

نشرت: 2021-01-01

للذكاء الاصطناعي فروع متعددة ، ظهرت منها معالجة اللغة الطبيعية (NLP) كأداة قوية في العصر الجديد. يعود البرمجة اللغوية العصبية إلى الخمسينيات من القرن الماضي عندما أصدر آلان تورينج مقالًا - " آلات الحوسبة والذكاء " - اقترح اختبارًا (يُعرف الآن باسم اختبار تورينج ) يتضمن ترجمة آلية وتوليد لغات بشرية طبيعية. ومع ذلك ، اكتسب البرمجة اللغوية العصبية مؤخرًا شهرة وشعبية على مستوى العالم.

جدول المحتويات

ما هي معالجة اللغة الطبيعية؟
أعلى مشاريع GitHub البرمجة اللغوية العصبية
- 1. إعادة صياغة التعريف
- 2. وثيقة تشابه
- 3. التنبؤ بالنص
- 4. علم العبقرية
- 5. استخراج شعور الأسهم من عناوين الأخبار
- 6. روبوت ذكي
- 7. CitesCyVerse
- 8. Data Science Capstone - نصوص معالجة البيانات
- 9. منشئ النص
- 10. توقع سهم Reddit
- 11. Me_Bot
- 12. محلل عاطفة الكلام
خاتمة
ما هي التحديات الرئيسية في معالجة اللغة الطبيعية؟
ما هو نموذج البرمجة اللغوية العصبية الذي يعطي أفضل دقة؟
ما هو الترميز في البرمجة اللغوية العصبية؟

ما هي معالجة اللغة الطبيعية؟

تتمحور معالجة اللغة الطبيعية حول تسهيل الاتصالات بين الإنسان والآلة. يهدف إلى تدريب أجهزة الكمبيوتر على فهم اللغات البشرية الطبيعية وتفسيرها والتعامل معها. يستلهم البرمجة اللغوية العصبية (NLP) من تخصصات متعددة مثل الذكاء الاصطناعي وعلوم الكمبيوتر واللغويات الحاسوبية.

يتواصل البشر بلغاتهم الأصلية مثل الإنجليزية واليابانية والإسبانية وما إلى ذلك ، بينما تتحدث أجهزة الكمبيوتر بلغتهم الأم ، وهي لغة ثنائية. بينما لا تستطيع أجهزة الكمبيوتر فهم لغاتنا البشرية الطبيعية ، فإن لغة الآلة غالبًا ما تكون غير مفهومة لمعظم الناس.

هذا هو المكان الذي تدخل فيه البرمجة اللغوية العصبية لسد الفجوة بين التواصل البشري وفهم الكمبيوتر. تعمل معالجة اللغة الطبيعية على تمكين وتدريب أجهزة الكمبيوتر على التواصل مع البشر بلغتهم الأم من خلال مساعدتهم على قراءة النصوص وسماع الكلام وتفسير الرسائل الصوتية / النصية وقياس المشاعر وغير ذلك الكثير.

مع انفجار البيانات الناتج عن التفاعلات والمعاملات اليومية في العالم الرقمي ، أصبحت معالجة اللغة الطبيعية أكثر أهمية للشركات. بفضل البرمجة اللغوية العصبية (NLP) ، يمكن للشركات تسخير كميات هائلة من بيانات الأعمال الأولية ، ومحادثات الوسائط الاجتماعية ، وما إلى ذلك ، لفهم البيانات واتخاذ قرارات موجهة نحو البيانات.

في هذه المقالة ، سنقوم بإدراج 12 مشروعًا في البرمجة اللغوية العصبية على GitHub لإلهامك! سيساعد العمل في هذه المشاريع على إثراء معرفة المجال الخاص بك وصقل مهاراتك في العالم الحقيقي.

أعلى مشاريع GitHub البرمجة اللغوية العصبية

1. إعادة صياغة التعريف

اكتشاف إعادة الصياغة هو أحد تطبيقات البرمجة اللغوية العصبية الذي يكتشف ما إذا كانت جملتان مختلفتان لهما نفس المعنى أم لا. يستخدم على نطاق واسع في الترجمة الآلية ، والإجابة على الأسئلة ، واستخراج / استرجاع المعلومات ، وتلخيص النص ، وتوليد اللغة الطبيعية.

هذا مشروع سهل الاستخدام للمبتدئين حيث ستقوم ببناء نظام تعريف معاد الصياغة يمكنه تحديد أوجه التشابه والاختلاف بين كيانين نصيين (على سبيل المثال ، الجمل) من خلال تطبيق التحليلات النحوية والدلالية عليها.

2. وثيقة تشابه

هذا مشروع آخر صديق للمبتدئين يهدف إلى تحديد أوجه التشابه بين وثيقتين باستخدام طريقة تشابه جيب التمام. من خلال إيجاد أوجه التشابه بين الورقتين ، سيسلط هذا المشروع الضوء على الموضوعات المشتركة للمناقشة.

يحول تشابه جيب التمام وثيقتين إلى متجهات لحساب التشابه بين تلك المتجهات. يقوم بحساب أوجه التشابه في المستند عن طريق أخذ مساحة المنتج الداخلية التي تقيس زاوية جيب التمام بينهما.

3. التنبؤ بالنص

في هذا المشروع ، ستنشئ تطبيقًا يمكنه التنبؤ بالكلمة التالية أثناء كتابة الكلمات. الأدوات المستخدمة لإنشاء مشروع التنبؤ النصي هذا تتضمن معالجة اللغة الطبيعية ، وتعدين النص ، ومجموعة أدوات R.

يستخدم المشروع مقدر الاحتمالية القصوى مع Kneser Ney Smoothing كنموذج التنبؤ. تم تصميم التنبؤ بناءً على مجموعة الكلمات المخزنة في قاعدة البيانات المستخدمة لتدريب النموذج. يمكنك العثور على المجموعة الكاملة من الموارد لهذا المشروع على GitHub.

4. علم العبقرية

هذا المشروع جزء من مشروع علم النجاح . الهدف هنا هو تحديد ما إذا كانت العوامل المعجمية المحددة يمكن أن تشير إلى الاهتمام الذي تلقته المقالة ، كما تم قياسه بواسطة مؤشرات الاقتباس الموحدة ، باستخدام مجموعة من علوم البيانات وأدوات تحليل البرمجة اللغوية العصبية.

في المراحل الأولية ، يركز هذا المشروع على دراسة التباين الزمني والتخصصي في الطول والميزات النحوية لعناوين المقالات في Web of Science - وهي مجموعة بيانات تحتوي على أكثر من 50 مليون مقالة منشورة منذ عام 1900. الصورة الأكبر هي إنشاء نموذج كمي يمكنها تقدير تأثير الورقة العلمية بدقة على المجتمع.

5. استخراج شعور الأسهم من عناوين الأخبار

كما يوحي العنوان ، ستستخدم تحليل المشاعر في عناوين الأخبار المالية من Finviz لإنتاج رؤى استثمارية في هذا المشروع. ستساعدك تقنية تحليل المشاعر على فهم وتفسير المشاعر الكامنة وراء العناوين الرئيسية والتنبؤ بما إذا كان وضع السوق الحالي في صالح سهم معين أم لا.

6. روبوت ذكي

يتضمن هذا المشروع بناء روبوت ذكي يمكنه تحليل ومطابقة النتائج من مستودع معين للإجابة على الأسئلة. يستخدم الروبوت WordNet لهذه العملية. يوازن سياق السؤال المتعلق بالعلامات في المستندات المهيكلة (مثل الرؤوس والعناوين الغامقة وما إلى ذلك). نظرًا لأنه يحتفظ بالسياق ، يمكنك طرح أسئلة ذات صلة حول نفس الموضوع.

على سبيل المثال ، إذا كنت ترغب في الاستعلام عن مقالة Wikipedia ، فيمكنك استخدام النموذج "أخبرني عن XYZ" والاستمرار في طرح أسئلة مماثلة بمجرد إنشاء السياق. مرة أخرى ، يمكنك الاستعلام عن صفحة ويب من خلال ذكر عنوان URL الخاص بالصفحة كمصدر مثل " https://www.microsoft.com/en-us/software-download/faq ." يعمل هذا بشكل جيد للغاية مع صفحات الأسئلة الشائعة والأسئلة والأجوبة.

7. CitesCyVerse

تم تصميم مشروع CitesCyVerse على مستخرج المعرفة بالاقتباس العلمي . CitesCyVerse هي أداة مفتوحة المصدر تستفيد من التعلم الآلي ومعالجة اللغات الطبيعية لمساعدة الباحثين في الطب الحيوي على فهم كيفية استخدام الآخرين لعملهم من خلال تحليل المحتوى في المقالات التي تستشهد بها. باستخدام ML و NLP ، تستخرج CitesCyVerse الموضوعات والمفاهيم البارزة التي تمت مناقشتها في الوثائق المقتبس منها. يمكّن هذا الباحثين من فهم كيفية تأثير عملهم على الآخرين في المجتمع العلمي بشكل أفضل.

يتضمن CitesCyVerse WordClouds التي تنشئ سحبًا جديدة من الكلمات المماثلة المذكورة في الأوراق البحثية. أيضًا ، يحتوي على موضوعات تتيح لك استكشاف الموضوعات الشائعة للمقالات والمنشورات التي تقتبس من CyVerse.

8. Data Science Capstone - نصوص معالجة البيانات

في مشروع تتويج علم البيانات هذا ، ستستخدم البرامج النصية لمعالجة البيانات لإثبات هندسة البيانات بدلاً من إنشاء نموذج n-gram. يمكن لهذه البرامج النصية معالجة المجموعة بأكملها لإنتاج عدد n-grams وتعدادها. يمكنك استخدام هذه البيانات لتطوير خوارزميات النص التنبئي.

لبناء هذا المشروع ، ستحتاج إلى نظام ثنائي النواة (نظرًا لأن معظم البرامج النصية أحادية الخيط) مع ذاكرة وصول عشوائي لا تقل عن 16 جيجابايت. بالنسبة لمتطلبات البرنامج ، فأنت بحاجة إلى - Linux (الأفضل إذا تم اختباره على Ubuntu 14.04) ، و Python (الإصدار 2.7) ، و NLTK (الإصدار 3.0) ، و NumPy.

قراءة: أفكار ومواضيع لمشروع معالجة اللغة الطبيعية

9. منشئ النص

هذا مشروع مثير حيث ستنشئ RNNs لإنشاء نصوص تلفزيونية للعرض الشهير The Simpsons استنادًا إلى مجموعة بيانات نصية لجميع المواسم الـ 27 للعرض. ستقوم RNNs بإنشاء نص جديد لمشهد معين تم تصويره في Moe's Tavern.

مشروع منشئ البرنامج النصي هو جزء من Udacity's Deep Learning Nanodegree. تنفيذ المشروع وارد في: dlnd_tv_script_generation.ipynb

10. توقع سهم Reddit

يسعى هذا المشروع إلى فهم كيفية تأثير منشورات وسائل التواصل الاجتماعي على الأسعار المستقبلية للأسهم الفردية. هنا ، سوف ندرس تأثير منشورات وسائل التواصل الاجتماعي على Reddit ، وخاصة المنتديات الفرعية / المنتديات التي تركز على الاستثمار ، باستخدام أساليب تحليل النص.

يمكنك استخدام ملفات مستودع GitHub لتنظيف وتطبيق تحليل المشاعر على منشورات / تعليقات Reddit واستخدام هذه البيانات لإنشاء نماذج الانحدار. يتضمن المستودع أيضًا الكود الذي يمكنك استخدامه لتطبيق الويب التفاعلي المستخدم لتصور المشاعر في الوقت الفعلي لمؤشرات الأسهم المحددة وإجراء التنبؤات ذات الصلة.

11. Me_Bot

هذا مشروع ممتع في البرمجة اللغوية العصبية حيث ستطور روبوتًا اسمه Me_Bot من شأنه الاستفادة من محادثات WhatsApp الخاصة بك والتعلم منها والتحدث معك تمامًا كما تفعل مع شخص آخر. الفكرة الأساسية هي إنشاء روبوت يتحدث مثلك.

تحتاج إلى تصدير محادثات WhatsApp الخاصة بك من هاتفك وتدريب الروبوت على هذه البيانات. للقيام بذلك ، عليك الذهاب إلى WhatsApp على هاتفك واختيار أي محادثة وتصديرها من إعدادات التطبيق. ثم يمكنك نقل ملف “.txt” الذي تم إنشاؤه إلى مجلد Me_Bot.

12. محلل عاطفة الكلام

يدور هذا المشروع حول إنشاء نموذج ML يمكنه اكتشاف العواطف من المحادثات التي نجريها بشكل شائع في حياتنا اليومية. يمكن لنموذج ML اكتشاف ما يصل إلى خمسة مشاعر مختلفة وتقديم توصيات مخصصة بناءً على حالتك المزاجية.

يعد محرك التوصية القائم على المشاعر ذا قيمة هائلة للعديد من الصناعات حيث يمكنهم استخدامه للبيع للجمهور المستهدف للغاية وشخصيات المشترين. على سبيل المثال ، يمكن لمنصات دفق المحتوى عبر الإنترنت استخدام هذه الأداة لتقديم اقتراحات محتوى مخصصة للأفراد من خلال قراءة مزاجهم الحالي وتفضيلاتهم.

اقرأ أيضًا: التعلم العميق مقابل البرمجة اللغوية العصبية

خاتمة

بهذا نكون قد وصلنا إلى نهاية قائمتنا. تعد مشاريع البرمجة اللغوية العصبية الـ 12 هذه على GitHub ممتازة لصقل مهاراتك في البرمجة وتطوير المشاريع. الأهم من ذلك ، سيساعدك بناء المشروع على إتقان الفروق الدقيقة في معالجة اللغة الطبيعية ، وبالتالي تعزيز معرفة المجال الخاص بك.

إذا كنت ترغب في تحسين مهاراتك في البرمجة اللغوية العصبية ، فأنت بحاجة إلى الحصول على يديك في مشاريع البرمجة اللغوية العصبية هذه. إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

ما هي التحديات الرئيسية في معالجة اللغة الطبيعية؟

تواجه معالجة اللغة الطبيعية الكثير من التحديات. المشكلة الرئيسية هي عدم توفر القوة الحسابية. يتم إنشاء الخوارزميات الحالية للتشغيل في الأنظمة غير المتصلة بالإنترنت والتي تحتاج إلى قوة حسابية ضخمة وقد تستغرق وقتًا أطول لإكمال المعالجة. المشكلة الأخرى هي الموارد المتاحة. إن إنشاء خوارزمية يمكنها العمل بكمية صغيرة من البيانات ليس بالأمر السهل ويستغرق وقتًا أطول. التحدي الآخر هو توافر كميات هائلة من البيانات التي نحتاج إلى معالجتها.

ما هو نموذج البرمجة اللغوية العصبية الذي يعطي أفضل دقة؟

يتم تحقيق أفضل دقة لنماذج البرمجة اللغوية العصبية من خلال تمرير النص عبر سلسلة من المرشحات المتطورة بشكل متزايد. الطبقة الأولى لإزالة كلمات التوقف وعلامات الترقيم والأرقام. بعد ذلك ، يجب اشتقاق النص بالكامل باستخدام أداة Porter الجذعية ، ثم يجب استبدال جميع الكلمات بأشكالها المتقطعة. بعد ذلك ، فإن الخطوة الأخيرة هي إزالة أي كلمات غير موجودة في مفردات تتكون من 200000 كلمة.

ما هو الترميز في البرمجة اللغوية العصبية؟

الترميز هو عملية تقسيم الجملة إلى أجزائها المكونة ، والتي تسمى الرموز المميزة. بعد تطبيق العملية ، يمكننا بسهولة استخراج معنى أو مقصد الجملة. تتم عملية الترميز بعد تقسيم الجملة. في البرمجة اللغوية العصبية ، تُستخدم الرموز لمزيد من المعالجة والتصنيف والتمثيل للجملة. بعض مهام البرمجة اللغوية العصبية التي تتضمن الترميز هي اكتشاف اللغة وعلامات نقاط البيع والتحليل.