تلخيص النص في معالجة اللغة الطبيعية: الخوارزميات والتقنيات والتحديات
نشرت: 2020-08-07يعد إنشاء ملخص من جزء معين من المحتوى عملية مجردة للغاية يشارك فيها الجميع. يمكن أن تساعد أتمتة مثل هذه العملية في تحليل الكثير من البيانات ومساعدة البشر على استخدام وقتهم بشكل أفضل لاتخاذ قرارات حاسمة. مع الحجم الهائل للوسائط ، يمكن للمرء أن يكون فعالًا للغاية عن طريق تقليل الزغب حول المعلومات الأكثر أهمية. لقد بدأنا بالفعل في رؤية ملخصات نصية عبر الويب يتم إنشاؤها تلقائيًا.
إذا كنت متكررًا على Reddit ، فربما تكون قد رأيت "Autotldr bot" يساعد بشكل روتيني Redditors من خلال تلخيص المقالات المرتبطة في منشور معين. تم إنشاؤه في عام 2011 فقط وقد وفر بالفعل آلاف ساعات العمل. هناك سوق لملخصات نصية موثوقة ، كما يتضح من اتجاه التطبيقات التي تفعل ذلك تحديدًا ، مثل Inshorts (تلخيص الأخبار في 60 كلمة أو أقل) و Blinkist (كتب التلخيص).
وبالتالي ، يعد التلخيص التلقائي للنص بمثابة حدود مثيرة ولكنها صعبة في معالجة اللغة الطبيعية (NLP) وتعلم الآلة (ML). يرجع الفضل في التطورات الحالية في تلخيص النص التلقائي إلى البحث في هذا المجال منذ الخمسينيات من القرن الماضي عندما نُشرت ورقة هانز بيتر لون بعنوان "الإنشاء التلقائي لملخصات الأدب".
حددت هذه الورقة استخدام ميزات مثل تكرار الكلمات وتكرار العبارة لاستخراج الجمل الأساسية من المستند. تبع ذلك بحث نقدي آخر أجراه Harold P Edmundson في أواخر الستينيات ، والذي سلط الضوء على وجود الكلمات الرئيسية والكلمات المستخدمة في العنوان التي تظهر في النص وموقع الجمل لاستخراج الجمل ذات الأهمية من المستند.
الآن بعد أن قطع العالم خطوات واسعة في التعلم الآلي ونشر دراسات جديدة في هذا المجال ، أصبح التلخيص التلقائي للنص على وشك أن يصبح أداة منتشرة في كل مكان للتفاعل مع المعلومات في العصر الرقمي.
يجب أن تقرأ: راتب مهندس البرمجة اللغوية العصبية في الهند

هناك طريقتان رئيسيتان لتلخيص النص في البرمجة اللغوية العصبية
جدول المحتويات
تلخيص النص في البرمجة اللغوية العصبية
1. التلخيص القائم على الاستخراج
كما يوحي الاسم ، تعتمد هذه التقنية على مجرد استخراج أو سحب العبارات الرئيسية من المستند. ثم يلي ذلك دمج هذه العبارات الرئيسية لتشكيل ملخص متماسك.
2. التلخيص القائم على التلخيص
تعتمد هذه التقنية ، بخلاف الاستخراج ، على القدرة على إعادة صياغة وتقصير أجزاء من المستند. عندما يتم مثل هذا التجريد بشكل صحيح في مشاكل التعلم العميقة ، يمكن للمرء التأكد من وجود قواعد متسقة. لكن هذه الطبقة الإضافية من التعقيد تأتي على حساب كونها أصعب في التطوير من الاستخراج.
هناك طريقة أخرى للتوصل إلى ملخصات عالية الجودة. يُطلق على هذا النهج التلخيص المساعد ، والذي يستلزم جهدًا بشريًا وبرمجيًا مشتركًا. هذا أيضا يأتي في نكهتين مختلفتين
- التلخيص البشري بمساعدة الآلة : تسلط التقنيات الاستخراجية الضوء على المقاطع المرشحة لتضمينها ، والتي قد يضيفها الإنسان أو يزيلها.
- تلخيص الآلة بمساعدة الإنسان : يقوم الإنسان ببساطة بتحرير إخراج البرنامج.
بصرف النظر عن الأساليب الرئيسية لتلخيص النص ، هناك أسس أخرى يتم تصنيف ملخّصات النص بناءً عليها. فيما يلي رؤساء الفئات:
3. تلخيص مفرد مقابل متعدد المستندات
تعتمد المستندات الفردية على التماسك والتكرار غير المتكرر للحقائق لتوليد الملخصات. من ناحية أخرى ، تزيد تلخيصات المستندات المتعددة من فرصة المعلومات الزائدة عن الحاجة وتكرارها.
4. إرشادية مقابل إعلامية
يعتمد تصنيف الملخصات على الهدف النهائي للمستخدم. على سبيل المثال ، في ملخصات النوع الإرشادي ، يتوقع المرء نقاطًا عالية المستوى لمقالة ما. في حين أنه ، في نظرة عامة مفيدة ، قد يتوقع المرء المزيد من تصفية الموضوعات للسماح للقارئ بالتنقل في الملخص.
5. نوع وطول الوثيقة
يؤثر طول نص الإدخال بشكل كبير على نوع نهج التلخيص.
ركزت أكبر مجموعات بيانات التلخيص ، مثل غرفة الأخبار من قبل كورنيل ، على المقالات الإخبارية ، والتي يبلغ متوسط عدد كلماتها 300-1000 كلمة. الملخصات الاستخراجية تتعامل مع هذه الأطوال بشكل جيد نسبيًا. لا يمكن تلخيص مستند متعدد الصفحات أو فصل من الكتاب إلا بشكل كافٍ باستخدام مناهج أكثر تقدمًا مثل التجميع الهرمي أو تحليل الخطاب.
بالإضافة إلى ذلك ، يؤثر نوع النص على الملخص أيضًا. قد تختلف الأساليب التي من شأنها تلخيص المستند التقني التقني اختلافًا جذريًا عن الأساليب التي قد تكون مجهزة بشكل أفضل لتلخيص البيان المالي.
في هذه المقالة ، سنركز على مزيد من التفاصيل حول تقنية تلخيص الاستخراج.
خوارزمية PageRank
تساعد هذه الخوارزمية محركات البحث مثل Google في ترتيب صفحات الويب. دعونا نفهم الخوارزمية بمثال. افترض أن لديك أربع صفحات ويب بمستويات مختلفة من الاتصال فيما بينها. قد لا يكون لأحدهم روابط إلى الثلاثة الآخرين ؛ قد يكون أحدهما متصلاً بالآخر 2 ، وقد يرتبط أحدهما بواحد فقط ، وهكذا.
يمكننا بعد ذلك نمذجة احتمالات التنقل من صفحة إلى أخرى باستخدام مصفوفة تحتوي على n من الصفوف والأعمدة ، حيث يمثل n عدد صفحات الويب. سيمثل كل عنصر داخل المصفوفة احتمال الانتقال من صفحة ويب إلى أخرى. من خلال تعيين الاحتمالات الصحيحة ، يمكن للمرء تحديث مثل هذه المصفوفة بشكل متكرر للوصول إلى تصنيف صفحة الويب.
اقرأ أيضًا: موضوعات ومشروع البرمجة اللغوية العصبية
خوارزمية TextRank
سبب استكشافنا لخوارزمية PageRank هو إظهار كيفية استخدام نفس الخوارزمية لترتيب النص بدلاً من صفحات الويب. يمكن القيام بذلك عن طريق تغيير المنظور عن طريق استبدال الروابط بين الصفحات بالتشابه بين الجمل واستخدام مصفوفة نمط PageRank كدرجة تشابه.
تنفيذ خوارزمية TextRank
المكتبات المطلوبة
- خدر
- الباندا
- نتلك
- يكرر
فيما يلي شرح للكود وراء تقنية تلخيص الاستخراج:
الخطوة 1
اربط كل النص الموجود لديك في المستند المصدر على هيئة كتلة نصية واحدة. والسبب في ذلك هو توفير الشروط حتى نتمكن من تنفيذ الخطوة 2 بسهولة أكبر.
الخطوة 2
نحن نقدم الشروط التي تحدد جملة مثل البحث عن علامات الترقيم مثل النقطة (.) وعلامة الاستفهام (؟) وعلامة التعجب (!). بمجرد أن نحصل على هذا التعريف ، نقوم ببساطة بتقسيم المستند النصي إلى جمل.
الخطوه 3
الآن بعد أن أصبح لدينا وصول إلى جمل منفصلة ، نجد تمثيلات متجهية (تضمين الكلمات) لكل من هذه الجمل. الآن يجب أن نفهم ما هي التمثيلات المتجهة. تضمين الكلمة هي نوع من تمثيل الكلمات التي توفر وصفًا رياضيًا للكلمات ذات المعاني المتشابهة. في الواقع ، هذه فئة كاملة من التقنيات التي تمثل الكلمات كمتجهات ذات قيمة حقيقية في مساحة متجه محددة مسبقًا.

يتم تمثيل كل كلمة بواسطة متجه ذي قيمة حقيقية وله العديد من الأبعاد (أكثر من 100 في بعض الأحيان). يعتمد تمثيل التوزيع على استخدام الكلمات ، وبالتالي ، يسمح للكلمات المستخدمة بطرق مماثلة أن يكون لها أوصاف متشابهة. هذا يسمح لنا بالتقاط معاني الكلمات بشكل طبيعي من خلال قربها من الكلمات الأخرى الممثلة كمتجهات بحد ذاتها.
في هذا الدليل ، سنستخدم المتجهات العالمية لتمثيل الكلمات (GloVe). إن gloVe هي خوارزمية تمثيل الكلمات الموزعة مفتوحة المصدر التي طورها بنينجتون في ستانفورد. فهو يجمع بين ميزات عائلتين نموذجيتين ، وهما عامل المصفوفة الشامل وطرق نافذة السياق المحلية.
الخطوة 4
بمجرد أن نحصل على تمثيل المتجه لكلماتنا ، يتعين علينا توسيع العملية لتمثيل جمل كاملة كمتجهات. للقيام بذلك ، قد نحضر تمثيلات المتجه للمصطلحات التي تشكل كلمات في جملة ثم متوسط / متوسط تلك المتجهات للوصول إلى متجه موحد للجملة.
الخطوة الخامسة
في هذه المرحلة ، لدينا تمثيل متجه لكل جملة فردية. من المفيد الآن تحديد أوجه التشابه بين الجمل باستخدام نهج تشابه جيب التمام. يمكننا بعد ذلك ملء مصفوفة فارغة بأشكال جيب التمام للجمل.
الخطوة 6
الآن بعد أن أصبح لدينا مصفوفة مملوءة بأوجه تشابه جيب التمام بين الجمل. يمكننا تحويل هذه المصفوفة إلى رسم بياني حيث تمثل العقد الجمل ، والحواف تمثل التشابه بين الجمل. سنستخدم في هذا الرسم البياني خوارزمية PageRank سهلة الاستخدام للوصول إلى ترتيب الجملة.
الخطوة 7
لقد قمنا الآن بترتيب جميع الجمل في المقالة بالترتيب من حيث الأهمية. يمكننا الآن استخراج أهم جمل N (على سبيل المثال 10) لإنشاء ملخص.
للعثور على رمز مثل هذه الطريقة ، هناك العديد من هذه المشاريع على Github ؛ هذه المقالة ، من ناحية أخرى ، تساعد في تطوير فهم نفس الشيء.
تحقق من: تطور نمذجة اللغة في الحياة الحديثة
تقنيات التقييم
من العوامل المهمة في ضبط مثل هذه النماذج أن يكون لديك طريقة موثوقة للحكم على جودة الملخصات المنتجة. وهذا يتطلب تقنيات تقييم جيدة ، والتي يمكن تصنيفها على نطاق واسع إلى ما يلي:
- التقييم الداخلي والخارجي :
جوهري: مثل هذا التقييم يختبر نظام التلخيص في حد ذاته. إنهم يقيّمون بشكل أساسي تماسك الملخص والمعلوماتية.
خارجي: يختبر هذا التقييم التلخيص بناءً على كيفية تأثيره على مهمة أخرى. قد يختبر تأثير التلخيص على مهام مثل تقييم الصلة وفهم القراءة وما إلى ذلك.
- بين النصوص وداخل النص :
Inter-textual: تركز هذه التقييمات على تحليل مقارن للعديد من أنظمة التلخيص.
داخل النص: تقيم مثل هذه التقييمات ناتج نظام تلخيص محدد.
- خاص بالمجال ومستقل عن المجال :
مستقل عن المجال: تطبق هذه الأساليب بشكل عام مجموعات من الميزات العامة التي يمكن أن تركز على تحديد مقاطع النص الغني بالمعلومات.
مجال محدد: تستخدم هذه التقنيات المعرفة المتاحة الخاصة بمجال معين على النص. على سبيل المثال ، يتطلب تلخيص نصوص الأدبيات الطبية استخدام مصادر المعرفة الطبية والأنطولوجيا.
- تقييم الملخصات نوعيا :
العيب الرئيسي لتقنيات التقييم الأخرى هو أنها تتطلب ملخصات مرجعية لتكون قادرة على مقارنة ناتج الملخصات التلقائية مع النموذج. هذا يجعل مهمة التقييم صعبة ومكلفة. يجري العمل على بناء مجموعة من المقالات / المستندات والملخصات المقابلة لها لحل هذه المشكلة.
تحديات تلخيص النص
على الرغم من الأدوات المتطورة للغاية لإنشاء الملخصات وتقييمها ، لا تزال هناك تحديات لإيجاد طريقة موثوقة لملخصات النص لفهم ما هو مهم وملائم.
كما تمت مناقشته ، تحاول مصفوفات التمثيل المتجه والتشابه العثور على ارتباطات الكلمات ، لكنها لا تزال تفتقر إلى طريقة موثوقة لتحديد الجمل الأكثر أهمية.
التحدي الآخر في تلخيص النص هو تعقيد اللغة البشرية والطريقة التي يعبر بها الناس عن أنفسهم ، خاصة في النص المكتوب. لا تتكون اللغة من جمل طويلة تحتوي على صفات وظروف لوصف شيء ما فحسب ، بل تتكون أيضًا من جمل نسبية ، والتعيينات ، وما إلى ذلك ، وقد تضيف هذه الأفكار معلومات قيمة لا تساعد في تحديد جوهر المعلومات الرئيسي ليتم تضمينها في الملخص.

"مشكلة الجناس" هي عائق آخر في تلخيص النص. في اللغة ، غالبًا ما نستبدل الموضوع في المحادثة بمرادفاته أو ضمائره. فهم أي ضمير يستبدل المصطلح "مشكلة الجناس".
"مشكلة الكاتافورا" هي المشكلة المعاكسة لمشكلة الجناس. في هذه الكلمات والتفسيرات الغامضة ، يتم استخدام مصطلح معين في النص قبل إدخال المصطلح نفسه.
خاتمة
يشهد مجال تلخيص النص نموًا سريعًا ، ويتم تطوير أدوات متخصصة لمعالجة مهام تلخيص أكثر تركيزًا. مع توفر البرامج مفتوحة المصدر وحزم تضمين الكلمات على نطاق واسع ، يقوم المستخدمون بتوسيع حالة استخدام هذه التقنية.
التلخيص التلقائي للنص هو أداة تتيح قفزة نوعية في الإنتاجية البشرية من خلال تبسيط الحجم الهائل للمعلومات التي يتفاعل معها البشر يوميًا. لا يسمح هذا للناس بتقليل القراءة الضرورية فحسب ، بل يوفر أيضًا الوقت لقراءة الأعمال المكتوبة التي تم التغاضي عنها وفهمها. إنها مسألة وقت فقط أن يتم دمج مثل هذه الملخصات بشكل جيد لدرجة أنها تخلق ملخصات لا يمكن تمييزها عن تلك التي كتبها البشر.
إذا كنت ترغب في تحسين مهاراتك في البرمجة اللغوية العصبية ، فأنت بحاجة إلى الحصول على يديك في مشاريع البرمجة اللغوية العصبية هذه. إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.
ما هي استخدامات البرمجة اللغوية العصبية؟
تُستخدم معالجة اللغة الطبيعية أو معالجة اللغات الطبيعية ، وهي إحدى أكثر التقنيات الحديثة تطوراً وإثارة للاهتمام ، بطرق متنوعة. تشمل أفضل تطبيقاته - التصحيح التلقائي للكلمات ، والتنبؤ التلقائي ، وروبوتات الدردشة والمساعدين الصوتيين ، والتعرف على الكلام في المساعدين الافتراضيين ، وتحليل المشاعر للكلام البشري ، وتصفية البريد الإلكتروني والبريد العشوائي ، والترجمة ، وتحليلات الوسائط الاجتماعية ، والإعلان المستهدف ، وتلخيص النص ، واستئناف البحث عن التوظيف ، من بين أمور أخرى. تساعد التطورات الإضافية في البرمجة اللغوية العصبية التي أدت إلى ظهور مفاهيم مثل فهم اللغة الطبيعية (NLU) على تحقيق دقة أعلى ونتائج أفضل بكثير من المهام المعقدة.
هل يجب علي دراسة الرياضيات لتعلم البرمجة اللغوية العصبية؟
مع وفرة الموارد المتاحة سواء في وضع عدم الاتصال أو عبر الإنترنت ، أصبح من السهل الآن الوصول إلى المواد الدراسية المصممة لتعلم البرمجة اللغوية العصبية. تدور موارد الدراسة هذه حول مفاهيم محددة لهذا المجال الواسع يسمى البرمجة اللغوية العصبية بدلاً من الصورة الأكبر. ولكن إذا كنت تتساءل عما إذا كانت الرياضيات جزء من أي من مفاهيم البرمجة اللغوية العصبية ، فيجب أن تعرف أن الرياضيات جزء أساسي من البرمجة اللغوية العصبية. الرياضيات ، وخاصة نظرية الاحتمالات والإحصاء والجبر الخطي وحساب التفاضل والتكامل ، هي الركائز الأساسية للخوارزميات التي تقود البرمجة اللغوية العصبية. إن امتلاك فهم أساسي للإحصاءات مفيد حتى تتمكن من البناء عليه كما هو مطلوب. ومع ذلك ، لا توجد طريقة لتعلم معالجة اللغة الطبيعية دون الدخول في الرياضيات.
ما هي بعض تقنيات البرمجة اللغوية العصبية المستخدمة لاستخراج المعلومات؟
في هذا العصر الرقمي ، كان هناك ارتفاع كبير في توليد البيانات غير المهيكلة ، بشكل أساسي في شكل صوت وصور ومقاطع فيديو ونصوص من قنوات مختلفة مثل منصات الوسائط الاجتماعية وشكاوى العملاء والاستطلاعات. يساعد البرمجة اللغوية العصبية (NLP) على استخراج معلومات مفيدة من أحجام البيانات غير المهيكلة ، والتي يمكن أن تساعد الشركات. هناك خمس تقنيات معالجة لغوية طبيعية شائعة تُستخدم لاستخراج البيانات الثاقبة ، وهي التعرف على الكيانات المسماة ، وتلخيص النص ، وتحليل المشاعر ، والتنقيب عن الجوانب ، ونمذجة الموضوع. هناك العديد من طرق استخراج البيانات الأخرى في البرمجة اللغوية العصبية ، ولكن هذه هي الأكثر استخدامًا.