أربع مزالق من دقة تحليل المشاعر

نشرت: 2022-03-11

يستخدم الأشخاص المنتديات والشبكات الاجتماعية والمدونات ومنصات أخرى لمشاركة آرائهم ، وبالتالي توليد كمية هائلة من البيانات. وفي الوقت نفسه ، يرغب المستخدمون أو المستهلكون في معرفة المنتج الذي يشترونه أو الفيلم الذي يشاهدونه ، لذلك يقرؤون أيضًا المراجعات ويحاولون اتخاذ قراراتهم وفقًا لذلك.

يستغرق جمع المعلومات يدويًا حول البيانات التي ينشئها المستخدم وقتًا طويلاً. لهذا السبب يهتم المزيد والمزيد من الشركات والمؤسسات بأساليب التحليل التلقائي للمشاعر لمساعدتهم على فهم ذلك.

ما هو تحليل المشاعر؟

تحليل المشاعر هو عملية دراسة آراء الناس وعواطفهم ، بشكل عام باستخدام القرائن اللغوية. للوهلة الأولى ، إنها مجرد مشكلة تصنيف نص ، ولكن إذا تعمقنا ، سنكتشف أن هناك الكثير من المشكلات الصعبة التي تؤثر بشكل خطير على دقة تحليل المشاعر. أدناه ، سأستكشف بعض المزالق التي تواجهها أثناء العمل على مشكلة تحليل المشاعر العامة:

السخرية والسخرية
أنواع النفي
غموض كلمة
تعدد الأقطاب

سنستعرض كل موضوع ونحاول فهم كيفية تأثير المشكلات الموصوفة على جودة مصنف المشاعر وأي التقنيات يمكن استخدامها لحلها.

تحدي تحليل المشاعر رقم 1: كشف السخرية

في النص الساخر ، يعبر الناس عن مشاعرهم السلبية باستخدام كلمات إيجابية. تسمح هذه الحقيقة للسخرية بخداع نماذج تحليل المشاعر بسهولة ما لم تكن مصممة خصيصًا لأخذ احتمالية ذلك في الاعتبار.

تحدث السخرية غالبًا في المحتوى الذي ينشئه المستخدم مثل تعليقات Facebook والتغريدات وما إلى ذلك. من الصعب جدًا اكتشاف السخرية في تحليل المشاعر دون وجود فهم جيد لسياق الموقف والموضوع المحدد والبيئة.

قد يكون من الصعب فهمه ليس فقط للآلة ولكن أيضًا للإنسان. يجعل التباين المستمر في الكلمات المستخدمة في الجمل الساخرة من الصعب تدريب نماذج تحليل المشاعر بنجاح. يجب مشاركة الموضوعات والاهتمامات والمعلومات التاريخية المشتركة بين شخصين لإتاحة السخرية.

أولاً ، لنلقِ نظرة على السخرية من منظور علم اللغة ، حيث تتم دراسة السخرية على نطاق واسع. في واحدة من أكثر الأبحاث التي يتم الاستشهاد بها في هذا المجال ، تقترح الكاتبة إليزابيث كامب الأنواع الأربعة التالية من السخرية:

اقتراح: يبدو أن السخرية عبارة عن اقتراح غير عاطفي ولكن ينطوي على شعور ضمني.
مضمن: يحتوي السخرية على تناقض في المشاعر في شكل كلمات وعبارات بحد ذاتها.
مثل البادئة: توفر عبارة متشابهة إنكارًا ضمنيًا للحجة التي يتم إجراؤها.
الخطاب: الأفعال غير الكلامية (لغة الجسد ، الإيماءات) تساهم في السخرية.

أنواع السخرية الأربعة في Elisabeth Camp: اقتراح ("يبدو هذا كخطة مثالية!") ، مضمّن ("أحب أن يتم تجاهلي.") ، مثل البادئة ("مثل هؤلاء الرجال يعتقدون بكلمة يقولون.") ، و Illocutionary "(هز الكتفين) مفيد جدا حقا!".

نُشر بحث كامب في عام 2012. في عام 2017 ، أعلن باحثون من جامعة ستانفورد عن بحثهم المثير للاهتمام جدًا "إن قضاء ساعتين لكتابة ورقة هو أمر ممتع!": اكتشاف السخرية في الأجزاء الرقمية من النص حيث تحدثوا عن نوع آخر من السخرية يسمى العددية سخرية . السخرية العددية شائعة جدًا في الشبكات الاجتماعية. تتعلق الفكرة الكامنة وراءها بالتغييرات في القيم العددية التي تؤثر بعد ذلك على قطبية النص. علي سبيل المثال:

"يتمتع هذا الهاتف ببطارية رائعة مدتها 38 ساعة." (غير ساخر)
"يتمتع هذا الهاتف ببطارية رائعة تدوم لمدة ساعتين". (ساخر)

"الجو بالخارج +25 وأنا حار جدًا." (غير ساخر)
"الجو في الخارج -25 وأنا حار جدًا." (ساخر)

"سرنا ببطء شديد - فقط 20 كم / ساعة." (غير ساخر)
"سرنا ببطء شديد - 160 كم / ساعة فقط." (ساخر)

كما نرى ، تختلف هذه الجمل فقط في العدد المستخدم - وبالتالي ، السخرية العددية.

هناك طرق مختلفة للكشف التلقائي عن السخرية ، منها:

على أساس القواعد
الإحصاء
خوارزميات التعلم الآلي
تعلم عميق

الأساليب القائمة على التعلم العميق تكتسب شعبية. خلص كومار ، سوماني ، وباتاشاريا في عام 2017 إلى أن نموذج التعلم العميق (بنية CNN-LSTM-FF) يتفوق على الأساليب السابقة ، حيث وصل إلى أعلى مستوى من الدقة للكشف العددي عن السخرية.

لكن الشبكات العصبية العميقة (DNNs) لم تكن فقط الأفضل من حيث السخرية العددية ، بل تفوقت أيضًا على أساليب كشف السخرية الأخرى بشكل عام. استخدم Ghosh و Veale في بحثهما لعام 2016 مزيجًا من الشبكة العصبية التلافيفية وشبكة ذاكرة طويلة المدى (LSTM) وشبكة DNN. يقارنون نهجهم مع آلات متجه الدعم العودية (SVM) وخلصوا إلى أن بنية التعلم العميق الخاصة بهم هي تحسين لهذه الأساليب.

تحدي تحليل المشاعر رقم 2: كشف النفي

في اللغويات ، يعتبر النفي وسيلة لعكس قطبية الكلمات والعبارات وحتى الجمل. يستخدم الباحثون قواعد لغوية مختلفة لتحديد ما إذا كان النفي يحدث أم لا ، ولكن من المهم أيضًا تحديد نطاق الكلمات التي تتأثر بكلمات النفي.

لا يوجد حجم ثابت لنطاق الكلمات المتأثرة. على سبيل المثال ، في الجملة "لم يكن العرض مثيرًا للاهتمام" ، يكون النطاق هو الكلمة التالية فقط بعد كلمة النفي. لكن بالنسبة لجمل مثل "أنا لا أسمي هذا الفيلم فيلمًا كوميديًا" ، فإن تأثير كلمة النفي "لا" يستمر حتى نهاية الجملة. يتغير المعنى الأصلي للكلمات إذا وقعت كلمة موجبة أو سلبية داخل نطاق النفي - في هذه الحالة ، سيتم إرجاع القطبية المعاكسة.

إن أبسط نهج للتعامل مع النفي في الجملة ، والذي يتم استخدامه في معظم تقنيات تحليل المشاعر الحديثة ، هو وضع علامة على جميع الكلمات على أنها رفضت من إشارة النفي إلى رمز الترقيم التالي. يمكن تغيير فعالية نموذج النفي بسبب البناء المحدد للغة في سياقات مختلفة.

هناك عدة أشكال للتعبير عن الرأي السلبي في الجمل:

يمكن أن يكون النفي صرفيًا حيث يتم الإشارة إليه إما ببادئة ("dis-" ، "non-") أو لاحقة ("-less").
يمكن أن يكون النفي ضمنيًا ، كما هو الحال في "مع هذا الفعل ، سيكون فيلمه الأول والأخير" - يحمل مشاعر سلبية ، ولكن لا يتم استخدام كلمات سلبية.
يمكن أن يكون النفي صريحًا ، كما في "هذا ليس جيدًا".

سيؤدي الحصول على عينات مع أنواع مختلفة من النفي الموصوفة إلى زيادة جودة مجموعة البيانات للتدريب واختبار نماذج تصنيف المشاعر في حالة النفي. وفقًا لأحدث الأبحاث حول الشبكات العصبية المتكررة (RNNs) ، تتفوق البنى المختلفة لنماذج LSTM على جميع الأساليب الأخرى في اكتشاف أنواع النفي في الجمل.

في ورقة تأثير النفي في تحليل المشاعر ، قام نموذج تحليل المشاعر بتقييم 500 مراجعة تم جمعها من Amazon و Trustedreviews.com. أظهر المؤلفون مقارنة بين النماذج مع الكشف عن النفي وبدونه. يوضح تقييمهم كيف أن التفكير في النفي يمكن أن يزيد بشكل كبير من دقة النموذج.

تحدي تحليل المشاعر رقم 3: غموض الكلمات

غموض الكلمات هو مأزق آخر ستواجهه أثناء العمل على مشكلة تحليل المشاعر. تكمن مشكلة غموض الكلمات في استحالة تحديد القطبية مسبقًا لأن قطبية بعض الكلمات تعتمد بشدة على سياق الجملة.

مناهج تحليل المشاعر المعجمية شائعة بين الأساليب الحالية. يحتوي معجم الرأي على كلمات رأي ذات قيمة قطبية. تتوفر بعض معاجم الرأي العام على الإنترنت: SentiWordNet و General Inquirer و SenticNet وغيرها. نظرًا لأن قطبية الكلمات تختلف باختلاف المجالات ، فمن المستحيل تطوير معجم للرأي العام يحتوي على قطبية لكل كلمة. علي سبيل المثال:

"القصة لا يمكن التنبؤ بها."
"عجلة القيادة لا يمكن التنبؤ بها."

يوضح هذان المثالان كيف يؤثر السياق على المشاعر الخاصة بكلمة الرأي. في المثال الأول ، يُتوقع أن تكون كلمة قطبية "غير متوقعة" إيجابية. في الثانية ، قطبية الكلمة نفسها سلبية.

تحدي تحليل المشاعر رقم 4: التعددية القطبية

في بعض الأحيان ، ستظهر جملة أو وثيقة معينة - أو أي وحدة نصية نود تحليلها - تعددية الأقطاب. في هذه الحالات ، قد يكون الحصول على النتيجة الإجمالية فقط للتحليل أمرًا مضللًا ، تمامًا مثل كيف يمكن للمتوسط أحيانًا إخفاء معلومات قيمة حول جميع الأرقام التي تم إدخالها فيه.

تصور عندما يتحدث المؤلفون عن أشخاص أو منتجات أو شركات مختلفة (أو جوانب منها) في مقال أو مراجعة. من الشائع أن يتم انتقاد بعض الموضوعات ومدح بعضها داخل جزء من النص.

هنا ، مجموع قطبية المشاعر سيفقد المعلومات الأساسية. هذا هو السبب في أنه من الضروري استخراج جميع الكيانات أو الجوانب في الجملة مع تسميات المشاعر المعينة وحساب القطبية الكلية فقط إذا لزم الأمر.

لنفكر في مثال يتكون من عدة أقطاب: "جودة الصوت لجهاز الكمبيوتر المحمول الجديد رائعة جدًا ولكن ألوان الشاشة ليست جيدة جدًا."

ستخصص بعض نماذج تحليل المشاعر قطبية سلبية أو محايدة لهذه الجملة. للتعامل مع مثل هذه المواقف ، يجب أن يحدد نموذج تحليل المشاعر قطبية لكل جانب في الجملة ؛ هنا ، "الصوت" هو جانب له قطبية موجبة و "العرض" هو جانب منفصل ذو قطبية سالبة.

للحصول على وصف أكثر تعمقًا لهذا النهج ، أوصي بالورقة الشيقة والمفيدة التعلم العميق لتحليل المشاعر القائمة على الجانب من قبل Bo Wanf و Min Liu من جامعة ستانفورد.

تحسين دقة تحليل المشاعر: هذه ليست حالات متقاربة

تحدثنا في هذا المقال عن المشكلات الشائعة لتصنيف تحليل المشاعر: السخرية ، والنفي ، وغموض الكلمات ، وتعدد الأقطاب. ستساعدك معرفة كل من هذه الأمور على تجنب المشاكل المحتملة: مع الأخذ في الاعتبار المواقف التي ناقشناها سيزيد بشكل كبير من دقة تحليل المشاعر في نموذج التصنيف. أتمنى أن تكون قد وجدت هذه المقالة مقدمة مفيدة للموضوع.

الموضوعات ذات الصلة: الحصول على أقصى استفادة من النماذج المدربة مسبقًا