تحليل المشاعر: حدس وراء تحليل المشاعر في عام 2022

نشرت: 2021-01-02

جدول المحتويات

مقدمة

النص هو أهم وسيلة لإدراك المعلومات للبشر. يتم الحصول على غالبية الذكاء المكتسب من قبل البشر من خلال التعلم وفهم معنى النصوص والجمل من حولهم. بعد سن معينة ، يطور البشر رد فعل جوهري لفهم استنتاج أي كلمة / نص دون معرفة ذلك.

بالنسبة للآلات ، هذه المهمة مختلفة تمامًا. لاستيعاب معاني النصوص والجمل ، تعتمد الآلات على أساسيات معالجة اللغة الطبيعية (NLP). التعلم العميق لمعالجة اللغة الطبيعية هو التعرف على الأنماط المطبق على الكلمات والجمل والفقرات ، بنفس الطريقة التي يتم بها تطبيق رؤية الكمبيوتر على التعرف على الأنماط المطبقة على وحدات البكسل في الصورة.

لا أحد من نماذج التعلم العميق هذه يفهم حقًا النص بالمعنى الإنساني ؛ بدلاً من ذلك ، يمكن لهذه النماذج تعيين البنية الإحصائية للغة المكتوبة ، وهو ما يكفي لحل العديد من المهام النصية البسيطة. يعد تحليل المشاعر أحد هذه المهام ، على سبيل المثال: تصنيف مشاعر السلاسل أو مراجعات الأفلام على أنها إيجابية أو سلبية.

هذه لها تطبيقات واسعة النطاق في الصناعة أيضًا. على سبيل المثال: ترغب شركة السلع والخدمات في جمع بيانات عدد المراجعات الإيجابية والسلبية التي تلقتها لمنتج معين للعمل على دورة حياة المنتج وتحسين أرقام مبيعاتها وجمع آراء العملاء.

تعلم دورة التعلم الآلي عبر الإنترنت من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.

قراءة: أفكار مشروع التعلم الآلي

المعالجة

يمكن تقسيم مهمة تحليل المشاعر إلى خوارزمية بسيطة للتعلم الآلي تحت الإشراف ، حيث يكون لدينا عادةً إدخال X ، والذي يدخل في وظيفة توقع للحصول على ثم نقارن تنبؤنا بالقيمة الحقيقية Y ، وهذا يعطينا التكلفة التي نستخدمها بعد ذلك لتحديث المعلمات للتعامل مع مهمة استخلاص المشاعر من تدفق نصوص غير مرئي سابقًا ، فإن الخطوة البدائية هي جمع مجموعة بيانات مصنفة بمشاعر إيجابية وسلبية منفصلة. يمكن أن تكون هذه المشاعر: مراجعة جيدة أو مراجعة سيئة ، أو ملاحظة ساخرة أو ملاحظة غير ساخرة ، إلخ.

تتمثل الخطوة التالية في إنشاء متجه للبعد V ، حيث يتوافق سيحتوي متجه المفردات هذا على كل كلمة (لا توجد كلمة مكررة) الموجودة في مجموعة البيانات الخاصة بنا ، وسوف يعمل كمعجم لآلتنا يمكن أن يشير إليه. الآن نقوم بمعالجة متجه المفردات لإزالة التكرار. يتم تنفيذ الخطوات التالية:

إزالة عناوين URL وغيرها من المعلومات غير التافهة (التي لا تساعد في تحديد معنى الجملة)
تحويل السلسلة إلى كلمات: لنفترض أن لدينا السلسلة "أحب التعلم الآلي" ، والآن من خلال الترميز ، نقوم ببساطة بتقسيم الجملة إلى كلمات مفردة وتخزينها في قائمة مثل [أنا ، أحب ، آلة ، تعلم]
إزالة كلمات التوقف مثل "و" ، "أنا" ، "أو" ، "أنا" ، إلخ.
الاشتقاق: نقوم بتحويل كل كلمة إلى شكلها الجذعي. كلمات مثل "ضبط" و "ضبط" و "ضبط" لها نفس المعنى من الناحية اللغوية ، لذا فإن تقليلها إلى شكلها الجذعي الذي هو "ضبط" سيقلل من حجم المفردات
تحويل كل الكلمات إلى أحرف صغيرة

لتلخيص خطوة المعالجة المسبقة ، دعنا نلقي نظرة على مثال: لنفترض أن لدينا سلسلة موجبة "أنا أحب المنتج الجديد في upGrad.com" . يتم الحصول على السلسلة النهائية المعالجة مسبقًا عن طريق إزالة عنوان URL ، وترميز الجملة في قائمة واحدة من الكلمات ، وإزالة كلمات التوقف مثل "أنا ، أنا ، في ،" ، ثم اشتقاق الكلمات "محب" إلى "أحب" و "منتج" إلى "produ" وأخيراً تحويل كل شيء إلى أحرف صغيرة مما ينتج عنه القائمة [lov ، new ، produ] .

ميزة استخراج

بعد معالجة المدونة مسبقًا ، ستكون الخطوة التالية هي استخراج الميزات من قائمة الجمل. مثل جميع الشبكات العصبية الأخرى ، لا تأخذ نماذج التعلم العميق كمدخلات للنص الخام: فهي تعمل فقط مع الموترات الرقمية.

ومن ثم فإن قائمة الكلمات المجهزة مسبقًا تحتاج إلى تحويلها إلى قيم عددية. ويمكن القيام بذلك على النحو التالي. افترض أنه تم تقديم مجموعة من السلاسل ذات السلاسل الإيجابية والسلبية مثل (افترض أن هذا هو مجموعة البيانات) :
السلاسل الإيجابية السلاسل السلبية
أنا سعيد لأنني أتعلم البرمجة اللغوية العصبية
أنا سعيد
أنا حزين ، أنا لا أتعلم البرمجة اللغوية العصبية
أنا حزينة
الآن لتحويل كل من هذه السلاسل إلى متجه عددي للبعد 3 ، نقوم بإنشاء قاموس لتعيين الكلمة ، والفئة التي ظهرت فيها (موجبة أو سالبة) إلى عدد المرات التي ظهرت فيها تلك الكلمة في فئتها المقابلة.

كلمات التردد الإيجابي التردد السلبي
أنا 3 3
صباحا 3 3
سعيدة 2 0
لأن 1 0
التعلم 1 1
البرمجة اللغوية العصبية 1 1
حزين 0 2
ليس 0 1
بعد إنشاء القاموس المذكور أعلاه ، ننظر إلى كل سلسلة على حدة ، ثم نجمع عدد التردد الموجب والسالب للكلمات التي تظهر في السلسلة مع ترك الكلمات التي لا تظهر في السلسلة. لنأخذ السلسلة "أنا حزين ، أنا لا أتعلم البرمجة اللغوية العصبية" ونولد متجه البعد 3.
"أنا حزين ، لا أتعلم البرمجة اللغوية العصبية"
كلمات التردد الإيجابي التردد السلبي
أنا 3 3
صباحا 3 3
سعيدة 2 0
لأن 1 0
التعلم 1 1
البرمجة اللغوية العصبية 1 1
حزين 0 2
ليس 0 1
المجموع = 8 المجموع = 11
نرى أنه بالنسبة للسلسلة "أنا حزين ، أنا لا أتعلم البرمجة اللغوية العصبية" ، كلمتان فقط "سعيد ، لأن" ليست مضمنة في المفردات ، الآن لاستخراج الميزات وإنشاء المتجه المذكور ، نقوم بتلخيص التردد الموجب والسالب بشكل منفصل مع استبعاد عدد تكرار الكلمات غير الموجودة في السلسلة ، في هذه الحالة نترك "سعيد ، لأن". نحصل على مجموع 8 للتردد الموجب و 9 للتردد السالب.

ومن ثم ، فإن الجملة "أنا حزين ، لا أتعلم البرمجة اللغوية العصبية" يمكن تمثيلها على أنها متجه الرقم "1" الموجود في الفهرس 0 هو وحدة التحيز التي ستبقى "1" لجميع السلاسل التالية والأرقام "8" ، "11" تمثل مجموع الترددات الموجبة والسالبة على التوالي.
بطريقة مماثلة ، يمكن تحويل جميع السلاسل في مجموعة البيانات إلى متجه ذي بُعد 3 بشكل مريح.
اقرأ أيضًا: شرح نماذج التعلم الآلي
تطبيق الانحدار اللوجستي
يجعل استخراج الميزة من السهل فهم جوهر الجملة ولكن الآلات لا تزال بحاجة إلى طريقة أكثر وضوحًا للإشارة إلى سلسلة غير مرئية إلى إيجابية أو سلبية. هنا يتم تشغيل الانحدار اللوجستي الذي يستخدم الدالة السينية التي تنتج احتمالًا بين 0 و 1 لكل سلسلة متجهة.

افكار اخيرة
أيضًا ، إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع برنامج IIIT-B & upGrad's Executive PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، حالة خريجي IIIT-B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع كبرى الشركات.
قيادة الثورة التكنولوجية التي يقودها الذكاء الاصطناعي
تقدم بطلب للحصول على برنامج الشهادة المتقدم في التعلم الآلي والتعلم العميق من IIITB