التنقيب في البيانات لتحليل الشبكة الاجتماعية التنبؤية
نشرت: 2022-03-11كانت الشبكات الاجتماعية ، بشكل أو بآخر ، موجودة منذ أن بدأ الناس في التفاعل لأول مرة. في الواقع ، ضع شخصين أو أكثر معًا وسيكون لديك أساس شبكة اجتماعية. لذلك ليس من المستغرب أن تصبح الشبكات الاجتماعية عبر الإنترنت في كل مكان ، في عالم الإنترنت في كل مكان اليوم.
في هذا العالم من الشبكات الاجتماعية عبر الإنترنت ، كانت الظاهرة الرائعة بشكل خاص في العقد الماضي هي النمو الهائل لتويتر ، الذي غالبًا ما يوصف بأنه "الرسائل القصيرة للإنترنت". تم إطلاق موقع Twitter في عام 2006 ، وسرعان ما اكتسب شعبية عالمية وأصبح أحد المواقع العشرة الأكثر زيارة في العالم. اعتبارًا من مايو 2015 ، يضم Twitter 302 مليون مستخدم نشط ينتجون مجتمعة 500 مليون تغريدة يوميًا. وهذه الأرقام تتزايد باستمرار.
نظرًا لهذا الحجم الهائل من بيانات الوسائط الاجتماعية ، أصبح المحللون يتعرفون على Twitter باعتباره كنزًا افتراضيًا من المعلومات لاستخراج البيانات ، وتحليل الشبكات الاجتماعية ، ومعلومات لاستشعار اتجاهات الرأي العام وموجات الدعم (أو معارضة) مختلف السياسيين و المبادرات الاجتماعية. تجد شركات علوم البيانات موضوعات اتجاه Twitter مفيدة بشكل متزايد كوكيل قيم لقياس الرأي العام.
تصف هذه المقالة التقنيات التي استخدمتها لإثبات المفهوم الذي حلل بشكل فعال مواضيع اتجاهات تويتر للتنبؤ ، كنموذج لحالة الاختبار ، بأنماط التصويت الإقليمية في الانتخابات الرئاسية البرازيلية 2014.
الانتخابات
أُجريت الانتخابات الرئاسية العامة في البرازيل في 5 أكتوبر 2014. ولم يحصل أي مرشح على أكثر من 50٪ من الأصوات ، لذلك أُجريت انتخابات الإعادة الثانية في 26 أكتوبر.
في الجولة الأولى ، فازت ديلما روسيف (Partido dos Trabalhadores) بنسبة 41.6٪ من الأصوات ، متقدّمة على Aecio Neves (Partido da Social Democracia Brasileira) بنسبة 33.6٪ ، ومارينا سيلفا (Partido Socialista Brasileiro) بنسبة 21.3٪. تنافس روسيف ونيفيز في جولة الإعادة في 26 أكتوبر مع إعادة انتخاب روسيف بهامش ضيق ، 51.6٪ مقابل 48.4٪ لنيفيس. التحليل الوارد في هذه المقالة يتعلق تحديدًا بانتخابات الإعادة في 26 أكتوبر.
حزب Partido dos Trabalhadores (PT) هو أحد أكبر الأحزاب السياسية في البرازيل. وهو الحزب السياسي للرئيسين الحالي والسابق ديلما روس ولويس إيناسيو لولا دا سيلفا. حزب Partido da Social Democracia Brasileira (PSDB) هو الحزب السياسي للرئيس السابق فرناندو إنريكي كاردوسو.
التنقيب عن البيانات واستخراج بيانات موضوع اتجاه تويتر
لقد بدأت التنقيب عن بيانات الوسائط الاجتماعية عن طريق استخراج بيانات Twitter Trend Topic لـ 14 مدينة برازيلية يتم توفير البيانات الخاصة بها عبر Twitter API ، وهي: برازيليا ، بيليم ، بيلو هوريزونتي ، كوريتيبا ، بورتو أليغري ، ريسيفي ، ريو دي جانيرو ، سلفادور ، ساو باولو وكامبيناس وفورتاليزا وجويانيا وماناوس وساو لويس.
لقد استفسرت عن Twitter REST API للحصول على أفضل 10 موضوعات اتجاه Twitter لهذه المدن الـ 14 في فاصل زمني مدته 20 دقيقة (مقيد ببعض القيود التي يفرضها Twitter على واجهة برمجة التطبيقات الخاصة به). يتم قصر الاستعلام على هذه المدن الـ 14 عن طريق تحديد موقع Yahoo! GeoPlanet WOEIDs (أين على معرفات الأرض).
لإثبات صحة هذا المفهوم ، استخدمت Python ومكتبة Twitter (تسمى بذكاء "twitter") للحصول على جميع بيانات الشبكة الاجتماعية ليوم الجولة الثانية (26 أكتوبر) ، وكذلك اليومين السابقين (أكتوبر) 24 و 25). في كل يوم ، قمت بإجراء حوالي 70 استفسارًا مختلفًا للمساعدة في تحديد موضوعات الاتجاه الفوري.
يوجد أدناه مثال على كائن JSON الذي تم إرجاعه ردًا على كل استعلام (كان هذا المثال مستندًا إلى استعلام عن البيانات في 26 أكتوبر الساعة 12:40:00 صباحًا ، ويعرض فقط بيانات Belo Horizonte).
[{"created_at": "2014-10-26T02:32:59Z", "trends": [{"url": "http://twitter.com/search?q=%23GolpeNoJN", "name": "#GolpeNoJN", "query": "%23GolpeNoJN", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23SomosTodosDilma", "name": "#SomosTodosDilma", "query": "%23SomosTodosDilma", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23EAecio45Confirma", "name": "#EAecio45Confirma", "query": "%23EAecio45Confirma", "promoted_content": null}, {"url": "http://twitter.com/search?q=Uilson", "name": "Uilson", "query": "Uilson", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Lucas+Silva%22", "name": "Lucas Silva", "query": "%22Lucas+Silva%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Marcelo+Oliveira%22", "name": "Marcelo Oliveira", "query": "%22Marcelo+Oliveira%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Cruzeiro", "name": "Cruzeiro", "query": "Cruzeiro", "promoted_content": null}, {"url": "http://twitter.com/search?q=Tupi", "name": "Tupi", "query": "Tupi", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22", "name": "Real x Bar\u00e7a", "query": "%22Real+x+Bar%C3%A7a%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Wanessa", "name": "Wanessa", "query": "Wanessa", "promoted_content": null} ], "as_of": "2014-10-26T02:40:03Z", "locations": [{"name": "Belo Horizonte", "woeid": 455821}] }]
مقدمة موجزة لتحليل الشبكة الاجتماعية
نظرية الشبكة الاجتماعية هي دراسة كيفية تفاعل الأشخاص أو المنظمات أو المجموعات مع الآخرين داخل شبكتهم. هناك ثلاثة أنواع أساسية من الشبكات الاجتماعية:
- ترتبط الشبكات المتمركزة حول الذات بعقدة واحدة أو فرد (على سبيل المثال ، أنت وجميع أصدقائك وأقاربك).
- الشبكات الاجتماعية المركزية هي شبكات مغلقة بشكل افتراضي. مثالان شائعان لهذا النوع من الشبكات هما الأطفال في الفصل الدراسي أو العمال داخل المنظمة.
- شبكات النظام المفتوح عبارة عن شبكات لا يتم فيها تحديد الخطوط الحدودية بوضوح ، مما يجعل هذا النوع من الشبكات عادةً ما يصعب دراسته. نوع الشبكة الاجتماعية السياسية التي نقوم بتحليلها في هذه المقالة هو مثال على شبكة النظام المفتوح.
تعتبر الشبكات الاجتماعية شبكات معقدة ، لأنها تعرض ميزات طوبولوجية غير تافهة ، مع أنماط اتصال بين عناصرها ليست عادية بحتة ولا عشوائية بحتة.

يفحص تحليل الشبكة الاجتماعية هيكل العلاقات بين الكيانات الاجتماعية. غالبًا ما تكون هذه الكيانات من الأشخاص ، ولكنها قد تكون أيضًا مجموعات اجتماعية ، ومنظمات سياسية ، وشبكات مالية ، ومقيمين في مجتمع ، ومواطنين في بلد ما ، وما إلى ذلك. لعبت الدراسة التجريبية للشبكات دورًا مركزيًا في العلوم الاجتماعية ، وقد تم تطوير العديد من الأدوات الرياضية والإحصائية المستخدمة لدراسة الشبكات لأول مرة في علم الاجتماع.
إنشاء الشبكة
لإنشاء شبكة باستخدام Twitter Trend Topics ، قمت بتحديد القواعد التالية:
- كل مدينة هي قمة (أي عقدة) في الشبكة.
- إذا كان هناك موضوع اتجاه مشترك واحد على الأقل بين مدينتين ، فهناك ميزة (أي رابط) بين تلك المدينتين.
- يتم ترجيح كل حافة وفقًا لعدد موضوعات الاتجاه المشتركة بين هاتين المدينتين (على سبيل المثال ، كلما زادت موضوعات الاتجاه التي تشترك فيها مدينتان ، زاد الوزن المنسوب إلى الرابط بينهما).
على سبيل المثال ، في 26 أكتوبر ، كان لمدينتي فورتاليزا وكامبيناس 11 موضوعًا مشتركًا ، لذا فإن الشبكة في ذلك اليوم تتضمن ميزة بين فورتاليزا وكامبيناس بوزن 11:
بالإضافة إلى ذلك ، للمساعدة في عملية ترجيح العلاقات بين المدن ، فقد نظرت أيضًا في الموضوعات التي لم تكن مرتبطة بالانتخابات نفسها (الفرضية هي أن المدن التي تشترك في أولويات ومصالح أخرى قد تكون أكثر ميلًا للمشاركة في نفس الميول السياسية ).
على الرغم من أن ترتيب موضوعات الاتجاه قد يكون له بعض الأهمية بالنسبة للتحليل ، لأغراض تبسيط إثبات المفهوم ، اخترت تجاهل ترتيب الموضوعات في قائمة موضوعات الاتجاه.
طوبولوجيا الشبكة
طوبولوجيا الشبكة هي أساسًا ترتيب العناصر المختلفة (الروابط والعقد وما إلى ذلك) للشبكة. بالنسبة للشبكة الاجتماعية التي نقوم بتحليلها ، لا يتغير هيكل الشبكة بشكل كبير عبر الأيام الثلاثة ، حيث تظل عقد الشبكة (أي المدن الأربعة عشر) ثابتة. ومع ذلك ، يمكن اكتشاف الاختلافات في أوزان الروابط بين العقد ، نظرًا لأن عدد موضوعات الاتجاهات الشائعة بين المدن يختلف عبر الأيام الثلاثة ، كما هو موضح في المقارنة أدناه لطوبولوجيا الشبكة في اليوم 24 مقابل اليوم 25.
توقع نتائج الانتخابات باستخدام بيانات موضوع ترند تويتر
لمساعدتنا في توقع نتائج الانتخابات ، فإننا لا ننظر فقط في موضوعات الاتجاهات المشتركة بين المدن ، ولكن أيضًا في كيفية ارتباط محتوى هذه الموضوعات بالدعم المحتمل لكل من الحزبين السياسيين الرئيسيين ؛ على سبيل المثال ، Partido dos Trabalhadores (PT) و Partido da Social Democracia Brasileira (PSDB).
أولاً ، قمت بإنشاء قائمة بالكلمات والعبارات التي يُنظر إليها على أنها تشير إلى ميل إيجابي تجاه أحد الأطراف أو دعمه. (من المسلم به أن ملء هذه القائمة مهمة معقدة للغاية. وفي سياق إثبات المفهوم هذا ، اتبعت عمدًا نهجًا مبسطًا. وإذا كان هناك أي شيء ، فهذا يجعل مستوى النتائج أكثر إثارة للاهتمام ، نظرًا لقائمة المصطلحات الأكثر ضبطًا والعبارات من المفترض أن تحسن دقة النتائج.)
ثم لكل عقدة أحسب:
- عدد روابطه التي تتضمن المصطلحات التي تشير إلى دعم PT
- عدد روابطه التي تتضمن المصطلحات التي تشير إلى دعم PSDB
باستخدام مدينة Fortazela مرة أخرى كمثال ، انتهى بي الأمر بتهم:
Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37
وبالتالي فإننا نستنتج أن سكان فورتاليزا لديهم تفضيل عام لـ Partido dos Trabalhadores (PT).
النتائج والاستنتاجات
بناءً على هذه الخوارزمية ، ينتج عن التحليل نتائج مشابهة بشكل مدهش لنتائج الانتخابات الفعلية ، خاصةً عندما يأخذ المرء في الاعتبار البساطة العامة لمنهجنا. فيما يلي مقارنة بين النتائج التنبؤية استنادًا إلى بيانات Twitter Trend Topic مقارنة بنتائج الانتخابات الحقيقية (يُستخدم اللون الأحمر لتمثيل Partido dos Trabalhadores والأزرق يستخدم لتمثيل Partido da Social Democracia Brasileira):
إن الدقة العلمية المحسنة ، بالإضافة إلى الخوارزميات والمقاييس الأكثر تعقيدًا ، ستؤدي بلا شك إلى تحسين النتائج بشكل أكبر.
فيما يلي بعض المقاييس ، على سبيل المثال ، التي يمكن استخدامها لاستنتاج أهمية العقدة أو تأثيرها ، والتي بدورها يمكن أن تحدد نوع التحليل التنبئي الموضح في هذه المقالة:
مركزية العقدة. توجد العديد من مقاييس مركزية العقدة التي يمكن استخدامها للمساعدة في تحديد العقد الأكثر أهمية أو تأثيرًا في الشبكة. فالمركزية البينية ، على سبيل المثال ، تعتبر العقدة مهمة للغاية إذا كانت تشكل جسورًا بين العديد من العقد الأخرى. من ناحية أخرى ، تستند مركزية القيمة الذاتية إلى أهمية العقدة على عدد العقد الأخرى المهمة للغاية التي ترتبط بها.
معامل التجميع. يقيس معامل التجميع للعقدة مدى اتصال "جيران" العقدة ببعضها البعض. هذا مقياس آخر يمكن أن يكون ذا صلة بتقييم درجة التأثير المفترضة للعقدة على العقد المجاورة لها.
درجة مركزية. تعتمد مركزية الدرجة على عدد الروابط (أي الوصلات) بالعقدة. هذا هو أحد أبسط مقاييس "أهمية" العقدة داخل الشبكة.
ولكن حتى بدون هذا المستوى من التطور ، فإن النتائج التي تحققت من خلال إثبات المفهوم البسيط هذا قدمت عرضًا مقنعًا للتحليل التنبئي الفعال باستخدام بيانات Twitter Trend Topic. من الواضح أن هناك إمكانية لأخذ تحليل بيانات وسائل التواصل الاجتماعي إلى أبعد من ذلك في المستقبل.
مزيد من القراءة على مدونة Toptal Engineering:
- علم بيانات الرسم البياني باستخدام Python / NetworkX