إعادة ترتيب النجوم: تحسين نظام تصنيف موقع IMDb

نشرت: 2022-03-11

يستخدم مراقبو الأفلام أحيانًا التصنيفات لتحديد ما يجب مشاهدته. بمجرد القيام بذلك بنفسي ، لاحظت أن العديد من أفضل الأفلام كانت تنتمي إلى نفس النوع: الدراما. جعلني هذا أعتقد أن الترتيب قد يكون له نوع من التحيز في النوع.

كنت على أحد أشهر المواقع لمحبي الأفلام ، IMDb ، والذي يغطي الأفلام من جميع أنحاء العالم ومن أي عام. يعتمد ترتيبها الشهير على مجموعة ضخمة من المراجعات. بالنسبة لتحليل بيانات IMDb هذا ، قررت تنزيل جميع المعلومات المتاحة هناك لتحليلها ومحاولة إنشاء تصنيف جديد ومكرر من شأنه أن يأخذ في الاعتبار مجموعة واسعة من المعايير.

نظام تصنيف IMDb: تصفية بيانات IMDb

تمكنت من تنزيل معلومات حول 242،528 فيلمًا تم إصدارها بين عامي 1970 و 2019 ضمناً. كانت المعلومات التي أعطاني إياها IMDb لكل واحد هي: Rank ، Title ، ID ، Year ، Certificate ، Rating ، Votes ، و Metascore ، Synopsis ، ووقت Runtime ، Genre ، Gross ، و SearchYear .

للحصول على معلومات كافية لتحليلها ، كنت بحاجة إلى حد أدنى لعدد المراجعات لكل فيلم ، لذلك كان أول شيء فعلته هو تصفية الأفلام التي تحتوي على أقل من 500 مراجعة. نتج عن ذلك مجموعة من 33296 فيلمًا ، وفي الجدول التالي ، يمكننا أن نرى تحليلًا موجزًا ​​لمجالاته:

حقل اكتب عدد لاغية يعني الوسيط
مرتبة عامل 0
لقب عامل 0
هوية شخصية عامل 0
سنة كثافة العمليات 0 2003 2006
شهادة عامل 17587
تقييم كثافة العمليات 0 6.1 6.3
الأصوات كثافة العمليات 0 21040 2017
ميتاسكور كثافة العمليات 22350 55.3 56
ملخص عامل 0
مدة العرض كثافة العمليات 132 104.9 100
النوع عامل 0
أزداد عامل 21415
البحث في العام كثافة العمليات 0 2003 2006

ملاحظة: في R ، يشير Factor إلى السلاسل. يكون Rank Gross بهذه الطريقة في مجموعة بيانات IMDb الأصلية نظرًا لوجود آلاف الفواصل على سبيل المثال.

قبل البدء في تحسين النتيجة ، كان عليّ إجراء مزيد من التحليل لمجموعة البيانات هذه. بالنسبة للمبتدئين ، تحتوي الحقول Certificate و Metascore و Gross على أكثر من 50٪ من القيم الخالية ، لذا فهي ليست مفيدة. يعتمد التصنيف بشكل جوهري على التصنيف (المتغير المراد تنقيته) ، وبالتالي ، فإنه لا يحمل أي معلومات مفيدة. وينطبق الشيء نفسه مع ID من حيث أنه معرّف فريد لكل فيلم.

أخيرًا ، Title Synopsis عبارة عن حقول نصية قصيرة. قد يكون من الممكن استخدامها من خلال بعض تقنيات البرمجة اللغوية العصبية ، ولكن نظرًا لأنها كمية محدودة من النص ، فقد قررت عدم أخذها في الاعتبار لهذه المهمة.

بعد هذا المرشح الأول ، بقيت مع Genre Rating Year Votes SearchYear Runtime . في حقل Genre ، كان هناك أكثر من نوع واحد لكل فيلم ، مفصولة بفواصل. لذلك لالتقاط التأثير الإضافي لامتلاك العديد من الأنواع ، قمت بتحويله باستخدام تشفير واحد ساخن. نتج عن ذلك 22 حقلاً منطقيًا جديدًا - واحد لكل نوع - بقيمة 1 إذا كان الفيلم يحتوي على هذا النوع أو 0 غير ذلك.

IMDb تحليل البيانات

لمعرفة الارتباطات بين المتغيرات ، قمت بحساب مصفوفة الارتباط.

مصفوفة ارتباط بين جميع الأعمدة الأصلية المتبقية وأعمدة النوع الجديد. ينتج عن الأرقام القريبة من الصفر مسافات فارغة في الشبكة. ينتج عن الارتباطات السلبية نقاط حمراء وارتباطات موجبة في النقاط الزرقاء. تكون النقاط أكبر وأغمق كلما كان الارتباط أقوى. (تم وصف النقاط البارزة المرئية في نص المقال الرئيسي.)

هنا ، تمثل القيمة القريبة من 1 ارتباطًا إيجابيًا قويًا ، والقيم القريبة من -1 تمثل ارتباطًا سلبيًا قويًا. من خلال هذا الرسم البياني ، قدمت العديد من الملاحظات:

  • Year والبحث العام SearchYear تمامًا. هذا يعني أنه من المحتمل أن يكون لديهم نفس القيم وأن وجود كليهما يماثل وجود واحدة فقط ، لذلك احتفظت Year فقط.
  • توقعت بعض المجالات ارتباطات إيجابية ، مثل:
    • Music مع Musical
    • Action مع Adventure
    • Animation مع Adventure
  • نفس الشيء بالنسبة للارتباطات السلبية:
    • Drama مقابل Horror
    • Comedy ​​مقابل Horror
    • Horror مقابل Romance
  • فيما يتعلق بالمتغير الرئيسي ( Rating ) لقد لاحظت:
    • لها علاقة إيجابية ومهمة مع Runtime Drama .
    • لديها ارتباط أقل مع Votes Biography History .
    • لها علاقة سلبية إلى حد كبير مع Horror سلبية أقل مع Thriller ، Action ، Sci-Fi ، Year .
    • ليس لها أي ارتباطات مهمة أخرى.

يبدو أن الدراما الطويلة كانت جيدة التصنيف ، في حين أن أفلام الرعب القصيرة لم تكن كذلك. في رأيي - لم تكن لدي البيانات للتحقق من ذلك - لم ترتبط بنوع الأفلام التي تدر أرباحًا أكثر ، مثل أفلام Marvel أو Pixar.

قد يكون الأشخاص الذين يصوتون على هذا الموقع ليسوا أفضل ممثل لمعيار عامة الناس. هذا منطقي لأن أولئك الذين يأخذون الوقت الكافي لإرسال التعليقات على الموقع ربما يكونون نوعًا من نقاد الأفلام بمعيار أكثر تحديدًا. على أي حال ، كان هدفي هو إزالة تأثير ميزات الأفلام الشائعة ، لذلك حاولت إزالة هذا التحيز في هذه العملية.

توزيع النوع في نظام تصنيف IMDb

كانت الخطوة التالية هي تحليل توزيع كل نوع على التصنيف. للقيام بذلك ، قمت بإنشاء حقل جديد يسمى Principal_Genre بناءً على النوع الأول الذي ظهر في حقل Genre الأصلي. لتصور هذا ، قمت بعمل رسم بياني للكمان.

مخطط كمان يوضح توزيع التصنيف لكل نوع.

مرة أخرى ، استطعت أن أرى أن Drama ترتبط بدرجة عالية من Horror وترتبط بدرجة أقل. ومع ذلك ، كشف هذا الرسم البياني أيضًا أن الأنواع الأخرى لها درجات جيدة: Biography Animation . ربما لم تظهر ارتباطاتهم في المصفوفة السابقة بسبب وجود عدد قليل جدًا من الأفلام مع هذه الأنواع. لذلك قمت بعد ذلك بإنشاء مخطط شريط التردد حسب النوع.

رسم بياني شريطي يوضح عدد الأفلام الموجودة في قاعدة البيانات لكل نوع. كان للكوميديا ​​والدراما والأكشن ترددات تبلغ حوالي 6000 أو أعلى ؛ تجاوزت الجريمة والرعب 2000 ؛ البقية أقل من 1000.

على نحو فعال ، كانت أفلام Biography Animation تحتوي على عدد قليل جدًا من الأفلام ، كما فعلت Sport Adult . لهذا السبب ، لا ترتبط ارتباطًا وثيقًا Rating .

متغيرات أخرى في نظام تصنيف IMDb

بعد ذلك ، بدأت في تحليل المتغيرات المشتركة المستمرة: Year Votes ووقت Runtime . في الرسم المبعثر ، يمكنك مشاهدة العلاقة بين Rating Year .

مؤامرة مبعثرة للتصنيف والسنوات.

كما رأينا سابقًا ، يبدو أن Year علاقة سلبية بالتصنيف: مع زيادة العام ، يزداد تباين Rating أيضًا ، ويصل إلى قيم سلبية أكثر في الأفلام الجديدة.

بعد ذلك ، قمت بعمل نفس المؤامرة Votes .

مؤامرة مبعثرة من التصنيفات والأصوات.

هنا ، كان الارتباط أوضح: فكلما زاد عدد الأصوات ، ارتفع الترتيب. ومع ذلك ، لم تحصل معظم الأفلام على الكثير من الأصوات ، وفي هذه الحالة ، كان Rating تباين أكبر.

أخيرًا ، نظرت إلى العلاقة مع Runtime .

مخطط مبعثر بين التصنيف ووقت التشغيل.

مرة أخرى ، لدينا نمط مشابه ولكنه أقوى: أوقات التشغيل الأعلى تعني تقييمات أعلى ، ولكن كانت هناك حالات قليلة جدًا لفترات تشغيل عالية.

تحسينات نظام تصنيف IMDb

بعد كل هذا التحليل ، كانت لدي فكرة أفضل عن البيانات التي كنت أتعامل معها ، لذلك قررت اختبار بعض النماذج للتنبؤ بالتقييمات بناءً على هذه الحقول. كانت فكرتي هي أن الاختلاف بين أفضل تنبؤات النموذج لدي Rating الحقيقي من شأنه أن يزيل تأثير السمات المشتركة ويعكس الخصائص المعينة التي تجعل الفيلم أفضل من غيره.

لقد بدأت بأبسط نموذج ، النموذج الخطي. لتقييم النموذج الذي كان يعمل بشكل أفضل ، لاحظت الجذر التربيعي (RMSE) ويعني الأخطاء المطلقة (MAE). إنها مقاييس قياسية لهذا النوع من المهام. أيضًا ، هم على نفس مقياس المتغير المتوقع ، لذلك يسهل تفسيرهم.

في هذا النموذج الأول ، كان RMSE 1.03 و MAE 0.78. لكن النماذج الخطية تفترض الاستقلال عن الأخطاء ، ومتوسط ​​الصفر ، والتباين المستمر. إذا كان هذا صحيحًا ، فيجب أن يبدو الرسم البياني "القيم المتبقية مقابل القيم المتوقعة" كسحابة بدون بنية. لذلك قررت أن أرسمها على الرسم البياني لتأكيد ذلك.

القيم المتبقية مقابل القيم المتوقعة.

استطعت أن أرى أنه حتى 7 في القيم المتوقعة ، كان لها شكل غير منظم ، ولكن بعد هذه القيمة ، لها شكل هبوط خطي واضح. وبالتالي ، كانت افتراضات النموذج سيئة ، وكان لدي أيضًا "تجاوز" على القيم المتوقعة لأنه في الواقع ، لا يمكن أن يكون Rating أكثر من 10.

في تحليل بيانات IMDb السابق ، مع وجود عدد أكبر من Votes ، تحسن Rating ؛ ومع ذلك ، حدث هذا في حالات قليلة وكمية هائلة من الأصوات. قد يتسبب هذا في حدوث تشوهات في النموذج وينتج هذا Rating الزائد. للتحقق من ذلك ، قمت بتقييم ما سيحدث مع هذا النموذج نفسه ، مع إزالة حقل Votes .

مخطط مبعثر للقيم المتبقية في مقابل القيم المتوقعة عند إزالة حقل الأصوات.

كان هذا أفضل بكثير! كان له شكل أوضح وغير منظم بدون قيم متوقعة للفيضان. يعتمد مجال Votes أيضًا على نشاط المراجع وليس سمة من سمات الأفلام ، لذلك قررت التخلي عن هذا المجال أيضًا. كانت الأخطاء بعد إزالتها 1.06 في RMSE و 0.81 على MAE - أسوأ قليلاً ، لكن ليس كثيرًا ، وفضلت أن يكون لدي افتراضات أفضل واختيار ميزة أفضل من أداء أفضل قليلاً في مجموعة التدريب الخاصة بي.

تحليل بيانات IMDb: ما مدى جودة عمل النماذج الأخرى؟

كان الشيء التالي الذي فعلته هو تجربة نماذج مختلفة لتحليل أيها كان أفضل أداء. لكل نموذج ، استخدمت تقنية البحث العشوائي لتحسين قيم المعلمات الفائقة والتحقق من صحة 5 أضعاف لمنع تحيز النموذج. في الجدول التالي تم تقدير الأخطاء التي تم الحصول عليها:

نموذج RMSE ماي
الشبكة العصبية 1.044596 0.795699
التعزيز 1.046639 0.7971921
شجرة الاستدلال 1.05704 0.8054783
GAM 1.0615108 0.8119555
نموذج خطي 1.066539 0.8152524
ريج الخطي المعاقب 1.066607 0.8153331
KNN 1.066714 0.8123369
ريدج بايزي 1.068995 0.8148692
SVM 1.073491 0.8092725

كما ترى ، تعمل جميع النماذج بشكل مشابه ، لذلك استخدمت بعضها لتحليل المزيد من البيانات. أردت معرفة تأثير كل مجال على التصنيف. إن أبسط طريقة للقيام بذلك هي مراقبة معلمات النموذج الخطي. ولكن لتجنب حدوث تشوهات عليها سابقًا ، قمت بتوسيع نطاق البيانات ثم أعدت تدريب النموذج الخطي. كانت الأوزان كما في الصورة هنا.

رسم بياني شريطي لأوزان نموذج خطي تتراوح من -0.25 تقريبًا للرعب إلى ما يقرب من 0.25 للدراما.

في هذا الرسم البياني ، من الواضح أن اثنين من أهم المتغيرات هما Horror Drama ، حيث يكون الأول له تأثير سلبي على التصنيف والثاني إيجابي. هناك أيضًا مجالات أخرى تؤثر إيجابًا - مثل Animation Biography - بينما تؤثر Action Sci-Fi Year سلبًا. علاوة على ذلك ، ليس لـ Principal_Genre تأثير كبير ، لذا من المهم تحديد الأنواع التي يمتلكها الفيلم أكثر من النوع الرئيسي.

من خلال النموذج الإضافي المعمم (GAM) ، استطعت أيضًا رؤية تأثير أكثر تفصيلاً للمتغيرات المستمرة ، والتي كانت في هذه الحالة هي Year .

رسم بياني للسنة مقابل السنة (السنة) باستخدام النموذج الجمعي المعمم. تتبع قيمة s (السنة) منحنى يبدأ بالقرب من 0.6 لعام 1970 ، لتصل إلى ما دون الصفر في 2010 ، وتزداد إلى ما يقرب من 0 مرة أخرى بحلول عام 2019.

هنا ، لدينا شيء أكثر إثارة للاهتمام. بينما كان صحيحًا أنه بالنسبة للأفلام الحديثة ، كان التصنيف يميل إلى الانخفاض ، إلا أن التأثير لم يكن ثابتًا. لديها أدنى قيمة في عام 2010 ثم يبدو أنها "تتعافى". سيكون من المثير للاهتمام معرفة ما حدث بعد تلك السنة في إنتاج الأفلام التي كان من الممكن أن تنتج هذا التغيير.

كان أفضل نموذج هو الشبكات العصبية ، التي كان لديها أدنى مستوى من RMSE و MAE ، ولكن كما ترى ، لم يصل أي نموذج إلى الأداء المثالي. لكن هذا لم يكن خبرا سيئا من حيث هدفي. المعلومات المتاحة تسمح لي بتقدير الأداء بشكل جيد إلى حد ما ، لكنها ليست كافية. هناك بعض المعلومات الأخرى التي لم أستطع الحصول عليها من IMDb والتي تجعل Rating يختلف عن النتيجة المتوقعة بناءً على Genre Runtime Year . قد يكون أداء الممثل أو سيناريو الفيلم أو التصوير الفوتوغرافي أو أشياء أخرى كثيرة.

من وجهة نظري ، فإن هذه الخصائص الأخرى هي ما يهم حقًا في اختيار ما تريد مشاهدته. لا يهمني إذا كان فيلم معين دراما أو عملًا أو خيالًا علميًا. أريد أن يكون لدي شيء خاص ، شيء يجعلني أحظى بوقت ممتع ، يجعلني أتعلم شيئًا ما ، أو يجعلني أفكر في الواقع ، أو يسليني فقط.

لذلك قمت بإنشاء تصنيف جديد ومكرر من خلال الحصول على تصنيف IMDb وطرح التصنيف المتوقع لأفضل نموذج. من خلال القيام بذلك ، كنت أزيل تأثير Genre Runtime Year وأحتفظ بهذه المعلومات الأخرى غير المعروفة التي هي أكثر أهمية بالنسبة لي.

نظام تصنيف IMDb البديل: النتائج النهائية

دعونا نرى الآن أفضل 10 أفلام حسب تصنيفي الجديد مقابل تصنيف IMDb الحقيقي:

شجونه

لقب النوع تقييم IMDb التقييم المكرر
كو إلى تامو بيفا مغامرة ، كوميديا ​​، دراما 8.9 1.90
رقم Dipu 2 مغامرة ، عائلية 8.9 3.14
El senor de los anillos: El retorno del rey المغامرة والدراما والخيال 8.9 2.67
El senor de los anillos: La comunidad del anillo المغامرة والدراما والخيال 8.8 2.55
أنبي سيفام مغامرة ، كوميديا ​​، دراما 8.8 2.38
هابابام سينيفي تاتيلدا مغامرة ، كوميديا ​​، دراما 8.7 1.66
El senor de los anillos: Las dos torres المغامرة والدراما والخيال 8.7 2.46
مودراس داعيا المغامرة والدراما والرومانسية 8.7 2.34
الفائدة مغامرة ، دراما ، خيال علمي 8.6 2.83
فولفر آل فوتورو مغامرة ، كوميديا ​​، خيال علمي 8.5 2.32

الخاص بي

لقب النوع تقييم IMDb التقييم المكرر
رقم Dipu 2 مغامرة ، عائلية 8.9 3.14
الفائدة مغامرة ، دراما ، خيال علمي 8.6 2.83
El senor de los anillos: El retorno del rey المغامرة والدراما والخيال 8.9 2.67
El senor de los anillos: La comunidad del anillo المغامرة والدراما والخيال 8.8 2.55
Kolah ghermezi va pesar khale المغامرة والكوميديا ​​والأسرة 8.1 2.49
El senor de los anillos: Las dos torres المغامرة والدراما والخيال 8.7 2.46
أنبي سيفام مغامرة ، كوميديا ​​، دراما 8.8 2.38
لوس كاباليروس دي لا ميسا كوادرادا المغامرة والكوميديا ​​والخيال 8.2 2.35
مودراس داعيا المغامرة والدراما والرومانسية 8.7 2.34
فولفر آل فوتورو مغامرة ، كوميديا ​​، خيال علمي 8.5 2.32

كما ترى ، المنصة لم تتغير بشكل جذري. كان هذا متوقعًا لأن RMSE لم يكن مرتفعًا جدًا ، وها نحن نراقب القمة. دعونا نرى ما حدث مع أسفل 10:

شجونه

لقب النوع تقييم IMDb التقييم المكرر
هولناب تورتنت - بولفارفيلم ناجي كوميديا ​​، غموض 1 -4.86
كومالي سيبر: الله سني السين كوميديا 1 -4.57
بادانغ كوميديا ​​، خيال 1 -4.74
ييريك !!! Kosmiczna nominacja كوميديا 1.1 -4.52
أميركي فخور دراما 1.1 -5.49
المعاطف البنية: حرب الاستقلال أكشن ، خيال علمي ، حرب 1.1 -3.71
عطلة نهاية الأسبوع تعيش كوميديا ​​، رعب ، غموض 1.2 -4.53
بوليفار: بطل رسوم متحركة ، سيرة ذاتية 1.2 -5.34
صعود الخفاش الأسود أكشن ، خيال علمي 1.2 -3.65
هاتسوكوي دراما 1.2 -5.38

الخاص بي

لقب النوع تقييم IMDb التقييم المكرر
أميركي فخور دراما 1.1 -5.49
سانتا وأرنب الآيس كريم الأسرة والخيال 1.3 -5.42
هاتسوكوي دراما 1.2 -5.38
ريس السيرة الذاتية والدراما 1.5 -5.35
بوليفار: بطل رسوم متحركة ، سيرة ذاتية 1.2 -5.34
هانوم ورانجا: الإيمان والمدينة دراما ، رومانسية 1.2 -5.28
بعد الموسم الماضي رسوم متحركة ، دراما ، خيال علمي 1.7 -5.27
بارشيل - مورد في جينف دراما 1.6 -5.23
راشو رايفو دراما 1.5 -5.08
كاميفوسين دراما 1.5 -5.08

حدث نفس الشيء هنا ، ولكن الآن يمكننا أن نرى ظهور المزيد من الأعمال الدرامية في الحالة المصقولة أكثر من IMDb ، مما يدل على أن بعض الأعمال الدرامية يمكن أن يتم تصنيفها بشكل مبالغ فيه لكونها دراما فقط.

ربما تكون المنصة الأكثر إثارة للاهتمام هي الأفلام العشرة مع أكبر فرق بين درجة نظام تصنيف IMDb والنتيجة المكررة. هذه الأفلام لها وزن أكبر على خصائصها المجهولة وتجعل الفيلم أفضل (أو أسوأ) بكثير مما كان متوقعًا بسبب ميزاته المعروفة.

لقب تقييم IMDb التقييم المكرر فرق
Kanashimi no beradonna 7.4 -0.71 8.11
جيسوكريستو سوبرستار 7.4 -0.69 8.09
بينك فلويد الجدار 8.1 0.03 8.06
Tenshi no tamago 7.6 -0.42 8.02
جيبون تيك نيا 9.4 1.52 7.87
البايل 7.8 0.00 7.80
سانتا والدببة الثلاثة 7.1 -0.70 7.80
La alegre historyia de Scrooge 7.5 -0.24 7.74
بيل دي أسنو 7 -0.74 7.74
1776 7.6 -0.11 7.71

إذا كنت مخرج فيلم واضطررت إلى إنتاج فيلم جديد ، بعد إجراء كل تحليل بيانات IMDb ، كان بإمكاني الحصول على فكرة أفضل عن نوع الفيلم الذي يجب صنعه للحصول على تصنيف أفضل على IMDb. ستكون دراما طويلة عن السيرة الذاتية للرسوم المتحركة ستكون إعادة إنتاج لفيلم قديم - على سبيل المثال ، Amadeus. من المحتمل أن يضمن هذا تصنيفًا جيدًا على موقع IMDb ، لكنني لست متأكدًا من الأرباح ...

ما رأيك في الأفلام التي تحتل مرتبة في هذا المقياس الجديد؟ هل يعجبونك؟ أم تفضل الأصلية؟ اسمحوا لي أن نعرف في التعليقات أدناه!