إعادة ترتيب النجوم: تحسين نظام تصنيف موقع IMDb
نشرت: 2022-03-11يستخدم مراقبو الأفلام أحيانًا التصنيفات لتحديد ما يجب مشاهدته. بمجرد القيام بذلك بنفسي ، لاحظت أن العديد من أفضل الأفلام كانت تنتمي إلى نفس النوع: الدراما. جعلني هذا أعتقد أن الترتيب قد يكون له نوع من التحيز في النوع.
كنت على أحد أشهر المواقع لمحبي الأفلام ، IMDb ، والذي يغطي الأفلام من جميع أنحاء العالم ومن أي عام. يعتمد ترتيبها الشهير على مجموعة ضخمة من المراجعات. بالنسبة لتحليل بيانات IMDb هذا ، قررت تنزيل جميع المعلومات المتاحة هناك لتحليلها ومحاولة إنشاء تصنيف جديد ومكرر من شأنه أن يأخذ في الاعتبار مجموعة واسعة من المعايير.
نظام تصنيف IMDb: تصفية بيانات IMDb
تمكنت من تنزيل معلومات حول 242،528 فيلمًا تم إصدارها بين عامي 1970 و 2019 ضمناً. كانت المعلومات التي أعطاني إياها IMDb لكل واحد هي: Rank
، Title
، ID
، Year
، Certificate
، Rating
، Votes
، و Metascore
، Synopsis
، ووقت Runtime
، Genre
، Gross
، و SearchYear
.
للحصول على معلومات كافية لتحليلها ، كنت بحاجة إلى حد أدنى لعدد المراجعات لكل فيلم ، لذلك كان أول شيء فعلته هو تصفية الأفلام التي تحتوي على أقل من 500 مراجعة. نتج عن ذلك مجموعة من 33296 فيلمًا ، وفي الجدول التالي ، يمكننا أن نرى تحليلًا موجزًا لمجالاته:
حقل | اكتب | عدد لاغية | يعني | الوسيط |
---|---|---|---|---|
مرتبة | عامل | 0 | ||
لقب | عامل | 0 | ||
هوية شخصية | عامل | 0 | ||
سنة | كثافة العمليات | 0 | 2003 | 2006 |
شهادة | عامل | 17587 | ||
تقييم | كثافة العمليات | 0 | 6.1 | 6.3 |
الأصوات | كثافة العمليات | 0 | 21040 | 2017 |
ميتاسكور | كثافة العمليات | 22350 | 55.3 | 56 |
ملخص | عامل | 0 | ||
مدة العرض | كثافة العمليات | 132 | 104.9 | 100 |
النوع | عامل | 0 | ||
أزداد | عامل | 21415 | ||
البحث في العام | كثافة العمليات | 0 | 2003 | 2006 |
ملاحظة: في R ، يشير Factor
إلى السلاسل. يكون Rank
Gross
بهذه الطريقة في مجموعة بيانات IMDb الأصلية نظرًا لوجود آلاف الفواصل على سبيل المثال.
قبل البدء في تحسين النتيجة ، كان عليّ إجراء مزيد من التحليل لمجموعة البيانات هذه. بالنسبة للمبتدئين ، تحتوي الحقول Certificate
و Metascore
و Gross
على أكثر من 50٪ من القيم الخالية ، لذا فهي ليست مفيدة. يعتمد التصنيف بشكل جوهري على التصنيف (المتغير المراد تنقيته) ، وبالتالي ، فإنه لا يحمل أي معلومات مفيدة. وينطبق الشيء نفسه مع ID
من حيث أنه معرّف فريد لكل فيلم.
أخيرًا ، Title
Synopsis
عبارة عن حقول نصية قصيرة. قد يكون من الممكن استخدامها من خلال بعض تقنيات البرمجة اللغوية العصبية ، ولكن نظرًا لأنها كمية محدودة من النص ، فقد قررت عدم أخذها في الاعتبار لهذه المهمة.
بعد هذا المرشح الأول ، بقيت مع Genre
Rating
Year
Votes
SearchYear
Runtime
. في حقل Genre
، كان هناك أكثر من نوع واحد لكل فيلم ، مفصولة بفواصل. لذلك لالتقاط التأثير الإضافي لامتلاك العديد من الأنواع ، قمت بتحويله باستخدام تشفير واحد ساخن. نتج عن ذلك 22 حقلاً منطقيًا جديدًا - واحد لكل نوع - بقيمة 1 إذا كان الفيلم يحتوي على هذا النوع أو 0 غير ذلك.
IMDb تحليل البيانات
لمعرفة الارتباطات بين المتغيرات ، قمت بحساب مصفوفة الارتباط.
هنا ، تمثل القيمة القريبة من 1 ارتباطًا إيجابيًا قويًا ، والقيم القريبة من -1 تمثل ارتباطًا سلبيًا قويًا. من خلال هذا الرسم البياني ، قدمت العديد من الملاحظات:
-
Year
والبحث العامSearchYear
تمامًا. هذا يعني أنه من المحتمل أن يكون لديهم نفس القيم وأن وجود كليهما يماثل وجود واحدة فقط ، لذلك احتفظتYear
فقط. - توقعت بعض المجالات ارتباطات إيجابية ، مثل:
-
Music
معMusical
-
Action
معAdventure
-
Animation
معAdventure
-
- نفس الشيء بالنسبة للارتباطات السلبية:
-
Drama
مقابلHorror
-
Comedy
مقابلHorror
-
Horror
مقابلRomance
-
- فيما يتعلق بالمتغير الرئيسي (
Rating
) لقد لاحظت:- لها علاقة إيجابية ومهمة مع
Runtime
Drama
. - لديها ارتباط أقل مع
Votes
Biography
History
. - لها علاقة سلبية إلى حد كبير مع
Horror
سلبية أقل معThriller
،Action
،Sci-Fi
،Year
. - ليس لها أي ارتباطات مهمة أخرى.
- لها علاقة إيجابية ومهمة مع
يبدو أن الدراما الطويلة كانت جيدة التصنيف ، في حين أن أفلام الرعب القصيرة لم تكن كذلك. في رأيي - لم تكن لدي البيانات للتحقق من ذلك - لم ترتبط بنوع الأفلام التي تدر أرباحًا أكثر ، مثل أفلام Marvel أو Pixar.
قد يكون الأشخاص الذين يصوتون على هذا الموقع ليسوا أفضل ممثل لمعيار عامة الناس. هذا منطقي لأن أولئك الذين يأخذون الوقت الكافي لإرسال التعليقات على الموقع ربما يكونون نوعًا من نقاد الأفلام بمعيار أكثر تحديدًا. على أي حال ، كان هدفي هو إزالة تأثير ميزات الأفلام الشائعة ، لذلك حاولت إزالة هذا التحيز في هذه العملية.
توزيع النوع في نظام تصنيف IMDb
كانت الخطوة التالية هي تحليل توزيع كل نوع على التصنيف. للقيام بذلك ، قمت بإنشاء حقل جديد يسمى Principal_Genre
بناءً على النوع الأول الذي ظهر في حقل Genre
الأصلي. لتصور هذا ، قمت بعمل رسم بياني للكمان.
مرة أخرى ، استطعت أن أرى أن Drama
ترتبط بدرجة عالية من Horror
وترتبط بدرجة أقل. ومع ذلك ، كشف هذا الرسم البياني أيضًا أن الأنواع الأخرى لها درجات جيدة: Biography
Animation
. ربما لم تظهر ارتباطاتهم في المصفوفة السابقة بسبب وجود عدد قليل جدًا من الأفلام مع هذه الأنواع. لذلك قمت بعد ذلك بإنشاء مخطط شريط التردد حسب النوع.
على نحو فعال ، كانت أفلام Biography
Animation
تحتوي على عدد قليل جدًا من الأفلام ، كما فعلت Sport
Adult
. لهذا السبب ، لا ترتبط ارتباطًا وثيقًا Rating
.
متغيرات أخرى في نظام تصنيف IMDb
بعد ذلك ، بدأت في تحليل المتغيرات المشتركة المستمرة: Year
Votes
ووقت Runtime
. في الرسم المبعثر ، يمكنك مشاهدة العلاقة بين Rating
Year
.
كما رأينا سابقًا ، يبدو أن Year
علاقة سلبية بالتصنيف: مع زيادة العام ، يزداد تباين Rating
أيضًا ، ويصل إلى قيم سلبية أكثر في الأفلام الجديدة.
بعد ذلك ، قمت بعمل نفس المؤامرة Votes
.
هنا ، كان الارتباط أوضح: فكلما زاد عدد الأصوات ، ارتفع الترتيب. ومع ذلك ، لم تحصل معظم الأفلام على الكثير من الأصوات ، وفي هذه الحالة ، كان Rating
تباين أكبر.
أخيرًا ، نظرت إلى العلاقة مع Runtime
.
مرة أخرى ، لدينا نمط مشابه ولكنه أقوى: أوقات التشغيل الأعلى تعني تقييمات أعلى ، ولكن كانت هناك حالات قليلة جدًا لفترات تشغيل عالية.
تحسينات نظام تصنيف IMDb
بعد كل هذا التحليل ، كانت لدي فكرة أفضل عن البيانات التي كنت أتعامل معها ، لذلك قررت اختبار بعض النماذج للتنبؤ بالتقييمات بناءً على هذه الحقول. كانت فكرتي هي أن الاختلاف بين أفضل تنبؤات النموذج لدي Rating
الحقيقي من شأنه أن يزيل تأثير السمات المشتركة ويعكس الخصائص المعينة التي تجعل الفيلم أفضل من غيره.
لقد بدأت بأبسط نموذج ، النموذج الخطي. لتقييم النموذج الذي كان يعمل بشكل أفضل ، لاحظت الجذر التربيعي (RMSE) ويعني الأخطاء المطلقة (MAE). إنها مقاييس قياسية لهذا النوع من المهام. أيضًا ، هم على نفس مقياس المتغير المتوقع ، لذلك يسهل تفسيرهم.
في هذا النموذج الأول ، كان RMSE 1.03 و MAE 0.78. لكن النماذج الخطية تفترض الاستقلال عن الأخطاء ، ومتوسط الصفر ، والتباين المستمر. إذا كان هذا صحيحًا ، فيجب أن يبدو الرسم البياني "القيم المتبقية مقابل القيم المتوقعة" كسحابة بدون بنية. لذلك قررت أن أرسمها على الرسم البياني لتأكيد ذلك.
استطعت أن أرى أنه حتى 7 في القيم المتوقعة ، كان لها شكل غير منظم ، ولكن بعد هذه القيمة ، لها شكل هبوط خطي واضح. وبالتالي ، كانت افتراضات النموذج سيئة ، وكان لدي أيضًا "تجاوز" على القيم المتوقعة لأنه في الواقع ، لا يمكن أن يكون Rating
أكثر من 10.
في تحليل بيانات IMDb السابق ، مع وجود عدد أكبر من Votes
، تحسن Rating
؛ ومع ذلك ، حدث هذا في حالات قليلة وكمية هائلة من الأصوات. قد يتسبب هذا في حدوث تشوهات في النموذج وينتج هذا Rating
الزائد. للتحقق من ذلك ، قمت بتقييم ما سيحدث مع هذا النموذج نفسه ، مع إزالة حقل Votes
.

كان هذا أفضل بكثير! كان له شكل أوضح وغير منظم بدون قيم متوقعة للفيضان. يعتمد مجال Votes
أيضًا على نشاط المراجع وليس سمة من سمات الأفلام ، لذلك قررت التخلي عن هذا المجال أيضًا. كانت الأخطاء بعد إزالتها 1.06 في RMSE و 0.81 على MAE - أسوأ قليلاً ، لكن ليس كثيرًا ، وفضلت أن يكون لدي افتراضات أفضل واختيار ميزة أفضل من أداء أفضل قليلاً في مجموعة التدريب الخاصة بي.
تحليل بيانات IMDb: ما مدى جودة عمل النماذج الأخرى؟
كان الشيء التالي الذي فعلته هو تجربة نماذج مختلفة لتحليل أيها كان أفضل أداء. لكل نموذج ، استخدمت تقنية البحث العشوائي لتحسين قيم المعلمات الفائقة والتحقق من صحة 5 أضعاف لمنع تحيز النموذج. في الجدول التالي تم تقدير الأخطاء التي تم الحصول عليها:
نموذج | RMSE | ماي |
---|---|---|
الشبكة العصبية | 1.044596 | 0.795699 |
التعزيز | 1.046639 | 0.7971921 |
شجرة الاستدلال | 1.05704 | 0.8054783 |
GAM | 1.0615108 | 0.8119555 |
نموذج خطي | 1.066539 | 0.8152524 |
ريج الخطي المعاقب | 1.066607 | 0.8153331 |
KNN | 1.066714 | 0.8123369 |
ريدج بايزي | 1.068995 | 0.8148692 |
SVM | 1.073491 | 0.8092725 |
كما ترى ، تعمل جميع النماذج بشكل مشابه ، لذلك استخدمت بعضها لتحليل المزيد من البيانات. أردت معرفة تأثير كل مجال على التصنيف. إن أبسط طريقة للقيام بذلك هي مراقبة معلمات النموذج الخطي. ولكن لتجنب حدوث تشوهات عليها سابقًا ، قمت بتوسيع نطاق البيانات ثم أعدت تدريب النموذج الخطي. كانت الأوزان كما في الصورة هنا.
في هذا الرسم البياني ، من الواضح أن اثنين من أهم المتغيرات هما Horror
Drama
، حيث يكون الأول له تأثير سلبي على التصنيف والثاني إيجابي. هناك أيضًا مجالات أخرى تؤثر إيجابًا - مثل Animation
Biography
- بينما تؤثر Action
Sci-Fi
Year
سلبًا. علاوة على ذلك ، ليس لـ Principal_Genre
تأثير كبير ، لذا من المهم تحديد الأنواع التي يمتلكها الفيلم أكثر من النوع الرئيسي.
من خلال النموذج الإضافي المعمم (GAM) ، استطعت أيضًا رؤية تأثير أكثر تفصيلاً للمتغيرات المستمرة ، والتي كانت في هذه الحالة هي Year
.
هنا ، لدينا شيء أكثر إثارة للاهتمام. بينما كان صحيحًا أنه بالنسبة للأفلام الحديثة ، كان التصنيف يميل إلى الانخفاض ، إلا أن التأثير لم يكن ثابتًا. لديها أدنى قيمة في عام 2010 ثم يبدو أنها "تتعافى". سيكون من المثير للاهتمام معرفة ما حدث بعد تلك السنة في إنتاج الأفلام التي كان من الممكن أن تنتج هذا التغيير.
كان أفضل نموذج هو الشبكات العصبية ، التي كان لديها أدنى مستوى من RMSE و MAE ، ولكن كما ترى ، لم يصل أي نموذج إلى الأداء المثالي. لكن هذا لم يكن خبرا سيئا من حيث هدفي. المعلومات المتاحة تسمح لي بتقدير الأداء بشكل جيد إلى حد ما ، لكنها ليست كافية. هناك بعض المعلومات الأخرى التي لم أستطع الحصول عليها من IMDb والتي تجعل Rating
يختلف عن النتيجة المتوقعة بناءً على Genre
Runtime
Year
. قد يكون أداء الممثل أو سيناريو الفيلم أو التصوير الفوتوغرافي أو أشياء أخرى كثيرة.
من وجهة نظري ، فإن هذه الخصائص الأخرى هي ما يهم حقًا في اختيار ما تريد مشاهدته. لا يهمني إذا كان فيلم معين دراما أو عملًا أو خيالًا علميًا. أريد أن يكون لدي شيء خاص ، شيء يجعلني أحظى بوقت ممتع ، يجعلني أتعلم شيئًا ما ، أو يجعلني أفكر في الواقع ، أو يسليني فقط.
لذلك قمت بإنشاء تصنيف جديد ومكرر من خلال الحصول على تصنيف IMDb وطرح التصنيف المتوقع لأفضل نموذج. من خلال القيام بذلك ، كنت أزيل تأثير Genre
Runtime
Year
وأحتفظ بهذه المعلومات الأخرى غير المعروفة التي هي أكثر أهمية بالنسبة لي.
نظام تصنيف IMDb البديل: النتائج النهائية
دعونا نرى الآن أفضل 10 أفلام حسب تصنيفي الجديد مقابل تصنيف IMDb الحقيقي:
شجونه
لقب | النوع | تقييم IMDb | التقييم المكرر |
---|---|---|---|
كو إلى تامو بيفا | مغامرة ، كوميديا ، دراما | 8.9 | 1.90 |
رقم Dipu 2 | مغامرة ، عائلية | 8.9 | 3.14 |
El senor de los anillos: El retorno del rey | المغامرة والدراما والخيال | 8.9 | 2.67 |
El senor de los anillos: La comunidad del anillo | المغامرة والدراما والخيال | 8.8 | 2.55 |
أنبي سيفام | مغامرة ، كوميديا ، دراما | 8.8 | 2.38 |
هابابام سينيفي تاتيلدا | مغامرة ، كوميديا ، دراما | 8.7 | 1.66 |
El senor de los anillos: Las dos torres | المغامرة والدراما والخيال | 8.7 | 2.46 |
مودراس داعيا | المغامرة والدراما والرومانسية | 8.7 | 2.34 |
الفائدة | مغامرة ، دراما ، خيال علمي | 8.6 | 2.83 |
فولفر آل فوتورو | مغامرة ، كوميديا ، خيال علمي | 8.5 | 2.32 |
الخاص بي
لقب | النوع | تقييم IMDb | التقييم المكرر |
---|---|---|---|
رقم Dipu 2 | مغامرة ، عائلية | 8.9 | 3.14 |
الفائدة | مغامرة ، دراما ، خيال علمي | 8.6 | 2.83 |
El senor de los anillos: El retorno del rey | المغامرة والدراما والخيال | 8.9 | 2.67 |
El senor de los anillos: La comunidad del anillo | المغامرة والدراما والخيال | 8.8 | 2.55 |
Kolah ghermezi va pesar khale | المغامرة والكوميديا والأسرة | 8.1 | 2.49 |
El senor de los anillos: Las dos torres | المغامرة والدراما والخيال | 8.7 | 2.46 |
أنبي سيفام | مغامرة ، كوميديا ، دراما | 8.8 | 2.38 |
لوس كاباليروس دي لا ميسا كوادرادا | المغامرة والكوميديا والخيال | 8.2 | 2.35 |
مودراس داعيا | المغامرة والدراما والرومانسية | 8.7 | 2.34 |
فولفر آل فوتورو | مغامرة ، كوميديا ، خيال علمي | 8.5 | 2.32 |
كما ترى ، المنصة لم تتغير بشكل جذري. كان هذا متوقعًا لأن RMSE لم يكن مرتفعًا جدًا ، وها نحن نراقب القمة. دعونا نرى ما حدث مع أسفل 10:
شجونه
لقب | النوع | تقييم IMDb | التقييم المكرر |
---|---|---|---|
هولناب تورتنت - بولفارفيلم ناجي | كوميديا ، غموض | 1 | -4.86 |
كومالي سيبر: الله سني السين | كوميديا | 1 | -4.57 |
بادانغ | كوميديا ، خيال | 1 | -4.74 |
ييريك !!! Kosmiczna nominacja | كوميديا | 1.1 | -4.52 |
أميركي فخور | دراما | 1.1 | -5.49 |
المعاطف البنية: حرب الاستقلال | أكشن ، خيال علمي ، حرب | 1.1 | -3.71 |
عطلة نهاية الأسبوع تعيش | كوميديا ، رعب ، غموض | 1.2 | -4.53 |
بوليفار: بطل | رسوم متحركة ، سيرة ذاتية | 1.2 | -5.34 |
صعود الخفاش الأسود | أكشن ، خيال علمي | 1.2 | -3.65 |
هاتسوكوي | دراما | 1.2 | -5.38 |
الخاص بي
لقب | النوع | تقييم IMDb | التقييم المكرر |
---|---|---|---|
أميركي فخور | دراما | 1.1 | -5.49 |
سانتا وأرنب الآيس كريم | الأسرة والخيال | 1.3 | -5.42 |
هاتسوكوي | دراما | 1.2 | -5.38 |
ريس | السيرة الذاتية والدراما | 1.5 | -5.35 |
بوليفار: بطل | رسوم متحركة ، سيرة ذاتية | 1.2 | -5.34 |
هانوم ورانجا: الإيمان والمدينة | دراما ، رومانسية | 1.2 | -5.28 |
بعد الموسم الماضي | رسوم متحركة ، دراما ، خيال علمي | 1.7 | -5.27 |
بارشيل - مورد في جينف | دراما | 1.6 | -5.23 |
راشو رايفو | دراما | 1.5 | -5.08 |
كاميفوسين | دراما | 1.5 | -5.08 |
حدث نفس الشيء هنا ، ولكن الآن يمكننا أن نرى ظهور المزيد من الأعمال الدرامية في الحالة المصقولة أكثر من IMDb ، مما يدل على أن بعض الأعمال الدرامية يمكن أن يتم تصنيفها بشكل مبالغ فيه لكونها دراما فقط.
ربما تكون المنصة الأكثر إثارة للاهتمام هي الأفلام العشرة مع أكبر فرق بين درجة نظام تصنيف IMDb والنتيجة المكررة. هذه الأفلام لها وزن أكبر على خصائصها المجهولة وتجعل الفيلم أفضل (أو أسوأ) بكثير مما كان متوقعًا بسبب ميزاته المعروفة.
لقب | تقييم IMDb | التقييم المكرر | فرق |
---|---|---|---|
Kanashimi no beradonna | 7.4 | -0.71 | 8.11 |
جيسوكريستو سوبرستار | 7.4 | -0.69 | 8.09 |
بينك فلويد الجدار | 8.1 | 0.03 | 8.06 |
Tenshi no tamago | 7.6 | -0.42 | 8.02 |
جيبون تيك نيا | 9.4 | 1.52 | 7.87 |
البايل | 7.8 | 0.00 | 7.80 |
سانتا والدببة الثلاثة | 7.1 | -0.70 | 7.80 |
La alegre historyia de Scrooge | 7.5 | -0.24 | 7.74 |
بيل دي أسنو | 7 | -0.74 | 7.74 |
1776 | 7.6 | -0.11 | 7.71 |
إذا كنت مخرج فيلم واضطررت إلى إنتاج فيلم جديد ، بعد إجراء كل تحليل بيانات IMDb ، كان بإمكاني الحصول على فكرة أفضل عن نوع الفيلم الذي يجب صنعه للحصول على تصنيف أفضل على IMDb. ستكون دراما طويلة عن السيرة الذاتية للرسوم المتحركة ستكون إعادة إنتاج لفيلم قديم - على سبيل المثال ، Amadeus. من المحتمل أن يضمن هذا تصنيفًا جيدًا على موقع IMDb ، لكنني لست متأكدًا من الأرباح ...
ما رأيك في الأفلام التي تحتل مرتبة في هذا المقياس الجديد؟ هل يعجبونك؟ أم تفضل الأصلية؟ اسمحوا لي أن نعرف في التعليقات أدناه!