Stars Realigned:IMDbレーティングシステムの改善

公開: 2022-03-11

映画鑑賞者は、ランキングを使用して何を視聴するかを選択することがあります。 自分でこれをやってみると、最高ランクの映画の多くが同じジャンル、つまりドラマに属していることに気づきました。 これは、ランキングが何らかのジャンルの偏りを持っている可能性があると私に思わせました。

私は映画愛好家に最も人気のあるサイトの1つであるIMDbにアクセスしました。このサイトでは、世界中のあらゆる年の映画を取り上げています。 その有名なランキングは、膨大な数のレビューに基づいています。 このIMDbデータ分析では、そこで利用可能なすべての情報をダウンロードして分析し、より広い範囲の基準を考慮した新しい洗練されたランキングを作成することにしました。

IMDb評価システム:IMDbのデータのフィルタリング

1970年から2019年の間に公開された242,528本の映画の情報をダウンロードすることができました。 IMDbから提供された情報は、 RankTitleIDYearCertificateRatingVotesMetascoreSynopsisRuntimeGenreGross 、およびSearchYearた。

分析するのに十分な情報を得るには、映画ごとに最小限のレビュー数が必要だったので、最初に行ったのは、レビューが500未満の映画をフィルタリングすることでした。 これにより、33,296本の映画のセットが作成され、次の表で、そのフィールドの要約分析を見ることができます。

分野タイプヌルカウント平均中央値
ランク要素0
タイトル要素0
ID 要素0
Int 0 2003年2006年
証明書要素17587
評価Int 0 6.1 6.3
投票Int 0 21040 2017年
メタスコアInt 22350 55.3 56
あらすじ要素0
ランタイムInt 132 104.9 100
ジャンル要素0
キモい要素21415
SearchYear Int 0 2003年2006年

注:Rでは、 Factorは文字列を指します。 RankGrossは、たとえば何千ものセパレータがあるため、元のIMDbデータセットではそのようになっています。

スコアの調整を開始する前に、このデータセットをさらに分析する必要がありました。 手始めに、 CertificateMetascoreGrossの各フィールドには50%を超えるnull値が含まれていたため、役に立ちません。 ランクは本質的に評価(改良する変数)に依存するため、有用な情報はありません。 IDは、各映画の一意の識別子であるという点で同じです。

最後に、 TitleSynopsisは短いテキストフィールドです。 いくつかのNLP手法でそれらを使用することは可能かもしれませんが、テキストの量が限られているため、このタスクではそれらを考慮しないことにしました。

この最初のフィルターの後、 GenreRatingYearVotesSearchYear 、およびRuntimeが残りました。 [ Genreフィールドには、映画ごとにコンマで区切られた複数のジャンルがありました。 そこで、多くのジャンルを持つことの相加効果を捉えるために、ワンホットエンコーディングを使用して変換しました。 これにより、22の新しいブールフィールド(ジャンルごとに1つ)が作成され、映画にこのジャンルがある場合は1、それ以外の場合は0になります。

IMDbデータ分析

変数間の相関関係を確認するために、相関行列を計算しました。

残りのすべての元の列と新しいジャンルの列の間の相関行列。ゼロに近い数値は、グリッドに空白スペースをもたらします。負の相関は赤い点になり、正の相関は青い点になります。ドットは大きく、暗くなり、相関が強くなります。 (視覚的なハイライトは、主要な記事のテキストで説明されています。)

ここで、1に近い値は強い正の相関を表し、-1に近い値は強い負の相関を表します。 このグラフによって、私は多くの観察を行いました:

  • YearSearchYearは完全に相関しています。 これは、それらがおそらく同じ値を持ち、両方を持っていることは1つだけを持っていることと同じであることを意味するので、私はYearだけを保持しました。
  • 一部のフィールドでは、次のような正の相関が期待されていました。
    • MusicalMusic
    • AdventureAction
    • AdventureのあるAnimation
  • 負の相関についても同じです。
    • Drama vs. Horror
    • ComedyHorror
    • HorrorRomance
  • キー変数( Rating )に関連して私は気づきました:
    • これは、 RuntimeおよびDramaと正の重要な相関関係があります。
    • VotesBiographyHistoryとの相関は低くなります。
    • Horrorとはかなり負の相関があり、 ThrillerActionSci-FiYearとは負の相関が低くなっています。
    • 他に重要な相関関係はありません。

長いドラマは評価が高かったようですが、短いホラー映画はそうではありませんでした。 私の意見では、それをチェックするためのデータがありませんでしたが、マーベルやピクサーの映画のように、より多くの利益を生み出す映画の種類とは相関していませんでした。

このサイトに投票する人々は、一般的な人々の基準を最もよく表しているわけではない可能性があります。 サイトでレビューを投稿するのに時間がかかる人は、おそらくより具体的な基準を持つある種の映画評論家であるため、それは理にかなっています。 とにかく、私の目的は一般的な映画の機能の影響を取り除くことだったので、その過程でこのバイアスを取り除こうとしました。

IMDbレーティングシステムでのジャンル分布

次のステップは、評価全体にわたる各ジャンルの分布を分析することでした。 そのために、元のGenreフィールドに表示された最初のジャンルに基づいて、 Principal_Genreという新しいフィールドを作成しました。 これを視覚化するために、バイオリン図を作成しました。

各ジャンルの評価分布を示すバイオリン図。

もう一度、 Dramaは高い評価と相関し、 Horrorは低い評価と相関していることがわかりました。 ただし、このグラフは、他のジャンルも良いスコアを持っていることを示しています: BiographyAnimation 。 それらの相関関係が前のマトリックスに表示されなかったのは、おそらくこれらのジャンルの映画が少なすぎたためです。 そこで次に、ジャンル別の度数棒グラフを作成しました。

データベースに各ジャンルの映画がいくつあったかを示す棒グラフ。コメディ、ドラマ、アクションの頻度は約6,000以上でした。犯罪と恐怖は2,000を超えていました。残りは1,000未満でした。

事実上、 BiographyAnimationには、 SportAdultがそうであったように、映画がほとんどありませんでした。 このため、これらはRatingとあまり相関していません。

IMDb評価システムの他の変数

その後、連続共変数( YearVotesRuntime )の分析を開始しました。 散布図では、 RatingYearの関係を確認できます。

評価と年の散布図。

前に見たように、 YearRatingと負の相関関係があるように見えました。年が増えると、評価の分散も増加し、新しい映画ではより負の値に達します。

次に、私はVotesのために同じプロットを作成しました。

評価と投票の散布図。

ここでは、相関関係がより明確でした。投票数が多いほど、ランキングも高くなります。 ただし、ほとんどの映画の投票数はそれほど多くなく、この場合、 Ratingの差異が大きくなりました。

最後に、 Runtimeとの関係を調べました。

評価と実行時間の間の散布図。

繰り返しになりますが、同様のパターンがありますが、さらに強力です。ランタイムが高いほど評価が高くなりますが、ランタイムが高い場合はほとんどありません。

IMDb評価システムの改良

この分析をすべて行った後、私は自分が扱っているデータについてよりよく理解できたので、これらのフィールドに基づいて評価を予測するためにいくつかのモデルをテストすることにしました。 私の考えは、私の最高のモデル予測と実際のRatingの違いは、共通の機能の影響を取り除き、映画を他のものよりも良くする特定の特性を反映するというものでした。

私は最も単純なモデルである線形モデルから始めました。 どのモデルのパフォーマンスが優れているかを評価するために、二乗平均平方根(RMSE)および平均絶対(MAE)エラーを観察しました。 これらは、この種のタスクの標準的な手段です。 また、予測変数と同じスケールであるため、解釈が容易です。

この最初のモデルでは、RMSEは1.03、MAEは0.78でした。 しかし、線形モデルは、誤差に対する独立性、中央値がゼロ、および一定の分散を想定しています。 これが正しければ、「残差と予測値」のグラフは構造のない雲のように見えるはずです。 そこで、それを裏付けるためにグラフ化することにしました。

残差と予測値の散布図。

予測値の7までは構造化されていない形状でしたが、この値以降は明確な直線降下形状になっています。 その結果、モデルの想定が悪く、また、実際にはRatingが10を超えることはできないため、予測値に「オーバーフロー」が発生しました。

以前のIMDbデータ分析では、 Votes数が多かったため、 Ratingが向上しました。 ただし、これはいくつかのケースで、大量の投票で発生しました。 これにより、モデルに歪みが生じ、このRatingオーバーフローが発生する可能性があります。 これを確認するために、[ Votesフィールドを削除して、この同じモデルで何が起こるかを評価しました。

[投票]フィールドが削除された場合の残差と予測値の散布図。

これははるかに良かったです! オーバーフロー予測値がなく、より明確で構造化されていない形状でした。 Votesフィールドもレビュー担当者のアクティビティに依存し、映画の特徴ではないため、このフィールドも削除することにしました。 それを削除した後のエラーは、RMSEで1.06、MAEで0.81でした。少し悪いですが、それほどではありません。トレーニングセットでのパフォーマンスよりも、より良い仮定と特徴選択を使用することを好みました。

IMDbデータ分析:他のモデルはどの程度うまく機能しますか?

次に私がしたことは、さまざまなモデルを試して、どちらがパフォーマンスが優れているかを分析することでした。 モデルごとに、ランダム検索手法を使用してハイパーパラメーター値を最適化し、モデルのバイアスを防ぐために5分割交差検定を使用しました。 次の表に、得られた推定誤差を示します。

モデルRMSE MAE
神経網1.044596 0.795699
ブースティング1.046639 0.7971921
推論ツリー1.05704 0.8054783
GAM 1.0615108 0.8119555
線形モデル1.066539 0.8152524
ペナルティ付き線形登録1.066607 0.8153331
KNN 1.066714 0.8123369
ベイジアンリッジ1.068995 0.8148692
SVM 1.073491 0.8092725

ご覧のとおり、すべてのモデルが同じように機能するため、いくつかのモデルを使用してもう少しデータを分析しました。 各分野が格付けに与える影響を知りたいと思いました。 これを行う最も簡単な方法は、線形モデルのパラメーターを観察することです。 ただし、以前は歪みを避けるために、データをスケーリングしてから線形モデルを再トレーニングしました。 重みはここに描かれている通りでした。

ホラーのほぼ-0.25からドラマのほぼ0.25までの範囲の線形モデルの重みの棒グラフ。

このグラフでは、最も重要な変数の2つがHorrorDramaであることが明らかです。最初の変数は評価にマイナスの影響を与え、2番目の変数はプラスの影響を与えます。 AnimationBiographyなど、プラスの影響を与える他の分野もありますが、 ActionSci-FiYearはマイナスの影響を与えます。 さらに、 Principal_Genreは大きな影響を与えないため、映画のどのジャンルがプリンシパルであるかよりも重要です。

一般化加法モデル(GAM)を使用すると、連続変数(この場合はYear )のより詳細な影響も確認できました。

一般化された加法モデルを使用した年対s(年)のグラフ。 s(Year)値は、1970年には0.6付近で始まり、2010年には0を下回り、2019年までに再び0付近まで増加する曲線に従います。

ここに、もっと面白いものがあります。 確かに最近の映画は評価が低くなる傾向がありましたが、効果は一定ではありませんでした。 2010年に最も低い値を示し、その後「回復」しているように見えます。 その年以降、この変化を生み出した可能性のある映画製作で何が起こったのかを知ることは興味深いでしょう。

最良のモデルは、RMSEとMAEが最も低いニューラルネットワークでしたが、ご覧のとおり、完全なパフォーマンスに到達したモデルはありませんでした。 しかし、これは私の目的に関しては悪いニュースではありませんでした。 入手可能な情報により、パフォーマンスをある程度正確に見積もることができますが、それだけでは十分ではありません。 他にも、IMDbから取得できなかった情報があり、 GenreRuntimeYearに基づいてRatingが期待スコアと異なる場合があります。 それは俳優のパフォーマンス、映画の脚本、写真、または他の多くのものか​​もしれません。

私の見解では、これらの他の特性は、何を見るべきかを選択する上で本当に重要なことです。 与えられた映画がドラマ、アクション、またはサイエンスフィクションであるかどうかは関係ありません。 何か特別なもの、楽しい時間を過ごせるもの、何かを学ばせるもの、現実を振り返るようなもの、あるいはただ楽しませるものが欲しいです。

そこで、IMDbの評価を取得し、最良のモデルの予測された評価を差し引くことによって、新しい洗練された評価を作成しました。 これを行うことで、 GenreRuntimeYearの影響を取り除き、私にとってはるかに重要なこの他の未知の情報を保持していました。

IMDb評価システムの代替:最終結果

私の新しい評価と実際のIMDbの評価によるベスト10の映画を見てみましょう。

IMDb

タイトルジャンルIMDb評価洗練された評価
コとタモペバアドベンチャー、コメディ、ドラマ8.9 1.90
ディプナンバー2 冒険、家族8.9 3.14
El senor de los anillos:El retorno del rey アドベンチャー、ドラマ、ファンタジー8.9 2.67
El senor de los anillos:La comunidad del anillo アドベンチャー、ドラマ、ファンタジー8.8 2.55
アンベシバムアドベンチャー、コメディ、ドラマ8.8 2.38
ハババムシニフィタチルデアドベンチャー、コメディ、ドラマ8.7 1.66
El senor de los anillos:ラスドストーレスアドベンチャー、ドラマ、ファンタジー8.7 2.46
ムドラスの呼びかけアドベンチャー、ドラマ、ロマンス8.7 2.34
インターステラーアドベンチャー、ドラマ、SF 8.6 2.83
Volver al futuro アドベンチャー、コメディ、SF 8.5 2.32

私の

タイトルジャンルIMDb評価洗練された評価
ディプナンバー2 冒険、家族8.9 3.14
インターステラーアドベンチャー、ドラマ、SF 8.6 2.83
El senor de los anillos:El retorno del rey アドベンチャー、ドラマ、ファンタジー8.9 2.67
El senor de los anillos:La comunidad del anillo アドベンチャー、ドラマ、ファンタジー8.8 2.55
Kolah ghermezi va pesar khale アドベンチャー、コメディ、家族8.1 2.49
El senor de los anillos:ラスドストーレスアドベンチャー、ドラマ、ファンタジー8.7 2.46
アンベシバムアドベンチャー、コメディ、ドラマ8.8 2.38
Los caballeros de la mesa cuadrada アドベンチャー、コメディ、ファンタジー8.2 2.35
ムドラスの呼びかけアドベンチャー、ドラマ、ロマンス8.7 2.34
Volver al futuro アドベンチャー、コメディ、SF 8.5 2.32

ご覧のとおり、表彰台は根本的に変化していません。 これは、RMSEがそれほど高くなかったために予想されたものであり、ここではトップを見ています。 ボトム10で何が起こったのか見てみましょう:

IMDb

タイトルジャンルIMDb評価洗練された評価
Holnaptortent-厄介なbulvarfilm コメディ、ミステリー1 -4.86
Cumali Ceber:Allah Seni Alsin コメディ1 -4.57
バダングコメディ、ファンタジー1 -4.74
Yyyreek !!! Kosmiczna nominacja コメディ1.1 -4.52
誇り高きアメリカ人ドラマ1.1 -5.49
ブラウンコート:独立戦争アクション、SF、戦争1.1 -3.71
それが生きる週末コメディ、ホラー、ミステリー1.2 -4.53
ボリバル:エルヒーローアニメーション、伝記1.2 -5.34
ブラックバットの台頭アクション、SF 1.2 -3.65
初恋ドラマ1.2 -5.38

私の

タイトルジャンルIMDb評価洗練された評価
誇り高きアメリカ人ドラマ1.1 -5.49
サンタとアイスクリームバニー家族、ファンタジー1.3 -5.42
初恋ドラマ1.2 -5.38
レイス伝記、ドラマ1.5 -5.35
ボリバル:エルヒーローアニメーション、伝記1.2 -5.34
ハナムとランガ:信仰と都市ドラマ、ロマンス1.2 -5.28
昨シーズン以降アニメーション、ドラマ、SF 1.7 -5.27
バルシェル-ジュネーブのモルドドラマ1.6 -5.23
ラッシュライフドラマ1.5 -5.08
紙風船ドラマ1.5 -5.08

ここでも同じことが起こりましたが、今ではIMDbよりも洗練されたケースの方が多くのドラマが登場していることがわかります。

おそらく最も興味深い表彰台は、IMDbレーティングシステムのスコアと私の洗練されたスコアの差が最も大きい10本の映画です。 これらの映画は、未知の特性に重きを置いており、既知の機能で予想されるよりもはるかに優れた(または劣った)映画になっています。

タイトルIMDb評価洗練された評価違い
かなしみのベラドンナ7.4 -0.71 8.11
ジーザスクライストスーパースター7.4 -0.69 8.09
ピンクフロイドザウォール8.1 0.03 8.06
天使のたまご7.6 -0.42 8.02
ジボン・テケ・ネヤ9.4 1.52 7.87
エルベイル7.8 0.00 7.80
サンタと三匹の熊7.1 -0.70 7.80
La alegre historia de Scrooge 7.5 -0.24 7.74
Piel de asno 7 -0.74 7.74
1776年7.6 -0.11 7.71

私が映画監督で、新しい映画を制作する必要がある場合、このIMDbデータ分析をすべて行った後、IMDbランキングを上げるために、どのような映画を作成するかについてより良いアイデアを得ることができました。 それは、たとえばアマデウスなどの古い映画をリメイクした、長いアニメーションの伝記ドラマになります。 おそらくこれは良いIMDbランキングを保証するでしょうが、利益についてはよくわかりません…

この新しい基準でランク付けされている映画についてどう思いますか? あなたはそれらを好きですか? それともオリジナルのものが好きですか? 以下のコメントで教えてください!