Stars Realigned:IMDbレーティングシステムの改善
公開: 2022-03-11映画鑑賞者は、ランキングを使用して何を視聴するかを選択することがあります。 自分でこれをやってみると、最高ランクの映画の多くが同じジャンル、つまりドラマに属していることに気づきました。 これは、ランキングが何らかのジャンルの偏りを持っている可能性があると私に思わせました。
私は映画愛好家に最も人気のあるサイトの1つであるIMDbにアクセスしました。このサイトでは、世界中のあらゆる年の映画を取り上げています。 その有名なランキングは、膨大な数のレビューに基づいています。 このIMDbデータ分析では、そこで利用可能なすべての情報をダウンロードして分析し、より広い範囲の基準を考慮した新しい洗練されたランキングを作成することにしました。
IMDb評価システム:IMDbのデータのフィルタリング
1970年から2019年の間に公開された242,528本の映画の情報をダウンロードすることができました。 IMDbから提供された情報は、 Rank
、 Title
、 ID
、 Year
、 Certificate
、 Rating
、 Votes
、 Metascore
、 Synopsis
、 Runtime
、 Genre
、 Gross
、およびSearchYear
た。
分析するのに十分な情報を得るには、映画ごとに最小限のレビュー数が必要だったので、最初に行ったのは、レビューが500未満の映画をフィルタリングすることでした。 これにより、33,296本の映画のセットが作成され、次の表で、そのフィールドの要約分析を見ることができます。
分野 | タイプ | ヌルカウント | 平均 | 中央値 |
---|---|---|---|---|
ランク | 要素 | 0 | ||
タイトル | 要素 | 0 | ||
ID | 要素 | 0 | ||
年 | Int | 0 | 2003年 | 2006年 |
証明書 | 要素 | 17587 | ||
評価 | Int | 0 | 6.1 | 6.3 |
投票 | Int | 0 | 21040 | 2017年 |
メタスコア | Int | 22350 | 55.3 | 56 |
あらすじ | 要素 | 0 | ||
ランタイム | Int | 132 | 104.9 | 100 |
ジャンル | 要素 | 0 | ||
キモい | 要素 | 21415 | ||
SearchYear | Int | 0 | 2003年 | 2006年 |
注:Rでは、 Factor
は文字列を指します。 Rank
とGross
は、たとえば何千ものセパレータがあるため、元のIMDbデータセットではそのようになっています。
スコアの調整を開始する前に、このデータセットをさらに分析する必要がありました。 手始めに、 Certificate
、 Metascore
、 Gross
の各フィールドには50%を超えるnull値が含まれていたため、役に立ちません。 ランクは本質的に評価(改良する変数)に依存するため、有用な情報はありません。 ID
は、各映画の一意の識別子であるという点で同じです。
最後に、 Title
とSynopsis
は短いテキストフィールドです。 いくつかのNLP手法でそれらを使用することは可能かもしれませんが、テキストの量が限られているため、このタスクではそれらを考慮しないことにしました。
この最初のフィルターの後、 Genre
、 Rating
、 Year
、 Votes
、 SearchYear
、およびRuntime
が残りました。 [ Genre
フィールドには、映画ごとにコンマで区切られた複数のジャンルがありました。 そこで、多くのジャンルを持つことの相加効果を捉えるために、ワンホットエンコーディングを使用して変換しました。 これにより、22の新しいブールフィールド(ジャンルごとに1つ)が作成され、映画にこのジャンルがある場合は1、それ以外の場合は0になります。
IMDbデータ分析
変数間の相関関係を確認するために、相関行列を計算しました。
ここで、1に近い値は強い正の相関を表し、-1に近い値は強い負の相関を表します。 このグラフによって、私は多くの観察を行いました:
-
Year
とSearchYear
は完全に相関しています。 これは、それらがおそらく同じ値を持ち、両方を持っていることは1つだけを持っていることと同じであることを意味するので、私はYear
だけを保持しました。 - 一部のフィールドでは、次のような正の相関が期待されていました。
-
Musical
とMusic
-
Adventure
のAction
-
Adventure
のあるAnimation
-
- 負の相関についても同じです。
-
Drama
vs.Horror
-
Comedy
対Horror
-
Horror
対Romance
-
- キー変数(
Rating
)に関連して私は気づきました:- これは、
Runtime
およびDrama
と正の重要な相関関係があります。 -
Votes
、Biography
、History
との相関は低くなります。 -
Horror
とはかなり負の相関があり、Thriller
、Action
、Sci-Fi
、Year
とは負の相関が低くなっています。 - 他に重要な相関関係はありません。
- これは、
長いドラマは評価が高かったようですが、短いホラー映画はそうではありませんでした。 私の意見では、それをチェックするためのデータがありませんでしたが、マーベルやピクサーの映画のように、より多くの利益を生み出す映画の種類とは相関していませんでした。
このサイトに投票する人々は、一般的な人々の基準を最もよく表しているわけではない可能性があります。 サイトでレビューを投稿するのに時間がかかる人は、おそらくより具体的な基準を持つある種の映画評論家であるため、それは理にかなっています。 とにかく、私の目的は一般的な映画の機能の影響を取り除くことだったので、その過程でこのバイアスを取り除こうとしました。
IMDbレーティングシステムでのジャンル分布
次のステップは、評価全体にわたる各ジャンルの分布を分析することでした。 そのために、元のGenre
フィールドに表示された最初のジャンルに基づいて、 Principal_Genre
という新しいフィールドを作成しました。 これを視覚化するために、バイオリン図を作成しました。
もう一度、 Drama
は高い評価と相関し、 Horror
は低い評価と相関していることがわかりました。 ただし、このグラフは、他のジャンルも良いスコアを持っていることを示しています: Biography
とAnimation
。 それらの相関関係が前のマトリックスに表示されなかったのは、おそらくこれらのジャンルの映画が少なすぎたためです。 そこで次に、ジャンル別の度数棒グラフを作成しました。
事実上、 Biography
とAnimation
には、 Sport
とAdult
がそうであったように、映画がほとんどありませんでした。 このため、これらはRating
とあまり相関していません。
IMDb評価システムの他の変数
その後、連続共変数( Year
、 Votes
、 Runtime
)の分析を開始しました。 散布図では、 Rating
とYear
の関係を確認できます。
前に見たように、 Year
はRating
と負の相関関係があるように見えました。年が増えると、評価の分散も増加し、新しい映画ではより負の値に達します。
次に、私はVotes
のために同じプロットを作成しました。
ここでは、相関関係がより明確でした。投票数が多いほど、ランキングも高くなります。 ただし、ほとんどの映画の投票数はそれほど多くなく、この場合、 Rating
の差異が大きくなりました。
最後に、 Runtime
との関係を調べました。
繰り返しになりますが、同様のパターンがありますが、さらに強力です。ランタイムが高いほど評価が高くなりますが、ランタイムが高い場合はほとんどありません。
IMDb評価システムの改良
この分析をすべて行った後、私は自分が扱っているデータについてよりよく理解できたので、これらのフィールドに基づいて評価を予測するためにいくつかのモデルをテストすることにしました。 私の考えは、私の最高のモデル予測と実際のRating
の違いは、共通の機能の影響を取り除き、映画を他のものよりも良くする特定の特性を反映するというものでした。
私は最も単純なモデルである線形モデルから始めました。 どのモデルのパフォーマンスが優れているかを評価するために、二乗平均平方根(RMSE)および平均絶対(MAE)エラーを観察しました。 これらは、この種のタスクの標準的な手段です。 また、予測変数と同じスケールであるため、解釈が容易です。
この最初のモデルでは、RMSEは1.03、MAEは0.78でした。 しかし、線形モデルは、誤差に対する独立性、中央値がゼロ、および一定の分散を想定しています。 これが正しければ、「残差と予測値」のグラフは構造のない雲のように見えるはずです。 そこで、それを裏付けるためにグラフ化することにしました。
予測値の7までは構造化されていない形状でしたが、この値以降は明確な直線降下形状になっています。 その結果、モデルの想定が悪く、また、実際にはRating
が10を超えることはできないため、予測値に「オーバーフロー」が発生しました。
以前のIMDbデータ分析では、 Votes
数が多かったため、 Rating
が向上しました。 ただし、これはいくつかのケースで、大量の投票で発生しました。 これにより、モデルに歪みが生じ、このRating
オーバーフローが発生する可能性があります。 これを確認するために、[ Votes
フィールドを削除して、この同じモデルで何が起こるかを評価しました。
これははるかに良かったです! オーバーフロー予測値がなく、より明確で構造化されていない形状でした。 Votes
フィールドもレビュー担当者のアクティビティに依存し、映画の特徴ではないため、このフィールドも削除することにしました。 それを削除した後のエラーは、RMSEで1.06、MAEで0.81でした。少し悪いですが、それほどではありません。トレーニングセットでのパフォーマンスよりも、より良い仮定と特徴選択を使用することを好みました。
IMDbデータ分析:他のモデルはどの程度うまく機能しますか?
次に私がしたことは、さまざまなモデルを試して、どちらがパフォーマンスが優れているかを分析することでした。 モデルごとに、ランダム検索手法を使用してハイパーパラメーター値を最適化し、モデルのバイアスを防ぐために5分割交差検定を使用しました。 次の表に、得られた推定誤差を示します。

モデル | RMSE | MAE |
---|---|---|
神経網 | 1.044596 | 0.795699 |
ブースティング | 1.046639 | 0.7971921 |
推論ツリー | 1.05704 | 0.8054783 |
GAM | 1.0615108 | 0.8119555 |
線形モデル | 1.066539 | 0.8152524 |
ペナルティ付き線形登録 | 1.066607 | 0.8153331 |
KNN | 1.066714 | 0.8123369 |
ベイジアンリッジ | 1.068995 | 0.8148692 |
SVM | 1.073491 | 0.8092725 |
ご覧のとおり、すべてのモデルが同じように機能するため、いくつかのモデルを使用してもう少しデータを分析しました。 各分野が格付けに与える影響を知りたいと思いました。 これを行う最も簡単な方法は、線形モデルのパラメーターを観察することです。 ただし、以前は歪みを避けるために、データをスケーリングしてから線形モデルを再トレーニングしました。 重みはここに描かれている通りでした。
このグラフでは、最も重要な変数の2つがHorror
とDrama
であることが明らかです。最初の変数は評価にマイナスの影響を与え、2番目の変数はプラスの影響を与えます。 Animation
やBiography
など、プラスの影響を与える他の分野もありますが、 Action
、 Sci-Fi
、 Year
はマイナスの影響を与えます。 さらに、 Principal_Genre
は大きな影響を与えないため、映画のどのジャンルがプリンシパルであるかよりも重要です。
一般化加法モデル(GAM)を使用すると、連続変数(この場合はYear
)のより詳細な影響も確認できました。
ここに、もっと面白いものがあります。 確かに最近の映画は評価が低くなる傾向がありましたが、効果は一定ではありませんでした。 2010年に最も低い値を示し、その後「回復」しているように見えます。 その年以降、この変化を生み出した可能性のある映画製作で何が起こったのかを知ることは興味深いでしょう。
最良のモデルは、RMSEとMAEが最も低いニューラルネットワークでしたが、ご覧のとおり、完全なパフォーマンスに到達したモデルはありませんでした。 しかし、これは私の目的に関しては悪いニュースではありませんでした。 入手可能な情報により、パフォーマンスをある程度正確に見積もることができますが、それだけでは十分ではありません。 他にも、IMDbから取得できなかった情報があり、 Genre
、 Runtime
、 Year
に基づいてRating
が期待スコアと異なる場合があります。 それは俳優のパフォーマンス、映画の脚本、写真、または他の多くのものかもしれません。
私の見解では、これらの他の特性は、何を見るべきかを選択する上で本当に重要なことです。 与えられた映画がドラマ、アクション、またはサイエンスフィクションであるかどうかは関係ありません。 何か特別なもの、楽しい時間を過ごせるもの、何かを学ばせるもの、現実を振り返るようなもの、あるいはただ楽しませるものが欲しいです。
そこで、IMDbの評価を取得し、最良のモデルの予測された評価を差し引くことによって、新しい洗練された評価を作成しました。 これを行うことで、 Genre
、 Runtime
、 Year
の影響を取り除き、私にとってはるかに重要なこの他の未知の情報を保持していました。
IMDb評価システムの代替:最終結果
私の新しい評価と実際のIMDbの評価によるベスト10の映画を見てみましょう。
IMDb
タイトル | ジャンル | IMDb評価 | 洗練された評価 |
---|---|---|---|
コとタモペバ | アドベンチャー、コメディ、ドラマ | 8.9 | 1.90 |
ディプナンバー2 | 冒険、家族 | 8.9 | 3.14 |
El senor de los anillos:El retorno del rey | アドベンチャー、ドラマ、ファンタジー | 8.9 | 2.67 |
El senor de los anillos:La comunidad del anillo | アドベンチャー、ドラマ、ファンタジー | 8.8 | 2.55 |
アンベシバム | アドベンチャー、コメディ、ドラマ | 8.8 | 2.38 |
ハババムシニフィタチルデ | アドベンチャー、コメディ、ドラマ | 8.7 | 1.66 |
El senor de los anillos:ラスドストーレス | アドベンチャー、ドラマ、ファンタジー | 8.7 | 2.46 |
ムドラスの呼びかけ | アドベンチャー、ドラマ、ロマンス | 8.7 | 2.34 |
インターステラー | アドベンチャー、ドラマ、SF | 8.6 | 2.83 |
Volver al futuro | アドベンチャー、コメディ、SF | 8.5 | 2.32 |
私の
タイトル | ジャンル | IMDb評価 | 洗練された評価 |
---|---|---|---|
ディプナンバー2 | 冒険、家族 | 8.9 | 3.14 |
インターステラー | アドベンチャー、ドラマ、SF | 8.6 | 2.83 |
El senor de los anillos:El retorno del rey | アドベンチャー、ドラマ、ファンタジー | 8.9 | 2.67 |
El senor de los anillos:La comunidad del anillo | アドベンチャー、ドラマ、ファンタジー | 8.8 | 2.55 |
Kolah ghermezi va pesar khale | アドベンチャー、コメディ、家族 | 8.1 | 2.49 |
El senor de los anillos:ラスドストーレス | アドベンチャー、ドラマ、ファンタジー | 8.7 | 2.46 |
アンベシバム | アドベンチャー、コメディ、ドラマ | 8.8 | 2.38 |
Los caballeros de la mesa cuadrada | アドベンチャー、コメディ、ファンタジー | 8.2 | 2.35 |
ムドラスの呼びかけ | アドベンチャー、ドラマ、ロマンス | 8.7 | 2.34 |
Volver al futuro | アドベンチャー、コメディ、SF | 8.5 | 2.32 |
ご覧のとおり、表彰台は根本的に変化していません。 これは、RMSEがそれほど高くなかったために予想されたものであり、ここではトップを見ています。 ボトム10で何が起こったのか見てみましょう:
IMDb
タイトル | ジャンル | IMDb評価 | 洗練された評価 |
---|---|---|---|
Holnaptortent-厄介なbulvarfilm | コメディ、ミステリー | 1 | -4.86 |
Cumali Ceber:Allah Seni Alsin | コメディ | 1 | -4.57 |
バダング | コメディ、ファンタジー | 1 | -4.74 |
Yyyreek !!! Kosmiczna nominacja | コメディ | 1.1 | -4.52 |
誇り高きアメリカ人 | ドラマ | 1.1 | -5.49 |
ブラウンコート:独立戦争 | アクション、SF、戦争 | 1.1 | -3.71 |
それが生きる週末 | コメディ、ホラー、ミステリー | 1.2 | -4.53 |
ボリバル:エルヒーロー | アニメーション、伝記 | 1.2 | -5.34 |
ブラックバットの台頭 | アクション、SF | 1.2 | -3.65 |
初恋 | ドラマ | 1.2 | -5.38 |
私の
タイトル | ジャンル | IMDb評価 | 洗練された評価 |
---|---|---|---|
誇り高きアメリカ人 | ドラマ | 1.1 | -5.49 |
サンタとアイスクリームバニー | 家族、ファンタジー | 1.3 | -5.42 |
初恋 | ドラマ | 1.2 | -5.38 |
レイス | 伝記、ドラマ | 1.5 | -5.35 |
ボリバル:エルヒーロー | アニメーション、伝記 | 1.2 | -5.34 |
ハナムとランガ:信仰と都市 | ドラマ、ロマンス | 1.2 | -5.28 |
昨シーズン以降 | アニメーション、ドラマ、SF | 1.7 | -5.27 |
バルシェル-ジュネーブのモルド | ドラマ | 1.6 | -5.23 |
ラッシュライフ | ドラマ | 1.5 | -5.08 |
紙風船 | ドラマ | 1.5 | -5.08 |
ここでも同じことが起こりましたが、今ではIMDbよりも洗練されたケースの方が多くのドラマが登場していることがわかります。
おそらく最も興味深い表彰台は、IMDbレーティングシステムのスコアと私の洗練されたスコアの差が最も大きい10本の映画です。 これらの映画は、未知の特性に重きを置いており、既知の機能で予想されるよりもはるかに優れた(または劣った)映画になっています。
タイトル | IMDb評価 | 洗練された評価 | 違い |
---|---|---|---|
かなしみのベラドンナ | 7.4 | -0.71 | 8.11 |
ジーザスクライストスーパースター | 7.4 | -0.69 | 8.09 |
ピンクフロイドザウォール | 8.1 | 0.03 | 8.06 |
天使のたまご | 7.6 | -0.42 | 8.02 |
ジボン・テケ・ネヤ | 9.4 | 1.52 | 7.87 |
エルベイル | 7.8 | 0.00 | 7.80 |
サンタと三匹の熊 | 7.1 | -0.70 | 7.80 |
La alegre historia de Scrooge | 7.5 | -0.24 | 7.74 |
Piel de asno | 7 | -0.74 | 7.74 |
1776年 | 7.6 | -0.11 | 7.71 |
私が映画監督で、新しい映画を制作する必要がある場合、このIMDbデータ分析をすべて行った後、IMDbランキングを上げるために、どのような映画を作成するかについてより良いアイデアを得ることができました。 それは、たとえばアマデウスなどの古い映画をリメイクした、長いアニメーションの伝記ドラマになります。 おそらくこれは良いIMDbランキングを保証するでしょうが、利益についてはよくわかりません…
この新しい基準でランク付けされている映画についてどう思いますか? あなたはそれらを好きですか? それともオリジナルのものが好きですか? 以下のコメントで教えてください!