Stars Realigned：IMDbレーティングシステムの改善

公開: 2022-03-11

映画鑑賞者は、ランキングを使用して何を視聴するかを選択することがあります。自分でこれをやってみると、最高ランクの映画の多くが同じジャンル、つまりドラマに属していることに気づきました。これは、ランキングが何らかのジャンルの偏りを持っている可能性があると私に思わせました。

私は映画愛好家に最も人気のあるサイトの1つであるIMDbにアクセスしました。このサイトでは、世界中のあらゆる年の映画を取り上げています。その有名なランキングは、膨大な数のレビューに基づいています。このIMDbデータ分析では、そこで利用可能なすべての情報をダウンロードして分析し、より広い範囲の基準を考慮した新しい洗練されたランキングを作成することにしました。

IMDb評価システム：IMDbのデータのフィルタリング

1970年から2019年の間に公開された242,528本の映画の情報をダウンロードすることができました。 IMDbから提供された情報は、 Rank 、 Title 、 ID 、 Year 、 Certificate 、 Rating 、 Votes 、 Metascore 、 Synopsis 、 Runtime 、 Genre 、 Gross 、およびSearchYearた。

分析するのに十分な情報を得るには、映画ごとに最小限のレビュー数が必要だったので、最初に行ったのは、レビューが500未満の映画をフィルタリングすることでした。これにより、33,296本の映画のセットが作成され、次の表で、そのフィールドの要約分析を見ることができます。

分野	タイプ	ヌルカウント	平均	中央値
ランク	要素	0
タイトル	要素	0
ID	要素	0
年	Int	0	2003年	2006年
証明書	要素	17587
評価	Int	0	6.1	6.3
投票	Int	0	21040	2017年
メタスコア	Int	22350	55.3	56
あらすじ	要素	0
ランタイム	Int	132	104.9	100
ジャンル	要素	0
キモい	要素	21415
SearchYear	Int	0	2003年	2006年

注：Rでは、 Factorは文字列を指します。 RankとGrossは、たとえば何千ものセパレータがあるため、元のIMDbデータセットではそのようになっています。

スコアの調整を開始する前に、このデータセットをさらに分析する必要がありました。手始めに、 Certificate 、 Metascore 、 Grossの各フィールドには50％を超えるnull値が含まれていたため、役に立ちません。ランクは本質的に評価（改良する変数）に依存するため、有用な情報はありません。 IDは、各映画の一意の識別子であるという点で同じです。

最後に、 TitleとSynopsisは短いテキストフィールドです。いくつかのNLP手法でそれらを使用することは可能かもしれませんが、テキストの量が限られているため、このタスクではそれらを考慮しないことにしました。

この最初のフィルターの後、 Genre 、 Rating 、 Year 、 Votes 、 SearchYear 、およびRuntimeが残りました。 [ Genreフィールドには、映画ごとにコンマで区切られた複数のジャンルがありました。そこで、多くのジャンルを持つことの相加効果を捉えるために、ワンホットエンコーディングを使用して変換しました。これにより、22の新しいブールフィールド（ジャンルごとに1つ）が作成され、映画にこのジャンルがある場合は1、それ以外の場合は0になります。

IMDbデータ分析

変数間の相関関係を確認するために、相関行列を計算しました。

残りのすべての元の列と新しいジャンルの列の間の相関行列。ゼロに近い数値は、グリッドに空白スペースをもたらします。負の相関は赤い点になり、正の相関は青い点になります。ドットは大きく、暗くなり、相関が強くなります。（視覚的なハイライトは、主要な記事のテキストで説明されています。）

ここで、1に近い値は強い正の相関を表し、-1に近い値は強い負の相関を表します。このグラフによって、私は多くの観察を行いました：

YearとSearchYearは完全に相関しています。これは、それらがおそらく同じ値を持ち、両方を持っていることは1つだけを持っていることと同じであることを意味するので、私はYearだけを保持しました。
一部のフィールドでは、次のような正の相関が期待されていました。
- MusicalとMusic
- AdventureのAction
- AdventureのあるAnimation
負の相関についても同じです。
- Drama vs. Horror
- Comedy対Horror
- Horror対Romance
キー変数（ Rating ）に関連して私は気づきました：
- これは、 RuntimeおよびDramaと正の重要な相関関係があります。
- Votes 、 Biography 、 Historyとの相関は低くなります。
- Horrorとはかなり負の相関があり、 Thriller 、 Action 、 Sci-Fi 、 Yearとは負の相関が低くなっています。
- 他に重要な相関関係はありません。

長いドラマは評価が高かったようですが、短いホラー映画はそうではありませんでした。私の意見では、それをチェックするためのデータがありませんでしたが、マーベルやピクサーの映画のように、より多くの利益を生み出す映画の種類とは相関していませんでした。

このサイトに投票する人々は、一般的な人々の基準を最もよく表しているわけではない可能性があります。サイトでレビューを投稿するのに時間がかかる人は、おそらくより具体的な基準を持つある種の映画評論家であるため、それは理にかなっています。とにかく、私の目的は一般的な映画の機能の影響を取り除くことだったので、その過程でこのバイアスを取り除こうとしました。

IMDbレーティングシステムでのジャンル分布

次のステップは、評価全体にわたる各ジャンルの分布を分析することでした。そのために、元のGenreフィールドに表示された最初のジャンルに基づいて、 Principal_Genreという新しいフィールドを作成しました。これを視覚化するために、バイオリン図を作成しました。

もう一度、 Dramaは高い評価と相関し、 Horrorは低い評価と相関していることがわかりました。ただし、このグラフは、他のジャンルも良いスコアを持っていることを示しています： BiographyとAnimation 。それらの相関関係が前のマトリックスに表示されなかったのは、おそらくこれらのジャンルの映画が少なすぎたためです。そこで次に、ジャンル別の度数棒グラフを作成しました。

データベースに各ジャンルの映画がいくつあったかを示す棒グラフ。コメディ、ドラマ、アクションの頻度は約6,000以上でした。犯罪と恐怖は2,000を超えていました。残りは1,000未満でした。

事実上、 BiographyとAnimationには、 SportとAdultがそうであったように、映画がほとんどありませんでした。このため、これらはRatingとあまり相関していません。

IMDb評価システムの他の変数

その後、連続共変数（ Year 、 Votes 、 Runtime ）の分析を開始しました。散布図では、 RatingとYearの関係を確認できます。

前に見たように、 YearはRatingと負の相関関係があるように見えました。年が増えると、評価の分散も増加し、新しい映画ではより負の値に達します。

次に、私はVotesのために同じプロットを作成しました。

ここでは、相関関係がより明確でした。投票数が多いほど、ランキングも高くなります。ただし、ほとんどの映画の投票数はそれほど多くなく、この場合、 Ratingの差異が大きくなりました。

最後に、 Runtimeとの関係を調べました。

繰り返しになりますが、同様のパターンがありますが、さらに強力です。ランタイムが高いほど評価が高くなりますが、ランタイムが高い場合はほとんどありません。

IMDb評価システムの改良

この分析をすべて行った後、私は自分が扱っているデータについてよりよく理解できたので、これらのフィールドに基づいて評価を予測するためにいくつかのモデルをテストすることにしました。私の考えは、私の最高のモデル予測と実際のRatingの違いは、共通の機能の影響を取り除き、映画を他のものよりも良くする特定の特性を反映するというものでした。

私は最も単純なモデルである線形モデルから始めました。どのモデルのパフォーマンスが優れているかを評価するために、二乗平均平方根（RMSE）および平均絶対（MAE）エラーを観察しました。これらは、この種のタスクの標準的な手段です。また、予測変数と同じスケールであるため、解釈が容易です。

この最初のモデルでは、RMSEは1.03、MAEは0.78でした。しかし、線形モデルは、誤差に対する独立性、中央値がゼロ、および一定の分散を想定しています。これが正しければ、「残差と予測値」のグラフは構造のない雲のように見えるはずです。そこで、それを裏付けるためにグラフ化することにしました。

予測値の7までは構造化されていない形状でしたが、この値以降は明確な直線降下形状になっています。その結果、モデルの想定が悪く、また、実際にはRatingが10を超えることはできないため、予測値に「オーバーフロー」が発生しました。

以前のIMDbデータ分析では、 Votes数が多かったため、 Ratingが向上しました。ただし、これはいくつかのケースで、大量の投票で発生しました。これにより、モデルに歪みが生じ、このRatingオーバーフローが発生する可能性があります。これを確認するために、[ Votesフィールドを削除して、この同じモデルで何が起こるかを評価しました。

これははるかに良かったです！オーバーフロー予測値がなく、より明確で構造化されていない形状でした。 Votesフィールドもレビュー担当者のアクティビティに依存し、映画の特徴ではないため、このフィールドも削除することにしました。それを削除した後のエラーは、RMSEで1.06、MAEで0.81でした。少し悪いですが、それほどではありません。トレーニングセットでのパフォーマンスよりも、より良い仮定と特徴選択を使用することを好みました。

IMDbデータ分析：他のモデルはどの程度うまく機能しますか？

次に私がしたことは、さまざまなモデルを試して、どちらがパフォーマンスが優れているかを分析することでした。モデルごとに、ランダム検索手法を使用してハイパーパラメーター値を最適化し、モデルのバイアスを防ぐために5分割交差検定を使用しました。次の表に、得られた推定誤差を示します。

モデル	RMSE	MAE
神経網	1.044596	0.795699
ブースティング	1.046639	0.7971921
推論ツリー	1.05704	0.8054783
GAM	1.0615108	0.8119555
線形モデル	1.066539	0.8152524
ペナルティ付き線形登録	1.066607	0.8153331
KNN	1.066714	0.8123369
ベイジアンリッジ	1.068995	0.8148692
SVM	1.073491	0.8092725

ご覧のとおり、すべてのモデルが同じように機能するため、いくつかのモデルを使用してもう少しデータを分析しました。各分野が格付けに与える影響を知りたいと思いました。これを行う最も簡単な方法は、線形モデルのパラメーターを観察することです。ただし、以前は歪みを避けるために、データをスケーリングしてから線形モデルを再トレーニングしました。重みはここに描かれている通りでした。

ホラーのほぼ-0.25からドラマのほぼ0.25までの範囲の線形モデルの重みの棒グラフ。

このグラフでは、最も重要な変数の2つがHorrorとDramaであることが明らかです。最初の変数は評価にマイナスの影響を与え、2番目の変数はプラスの影響を与えます。 AnimationやBiographyなど、プラスの影響を与える他の分野もありますが、 Action 、 Sci-Fi 、 Yearはマイナスの影響を与えます。さらに、 Principal_Genreは大きな影響を与えないため、映画のどのジャンルがプリンシパルであるかよりも重要です。

一般化加法モデル（GAM）を使用すると、連続変数（この場合はYear ）のより詳細な影響も確認できました。

一般化された加法モデルを使用した年対s（年）のグラフ。 s（Year）値は、1970年には0.6付近で始まり、2010年には0を下回り、2019年までに再び0付近まで増加する曲線に従います。

ここに、もっと面白いものがあります。確かに最近の映画は評価が低くなる傾向がありましたが、効果は一定ではありませんでした。 2010年に最も低い値を示し、その後「回復」しているように見えます。その年以降、この変化を生み出した可能性のある映画製作で何が起こったのかを知ることは興味深いでしょう。

最良のモデルは、RMSEとMAEが最も低いニューラルネットワークでしたが、ご覧のとおり、完全なパフォーマンスに到達したモデルはありませんでした。しかし、これは私の目的に関しては悪いニュースではありませんでした。入手可能な情報により、パフォーマンスをある程度正確に見積もることができますが、それだけでは十分ではありません。他にも、IMDbから取得できなかった情報があり、 Genre 、 Runtime 、 Yearに基づいてRatingが期待スコアと異なる場合があります。それは俳優のパフォーマンス、映画の脚本、写真、または他の多くのものかもしれません。

私の見解では、これらの他の特性は、何を見るべきかを選択する上で本当に重要なことです。与えられた映画がドラマ、アクション、またはサイエンスフィクションであるかどうかは関係ありません。何か特別なもの、楽しい時間を過ごせるもの、何かを学ばせるもの、現実を振り返るようなもの、あるいはただ楽しませるものが欲しいです。

そこで、IMDbの評価を取得し、最良のモデルの予測された評価を差し引くことによって、新しい洗練された評価を作成しました。これを行うことで、 Genre 、 Runtime 、 Yearの影響を取り除き、私にとってはるかに重要なこの他の未知の情報を保持していました。

IMDb評価システムの代替：最終結果

私の新しい評価と実際のIMDbの評価によるベスト10の映画を見てみましょう。

IMDb

タイトル	ジャンル	IMDb評価	洗練された評価
コとタモペバ	アドベンチャー、コメディ、ドラマ	8.9	1.90
ディプナンバー2	冒険、家族	8.9	3.14
El senor de los anillos：El retorno del rey	アドベンチャー、ドラマ、ファンタジー	8.9	2.67
El senor de los anillos：La comunidad del anillo	アドベンチャー、ドラマ、ファンタジー	8.8	2.55
アンベシバム	アドベンチャー、コメディ、ドラマ	8.8	2.38
ハババムシニフィタチルデ	アドベンチャー、コメディ、ドラマ	8.7	1.66
El senor de los anillos：ラスドストーレス	アドベンチャー、ドラマ、ファンタジー	8.7	2.46
ムドラスの呼びかけ	アドベンチャー、ドラマ、ロマンス	8.7	2.34
インターステラー	アドベンチャー、ドラマ、SF	8.6	2.83
Volver al futuro	アドベンチャー、コメディ、SF	8.5	2.32

私の

タイトル	ジャンル	IMDb評価	洗練された評価
ディプナンバー2	冒険、家族	8.9	3.14
インターステラー	アドベンチャー、ドラマ、SF	8.6	2.83
El senor de los anillos：El retorno del rey	アドベンチャー、ドラマ、ファンタジー	8.9	2.67
El senor de los anillos：La comunidad del anillo	アドベンチャー、ドラマ、ファンタジー	8.8	2.55
Kolah ghermezi va pesar khale	アドベンチャー、コメディ、家族	8.1	2.49
El senor de los anillos：ラスドストーレス	アドベンチャー、ドラマ、ファンタジー	8.7	2.46
アンベシバム	アドベンチャー、コメディ、ドラマ	8.8	2.38
Los caballeros de la mesa cuadrada	アドベンチャー、コメディ、ファンタジー	8.2	2.35
ムドラスの呼びかけ	アドベンチャー、ドラマ、ロマンス	8.7	2.34
Volver al futuro	アドベンチャー、コメディ、SF	8.5	2.32

ご覧のとおり、表彰台は根本的に変化していません。これは、RMSEがそれほど高くなかったために予想されたものであり、ここではトップを見ています。ボトム10で何が起こったのか見てみましょう：

IMDb

タイトル	ジャンル	IMDb評価	洗練された評価
Holnaptortent-厄介なbulvarfilm	コメディ、ミステリー	1	-4.86
Cumali Ceber：Allah Seni Alsin	コメディ	1	-4.57
バダング	コメディ、ファンタジー	1	-4.74
Yyyreek !!! Kosmiczna nominacja	コメディ	1.1	-4.52
誇り高きアメリカ人	ドラマ	1.1	-5.49
ブラウンコート：独立戦争	アクション、SF、戦争	1.1	-3.71
それが生きる週末	コメディ、ホラー、ミステリー	1.2	-4.53
ボリバル：エルヒーロー	アニメーション、伝記	1.2	-5.34
ブラックバットの台頭	アクション、SF	1.2	-3.65
初恋	ドラマ	1.2	-5.38

私の

タイトル	ジャンル	IMDb評価	洗練された評価
誇り高きアメリカ人	ドラマ	1.1	-5.49
サンタとアイスクリームバニー	家族、ファンタジー	1.3	-5.42
初恋	ドラマ	1.2	-5.38
レイス	伝記、ドラマ	1.5	-5.35
ボリバル：エルヒーロー	アニメーション、伝記	1.2	-5.34
ハナムとランガ：信仰と都市	ドラマ、ロマンス	1.2	-5.28
昨シーズン以降	アニメーション、ドラマ、SF	1.7	-5.27
バルシェル-ジュネーブのモルド	ドラマ	1.6	-5.23
ラッシュライフ	ドラマ	1.5	-5.08
紙風船	ドラマ	1.5	-5.08

ここでも同じことが起こりましたが、今ではIMDbよりも洗練されたケースの方が多くのドラマが登場していることがわかります。

おそらく最も興味深い表彰台は、IMDbレーティングシステムのスコアと私の洗練されたスコアの差が最も大きい10本の映画です。これらの映画は、未知の特性に重きを置いており、既知の機能で予想されるよりもはるかに優れた（または劣った）映画になっています。

タイトル	IMDb評価	洗練された評価	違い
かなしみのベラドンナ	7.4	-0.71	8.11
ジーザスクライストスーパースター	7.4	-0.69	8.09
ピンクフロイドザウォール	8.1	0.03	8.06
天使のたまご	7.6	-0.42	8.02
ジボン・テケ・ネヤ	9.4	1.52	7.87
エルベイル	7.8	0.00	7.80
サンタと三匹の熊	7.1	-0.70	7.80
La alegre historia de Scrooge	7.5	-0.24	7.74
Piel de asno	7	-0.74	7.74
1776年	7.6	-0.11	7.71

私が映画監督で、新しい映画を制作する必要がある場合、このIMDbデータ分析をすべて行った後、IMDbランキングを上げるために、どのような映画を作成するかについてより良いアイデアを得ることができました。それは、たとえばアマデウスなどの古い映画をリメイクした、長いアニメーションの伝記ドラマになります。おそらくこれは良いIMDbランキングを保証するでしょうが、利益についてはよくわかりません…

この新しい基準でランク付けされている映画についてどう思いますか？あなたはそれらを好きですか？それともオリジナルのものが好きですか？以下のコメントで教えてください！