จัดตำแหน่งดาวใหม่: การปรับปรุงระบบการจัดระดับ IMDb

เผยแพร่แล้ว: 2022-03-11

นักดูภาพยนตร์บางครั้งใช้การจัดอันดับเพื่อเลือกสิ่งที่จะดู เมื่อทำสิ่งนี้ด้วยตัวเอง ฉันสังเกตเห็นว่าภาพยนตร์ที่ติดอันดับดีที่สุดหลายเรื่องอยู่ในประเภทเดียวกัน นั่นคือ ละคร สิ่งนี้ทำให้ฉันคิดว่าการจัดอันดับอาจมีอคติประเภทใดประเภทหนึ่ง

ฉันอยู่ในเว็บไซต์ยอดนิยมแห่งหนึ่งสำหรับคนรักหนังอย่าง IMDb ซึ่งครอบคลุมภาพยนตร์จากทั่วทุกมุมโลกและทุกปี การจัดอันดับที่มีชื่อเสียงนั้นอิงจากบทวิจารณ์จำนวนมาก สำหรับการวิเคราะห์ข้อมูล IMDb นี้ ฉันตัดสินใจดาวน์โหลดข้อมูลทั้งหมดที่มีเพื่อวิเคราะห์และพยายามสร้างการจัดอันดับใหม่ที่ได้รับการปรับปรุงซึ่งจะพิจารณาเกณฑ์ต่างๆ ที่กว้างขึ้น

ระบบการให้คะแนน IMDb: การกรองข้อมูลของ IMDb

ฉันสามารถดาวน์โหลดข้อมูลเกี่ยวกับภาพยนตร์ 242,528 เรื่องที่ออกฉายระหว่างปี 1970 ถึง 2019 ได้รวมอยู่ด้วย ข้อมูลที่ IMDb มอบให้ฉันสำหรับแต่ละรายการ ได้แก่ Rank Title ID Year Certificate Rating Votes Metascore Synopsis Runtime Genre Gross ต้น และ SearchYear ปี

เพื่อให้มีข้อมูลเพียงพอในการวิเคราะห์ ฉันต้องการจำนวนบทวิจารณ์ขั้นต่ำต่อภาพยนตร์หนึ่งเรื่อง ดังนั้นสิ่งแรกที่ฉันทำคือกรองภาพยนตร์ที่มีบทวิจารณ์น้อยกว่า 500 เรื่อง ส่งผลให้มีภาพยนตร์จำนวน 33,296 เรื่อง และในตารางถัดไป เราอาจเห็นการวิเคราะห์สรุปของเขตข้อมูล:

สนาม พิมพ์ นับค่าว่าง หมายถึง ค่ามัธยฐาน
อันดับ ปัจจัย 0
ชื่อ ปัจจัย 0
ไอดี ปัจจัย 0
ปี Int 0 พ.ศ. 2546 ปี 2549
ใบรับรอง ปัจจัย 17587
เรตติ้ง Int 0 6.1 6.3
โหวต Int 0 21040 2017
Metascore Int 22350 55.3 56
เรื่องย่อ ปัจจัย 0
รันไทม์ Int 132 104.9 100
ประเภท ปัจจัย 0
ทั้งหมด ปัจจัย 21415
ค้นหาปี Int 0 พ.ศ. 2546 ปี 2549

หมายเหตุ: ใน R Factor หมายถึงสตริง Rank และ Gross เป็นแบบนั้นในชุดข้อมูล IMDb ดั้งเดิมเนื่องจากมีตัวคั่นหลายพันตัว ตัวอย่างเช่น

ก่อนเริ่มปรับแต่งคะแนน ฉันต้องวิเคราะห์ชุดข้อมูลนี้เพิ่มเติม สำหรับผู้เริ่มต้น ฟิลด์ Certificate , Metascore และ Gross มีค่า Null มากกว่า 50% ดังนั้นจึงไม่มีประโยชน์ อันดับขึ้นอยู่กับอันดับ (ตัวแปรที่จะปรับแต่ง) ดังนั้นจึงไม่มีข้อมูลที่เป็นประโยชน์ใดๆ เช่นเดียวกับ ID ที่เป็นตัวระบุเฉพาะสำหรับภาพยนตร์แต่ละเรื่อง

สุดท้าย Title และ Synopsis คือช่องข้อความสั้นๆ อาจเป็นไปได้ที่จะใช้สิ่งเหล่านี้ผ่านเทคนิค NLP บางอย่าง แต่เนื่องจากเป็นข้อความในจำนวนที่จำกัด ฉันจึงตัดสินใจไม่คำนึงถึงสิ่งนี้สำหรับงานนี้

หลังจากตัวกรองแรกนี้ ฉันเหลือแค่ Genre เรต Rating Year Votes ค้นหา Runtime และ SearchYear ในช่อง Genre มีมากกว่าหนึ่งประเภทต่อภาพยนตร์ โดยคั่นด้วยเครื่องหมายจุลภาค ดังนั้น เพื่อจับภาพเอฟเฟกต์เพิ่มเติมของการมีหลายประเภท ฉันจึงแปลงมันโดยใช้การเข้ารหัสแบบร้อนครั้งเดียว ส่งผลให้มีฟิลด์บูลีนใหม่ 22 ฟิลด์—หนึ่งฟิลด์สำหรับแต่ละประเภท—โดยมีค่า 1 หากภาพยนตร์มีแนวนี้หรือ 0 อย่างอื่น

การวิเคราะห์ข้อมูล IMDb

เพื่อดูความสัมพันธ์ระหว่างตัวแปร ฉันคำนวณเมทริกซ์สหสัมพันธ์

เมทริกซ์สหสัมพันธ์ระหว่างคอลัมน์ดั้งเดิมที่เหลือทั้งหมดและคอลัมน์ประเภทใหม่ ตัวเลขใกล้ศูนย์ส่งผลให้มีช่องว่างในตาราง ความสัมพันธ์เชิงลบส่งผลให้เกิดจุดสีแดงและความสัมพันธ์เชิงบวกในจุดสีน้ำเงิน จุดมีขนาดใหญ่และเข้มขึ้นตามความสัมพันธ์ที่แน่นแฟ้นยิ่งขึ้น (ภาพไฮไลท์มีอธิบายอยู่ในข้อความของบทความหลัก)

ในที่นี้ ค่าที่ใกล้กับ 1 แสดงถึงความสัมพันธ์เชิงบวกที่แข็งแกร่ง และค่าที่ใกล้กับ -1 หมายถึงความสัมพันธ์เชิงลบที่แข็งแกร่ง จากกราฟนี้ ฉันได้สังเกตหลายอย่าง:

  • Year และ SearchYear มีความสัมพันธ์กันโดยสิ้นเชิง ซึ่งหมายความว่าอาจมีค่าเท่ากันและมีทั้งสองแบบเหมือนกับมีอันเดียว ดังนั้นฉันจึงเก็บไว้เพียง Year เท่านั้น
  • บางสาขาคาดว่าจะมีความสัมพันธ์เชิงบวก เช่น:
    • Music กับ Musical
    • Action กับการ Adventure
    • Animation กับ Adventure
  • เหมือนกันสำหรับความสัมพันธ์เชิงลบ:
    • Drama กับ Horror
    • Comedy กับ Horror
    • Horror vs. Romance
  • เกี่ยวข้องกับตัวแปรสำคัญ ( Rating ) ฉันสังเกตเห็น:
    • มีความสัมพันธ์เชิงบวกและสำคัญกับ Runtime และ Drama
    • มีความสัมพันธ์ที่ต่ำกว่ากับการ Votes Biography และ History
    • มีความสัมพันธ์เชิงลบอย่างมากกับความ Horror และความสัมพันธ์เชิงลบที่ต่ำกว่ากับ Thriller , Action , Sci-Fi และ Year
    • ไม่มีความสัมพันธ์ที่สำคัญอื่นๆ

ดูเหมือนว่าละครยาวจะได้รับเรทติ้งดี ในขณะที่หนังสยองขวัญเรื่องสั้นไม่ได้รับเรตติ้ง ในความเห็นของฉัน—ฉันไม่มีข้อมูลที่จะตรวจสอบ—มันไม่สัมพันธ์กับประเภทภาพยนตร์ที่สร้างผลกำไรมากขึ้น เช่น ภาพยนตร์ของ Marvel หรือ Pixar

อาจเป็นไปได้ว่าผู้ที่ลงคะแนนในไซต์นี้ไม่ได้เป็นตัวแทนที่ดีที่สุดของเกณฑ์คนทั่วไป เป็นเรื่องที่สมเหตุสมผลเพราะผู้ที่ใช้เวลาในการส่งบทวิจารณ์บนเว็บไซต์อาจเป็นนักวิจารณ์ภาพยนตร์ที่มีเกณฑ์เฉพาะเจาะจงมากขึ้น อย่างไรก็ตาม เป้าหมายของฉันคือลบเอฟเฟกต์ของคุณสมบัติทั่วไปของภาพยนตร์ ดังนั้นฉันจึงพยายามลบอคติในกระบวนการนี้

การแบ่งประเภทในระบบการให้คะแนน IMDb

ขั้นตอนต่อไปคือการวิเคราะห์การกระจายของแต่ละประเภทเหนือการจัดอันดับ ในการทำเช่นนั้น ฉันได้สร้างฟิลด์ใหม่ชื่อ Principal_Genre ตามประเภทแรกที่ปรากฏในฟิลด์ Genre ดั้งเดิม เพื่อให้เห็นภาพนี้ ฉันสร้างกราฟไวโอลิน

พล็อตไวโอลินแสดงการแจกแจงเรตติ้งสำหรับแต่ละประเภท

อีกครั้งที่ฉันเห็น Drama มีความสัมพันธ์กับเรตติ้งสูงและ Horror ที่ต่ำกว่า อย่างไรก็ตาม กราฟนี้ยังเผยให้เห็นแนวเพลงอื่นๆ ที่มีคะแนนดี ได้แก่ Biography และ Animation การที่ความสัมพันธ์ของพวกเขาไม่ปรากฏในเมทริกซ์ก่อนหน้านี้ อาจเป็นเพราะมีภาพยนตร์ประเภทเหล่านี้น้อยเกินไป ต่อไปฉันสร้างพล็อตแถบความถี่ตามประเภท

กราฟแท่งแสดงจำนวนภาพยนตร์ของแต่ละประเภทที่อยู่ในฐานข้อมูล Comedy, Drama, and Action มีความถี่ประมาณ 6,000 หรือสูงกว่า; อาชญากรรมและความสยองขวัญอยู่เหนือ 2,000; ส่วนที่เหลืออยู่ภายใต้ 1,000

Biography และ Animation มีภาพยนตร์น้อยมาก เช่นเดียวกับ Sport และ Adult ด้วยเหตุผลนี้ จึงไม่สัมพันธ์กับ Rating มากนัก

ตัวแปรอื่นๆ ในระบบการให้คะแนน IMDb

หลังจากนั้น ฉันเริ่มวิเคราะห์ covariables ต่อเนื่อง: Year , Votes และ Runtime ในแผนภาพกระจาย คุณสามารถดูความสัมพันธ์ระหว่าง Rating และ Year

พล็อตการให้คะแนนและปีกระจัดกระจาย

อย่างที่เราเห็นไปก่อนหน้านี้ ดูเหมือนว่า Year จะมีความสัมพันธ์เชิงลบกับ Rating : เมื่อปีเพิ่มขึ้น ความแปรปรวนของเรตติ้งก็เพิ่มขึ้นเช่นกัน โดยเข้าถึงค่าลบที่มากขึ้นในภาพยนตร์ที่ใหม่กว่า

ต่อไป ฉันทำโครงเรื่องเดียวกันสำหรับ Votes

พล็อตการให้คะแนนและการโหวตที่กระจัดกระจาย

ในที่นี้ สหสัมพันธ์มีความชัดเจนมากขึ้น: ยิ่งจำนวนคะแนนโหวตสูง ตำแหน่งก็จะยิ่งสูงขึ้น อย่างไรก็ตาม ภาพยนตร์ส่วนใหญ่มีคะแนนโหวตไม่มากนัก และในกรณีนี้ เรต Rating มีความแปรปรวนมากกว่า

สุดท้าย ฉันได้ดูความสัมพันธ์กับ Runtime

พล็อตกระจายระหว่างการให้คะแนนและรันไทม์

อีกครั้ง เรามีรูปแบบที่คล้ายกันแต่แข็งแกร่งยิ่งขึ้น: รันไทม์ที่สูงขึ้นหมายถึงการให้คะแนนที่สูงกว่า แต่มีบางกรณีสำหรับรันไทม์ที่สูง

การปรับแต่งระบบการจัดเรต IMDb

หลังจากการวิเคราะห์ทั้งหมดนี้ ฉันมีความคิดที่ดีขึ้นเกี่ยวกับข้อมูลที่ฉันกำลังเผชิญอยู่ ดังนั้นฉันจึงตัดสินใจทดสอบแบบจำลองบางตัวเพื่อทำนายการให้คะแนนตามฟิลด์เหล่านี้ ความคิดของฉันคือความแตกต่างระหว่างการคาดคะเนโมเดลที่ดีที่สุดของฉันกับเรต Rating ที่แท้จริงจะลบอิทธิพลของคุณสมบัติทั่วไปออกไป และสะท้อนถึงคุณลักษณะเฉพาะที่ทำให้ภาพยนตร์ดีกว่าเรื่องอื่นๆ

ฉันเริ่มด้วยโมเดลที่ง่ายที่สุด แบบเชิงเส้น ในการประเมินว่าแบบจำลองใดทำงานได้ดีกว่า ฉันได้สังเกตข้อผิดพลาดของรูทค่าเฉลี่ยสแควร์ (RMSE) และค่าเฉลี่ยสัมบูรณ์ (MAE) เป็นมาตรการมาตรฐานสำหรับงานประเภทนี้ นอกจากนี้ยังอยู่ในระดับเดียวกับตัวแปรที่คาดคะเน ดังนั้นจึงง่ายต่อการตีความ

ในรุ่นแรกนี้ RMSE คือ 1.03 และ MAE 0.78 แต่ตัวแบบเชิงเส้นสมมติให้เป็นอิสระเหนือข้อผิดพลาด ค่ามัธยฐานของศูนย์ และความแปรปรวนคงที่ หากถูกต้อง กราฟ "ค่าคงเหลือเทียบกับค่าที่คาดการณ์" ควรมีลักษณะเหมือนเมฆที่ไม่มีโครงสร้าง ดังนั้นฉันจึงตัดสินใจสร้างกราฟเพื่อยืนยันสิ่งนั้น

ค่าที่เหลือเทียบกับค่าที่คาดการณ์ scatterplot

ฉันเห็นว่าค่าที่ทำนายไว้มากถึง 7 ค่า มีรูปร่างที่ไม่มีโครงสร้าง แต่หลังจากค่านี้ ค่านั้นจะมีรูปร่างการสืบเชื้อสายเชิงเส้นที่ชัดเจน ดังนั้น การคาดคะเนแบบจำลองนั้นไม่ดี และฉันก็มี "ล้น" กับค่าที่คาดการณ์ไว้ เพราะในความเป็นจริง เรต Rating ต้องไม่เกิน 10

ในการวิเคราะห์ข้อมูล IMDb ก่อนหน้านี้ ด้วยจำนวนการ Votes ที่สูงขึ้น การ Rating ก็ดีขึ้น อย่างไรก็ตาม สิ่งนี้เกิดขึ้นในบางกรณีและได้รับการโหวตเป็นจำนวนมาก ซึ่งอาจทำให้เกิดการบิดเบือนในแบบจำลองและทำให้เกิดการ Rating ล้นนี้ เพื่อตรวจสอบสิ่งนี้ ฉันประเมินว่าจะเกิดอะไรขึ้นกับโมเดลเดียวกันนี้ โดยลบฟิลด์ Votes ออก

ค่าที่เหลือเทียบกับค่าที่คาดการณ์ scatterplot เมื่อลบฟิลด์โหวต

นี้ดีกว่ามาก! มันมีรูปร่างที่ชัดเจนและไม่มีโครงสร้างโดยไม่มีค่าที่คาดการณ์ว่าจะล้น ช่อง Votes ยังขึ้นอยู่กับกิจกรรมของผู้วิจารณ์และไม่ใช่คุณสมบัติของภาพยนตร์ ดังนั้นฉันจึงตัดสินใจยกเลิกสาขานี้เช่นกัน ข้อผิดพลาดหลังจากลบออกคือ 1.06 ใน RMSE และ 0.81 ใน MAE ซึ่งแย่กว่านั้นเล็กน้อย แต่ไม่มากนัก และฉันต้องการให้สมมติฐานและการเลือกคุณลักษณะที่ดีกว่าประสิทธิภาพที่ดีขึ้นเล็กน้อยในชุดการฝึกของฉัน

การวิเคราะห์ข้อมูล IMDb: โมเดลอื่นๆ ทำงานได้ดีเพียงใด?

สิ่งต่อไปที่ฉันทำคือลองใช้แบบจำลองต่างๆ เพื่อวิเคราะห์ว่ารุ่นใดทำงานได้ดีกว่า สำหรับแต่ละรุ่น ฉันใช้เทคนิคการค้นหาแบบสุ่มเพื่อปรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ให้เหมาะสมและการตรวจสอบข้าม 5 เท่า เพื่อป้องกันอคติของโมเดล ในตารางต่อไปนี้เป็นข้อผิดพลาดโดยประมาณที่ได้รับ:

แบบอย่าง RMSE แม่
โครงข่ายประสาทเทียม 1.044596 0.795699
ส่งเสริม 1.046639 0.7971921
ต้นไม้อนุมาน 1.05704 0.8054783
GAM 1.0615108 0.8119555
แบบจำลองเชิงเส้น 1.066539 0.8152524
การลงโทษเชิงเส้น Reg 1.066607 0.8153331
KNN 1.066714 0.8123369
Bayesian Ridge 1.068995 0.8148692
SVM 1.073491 0.8092725

อย่างที่คุณเห็น ทุกรุ่นทำงานเหมือนกัน ดังนั้นฉันจึงใช้โมเดลบางตัวเพื่อวิเคราะห์ข้อมูลเพิ่มเล็กน้อย ฉันต้องการทราบอิทธิพลของแต่ละฟิลด์ที่มีต่อการจัดอันดับ วิธีที่ง่ายที่สุดในการทำเช่นนั้นคือการสังเกตพารามิเตอร์ของตัวแบบเชิงเส้น แต่เพื่อหลีกเลี่ยงความผิดเพี้ยนที่เกิดขึ้นก่อนหน้านี้ ฉันได้ปรับขนาดข้อมูลแล้วจึงฝึกแบบจำลองเชิงเส้นใหม่ น้ำหนักเป็นภาพที่นี่

กราฟแท่งของน้ำหนักโมเดลเชิงเส้นตั้งแต่เกือบ -0.25 สำหรับสยองขวัญไปจนถึงเกือบ 0.25 สำหรับ Drama

ในกราฟนี้ เห็นได้ชัดว่าตัวแปรที่สำคัญที่สุดสองประการคือ Horror และ Drama โดยที่ตัวแปรแรกมีผลกระทบด้านลบต่อการจัดอันดับ และตัวแปรที่สองมีผลในเชิงบวก นอกจากนี้ยังมีสาขาอื่นๆ ที่ส่งผลกระทบในทางบวก เช่น Animation และ Biography ขณะที่ Action , Sci-Fi และ Year ส่งผลกระทบในทางลบ ยิ่งไปกว่านั้น Principal_Genre ไม่ได้ส่งผลกระทบมากนัก ดังนั้นจึงมีความสำคัญมากกว่าว่าประเภทใดที่ภาพยนตร์จะมีมากกว่าประเภทหลัก

ด้วยโมเดลสารเติมแต่งทั่วไป (GAM) ฉันยังสามารถเห็นผลกระทบที่มีรายละเอียดมากขึ้นสำหรับตัวแปรต่อเนื่อง ซึ่งในกรณีนี้คือ Year

กราฟของปีเทียบกับ s (ปี) โดยใช้แบบจำลองการเติมทั่วไป ค่า s(Year) ตามเส้นโค้งที่เริ่มต้นขึ้นใกล้ 0.6 ในปี 1970 ผ่านจุดต่ำสุดที่ต่ำกว่า 0 ในปี 2010 และเพิ่มขึ้นจนใกล้ 0 อีกครั้งภายในปี 2019

ที่นี่เรามีสิ่งที่น่าสนใจมากขึ้น แม้จะเป็นความจริงที่ภาพยนตร์เรื่องล่าสุด เรตติ้งมีแนวโน้มลดลง แต่เอฟเฟกต์ไม่คงที่ มีค่าต่ำสุดในปี 2010 และดูเหมือนว่าจะ "กู้คืน" คงจะเป็นเรื่องที่น่าสนใจที่จะค้นหาว่าเกิดอะไรขึ้นหลังจากปีนั้นในการผลิตภาพยนตร์ที่อาจก่อให้เกิดการเปลี่ยนแปลงนี้ได้

โมเดลที่ดีที่สุดคือโครงข่ายประสาทเทียมซึ่งมี RMSE และ MAE ต่ำที่สุด แต่อย่างที่คุณเห็น ไม่มีรุ่นใดที่มีประสิทธิภาพสูงสุด แต่นี่ไม่ใช่ข่าวร้ายในแง่ของวัตถุประสงค์ของฉัน ข้อมูลที่มีอยู่ให้ฉันประเมินประสิทธิภาพค่อนข้างดี แต่ก็ยังไม่เพียงพอ มีข้อมูลอื่นๆ ที่ฉันไม่สามารถหาได้จาก IMDb ที่ทำให้การ Rating แตกต่างจากคะแนนที่คาดไว้ตาม Genre Runtime และ Year อาจเป็นการแสดงของนักแสดง บทภาพยนตร์ การถ่ายภาพ หรืออะไรหลายๆ อย่าง

จากมุมมองของฉัน คุณลักษณะอื่นๆ เหล่านี้มีความสำคัญอย่างยิ่งในการเลือกว่าจะดูอะไร ฉันไม่สนหรอกว่าหนังเรื่องใดเรื่องหนึ่งจะเป็นละคร แอ็คชั่น หรือนิยายวิทยาศาสตร์ ฉันต้องการให้มันมีสิ่งพิเศษบางอย่างที่ทำให้ฉันมีช่วงเวลาที่ดี ทำให้ฉันได้เรียนรู้บางสิ่งบางอย่าง ทำให้ฉันได้ไตร่ตรองถึงความเป็นจริง หรือเพียงแค่สร้างความบันเทิงให้กับฉัน

ดังนั้นฉันจึงสร้างการให้คะแนนใหม่ที่ละเอียดขึ้นโดยนำการให้คะแนน IMDb และลบคะแนนที่คาดการณ์ไว้ของแบบจำลองที่ดีที่สุด ด้วยการทำเช่นนี้ ฉันกำลังลบเอฟเฟกต์ของ Genre , Runtime และ Year และเก็บข้อมูลที่ไม่รู้จักอื่น ๆ ที่มีความสำคัญต่อฉันมากกว่ามาก

ทางเลือกของระบบการจัดเรต IMDb: ผลลัพธ์สุดท้าย

มาดูกันว่าภาพยนตร์เรื่องใดที่ดีที่สุด 10 เรื่องจากคะแนนใหม่ของฉันเทียบกับคะแนน IMDb ที่แท้จริง:

IMDb

ชื่อ ประเภท คะแนน IMDb คะแนนกลั่น
โก ถึง ทาโม เปวา ผจญภัย,ตลก,ดราม่า 8.9 1.90
Dipu หมายเลข 2 ผจญภัย,ครอบครัว 8.9 3.14
El senor de los anillos: El retorno del rey ผจญภัย,ดราม่า,แฟนตาซี 8.9 2.67
El senor de los anillos: La comunidad del anillo ผจญภัย,ดราม่า,แฟนตาซี 8.8 2.55
Anbe Sivam ผจญภัย,ตลก,ดราม่า 8.8 2.38
ฮาบาบัม ซินิฟี ตาติลเด ผจญภัย,ตลก,ดราม่า 8.7 1.66
El senor de los anillos: Las dos torres ผจญภัย,ดราม่า,แฟนตาซี 8.7 2.46
Mudras Calling ผจญภัย,ดราม่า,โรแมนติก 8.7 2.34
น่าสนใจ ผจญภัย,ดราม่า,ไซไฟ 8.6 2.83
Volver al futuro ผจญภัย,ตลก,ไซไฟ 8.5 2.32

ของฉัน

ชื่อ ประเภท คะแนน IMDb คะแนนกลั่น
Dipu หมายเลข 2 ผจญภัย,ครอบครัว 8.9 3.14
น่าสนใจ ผจญภัย,ดราม่า,ไซไฟ 8.6 2.83
El senor de los anillos: El retorno del rey ผจญภัย,ดราม่า,แฟนตาซี 8.9 2.67
El senor de los anillos: La comunidad del anillo ผจญภัย,ดราม่า,แฟนตาซี 8.8 2.55
โคลาห์ เกอร์เมซี วา เปซาร์ คาเล ผจญภัย,ตลก,ครอบครัว 8.1 2.49
El senor de los anillos: Las dos torres ผจญภัย,ดราม่า,แฟนตาซี 8.7 2.46
Anbe Sivam ผจญภัย,ตลก,ดราม่า 8.8 2.38
Los caballeros de la mesa cuadrada ผจญภัย,ตลก,แฟนตาซี 8.2 2.35
Mudras Calling ผจญภัย,ดราม่า,โรแมนติก 8.7 2.34
Volver al futuro ผจญภัย,ตลก,ไซไฟ 8.5 2.32

อย่างที่คุณเห็น แท่นไม่ได้เปลี่ยนแปลงไปอย่างสิ้นเชิง นี่เป็นสิ่งที่คาดหวังเพราะ RMSE ไม่สูงมาก และที่นี่เรากำลังดูจุดสูงสุด มาดูกันว่าเกิดอะไรขึ้นกับ 10 อันดับแรก:

IMDb

ชื่อ ประเภท คะแนน IMDb คะแนนกลั่น
Holnap ทรมาน - bulvarfilm น่ารังเกียจ ตลก,ลึกลับ 1 -4.86
Cumali Ceber: อัลเลาะห์ Seni Alsin ตลก 1 -4.57
บาดัง ตลก,แฟนตาซี 1 -4.74
ยี้รี้ค!!! Kosmiczna nominacja ตลก 1.1 -4.52
ภูมิใจอเมริกัน ละคร 1.1 -5.49
Browncoats: สงครามอิสรภาพ แอคชั่น,ไซไฟ,สงคราม 1.1 -3.71
The Weekend It Lives ตลก,สยองขวัญ,ลึกลับ 1.2 -4.53
โบลิวาร์: เอลฮีโร่ แอนิเมชั่น,ชีวประวัติ 1.2 -5.34
กำเนิดค้างคาวดำ แอคชั่น,ไซไฟ 1.2 -3.65
ฮัตสึโคอิ ละคร 1.2 -5.38

ของฉัน

ชื่อ ประเภท คะแนน IMDb คะแนนกลั่น
ภูมิใจอเมริกัน ละคร 1.1 -5.49
ซานต้ากับกระต่ายไอศครีม ครอบครัว,แฟนตาซี 1.3 -5.42
ฮัตสึโคอิ ละคร 1.2 -5.38
Reis ชีวประวัติ,ละคร 1.5 -5.35
โบลิวาร์: เอลฮีโร่ แอนิเมชั่น,ชีวประวัติ 1.2 -5.34
Hanum & Rangga: ศรัทธาและเมือง ดราม่า,โรแมนติก 1.2 -5.28
หลังฤดูกาลที่แล้ว แอนิเมชั่น,ดราม่า,ไซไฟ 1.7 -5.27
Barschel - Mord ใน Genf ละคร 1.6 -5.23
ราชู ไรฟุ ละคร 1.5 -5.08
คามิฟุเซ็น ละคร 1.5 -5.08

สิ่งเดียวกันนี้เกิดขึ้นที่นี่ แต่ตอนนี้เราสามารถเห็นได้ว่ามีละครปรากฏในคดีที่ละเอียดกว่าใน IMDb ซึ่งแสดงให้เห็นว่าละครบางเรื่องอาจมีอันดับสูงเกินไปเพียงเพราะเป็นละคร

บางทีแท่นที่น่าสนใจที่สุดที่จะได้เห็นคือภาพยนตร์ 10 เรื่องที่มีความแตกต่างกันมากที่สุดระหว่างคะแนนของระบบการจัดประเภท IMDb กับคะแนนที่กลั่นกรองแล้วของฉัน ภาพยนตร์เหล่านี้เป็นภาพยนตร์ที่มีน้ำหนักมากกว่าคุณลักษณะที่ไม่รู้จัก และทำให้ภาพยนตร์ดีขึ้น (หรือแย่กว่านั้น) มากเกินคาดสำหรับคุณลักษณะที่เป็นที่รู้จัก

ชื่อ คะแนน IMDb คะแนนกลั่น ความแตกต่าง
คานาชิมิ โนะ เบราดอนนะ 7.4 -0.71 8.11
เจซูคริสโต ซุปเปอร์สตาร์ 7.4 -0.69 8.09
Pink Floyd The Wall 8.1 0.03 8.06
เทนชิโนะทามาโกะ 7.6 -0.42 8.02
Jibon Theke Neya 9.4 1.52 7.87
เอล ไบเล่ 7.8 0.00 7.80
ซานต้ากับหมีสามตัว 7.1 -0.70 7.80
La alegre historia de Scrooge 7.5 -0.24 7.74
ปิเอล เดอ อัสโน 7 -0.74 7.74
พ.ศ. 2319 7.6 -0.11 7.71

ถ้าฉันเป็นผู้กำกับภาพยนตร์และต้องสร้างภาพยนตร์เรื่องใหม่ หลังจากทำการวิเคราะห์ข้อมูล IMDb ทั้งหมดนี้แล้ว ฉันน่าจะมีความคิดที่ดีขึ้นว่าควรสร้างภาพยนตร์ประเภทใดเพื่อให้มีอันดับ IMDb ที่ดีขึ้น มันจะเป็นละครชีวประวัติแอนิเมชั่นเรื่องยาวที่เป็นการรีเมคจากหนังเก่า—ตัวอย่างเช่น Amadeus อาจเป็นการประกันอันดับ IMDb ที่ดี แต่ฉันไม่แน่ใจเกี่ยวกับผลกำไร...

คุณคิดอย่างไรเกี่ยวกับภาพยนตร์ที่ติดอันดับในมิติใหม่นี้? คุณชอบพวกเขาไหม? หรือคุณชอบของเดิม? แจ้งให้เราทราบในความคิดเห็นด้านล่าง!