ตัวชี้วัดการประเมินในการเรียนรู้ของเครื่อง: ตัวชี้วัด 10 อันดับแรกที่คุณควรรู้

เผยแพร่แล้ว: 2021-01-05

การตัดสินใจเลือกเมตริกที่ถูกต้องเป็นขั้นตอนสำคัญในโครงการแมชชีนเลิร์นนิง แบบจำลองแมชชีนเลิร์นนิงทุกรุ่นต้องได้รับการประเมินเทียบกับเมตริกบางตัวเพื่อตรวจสอบว่าได้เรียนรู้ข้อมูลและดำเนินการกับข้อมูลการทดสอบได้ดีเพียงใด สิ่งเหล่านี้เรียกว่า ตัวชี้วัดประสิทธิภาพ และแตกต่างกันสำหรับแบบจำลองการถดถอยและการจำแนกประเภท

ในตอนท้ายของบทช่วยสอนนี้ คุณจะรู้ว่า:

  • ตัวชี้วัดสำหรับการถดถอย
  • ตัวชี้วัดสำหรับการจำแนกประเภทต่าง ๆ
  • เมื่อต้องการเลือกชนิดของเมตริก

สารบัญ

ตัวชี้วัดสำหรับการถดถอย

ปัญหาการถดถอยเกี่ยวข้องกับการทำนายเป้าหมายด้วยค่าที่ต่อเนื่องกันจากชุดคุณสมบัติอิสระ นี่คือประเภทของการเรียนรู้ภายใต้การดูแล ซึ่งเราจะเปรียบเทียบการคาดคะเนกับค่าจริง แล้วคำนวณความแตกต่าง/ระยะข้อผิดพลาด น้อยกว่าข้อผิดพลาด ดีกว่าคือประสิทธิภาพของแบบจำลอง เรามีเมตริกการถดถอยประเภทต่างๆ ที่ใช้กันอย่างแพร่หลายในปัจจุบัน มาดูพวกเขาทีละคน

1. ค่าเฉลี่ยกำลังสองข้อผิดพลาด

Mean Squared Error (MSE) เป็นเมตริกการถดถอยที่ใช้มากที่สุด ใช้ข้อผิดพลาดกำลังสอง (Y_Pred – Y_actual) เพื่อคำนวณข้อผิดพลาด การยกกำลังสองส่งผลให้เกิดการเปลี่ยนแปลงที่สำคัญสองประการในการคำนวณข้อผิดพลาดตามปกติ หนึ่ง ข้อผิดพลาดนั้นสามารถเป็นค่าลบได้ และการยกกำลังสองข้อผิดพลาดนั้นจะเปลี่ยนข้อผิดพลาดทั้งหมดให้กลายเป็นแง่บวก และด้วยเหตุนี้จึงสามารถเพิ่มได้อย่างง่ายดาย

ประการที่สอง การยกกำลังสองจะเพิ่มข้อผิดพลาดซึ่งมีขนาดใหญ่อยู่แล้ว และลดข้อผิดพลาดด้วยค่าที่น้อยกว่า 1 เอฟเฟกต์การขยายนี้จะลงโทษกรณีที่ข้อผิดพลาดมีขนาดใหญ่ MSE เป็นที่ต้องการอย่างมากเนื่องจากสามารถหาอนุพันธ์ได้ที่จุดทั้งหมดเพื่อคำนวณการไล่ระดับสีของฟังก์ชันการสูญเสีย

2. Root Mean Squared Error

ข้อบกพร่องของ MSE คือมันกำลังสองเงื่อนไขข้อผิดพลาดซึ่งนำไปสู่การประเมินข้อผิดพลาดสูงเกินไป ในทางกลับกัน Root Mean Squared Error (RMSE) ใช้สแควร์รูทเพื่อลดผลกระทบนั้น สิ่งนี้มีประโยชน์เมื่อไม่ต้องการข้อผิดพลาดขนาดใหญ่

3. หมายถึงข้อผิดพลาดแน่นอน

Mean Absolute Error (MAE) คำนวณข้อผิดพลาดโดยใช้ค่าสัมบูรณ์ของข้อผิดพลาดซึ่งก็คือ Y_Pred – Y_Actual สิ่งนี้มีประโยชน์เนื่องจากไม่ได้ประเมินข้อผิดพลาดที่มีขนาดใหญ่เกินไปซึ่งแตกต่างจาก MSE และยังมีประสิทธิภาพสำหรับค่าผิดปกติ จึงไม่เหมาะสำหรับการใช้งานที่ต้องการการดูแลเป็นพิเศษสำหรับค่าผิดปกติ MAE เป็นคะแนนเชิงเส้นซึ่งหมายความว่าความแตกต่างแต่ละรายการมีน้ำหนักเท่ากัน

4. R กำลังสองข้อผิดพลาด

R Squared เป็นหน่วยวัดความพอดีสำหรับตัวแบบการถดถอย มันคำนวณการกระจายของจุดข้อมูลตามเส้นพอดีการถดถอย เรียกอีกอย่างว่าสัมประสิทธิ์ความมุ่งมั่น ค่า R Squared ที่สูงขึ้นหมายความว่ามีความแตกต่างน้อยกว่าระหว่างค่าที่สังเกตได้กับค่าจริง

ค่า R Squared เพิ่มขึ้นเรื่อยๆ เมื่อมีการเพิ่มคุณสมบัติเข้าไปในโมเดลมากขึ้นเรื่อยๆ ซึ่งหมายความว่า R Squared ไม่ใช่การวัดประสิทธิภาพที่ถูกต้อง เนื่องจากอาจให้ R Square ขนาดใหญ่ แม้ว่าคุณสมบัติจะไม่ได้เพิ่มมูลค่าใดๆ ก็ตาม

ในการวิเคราะห์การถดถอย R Squared ใช้เพื่อกำหนดความแข็งแกร่งของความสัมพันธ์ระหว่างคุณลักษณะและเป้าหมาย พูดง่ายๆ คือ วัดความแข็งแกร่งของความสัมพันธ์ระหว่างแบบจำลองของคุณและตัวแปรตามในระดับ 0 – 100% R Squared คืออัตราส่วนระหว่างผลรวมที่เหลือของกำลังสอง (SSR) และผลรวมทั้งหมดของกำลังสอง (SST) R sqr ถูกกำหนดเป็น:

R Sqr = 1 – SSR/SST โดยที่

SSR คือผลรวมของกำลังสองของผลต่างระหว่างค่าที่สังเกตได้จริง Y และค่าที่คาดการณ์ Y_Pred SST คือผลรวมของกำลังสองของผลต่างระหว่างค่าที่สังเกตได้จริง Y และค่าเฉลี่ยของค่าที่สังเกตได้ Y_Avg

โดยทั่วไป ยิ่ง R sqr มาก ยิ่งดีเป็นแบบจำลอง แต่มันเป็นเช่นนั้นเสมอหรือไม่? ไม่.

5. ปรับ R Squared Error

ข้อผิดพลาด R Squared ที่ปรับปรุงแล้วจะเอาชนะข้อบกพร่องของ R Squared ที่ไม่สามารถประมาณการปรับปรุงประสิทธิภาพของโมเดลได้อย่างถูกต้องเมื่อมีการเพิ่มคุณสมบัติเพิ่มเติม ค่า R Square แสดงภาพที่ไม่สมบูรณ์และอาจทำให้เข้าใจผิดได้มาก

โดยพื้นฐานแล้ว ค่า R sqr จะเพิ่มขึ้นเสมอเมื่อเพิ่มคุณสมบัติใหม่ แม้ว่าคุณสมบัตินั้นจะทำให้ประสิทธิภาพของโมเดลลดลง คุณอาจไม่รู้ว่าโมเดลของคุณเริ่มฟิตเมื่อไหร่

R Sqr ที่ปรับแล้วจะปรับตามการเพิ่มขึ้นของตัวแปรนี้ และค่าของตัวแปรจะลดลงเมื่อคุณลักษณะไม่ปรับปรุงโมเดล เราใช้ R sqr ที่ปรับแล้วเพื่อเปรียบเทียบความพอดีสำหรับตัวแบบการถดถอยที่มีตัวแปรอิสระจำนวนต่างกัน

อ่าน: Cross-Validation ใน Machin Learning

ตัวชี้วัดสำหรับการจำแนกประเภท

เช่นเดียวกับเมตริกการถดถอย มีเมตริกประเภทต่างๆ สำหรับการจำแนกประเภทเช่นกัน เมตริกประเภทต่างๆ ใช้สำหรับการจัดประเภทและข้อมูลประเภทต่างๆ มาดูพวกเขาทีละคน

1. ความแม่นยำ

ความแม่นยำเป็นตัวชี้วัดที่ตรงไปตรงมาและเรียบง่ายที่สุดสำหรับการจำแนกประเภท เพียงคำนวณว่าการคาดคะเนกี่เปอร์เซ็นต์ถูกต้องจากจำนวนอินสแตนซ์ทั้งหมด ตัวอย่างเช่น หากคาดการณ์ได้ 90 จาก 100 อินสแตนซ์อย่างถูกต้อง ความแม่นยำจะเป็น 90% อย่างไรก็ตาม ความแม่นยำไม่ใช่ตัวชี้วัดที่ถูกต้องสำหรับงานจำแนกประเภทส่วนใหญ่ เนื่องจากไม่คำนึงถึงความไม่สมดุลของคลาส

2. แม่นยำ จำได้

เพื่อภาพที่ดีขึ้นของประสิทธิภาพของแบบจำลอง เราจำเป็นต้องดูว่ามีการทำนายผลบวกลวงจำนวนเท่าใด และแบบจำลองคาดการณ์ผลลบลวงจำนวนเท่าใด ความแม่นยำบอกเราว่าผลบวกทั้งหมดถูกคาดการณ์ว่าเป็นผลบวกจำนวนเท่าใด หรือกล่าวอีกนัยหนึ่งคือ สัดส่วนของกรณีเชิงบวกที่ได้รับการทำนายอย่างถูกต้องว่าเป็นผลบวกจากการคาดการณ์เชิงบวกทั้งหมด การเรียกคืนบอกเราว่ามีการทำนายผลบวกที่แท้จริงจำนวนเท่าใดจากผลบวกที่เกิดขึ้นจริงทั้งหมด หรืออีกนัยหนึ่ง มันให้สัดส่วนของผลบวกจริงที่คาดการณ์จากจำนวนผลบวกจริงทั้งหมด

3. เมทริกซ์ความสับสน

Confusion Matrix คือการผสมผสานระหว่าง True Positives, True Negatives, False Positives และ False Negatives มันบอกเราว่ามีการทำนายผลบวกและค่าลบจริงจำนวนเท่าใด เป็นเมทริกซ์ NxN โดยที่ N คือจำนวนคลาส Confusion Matrix ไม่ได้ทำให้สับสนมากนัก!

4. คะแนน F1

F1 Score รวมความแม่นยำและการเรียกคืนเป็นหนึ่งเมตริกสำหรับค่าเฉลี่ยเอาต์ คะแนน F1 เป็นค่าเฉลี่ยฮาร์มอนิกของค่าความแม่นยำและการเรียกคืน นี่เป็นสิ่งสำคัญเพราะหากในบางกรณี ค่าการเรียกคืนคือ 1 นั่นคือ 100% และค่าความแม่นยำคือ 0 คะแนน F1 จะเป็น 0.5 หากเราใช้ค่าเฉลี่ยเลขคณิตของ Precision & Recall แทนค่าเฉลี่ยฮาร์มอนิก แต่ถ้าเราใช้ค่าเฉลี่ยฮาร์มอนิก คะแนน F1 จะเป็น 0 ซึ่งบอกเราว่าค่าเฉลี่ยฮาร์มอนิกจะลงโทษค่าที่รุนแรงมากกว่า

เช็คเอาท์: อัลกอริธึมการจำแนกประเภท 5 ประเภทในการเรียนรู้ของเครื่อง

5. AUC-ROC

ความแม่นยำและคะแนน F1 ไม่ใช่ตัวชี้วัดที่ดีเมื่อพูดถึงข้อมูลที่ไม่สมดุล AUC (Area Under Curve) เส้นโค้ง ROC (Receiver Operator Characteristics) บอกเราถึงระดับความแยกของคลาสที่คาดการณ์โดยโมเดล ยิ่งคะแนนสูง ความสามารถของโมเดลในการทำนาย 0s เป็น 0s และ 1s เป็น 1s มากขึ้น AUC ROC Curve ถูกพล็อตโดยใช้ True Positive Rate (TPR) บนแกน Y และอัตรา False Positive บนแกน X

TPR = TP/TP+FN

FPR = FP/TN+FP

หาก AUC ROC ออกมาเป็น 1 แสดงว่าโมเดลคาดการณ์คลาสทั้งหมดได้อย่างถูกต้องและมีความสมบูรณ์ในการแบ่งแยก

หากเป็น 0.5 แสดงว่าไม่มีความสามารถในการแยกออกได้ และโมเดลกำลังคาดการณ์ผลลัพธ์แบบสุ่มทั้งหมด

หากเป็น 0 แสดงว่าโมเดลกำลังคาดการณ์คลาสที่กลับด้าน นั่นคือ 0s เป็น 1s และ 1s เป็น 0s

ก่อนที่คุณจะไป

ในบทความนี้ เราได้พูดถึงเมตริกประสิทธิภาพต่างๆ สำหรับการจำแนกประเภทและการถดถอย เมตริกเหล่านี้เป็นเมตริกที่ใช้มากที่สุด ดังนั้นจึงเป็นสิ่งสำคัญที่ต้องทราบ สำหรับการจำแนกประเภท มีตัวชี้วัดอีกมากมายที่สร้างขึ้นมาโดยเฉพาะสำหรับการจำแนกประเภทหลายคลาสและการจำแนกหลายป้ายกำกับ เช่น คะแนน Kappa, ความแม่นยำที่ K, ความแม่นยำเฉลี่ยที่ K เป็นต้น

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI

PG DIPLOMA ในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์
เรียนรู้เพิ่มเติม