การทำให้เป็นมาตรฐานในการเรียนรู้ของเครื่อง: จะหลีกเลี่ยงการใส่มากเกินไปได้อย่างไร

เผยแพร่แล้ว: 2020-02-17

แมชชีนเลิร์นนิงเกี่ยวข้องกับการจัดเตรียมคอมพิวเตอร์ให้ทำงานเฉพาะโดยไม่มีคำแนะนำที่ชัดเจน ดังนั้นระบบจึงได้รับการตั้งโปรแกรมให้เรียนรู้และปรับปรุงจากประสบการณ์โดยอัตโนมัติ นักวิทยาศาสตร์ข้อมูลมักใช้การ ทำให้เป็นมาตรฐาน ในการเรียนรู้ของเครื่อง เพื่อปรับแต่งแบบจำลองในกระบวนการฝึกอบรม ให้เราเข้าใจแนวคิดนี้โดยละเอียด

สารบัญ

การทำให้เป็นมาตรฐาน Dodges Overfitting
สมดุลอคติและความแปรปรวน
การเพิ่มความสามารถในการตีความของโมเดล
- อธิบายการทำให้เป็นมาตรฐานในการเรียนรู้ของเครื่อง
- การปรับแนวสันเขา
- Lasso การทำให้เป็นมาตรฐาน
- RSS และตัวทำนายของฟังก์ชันข้อจำกัด
การทำให้เป็นมาตรฐานบรรลุความสมดุลได้อย่างไร
บทสรุป
ตัวเลือกงานของคุณหลังจากเรียนรู้การเรียนรู้ด้วยเครื่องคืออะไร
วิศวกรแมชชีนเลิร์นนิงดึงเงินเดือนเท่าไหร่ต่อปี?
ชุดทักษะที่จำเป็นสำหรับการเรียนรู้ของเครื่องคืออะไร?

การทำให้เป็นมาตรฐาน Dodges Overfitting

การทำให้ เป็นมาตรฐานในแมชชีนเลิ ร์นนิง ช่วยให้คุณหลีกเลี่ยงการใช้โมเดลการฝึกมากเกินไป Overfitting เกิดขึ้นเมื่อแบบจำลองของคุณรวบรวมข้อมูลโดยพลการในชุดข้อมูลการฝึกของคุณ จุดข้อมูลดังกล่าวที่ไม่มีคุณสมบัติของข้อมูลของคุณทำให้โมเดลของคุณ 'มีเสียงดัง' สัญญาณรบกวนนี้อาจทำให้แบบจำลองของคุณมีความยืดหยุ่นมากขึ้น แต่อาจทำให้เกิดปัญหากับความแม่นยำต่ำได้

พิจารณาห้องเรียนที่มีนักเรียน 10 คนโดยมีจำนวนเด็กหญิงและเด็กชายเท่ากัน เกรดรวมของชั้นเรียนในการสอบประจำปีคือ 70 คะแนนเฉลี่ยของนักเรียนหญิงคือ 60 และของนักเรียนชายคือ 80 จากคะแนนที่ผ่านมา เราต้องการทำนายคะแนนในอนาคตของนักเรียน การทำนายสามารถทำได้ด้วยวิธีต่อไปนี้:

Under Fit: ทั้งชั้นเรียนจะได้คะแนน 70 คะแนน
Optimum Fit: นี่อาจเป็นโมเดลง่ายๆ ที่ทำนายคะแนนของเด็กผู้หญิงใน 60 ปี และเด็กชาย 80 คน (เหมือนครั้งที่แล้ว)
Over Fit: โมเดลนี้อาจใช้แอตทริบิวต์ที่ไม่เกี่ยวข้อง เช่น เลขม้วน เพื่อทำนายว่านักเรียนจะได้คะแนนเท่ากับปีที่แล้วอย่างแม่นยำ

การทำให้เป็นมาตรฐานเป็นรูปแบบของการถดถอยที่ปรับฟังก์ชันข้อผิดพลาดโดยการเพิ่มระยะโทษอื่น คำศัพท์เพิ่มเติมนี้ช่วยป้องกันไม่ให้สัมประสิทธิ์รับค่าที่มากเกินไป ดังนั้นจึงสร้างสมดุลให้กับฟังก์ชันที่ผันผวนมากเกินไป

ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงจะพยายามทำให้โมเดลของตนมีความแม่นยำและปราศจากข้อผิดพลาด และกุญแจสำคัญในการบรรลุเป้าหมายนี้อยู่ที่การควบคุมการแลกเปลี่ยนระหว่างอคติและความแปรปรวน อ่านต่อไปเพื่อให้ได้ภาพที่ชัดเจนว่าสิ่งนี้หมายถึงอะไร

สมดุลอคติและความแปรปรวน

ข้อผิดพลาดในการทดสอบที่คาดหวังสามารถลดลงได้โดยการหาวิธีที่ทำให้สมดุล 'ความแปรปรวนอคติ' ถูกต้อง กล่าวอีกนัยหนึ่ง วิธีการเรียนรู้ทางสถิติที่คุณเลือกควรปรับโมเดลให้เหมาะสมโดยตระหนักถึงความแปรปรวนต่ำและอคติต่ำไปพร้อม ๆ กัน โมเดลที่มีความแปรปรวนสูงจะถูกใส่มากเกินไป และอคติสูงส่งผลให้เกิดรูปแบบที่ไม่เหมาะสม

การตรวจสอบความถูกต้องเป็นอีกวิธีหนึ่งในการหลีกเลี่ยงการใส่มากเกินไป จะตรวจสอบว่าแบบจำลองของคุณเลือกรูปแบบที่ถูกต้องจากชุดข้อมูลหรือไม่ และประเมินข้อผิดพลาดเหนือชุดทดสอบของคุณ ดังนั้น วิธีนี้โดยทั่วไปจะตรวจสอบความเสถียรของแบบจำลองของคุณ นอกจากนี้ ยังตัดสินใจเลือกพารามิเตอร์ที่เหมาะสมที่สุดสำหรับโมเดลเฉพาะของคุณ

การเพิ่มความสามารถในการตีความของโมเดล

วัตถุประสงค์ไม่ได้เป็นเพียงเพื่อให้เกิดข้อผิดพลาดเป็นศูนย์สำหรับชุดการฝึก แต่ยังรวมถึงการคาดการณ์ค่าเป้าหมายที่ถูกต้องจากชุดข้อมูลการทดสอบด้วย ดังนั้นเราจึงต้องการฟังก์ชัน 'ปรับแต่ง' ที่ลดความซับซ้อนของกระบวนการนี้

อธิบาย R egularization ใน Machine Learning

การทำให้เป็นมาตรฐานคือรูปแบบของการถดถอยแบบจำกัดซึ่งทำงานโดยการย่อค่าประมาณสัมประสิทธิ์ให้เหลือศูนย์ ด้วยวิธีนี้จะจำกัดความสามารถของโมเดลในการเรียนรู้จากเสียงรบกวน

ลองดูสมการถดถอยเชิงเส้นนี้:

Y= β0+β1X1+β2X2+…..+βpXp

ในที่นี้ β หมายถึงการประมาณค่าสัมประสิทธิ์สำหรับตัวทำนายต่างๆ ที่แสดงโดย (X) และ Y คือความสัมพันธ์ที่เรียนรู้

เนื่องจากฟังก์ชันนี้อาจพบข้อผิดพลาด เราจะเพิ่มฟังก์ชันข้อผิดพลาดเพื่อทำให้ค่าประมาณที่เรียนรู้เป็นปกติ เราต้องการลดข้อผิดพลาดในกรณีนี้เพื่อให้เราสามารถเรียกมันว่าฟังก์ชั่นการสูญเสียได้เช่นกัน ฟังก์ชันการสูญเสียหรือผลรวมของสี่เหลี่ยมจัตุรัสที่เหลือ (RSS) มีลักษณะดังนี้:

ดังนั้นนักวิทยาศาสตร์ข้อมูลจึงใช้การทำให้เป็นมาตรฐานเพื่อปรับฟังก์ชันการทำนาย เทคนิคการทำให้เป็นมาตรฐานเรียกอีกอย่างว่าวิธีการหดตัวหรือการลดน้ำหนัก ให้เราเข้าใจบางส่วนของพวกเขาในรายละเอียด

การปรับแนวสันเขา

ในการถดถอยริดจ์ ฟังก์ชันการสูญเสียจะถูกแก้ไขด้วยปริมาณการหดตัวที่สอดคล้องกับผลรวมของค่ากำลังสองของ β และค่าของ λ เป็นตัวตัดสินว่าตัวแบบจะถูกลงโทษเท่าใด

การประมาณค่าสัมประสิทธิ์ในการถดถอยของสันเขาเรียกว่าบรรทัดฐาน L2 เทคนิคการทำให้เป็นมาตรฐานนี้จะช่วยคุณได้เมื่อตัวแปรอิสระในข้อมูลของคุณมีความสัมพันธ์กันสูง

Lasso การทำให้เป็นมาตรฐาน

ในเทคนิค Lasso ค่าปรับที่เท่ากับผลรวมของค่าสัมบูรณ์ของ β (โมดูลัสของ β) จะถูกเพิ่มเข้าไปในฟังก์ชันข้อผิดพลาด มันถูกคูณเพิ่มเติมด้วยพารามิเตอร์ λ ซึ่งควบคุมความแรงของบทลงโทษ เฉพาะค่าสัมประสิทธิ์สูงเท่านั้นที่ถูกลงโทษในวิธีนี้

การประมาณค่าสัมประสิทธิ์ที่ผลิตโดย Lasso เรียกว่าบรรทัดฐาน L1 วิธีนี้มีประโยชน์อย่างยิ่งเมื่อมีการสังเกตจำนวนน้อยและคุณลักษณะจำนวนมาก

เพื่อลดความซับซ้อนของวิธีการข้างต้น ให้พิจารณาค่าคงที่ s ซึ่งมีอยู่สำหรับแต่ละค่าของ λ ในการทำให้เป็นมาตรฐาน L2 เราแก้สมการโดยที่ผลรวมกำลังสองของสัมประสิทธิ์น้อยกว่าหรือเท่ากับ s ในขณะที่การทำให้เป็นมาตรฐาน L1 ผลรวมของโมดูลัสของสัมประสิทธิ์ควรน้อยกว่าหรือเท่ากับ s

อ่าน: การเรียนรู้ของเครื่องกับโครงข่ายประสาทเทียม

ทั้งสองวิธีที่กล่าวถึงข้างต้นพยายามทำให้แน่ใจว่าตัวแบบการถดถอยไม่ได้ใช้แอตทริบิวต์ที่ไม่จำเป็น ด้วยเหตุนี้ Ridge Regression และ Lasso จึงเรียกว่าฟังก์ชันจำกัด

RSS และตัวทำนายของฟังก์ชันข้อจำกัด

ด้วยความช่วยเหลือของคำอธิบายก่อนหน้านี้ ฟังก์ชันการสูญเสีย (RSS) สำหรับการถดถอยริดจ์และ Lasso สามารถกำหนดได้โดย β1² + β2² ≤ s และ |β1| + |β2| ≤ s ตามลำดับ β1² + β2² ≤ s จะสร้างวงกลม และ RSS จะเป็นจุดที่เล็กที่สุดสำหรับจุดทั้งหมดที่อยู่ในวงกลม สำหรับฟังก์ชัน Lasso RSS จะต่ำที่สุดสำหรับทุกจุดที่อยู่ในเพชรที่กำหนดโดย |β1| + |β2| ≤ วิ

การถดถอยริดจ์จะย่อค่าประมาณสัมประสิทธิ์สำหรับตัวแปรทำนายที่มีความสำคัญน้อยที่สุด แต่ไม่ได้กำจัดพวกมัน ดังนั้น โมเดลสุดท้ายอาจมีตัวทำนายทั้งหมดเนื่องจากการประมาณที่ไม่ใช่ศูนย์ ในทางกลับกัน Lasso สามารถบังคับให้สัมประสิทธิ์บางตัวเป็นศูนย์พอดี โดยเฉพาะอย่างยิ่งเมื่อ λ มีขนาดใหญ่

อ่าน: Python Libraries สำหรับการเรียนรู้ของเครื่อง

การทำให้เป็นมาตรฐานบรรลุความสมดุลได้อย่างไร

มีความแปรปรวนบางอย่างที่เกี่ยวข้องกับแบบจำลองสี่เหลี่ยมจัตุรัสน้อยที่สุดมาตรฐาน เทคนิคการทำให้เป็นมาตรฐานลดความแปรปรวนของแบบจำลองโดยไม่เพิ่มความเอนเอียงกำลังสองอย่างมีนัยสำคัญ และค่าของพารามิเตอร์การปรับค่า λ จะช่วยปรับสมดุลนี้โดยไม่ขจัดคุณสมบัติที่สำคัญของข้อมูล บทลงโทษไม่มีผลเมื่อค่าของ λ เป็นศูนย์ ซึ่งเป็นกรณีของการถดถอยกำลังสองน้อยที่สุดธรรมดา

ความแปรปรวนจะลดลงเมื่อค่าของ λ เพิ่มขึ้นเท่านั้น แต่สิ่งนี้เกิดขึ้นจนถึงจุดหนึ่งเท่านั้น หลังจากนั้นอคติอาจเริ่มเพิ่มขึ้น ดังนั้น การเลือกค่าของปัจจัยการหดตัวนี้เป็นหนึ่งในขั้นตอนที่สำคัญที่สุดในการทำให้เป็นมาตรฐาน

บทสรุป

ในบทความนี้ เราได้เรียนรู้เกี่ยวกับ การทำให้เป็นมาตรฐานในการเรียนรู้ของเครื่อง และข้อดีของมัน และวิธีการสำรวจ เช่น การถดถอยของสันเขาและเชือก สุดท้าย เราเข้าใจว่าเทคนิคการทำให้เป็นมาตรฐานช่วยปรับปรุงความแม่นยำของตัวแบบการถดถอยได้อย่างไร หากคุณเพิ่งเริ่มต้นการทำให้เป็นมาตรฐาน แหล่งข้อมูลเหล่านี้จะอธิบายพื้นฐานของคุณให้กระจ่างและสนับสนุนให้คุณเริ่มขั้นตอนแรกนั้น!

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ตัวเลือกงานของคุณหลังจากเรียนรู้การเรียนรู้ด้วยเครื่องคืออะไร

แมชชีนเลิร์นนิงเป็นหนึ่งในเส้นทางอาชีพล่าสุดและมีแนวโน้มมากที่สุดในสาขาเทคโนโลยี เนื่องจากแมชชีนเลิร์นนิงยังคงพัฒนาและขยายตัวอย่างต่อเนื่อง จึงเป็นการเปิดโอกาสในการทำงานใหม่ๆ สำหรับบุคคลที่ปรารถนาจะประกอบอาชีพในด้านเทคโนโลยีนี้ นักศึกษาและมืออาชีพที่ต้องการทำงานเป็นวิศวกรแมชชีนเลิร์นนิงสามารถตั้งตารอประสบการณ์การเรียนรู้ที่คุ้มค่าและน่าตื่นเต้น และแน่นอน คาดหวังว่าจะได้งานกับองค์กรชั้นนำที่มีรายได้ดี เริ่มจากนักวิทยาศาสตร์ข้อมูลและวิศวกรแมชชีนเลิร์นนิงไปจนถึงนักภาษาศาสตร์คอมพิวเตอร์และนักออกแบบแมชชีนเลิร์นนิงที่เน้นมนุษย์เป็นหลัก และอื่นๆ อีกมากมาย มีบทบาทงานที่น่าสนใจมากมายที่คุณสามารถรับได้ขึ้นอยู่กับทักษะและประสบการณ์ของคุณ

วิศวกรแมชชีนเลิร์นนิงดึงเงินเดือนเท่าไหร่ต่อปี?

ในอินเดีย เงินเดือนเฉลี่ยที่วิศวกรการเรียนรู้ของเครื่องระดับจูเนียร์ได้รับนั้นอยู่ในช่วงตั้งแต่ INR 6 ถึง 8.2 แสนแสนต่อปี แต่สำหรับมืออาชีพที่มีประสบการณ์การทำงานระดับกลาง ค่าตอบแทนสามารถอยู่ในช่วงประมาณ INR 13 ถึง 15 lakhs โดยเฉลี่ยหรือมากกว่านั้น ตอนนี้ รายได้เฉลี่ยต่อปีของวิศวกรแมชชีนเลิร์นนิงจะขึ้นอยู่กับปัจจัยหลายประการ เช่น ประสบการณ์การทำงานที่เกี่ยวข้อง ชุดทักษะ ประสบการณ์การทำงานโดยรวม ใบรับรอง หรือแม้แต่สถานที่ และอื่นๆ ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงระดับสูงสามารถสร้างรายได้ประมาณ INR 1 crore ต่อปี

ชุดทักษะที่จำเป็นสำหรับการเรียนรู้ของเครื่องคืออะไร?

ความเข้าใจพื้นฐานและระดับของความสะดวกสบายในบางวิชาจะเป็นประโยชน์หากคุณปรารถนาที่จะสร้างอาชีพที่ประสบความสำเร็จในการเรียนรู้ของเครื่อง ประการแรก คุณต้องมีความเข้าใจในความน่าจะเป็นและสถิติ การสร้างแบบจำลองการเรียนรู้ของเครื่องและการทำนายผลลัพธ์ต้องใช้ความรู้ด้านสถิติและความน่าจะเป็น ต่อไป คุณควรมีความคุ้นเคยกับภาษาการเขียนโปรแกรม เช่น Python และ R ซึ่งใช้กันอย่างแพร่หลายในการเรียนรู้ของเครื่อง ความรู้บางอย่างเกี่ยวกับการสร้างแบบจำลองข้อมูลสำหรับการวิเคราะห์ข้อมูลและทักษะการออกแบบซอฟต์แวร์ที่แข็งแกร่งนั้นจำเป็นสำหรับการเรียนรู้แมชชีนเลิร์นนิง