การบรรจุถุงและการเร่งความเร็วในการเรียนรู้ของเครื่อง: ความแตกต่างระหว่างการบรรจุถุงและการเพิ่มประสิทธิภาพ

เผยแพร่แล้ว: 2020-11-12

เนื่องจากการเพิ่มขึ้นของแอปพลิเคชันการเรียนรู้ของเครื่องและการเพิ่มกำลังในการคำนวณ นักวิทยาศาสตร์ด้านข้อมูลจึงได้นำอัลกอริธึมมาใช้กับชุดข้อมูลโดยเนื้อแท้ กุญแจสำคัญในการนำอัลกอริธึมมาใช้คือวิธีสร้างอคติและความแปรปรวน โดยทั่วไปนิยมใช้โมเดลที่มีอคติต่ำ

องค์กรต่างๆ ใช้เทคนิคแมชชีนเลิร์นนิงภายใต้การดูแล เช่น แผนผังการตัดสินใจ เพื่อการตัดสินใจที่ดีขึ้นและสร้างผลกำไรมากขึ้น แผนผังการตัดสินใจที่แตกต่างกัน เมื่อรวมกันแล้ว จะสร้างวิธีการทั้งมวลและให้ผลลัพธ์ที่คาดการณ์ได้

จุดประสงค์หลักของการใช้โมเดลทั้งมวลคือการจัดกลุ่มผู้เรียนที่อ่อนแอและสร้างผู้เรียนที่เข้มแข็ง วิธีการทำนั้นถูกกำหนดไว้ในสองเทคนิค: การบรรจุถุงและการเพิ่มความเร็วที่ทำงานแตกต่างกัน และใช้สลับกันเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นด้วยความแม่นยำและความแม่นยำสูงและข้อผิดพลาดน้อยลง ด้วยวิธีการทั้งมวล นำหลายรุ่นมารวมกันเพื่อสร้างแบบจำลองที่ทรงพลัง

โพสต์บล็อกนี้จะแนะนำแนวคิดต่างๆ ของการเรียนรู้ทั้งมวล ประการแรก การทำความเข้าใจวิธีการทั้งมวลจะเป็นการเปิดเส้นทางสู่วิธีการที่เกี่ยวข้องกับการเรียนรู้และการออกแบบโซลูชันที่ดัดแปลง นอกจากนี้ เราจะหารือเกี่ยวกับแนวคิดเพิ่มเติมของ Bagging and Boosting เพื่อให้ผู้อ่านเข้าใจถึงความแตกต่างของวิธีการทั้งสองนี้ การใช้งานพื้นฐาน และผลการคาดการณ์ที่ได้รับจากทั้งสองวิธี

เข้าร่วม หลักสูตร ออนไลน์ของแมชชีนเลิ ร์นนิง จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท โปรแกรม Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

สารบัญ

วิธีการทั้งมวลคืออะไร?
บรรจุถุง
ส่งเสริม
ความเหมือนและความแตกต่างระหว่างการบรรจุถุงและการบูสต์
การบรรจุและการส่งเสริม: ความคล้ายคลึงกัน
การบรรจุถุงและการบูสต์: ความแตกต่าง
Bagging and Boosting: บทสรุปสรุป
ทำไมการบรรจุถุงจึงดีกว่าการเร่ง
ความแตกต่างหลักในการใส่ถุงและการเพิ่มกำลังเป็นอย่างไร?
อะไรคือความคล้ายคลึงกันระหว่างการบรรจุถุงและการเสริมแรง?

วิธีการทั้งมวลคืออะไร?

วงดนตรีเป็นวิธีที่ใช้ในอัลกอริธึมการเรียนรู้ของเครื่อง ในวิธีนี้ โมเดลต่างๆ หรือ 'ผู้เรียนที่อ่อนแอ' จะได้รับการฝึกอบรมเพื่อแก้ไขปัญหาเดียวกันและบูรณาการเพื่อให้ได้ผลลัพธ์ที่ต้องการ โมเดลที่อ่อนแอรวมกันอย่างถูกต้องให้โมเดลที่แม่นยำ

ขั้นแรก จำเป็นต้องใช้โมเดลพื้นฐานเพื่อตั้งค่าวิธีการเรียนรู้ทั้งมวลที่จะรวมกลุ่มในภายหลัง ในอัลกอริธึม Bagging and Boosting จะใช้อัลกอริธึมการเรียนรู้ฐานเดียว เหตุผลเบื้องหลังคือเราจะมีผู้เรียนที่อ่อนแอเป็นเนื้อเดียวกันซึ่งจะได้รับการฝึกอบรมในรูปแบบต่างๆ

แบบจำลองทั้งมวลที่ทำด้วยวิธีนี้จะเรียกว่าแบบจำลองที่เป็นเนื้อเดียวกันในที่สุด แต่เรื่องราวไม่ได้จบที่นี่ มีวิธีการบางอย่างที่ประเภทต่าง ๆ ของอัลกอริธึมการเรียนรู้พื้นฐานยังบอกเป็นนัยกับผู้เรียนที่อ่อนแอต่างกันด้วยการสร้าง 'แบบจำลองวงดนตรีที่ต่างกัน' แต่ในบล็อกนี้ เราจะพูดถึงแต่รุ่นก่อนๆ ของวงดนตรี และหารือเกี่ยวกับวิธีการวงดนตรีที่ได้รับความนิยมสูงสุดสองวิธีพร้อมๆ กัน

การ บรรจุถุง เป็นรูปแบบของผู้เรียนที่อ่อนแอที่เป็นเนื้อเดียวกันซึ่งเรียนรู้จากกันและกันอย่างอิสระแบบคู่ขนานและรวมเอาแบบจำลองเหล่านี้เพื่อกำหนดค่าเฉลี่ยของแบบจำลอง
การ ส่งเสริม ยังเป็นแบบอย่างของผู้เรียนที่อ่อนแอเหมือนกัน แต่ทำงานแตกต่างจาก Bagging ในรูปแบบนี้ ผู้เรียนจะเรียนรู้ตามลำดับและปรับตัวเพื่อปรับปรุงการทำนายแบบจำลองของอัลกอริทึมการเรียนรู้

นั่นคือ Bagging และ Boosting ในแวบเดียว ลองดูที่ทั้งสองในรายละเอียด ปัจจัยบางประการที่ทำให้เกิดข้อผิดพลาดในการเรียนรู้ ได้แก่ สัญญาณรบกวน อคติ และความแปรปรวน ใช้วิธีการทั้งมวลเพื่อลดปัจจัยเหล่านี้ส่งผลให้ผลลัพธ์มีเสถียรภาพและแม่นยำ

อ่านเพิ่มเติม: แนวคิดโครงการการเรียนรู้ของเครื่อง

บรรจุถุง

Bagging เป็นตัวย่อสำหรับ 'Bootstrap Aggregation' และใช้เพื่อลดความแปรปรวนในแบบจำลองการคาดการณ์ การบรรจุถุงเป็นวิธีคู่ขนานที่เข้ากันอย่างลงตัว โดยถือว่าผู้เรียนแยกจากกัน ทำให้สามารถฝึกพวกเขาไปพร้อม ๆ กันได้

การบรรจุถุงจะสร้างข้อมูลเพิ่มเติมสำหรับการฝึกอบรมจากชุดข้อมูล ทำได้โดยการสุ่มตัวอย่างด้วยการแทนที่จากชุดข้อมูลเดิม การสุ่มตัวอย่างด้วยการเปลี่ยนอาจทำซ้ำข้อสังเกตบางอย่างในชุดข้อมูลการฝึกอบรมใหม่แต่ละชุด ทุกองค์ประกอบใน Bagging มีแนวโน้มที่จะปรากฏในชุดข้อมูลใหม่เท่ากัน

ชุดข้อมูลหลายชุดเหล่านี้ใช้เพื่อฝึกโมเดลหลายตัวพร้อมกัน คำนวณค่าเฉลี่ยของการทำนายทั้งหมดจากแบบจำลองทั้งมวล คะแนนเสียงข้างมากที่ได้รับจากกลไกการลงคะแนนจะถูกพิจารณาเมื่อมีการจัดประเภท การบรรจุถุงจะลดความแปรปรวนและปรับการคาดคะเนให้เป็นผลลัพธ์ที่คาดหวัง

ตัวอย่างการบรรจุหีบห่อ:

โมเดล Random Forest ใช้ Bagging ซึ่งมีโมเดลแผนผังการตัดสินใจที่มีความแปรปรวนสูงกว่า มันทำให้การเลือกคุณสมบัติสุ่มเพื่อปลูกต้นไม้ ต้นไม้สุ่มหลายต้นสร้างป่าสุ่ม

ส่งเสริม

การบูสต์เป็นวิธีการแบบกลุ่มตามลำดับที่ปรับน้ำหนักของการสังเกตซ้ำๆ ตามการจัดหมวดหมู่ครั้งล่าสุด หากการสังเกตถูกจำแนกอย่างไม่ถูกต้อง จะทำให้น้ำหนักของการสังเกตนั้นเพิ่มขึ้น คำว่า 'การส่งเสริม' ในภาษาธรรมดาหมายถึงอัลกอริธึมที่เปลี่ยนผู้เรียนที่อ่อนแอให้แข็งแกร่งขึ้น ลดข้อผิดพลาดอคติและสร้างแบบจำลองการคาดการณ์ที่แข็งแกร่ง

จุดข้อมูลที่คาดการณ์ผิดในการทำซ้ำแต่ละครั้งจะถูกตรวจพบ และน้ำหนักของจุดเหล่านั้นก็เพิ่มขึ้น อัลกอริธึม Boosting จะจัดสรรน้ำหนักให้กับแต่ละโมเดลที่เป็นผลลัพธ์ระหว่างการฝึก ผู้เรียนที่มีผลการทำนายข้อมูลการฝึกที่ดีจะได้รับน้ำหนักที่สูงขึ้น เมื่อประเมินผู้เรียนใหม่ Boosting จะติดตามข้อผิดพลาดของผู้เรียน

ตัวอย่างของการส่งเสริม:

AdaBoost ใช้เทคนิคการบูสต์ ซึ่งจำเป็นต้องมีข้อผิดพลาดน้อยลง 50% เพื่อรักษาโมเดล ที่นี่ Boosting สามารถเก็บหรือละทิ้งผู้เรียนคนเดียว มิฉะนั้น การทำซ้ำจะทำซ้ำจนกว่าจะบรรลุถึงผู้เรียนที่ดีขึ้น

ความเหมือนและความแตกต่างระหว่างการบรรจุถุงและการบูสต์

Bagging and Boosting ซึ่งเป็นวิธีการที่นิยมใช้กัน มีความคล้ายคลึงกันทั่วไปในการจัดประเภทเป็นวิธีการทั้งมวล ที่นี่เราจะเน้นความคล้ายคลึงกันมากขึ้นระหว่างพวกเขา ตามด้วยความแตกต่างที่พวกเขามีจากกันและกัน ให้เราเริ่มต้นด้วยความคล้ายคลึงกันก่อนเพราะการทำความเข้าใจสิ่งเหล่านี้จะทำให้เข้าใจความแตกต่างได้ง่ายขึ้น

การบรรจุและการส่งเสริม: ความคล้ายคลึงกัน

Bagging and Boosting เป็นวิธีการแบบกลุ่มที่เน้นการรับผู้เรียน N จากผู้เรียนคนเดียว
การบรรจุถุงและการเพิ่มกำลังทำการสุ่มตัวอย่างและสร้างชุดข้อมูลการฝึกอบรมหลายชุด
Bagging and Boosting มาถึงการตัดสินใจขั้นสุดท้ายโดยทำให้ผู้เรียน N โดยเฉลี่ยหรือรับอันดับการลงคะแนนที่ทำโดยพวกเขาส่วนใหญ่
Bagging and Boosting ลดความแปรปรวนและให้ความเสถียรที่สูงขึ้นพร้อมข้อผิดพลาดน้อยที่สุด

อ่าน: อธิบายแบบจำลองการเรียนรู้ของเครื่อง

การบรรจุถุงและการบูสต์: ความแตกต่าง

อย่างที่เราบอกไปแล้วว่า

การบรรจุถุงเป็นวิธีการรวมการคาดคะเนประเภทเดียวกันเข้าด้วยกัน Boosting เป็นวิธีการรวมการทำนายประเภทต่างๆ

การบรรจุถุงลดความแปรปรวน ไม่ใช่อคติ และแก้ปัญหาการใส่มากเกินไปในแบบจำลอง การบูสต์ลดอคติ ไม่ใช่ความแปรปรวน

ในการบรรจุถุง แต่ละรุ่นจะได้รับน้ำหนักที่เท่ากัน ใน Boosting รุ่นต่างๆ จะชั่งน้ำหนักตามประสิทธิภาพ

โมเดลถูกสร้างขึ้นอย่างอิสระใน Bagging โมเดลใหม่ได้รับผลกระทบจากประสิทธิภาพของโมเดลที่สร้างขึ้นก่อนหน้านี้ใน Boosting

ใน Bagging ชุดย่อยของข้อมูลการฝึกจะถูกสุ่มโดยแทนที่ชุดข้อมูลการฝึก ใน Boosting ชุดย่อยใหม่ทุกชุดประกอบด้วยองค์ประกอบที่จัดประเภทผิดโดยรุ่นก่อนหน้า

การบรรจุถุงมักใช้ในกรณีที่ลักษณนามไม่เสถียรและมีความแปรปรวนสูง การเพิ่มความเร็วมักใช้ในกรณีที่ตัวแยกประเภทมีความเสถียรและเรียบง่ายและมีอคติสูง

Bagging and Boosting: บทสรุปสรุป

หลังจากที่เราได้อธิบายแนวคิดของ Bagging และ Boosting อย่างละเอียดแล้ว เราก็มาถึงตอนท้ายของบทความและสามารถสรุปได้ว่า Data Science ทั้งสองมีความสำคัญเท่าเทียมกันอย่างไร และจะใช้ที่ใดในแบบจำลองนั้นขึ้นอยู่กับชุดข้อมูลที่ได้รับ การจำลองและสถานการณ์ที่กำหนด ดังนั้น ในอีกด้านหนึ่ง ในโมเดล Random Forest จะใช้ Bagging และโมเดล AdaBoost แสดงถึงอัลกอริธึม Boosting

ประสิทธิภาพของโมเดลแมชชีนเลิร์นนิงคำนวณโดยการเปรียบเทียบความแม่นยำในการฝึกกับความแม่นยำในการตรวจสอบ ซึ่งทำได้โดยแยกข้อมูลออกเป็นสองชุด ได้แก่ ชุดการฝึกและชุดตรวจสอบ ชุดฝึกอบรมใช้เพื่อฝึกโมเดล และใช้ชุดตรวจสอบความถูกต้องสำหรับการประเมิน

คุณสามารถตรวจสอบ Executive PG Program ของ IIT Delhi ใน Machine Learning ร่วมกับ upGrad IIT Delhi เป็นหนึ่งในสถาบันที่มีชื่อเสียงที่สุดในอินเดีย ด้วยคณาจารย์ภายในมากกว่า 500 คนซึ่งดีที่สุดในสาขาวิชา

ทำไมการบรรจุถุงจึงดีกว่าการเร่ง

จากชุดข้อมูล การบรรจุถุงจะสร้างข้อมูลเพิ่มเติมสำหรับการฝึกอบรม ใช้การสุ่มตัวอย่างและการแทนที่จากชุดข้อมูลดั้งเดิมเพื่อให้บรรลุเป้าหมายนี้ ในชุดข้อมูลการฝึกอบรมใหม่แต่ละชุด การสุ่มตัวอย่างด้วยการเปลี่ยนอาจทำซ้ำข้อสังเกตบางอย่าง องค์ประกอบ Bagging ทุกชิ้นมีโอกาสปรากฏในชุดข้อมูลใหม่เท่ากัน แบบจำลองหลายตัวได้รับการฝึกฝนควบคู่กันไปโดยใช้ชุดข้อมูลหลายชุดเหล่านี้ เป็นค่าเฉลี่ยของการคาดการณ์ทั้งหมดจากหลายรุ่น ในการพิจารณาการจัดประเภท จะพิจารณาคะแนนเสียงข้างมากที่ได้รับจากกระบวนการลงคะแนนเสียงด้วย การบรรจุถุงช่วยลดความผันแปรและปรับการคาดการณ์อย่างละเอียดเพื่อให้ได้ผลลัพธ์ที่ต้องการ

ความแตกต่างหลักในการใส่ถุงและการเพิ่มกำลังเป็นอย่างไร?

การบรรจุถุงเป็นเทคนิคในการลดความแปรปรวนของการคาดการณ์โดยการสร้างข้อมูลเพิ่มเติมสำหรับการฝึกอบรมจากชุดข้อมูลโดยการรวมการทำซ้ำกับชุดค่าผสมเพื่อสร้างชุดข้อมูลดั้งเดิมหลายชุด การส่งเสริมเป็นกลยุทธ์แบบวนซ้ำเพื่อปรับน้ำหนักของการสังเกตตามการจัดประเภทก่อนหน้า จะพยายามเพิ่มน้ำหนักของการสังเกตหากจัดหมวดหมู่ผิดพลาด การส่งเสริมสร้างแบบจำลองการคาดการณ์ที่ดีโดยทั่วไป

อะไรคือความคล้ายคลึงกันระหว่างการบรรจุถุงและการเสริมแรง?

การบรรจุถุงและการส่งเสริมเป็นกลยุทธ์ทั้งมวลที่มุ่งสร้างผู้เรียน N จากผู้เรียนคนเดียว พวกเขาสุ่มตัวอย่างและสร้างชุดข้อมูลการฝึกอบรมจำนวนมาก พวกเขามาถึงการตัดสินใจครั้งสุดท้ายโดยการหาคะแนนเฉลี่ยของผู้เรียน N หรือเลือกอันดับการลงคะแนนเสียงส่วนใหญ่ ลดความแปรปรวนและเพิ่มความเสถียรในขณะที่ลดข้อผิดพลาด