การจัดประเภทรูปภาพกึ่งควบคุมด้วยข้อมูลที่ไม่มีป้ายกำกับ

เผยแพร่แล้ว: 2022-03-11

การเรียนรู้ภายใต้การดูแลอยู่ในระดับแนวหน้าของการวิจัยคอมพิวเตอร์วิทัศน์และการเรียนรู้เชิงลึกในช่วงทศวรรษที่ผ่านมา

ในการตั้งค่าการเรียนรู้ภายใต้การดูแล มนุษย์จำเป็นต้องใส่คำอธิบายประกอบชุดข้อมูลจำนวนมากด้วยตนเอง จากนั้น ตัวแบบจะใช้ข้อมูลนี้เพื่อเรียนรู้ความสัมพันธ์พื้นฐานที่ซับซ้อนระหว่างข้อมูลและป้ายกำกับ และพัฒนาความสามารถในการคาดการณ์ป้ายกำกับเมื่อพิจารณาจากข้อมูล โมเดลการเรียนรู้เชิงลึกโดยทั่วไปมักต้องการข้อมูลมากและต้องใช้ชุดข้อมูลจำนวนมหาศาลเพื่อให้ได้ประสิทธิภาพที่ดี ฮาร์ดแวร์ที่พัฒนาอย่างไม่หยุดยั้งและความพร้อมใช้งานของชุดข้อมูลที่ติดป้ายกำกับโดยมนุษย์ขนาดใหญ่เป็นสาเหตุของความสำเร็จล่าสุดของการเรียนรู้เชิงลึก

ข้อเสียเปรียบที่สำคัญประการหนึ่งของการเรียนรู้เชิงลึกภายใต้การดูแลคือต้องอาศัยการมีอยู่ของชุดข้อมูลที่มีป้ายกำกับโดยมนุษย์จำนวนมากสำหรับการฝึกอบรม ความหรูหรานี้ไม่มีให้บริการในทุกโดเมน เนื่องจากอาจเป็นเรื่องยากและมีราคาแพงมากในการรับชุดข้อมูลขนาดใหญ่ที่มีคำอธิบายประกอบโดยผู้เชี่ยวชาญ แม้ว่าการได้มาซึ่งข้อมูลที่ติดป้ายกำกับอาจเป็นงานท้าทายและมีค่าใช้จ่ายสูง แต่เรามักจะเข้าถึงชุดข้อมูลที่ไม่มีป้ายกำกับจำนวนมากได้ โดยเฉพาะข้อมูลรูปภาพและข้อความ ดังนั้น เราจึงต้องหาวิธีที่จะใช้ประโยชน์จากชุดข้อมูลที่ไม่ได้ใช้งานเหล่านี้และใช้เพื่อการเรียนรู้

รูปภาพที่มีป้ายกำกับและไม่มีป้ายกำกับ

ถ่ายทอดการเรียนรู้จากแบบจำลองที่ฝึกไว้ล่วงหน้า

ในกรณีที่ไม่มีข้อมูลที่มีป้ายกำกับจำนวนมาก เรามักหันไปใช้ การเรียนรู้การถ่ายโอน แล้วการถ่ายโอนการเรียนรู้คืออะไร?

ถ่ายทอดการเรียนรู้หมายถึงการใช้ความรู้จากงานที่คล้ายคลึงกันเพื่อแก้ปัญหาในมือ ในทางปฏิบัติ มันมักจะหมายถึงการใช้น้ำหนักเครือข่ายประสาทลึกที่เรียนรู้จากงานที่คล้ายคลึงกันเป็นการเริ่มต้น แทนที่จะเริ่มจากการเริ่มต้นโดยสุ่มของน้ำหนัก แล้วฝึกโมเดลเพิ่มเติมเกี่ยวกับข้อมูลที่ติดป้ายกำกับที่มีอยู่เพื่อแก้ไขงานในมือ

การถ่ายโอนการเรียนรู้ช่วยให้เราสามารถฝึกโมเดลบนชุดข้อมูลที่มีขนาดเล็กเพียงไม่กี่พันตัวอย่าง และสามารถให้ประสิทธิภาพที่ดีมาก การถ่ายโอนการเรียนรู้จากแบบจำลองที่ฝึกไว้ล่วงหน้าสามารถทำได้สามวิธี:

1. การแยกคุณลักษณะ

โดยปกติ เลเยอร์สุดท้ายของโครงข่ายประสาทเทียมจะทำการคำนวณที่เป็นนามธรรมและเฉพาะงานมากที่สุด ซึ่งโดยทั่วไปแล้วจะไม่สามารถถ่ายโอนไปยังงานอื่นได้อย่างง่ายดาย ในทางตรงกันข้าม เลเยอร์เริ่มต้นของเครือข่ายจะเรียนรู้คุณลักษณะพื้นฐานบางอย่าง เช่น ขอบและรูปร่างทั่วไป ซึ่งสามารถถ่ายโอนข้ามงานได้อย่างง่ายดาย

ภาพด้านล่างแสดงสิ่งที่คอนโวลูชั่นเคอร์เนลในระดับต่างๆ ในโครงข่ายประสาทคอนโวลูชันนัล (CNN) เป็นหลักในการเรียนรู้ เราเห็นการแสดงแบบลำดับชั้น โดยชั้นแรกจะเรียนรู้รูปร่างพื้นฐาน และชั้นที่สูงขึ้นเรื่อยๆ จะเรียนรู้แนวคิดเชิงความหมายที่ซับซ้อนมากขึ้น

การแสดงลำดับชั้น: เลเยอร์เริ่มต้นและเลเยอร์ที่สูงกว่า

แนวทางปฏิบัติทั่วไปคือนำแบบจำลองที่ได้รับการฝึกมาล่วงหน้าบนชุดข้อมูลรูปภาพขนาดใหญ่ที่มีป้ายกำกับ (เช่น ImageNet) และตัดเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ในตอนท้าย เลเยอร์ใหม่ที่เชื่อมต่ออย่างสมบูรณ์จะถูกแนบและกำหนดค่าตามจำนวนคลาสที่ต้องการ เลเยอร์ที่ถ่ายโอนจะถูกแช่แข็ง และเลเยอร์ใหม่จะได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่มีป้ายกำกับที่พร้อมใช้งานสำหรับงานของคุณ

ในการตั้งค่านี้ โมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะถูกใช้เป็นตัวแยกคุณลักษณะ และเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ที่ด้านบนถือเป็นตัวแยกประเภทแบบตื้น การตั้งค่านี้มีประสิทธิภาพมากกว่าการตั้งค่ามากเกินไป เนื่องจากจำนวนของพารามิเตอร์ที่ฝึกได้นั้นค่อนข้างน้อย ดังนั้นการกำหนดค่านี้จึงทำงานได้ดีเมื่อข้อมูลที่มีป้ายกำกับมีน้อยมาก ขนาดของชุดข้อมูลที่มีคุณสมบัติเป็นชุดข้อมูลขนาดเล็กมากมักเป็นปัญหาที่ยุ่งยากในการพิจารณาหลายๆ ด้าน รวมถึงปัญหาในมือและขนาดของแกนหลักของแบบจำลอง พูดโดยคร่าว ๆ ฉันจะใช้กลยุทธ์นี้สำหรับชุดข้อมูลที่ประกอบด้วยรูปภาพสองพันรูป

2. การปรับจูนอย่างละเอียด

อีกทางหนึ่ง เราสามารถถ่ายโอนเลเยอร์จากเครือข่ายที่ได้รับการฝึกอบรมล่วงหน้า และฝึกอบรมเครือข่ายทั้งหมดบนข้อมูลที่มีป้ายกำกับ การตั้งค่านี้ต้องการข้อมูลที่ติดป้ายกำกับอีกเล็กน้อย เนื่องจากคุณกำลังฝึกทั้งเครือข่ายและด้วยเหตุนี้จึงต้องใช้พารามิเตอร์จำนวนมาก การตั้งค่านี้มีแนวโน้มที่จะ overfitting มากขึ้นเมื่อมีข้อมูลไม่เพียงพอ

3. การเรียนรู้การถ่ายโอนสองขั้นตอน

วิธีการนี้เป็นที่ชื่นชอบส่วนตัวของฉันและมักจะให้ผลลัพธ์ที่ดีที่สุด อย่างน้อยก็ในประสบการณ์ของฉัน ที่นี่ เราฝึกเลเยอร์ที่เชื่อมต่อใหม่ในขณะที่แช่แข็งเลเยอร์ที่ถ่ายโอนเป็นเวลาสองสามยุคก่อนที่จะปรับเครือข่ายทั้งหมดอย่างละเอียด

การปรับแต่งเครือข่ายทั้งหมดอย่างละเอียดโดยไม่ต้องให้ชั้นสุดท้ายสองสามช่วง อาจส่งผลให้เกิดการแพร่กระจายของการไล่ระดับสีที่เป็นอันตรายจากเลเยอร์ที่สุ่มเริ่มต้นแบบสุ่มไปยังเครือข่ายฐาน นอกจากนี้ การปรับแต่งแบบละเอียดต้องใช้อัตราการเรียนรู้ที่ค่อนข้างเล็ก และแนวทางแบบสองขั้นตอนก็เป็นวิธีที่สะดวก

ความต้องการวิธีการกึ่งควบคุมและไม่ได้รับการดูแล

ซึ่งมักจะทำงานได้ดีมากสำหรับงานจำแนกประเภทรูปภาพส่วนใหญ่ เนื่องจากเรามีชุดข้อมูลรูปภาพขนาดใหญ่ เช่น ImageNet ที่ครอบคลุมพื้นที่ภาพที่เป็นไปได้ส่วนใหญ่ และโดยปกติ น้ำหนักที่เรียนรู้จากชุดข้อมูลนี้สามารถถ่ายโอนไปยังงานการจัดประเภทรูปภาพที่กำหนดเองได้ นอกจากนี้ เครือข่ายที่ได้รับการฝึกมาล่วงหน้ายังพร้อมใช้งานนอกชั้นวาง ซึ่งช่วยอำนวยความสะดวกในกระบวนการ

อย่างไรก็ตาม แนวทางนี้ใช้ไม่ได้ผลหากการกระจายภาพในงานของคุณแตกต่างอย่างมากจากภาพที่เครือข่ายพื้นฐานได้รับการฝึกอบรม ตัวอย่างเช่น หากคุณกำลังจัดการกับภาพระดับสีเทาที่สร้างโดยอุปกรณ์สร้างภาพทางการแพทย์ การถ่ายโอนการเรียนรู้จากตุ้มน้ำหนัก ImageNet จะไม่ได้ผลเช่นนั้น และคุณจะต้องใช้ภาพที่ติดป้ายกำกับมากกว่าสองพันภาพเพื่อฝึกเครือข่ายของคุณให้มีประสิทธิภาพที่น่าพอใจ

ในทางตรงกันข้าม คุณอาจมีสิทธิ์เข้าถึงชุดข้อมูลจำนวนมากที่ไม่มีป้ายกำกับสำหรับปัญหาของคุณ นั่นคือเหตุผลที่ความสามารถในการเรียนรู้จากชุดข้อมูลที่ไม่มีป้ายกำกับเป็นสิ่งสำคัญ นอกจากนี้ ชุดข้อมูลที่ไม่มีป้ายกำกับมักจะมีความหลากหลายและปริมาณมากกว่าชุดข้อมูลที่ใหญ่ที่สุดที่มีป้ายกำกับ

วิธีการแบบกึ่งควบคุมได้แสดงให้เห็นแล้วว่าให้ประสิทธิภาพที่เหนือกว่าสำหรับแนวทางภายใต้การดูแลบนเกณฑ์มาตรฐานขนาดใหญ่ เช่น ImageNet การเปรียบเทียบเค้กที่มีชื่อเสียงของ Yann LeCun เน้นย้ำถึงความสำคัญของการเรียนรู้แบบไม่มีผู้ดูแล:

การเปรียบเทียบเค้กของ Yann LeCun

การเรียนรู้กึ่งควบคุม

แนวทางนี้ใช้ประโยชน์จากข้อมูลทั้งที่มีป้ายกำกับและไม่ติดป้ายกำกับสำหรับการเรียนรู้ ดังนั้นจึงเรียกว่าการเรียนรู้แบบกึ่งควบคุมดูแล วิธีนี้มักจะเป็นวิธีที่แนะนำเมื่อคุณมีข้อมูลที่มีป้ายกำกับจำนวนเล็กน้อยและข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก มีเทคนิคที่คุณเรียนรู้จากข้อมูลที่ติดป้ายกำกับและไม่ติดป้ายกำกับพร้อมกัน แต่เราจะพูดถึงปัญหาในบริบทของวิธีการแบบสองขั้นตอน: การเรียนรู้แบบไม่มีผู้ดูแลบนข้อมูลที่ไม่มีป้ายกำกับ และถ่ายโอนการเรียนรู้โดยใช้กลยุทธ์ที่อธิบายข้างต้นเพื่อแก้ปัญหาการจัดหมวดหมู่ของคุณ .

ในกรณีเหล่านี้ การเรียนรู้โดยไม่ได้รับการดูแลเป็นคำศัพท์ที่ค่อนข้างสับสน วิธีการเหล่านี้ไม่ได้อยู่ภายใต้การดูแลอย่างแท้จริงในแง่ที่ว่ามีสัญญาณการควบคุมที่ชี้แนะการเรียนรู้ของตุ้มน้ำหนัก แต่ด้วยเหตุนี้สัญญาณการควบคุมจึงได้มาจากตัวข้อมูลเอง ดังนั้นบางครั้งจึงเรียกว่าการเรียนรู้ด้วยตนเอง แต่คำศัพท์เหล่านี้ถูกนำมาใช้แทนกันในวรรณคดีเพื่ออ้างถึงแนวทางเดียวกัน

เทคนิคหลักในการเรียนรู้ด้วยตนเองสามารถแบ่งออกได้โดยการสร้างสัญญาณการควบคุมดูแลจากข้อมูลตามที่อธิบายด้านล่าง

วิธีการกำเนิด

วิธีการทั่วไป - ตัวเข้ารหัสอัตโนมัติ: เครือข่ายตัวเข้ารหัสและตัวถอดรหัส

วิธีการทั่วไปมีจุดมุ่งหมายเพื่อสร้างข้อมูลขึ้นใหม่อย่างถูกต้องหลังจากผ่านปัญหาคอขวด ตัวอย่างหนึ่งของเครือข่ายดังกล่าวคือตัวเข้ารหัสอัตโนมัติ พวกเขาลดอินพุตลงในพื้นที่แสดงมิติต่ำโดยใช้เครือข่ายตัวเข้ารหัสและสร้างภาพใหม่โดยใช้เครือข่ายตัวถอดรหัส

ในการตั้งค่านี้ อินพุตจะกลายเป็นสัญญาณควบคุม (ป้ายกำกับ) สำหรับการฝึกเครือข่าย จากนั้น เครือข่ายตัวเข้ารหัสสามารถดึงออกมาและใช้เป็นจุดเริ่มต้นในการสร้างตัวแยกประเภทของคุณได้ โดยใช้เทคนิคการเรียนรู้การถ่ายโอนวิธีใดวิธีหนึ่งที่กล่าวถึงในหัวข้อข้างต้น

ในทำนองเดียวกัน เครือข่ายกำเนิดรูปแบบอื่น - Generative Adversarial Networks (GAN) - สามารถใช้สำหรับการฝึกอบรมล่วงหน้ากับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นจึงนำผู้เลือกปฏิบัติมาปรับใช้และปรับแต่งเพิ่มเติมสำหรับงานจำแนกประเภทได้

วิธีการเลือกปฏิบัติ

แนวทางการเลือกปฏิบัติจะฝึกโครงข่ายประสาทเทียมเพื่อเรียนรู้งานการจำแนกประเภทเสริม มีการเลือกงานเสริมเพื่อให้สามารถรับสัญญาณควบคุมได้จากข้อมูลเอง โดยไม่ต้องใส่คำอธิบายประกอบโดยมนุษย์

ตัวอย่างของงานประเภทนี้ ได้แก่ การเรียนรู้ตำแหน่งสัมพัทธ์ของแพตช์รูปภาพ การปรับสีรูปภาพระดับสีเทา หรือการเรียนรู้การแปลงทางเรขาคณิตที่ใช้กับรูปภาพ เราจะพูดถึงสองคนนี้ในรายละเอียดเพิ่มเติม

การเรียนรู้ตำแหน่งสัมพัทธ์ของแพทช์รูปภาพ

การเรียนรู้ตำแหน่งสัมพัทธ์ของแพทช์รูปภาพ

ในเทคนิคนี้ แพตช์รูปภาพจะถูกดึงออกจากอิมเมจต้นฉบับเพื่อสร้างตารางที่เหมือนตัวต่อจิ๊กซอว์ ตำแหน่งของพาธจะถูกสับเปลี่ยน และอินพุตที่สับเปลี่ยนจะถูกป้อนเข้าสู่เครือข่าย ซึ่งได้รับการฝึกฝนให้คาดการณ์ตำแหน่งของแต่ละแพตช์ในกริดได้อย่างถูกต้อง ดังนั้น สัญญาณควบคุมคือตำแหน่งที่แท้จริงของแต่ละเส้นทางในตาราง

ในการเรียนรู้ที่จะทำเช่นนั้น เครือข่ายจะเรียนรู้โครงสร้างสัมพัทธ์และการวางแนวของวัตถุ ตลอดจนความต่อเนื่องของคุณสมบัติภาพระดับต่ำ เช่น สี ผลการวิจัยพบว่าคุณลักษณะที่เรียนรู้จากการไขปริศนาจิ๊กซอว์นี้สามารถถ่ายโอนไปยังงานต่างๆ เช่น การจัดประเภทรูปภาพและการตรวจจับวัตถุได้

การเรียนรู้การเปลี่ยนแปลงทางเรขาคณิตที่ใช้กับรูปภาพ

การเรียนรู้การเปลี่ยนแปลงทางเรขาคณิตที่ใช้กับรูปภาพ

วิธีการเหล่านี้ใช้การแปลงทางเรขาคณิตชุดเล็ก ๆ กับรูปภาพอินพุต และฝึกตัวแยกประเภทเพื่อทำนายการแปลงที่นำไปใช้โดยดูที่รูปภาพที่แปลงแล้วเพียงอย่างเดียว ตัวอย่างหนึ่งของวิธีการเหล่านี้คือการใช้การหมุน 2 มิติกับรูปภาพที่ไม่มีป้ายกำกับ เพื่อให้ได้ชุดของภาพที่หมุนแล้ว จากนั้นฝึกเครือข่ายเพื่อคาดการณ์การหมุนของแต่ละภาพ

สัญญาณการควบคุมที่เรียบง่ายนี้บังคับให้เครือข่ายเรียนรู้ที่จะกำหนดตำแหน่งของวัตถุในรูปภาพและทำความเข้าใจการวางแนวของวัตถุ คุณลักษณะที่เรียนรู้จากวิธีการเหล่านี้ได้รับการพิสูจน์แล้วว่าสามารถถ่ายทอดได้สูงและให้ผลการปฏิบัติงานที่ทันสมัยสำหรับงานการจัดประเภทในสภาพแวดล้อมกึ่งควบคุม

วิธีการตามความคล้ายคลึงกัน

วิธีการเหล่านี้ฉายภาพลงในพื้นที่แสดงขนาดคงที่โดยที่ภาพที่คล้ายคลึงกันอยู่ใกล้กันมากขึ้น และภาพที่แตกต่างกันห่างกันมากขึ้น วิธีหนึ่งในการบรรลุเป้าหมายนี้คือการใช้เครือข่ายสยามโดยพิจารณาจากการสูญเสียสามเท่า ซึ่งลดระยะห่างระหว่างภาพที่มีความหมายคล้ายกันให้เหลือน้อยที่สุด การสูญเสีย Triplet ต้องการสมอ ตัวอย่างในเชิงบวก และตัวอย่างเชิงลบ และพยายามทำให้บวกเข้าใกล้สมอมากกว่าค่าลบในแง่ของระยะห่างแบบยุคลิดในพื้นที่แฝง Anchor และ positive มาจากคลาสเดียวกัน และตัวอย่างเชิงลบจะถูกเลือกแบบสุ่มจากคลาสที่เหลือ

ในข้อมูลที่ไม่มีป้ายกำกับ เราจำเป็นต้องคิดกลยุทธ์เพื่อสร้างตัวอย่างสามส่วนทั้งด้านบวกและด้านลบโดยที่ไม่รู้ถึงประเภทของรูปภาพ วิธีหนึ่งในการทำเช่นนั้นคือการใช้การเปลี่ยนแปลงความสัมพันธ์แบบสุ่มของรูปภาพสมอเป็นตัวอย่างในเชิงบวก และสุ่มเลือกรูปภาพอื่นเป็นตัวอย่างเชิงลบ

Triplet สูญเสีย

การทดลอง

ในส่วนนี้ ฉันจะพูดถึงการทดลองที่พิสูจน์ให้เห็นถึงศักยภาพของการฝึกก่อนการฝึกอบรมที่ไม่ได้รับการดูแลสำหรับการจัดประเภทรูปภาพ นี่เป็นโครงการภาคเรียนของฉันสำหรับชั้นเรียน Deep Learning ที่ฉันเรียนกับ Yann LeCun ที่ NYU เมื่อฤดูใบไม้ผลิที่แล้ว

  • ชุดข้อมูล ประกอบด้วยตัวอย่างที่มีป้ายกำกับ 128K โดยครึ่งหนึ่งมีไว้สำหรับการฝึกอบรม และอีกครึ่งหนึ่งสำหรับการตรวจสอบ นอกจากนี้เรายังมีรูปภาพที่ไม่มีป้ายกำกับจำนวน 512K ข้อมูลมีทั้งหมด 1,000 คลาส
  • การฝึกอบรมล่วงหน้าโดยไม่ ได้รับการดูแล AlexNet ได้รับการฝึกอบรมสำหรับการจำแนกประเภทการหมุนโดยใช้การเสริมข้อมูลที่ครอบคลุมสำหรับ 63 ยุค เราใช้ไฮเปอร์พารามิเตอร์ที่ Rotnet บันทึกไว้ในเอกสารของพวกเขา
  • การฝึกอบรมลักษณนาม คุณลักษณะต่างๆ ถูกดึงออกมาจากชั้น Convolution ที่สี่ และชั้นที่เชื่อมต่อทั้งหมดสามชั้นถูกผนวกเข้ากับชั้นนั้น เลเยอร์เหล่านี้สุ่มเริ่มต้นและฝึกฝนด้วยอัตราการเรียนรู้ที่ลดลงตามกำหนดการ และมีการใช้การหยุดก่อนกำหนดเพื่อหยุดการฝึก
  • การปรับจูนเครือข่ายทั้งหมด ในที่สุด เราได้ปรับแต่งเครือข่ายที่ฝึกฝนเกี่ยวกับข้อมูลทั้งหมดที่มีป้ายกำกับ ทั้งตัวแยกคุณลักษณะและตัวแยกประเภท ซึ่งได้รับการฝึกฝนแยกกันมาก่อน ได้รับการปรับแต่งอย่างละเอียดพร้อมอัตราการเรียนรู้เพียงเล็กน้อยสำหรับ 15 ยุค

เราฝึกโมเดลเจ็ดแบบ โดยแต่ละแบบใช้ตัวอย่างการฝึกที่มีป้ายกำกับต่างกันในแต่ละชั้นเรียน สิ่งนี้ทำขึ้นเพื่อทำความเข้าใจว่าขนาดของข้อมูลการฝึกมีผลต่อประสิทธิภาพของการตั้งค่ากึ่งควบคุมดูแลของเราอย่างไร

การทดลอง

เราสามารถรับอัตราความแม่นยำ 82% สำหรับการฝึกจำแนกประเภทการหมุนล่วงหน้า สำหรับการฝึกอบรมตัวแยกประเภท ความแม่นยำ 5% สูงสุดอิ่มตัวประมาณ 46.24% และการปรับแต่งอย่างละเอียดของเครือข่ายทั้งหมดทำให้ได้ตัวเลขสุดท้ายที่ 50.17% ด้วยการใช้ประโยชน์จากการฝึกก่อนการฝึกอบรม เราได้ประสิทธิภาพที่ดีกว่าการฝึกอบรมภายใต้การดูแล ซึ่งให้ความแม่นยำสูงสุด 5 อันดับแรกของ 40%

ตามที่คาดไว้ ความแม่นยำในการตรวจสอบความถูกต้องลดลงเมื่อข้อมูลการฝึกที่มีป้ายกำกับลดลง อย่างไรก็ตาม ประสิทธิภาพที่ลดลงนั้นไม่สำคัญเท่ากับที่คาดหวังในสภาพแวดล้อมที่มีการควบคุมดูแล ข้อมูลการฝึกลดลง 50% จาก 64 ตัวอย่างต่อคลาสเหลือ 32 ตัวอย่างต่อคลาสเท่านั้นส่งผลให้ความแม่นยำในการตรวจสอบความถูกต้องลดลง 15%

การทดลอง

ด้วยการใช้เพียง 32 ตัวอย่างต่อคลาส โมเดลกึ่งควบคุมของเราบรรลุประสิทธิภาพที่เหนือกว่าสำหรับโมเดลภายใต้การดูแลซึ่งฝึกฝนโดยใช้ 64 ตัวอย่างต่อคลาส นี่เป็นหลักฐานเชิงประจักษ์เกี่ยวกับศักยภาพของแนวทางกึ่งควบคุมสำหรับการจัดประเภทรูปภาพบนชุดข้อมูลที่มีป้ายกำกับทรัพยากรต่ำ

ห่อ

เราสามารถสรุปได้ว่าการเรียนรู้แบบไม่มีผู้ดูแลเป็นกระบวนทัศน์ที่ทรงพลังซึ่งมีความสามารถในการเพิ่มประสิทธิภาพสำหรับชุดข้อมูลทรัพยากรต่ำ การเรียนรู้แบบ Unsupervised ในปัจจุบันอยู่ในช่วงเริ่มต้น แต่จะค่อยๆ ขยายการแชร์ในพื้นที่การมองเห็นด้วยคอมพิวเตอร์โดยทำให้สามารถเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับราคาถูกและเข้าถึงได้ง่าย


อ่านเพิ่มเติมในบล็อก Toptal Engineering:

  • กราฟวิทยาศาสตร์ข้อมูลด้วย Python/NetworkX