ทุกสิ่งที่คุณควรรู้เกี่ยวกับอัลกอริธึมการเรียนรู้ที่ไม่มีผู้ดูแล
เผยแพร่แล้ว: 2020-03-24สารบัญ
อัลกอริธึมการเรียนรู้ที่ไม่มีผู้ดูแล
แมชชีนเลิร์นนิงได้เห็นการพัฒนามากมายในช่วงไม่กี่ปีที่ผ่านมา และการเรียนรู้แบบไม่มีผู้ดูแลก็เป็นส่วนหนึ่งของสิ่งนั้น แมชชีนเลิร์นนิงเป็นหัวข้อกว้างๆ ด้วยเหตุนี้จึงแบ่งออกเป็นสามประเภท จากสามข้อนี้ เราจะพูดถึงการเรียนรู้แบบไม่มีผู้ดูแลในบทความนี้ การเรียนรู้แบบไม่มีผู้ดูแลเป็นหนึ่งในหัวข้อที่ค่อนข้างใหม่ในภาคส่วนเทคโนโลยี
มันมีความท้าทายมากมาย แต่ก็มีข้อดีมากมายเช่นกัน ในบทความนี้ คุณจะพบว่าการเรียนรู้แบบไม่มีผู้ดูแลคืออะไร มันทำงานอย่างไร ปัญหาคือ อะไร ข้อดีของการเรียนรู้นั้น และอัลกอริธึมที่มีอยู่ในนั้นคืออะไร เราได้ทำให้มันครอบคลุมมากที่สุด
มาเริ่มกันเลยดีกว่า
Unsupervised Learning คืออะไร?
เมื่อคุณไม่ได้กำหนดป้ายกำกับใดๆ ให้กับอัลกอริทึมการเรียนรู้และปล่อยให้มันค้นหาโครงสร้างในอินพุตด้วยตัวเอง จะเรียกว่าการเรียนรู้แบบไม่มีผู้ดูแล การเรียนรู้แบบไม่มีผู้ดูแลเป็นหนึ่งในสามประเภทการเรียนรู้ของเครื่อง อีกสองคนคือการเรียนรู้กึ่งควบคุมและการเรียนรู้ภายใต้การดูแล การเรียนรู้โดยไม่ได้รับการดูแลสามารถเป็นหนทางไปสู่จุดจบหรือเป้าหมายในตัวเอง
เพื่อให้เข้าใจการเรียนรู้แบบไม่มีผู้ดูแล ให้จินตนาการว่าเป็นการทดสอบโดยที่ผู้สอบไม่มีคีย์คำตอบเพื่อเปรียบเทียบคำตอบของคุณ การทดสอบที่น่าตื่นเต้นนั้นจะเป็นอะไรไหม? การเรียนรู้แบบไม่มีผู้ดูแลช่วยให้คุณทำงานกับข้อมูลที่ป้อนและค้นหาคำตอบที่คุณต้องการได้ บางทีคุณอาจต้องการหารูปแบบในการป้อนข้อมูลที่คุณไม่เคยสังเกตมาก่อน หรือบางทีคุณอาจต้องการเข้าใจวิธีการกระจายข้อมูลในพื้นที่เฉพาะ
ปัญหาการเรียนรู้โดยไม่ได้รับการดูแล
การเรียนรู้โดยไม่ได้รับการดูแลอาจเป็นที่นิยมมาก แต่นั่นไม่ได้หมายความว่าจะไม่มีปัญหา มีความท้าทายหลายอย่างที่คุณสามารถเผชิญได้เนื่องจากอัลกอริธึมเหล่านี้ ประการแรก คุณไม่สามารถทราบได้ว่าคุณกำลังทำงานให้เสร็จหรือไม่เมื่อคุณใช้การเรียนรู้แบบไม่มีผู้ดูแล

นั่นเป็นเพราะในการเรียนรู้ภายใต้การดูแล คุณมีมาตรฐานในการเปรียบเทียบผลลัพธ์ของคุณ คุณกำหนดตัวชี้วัดที่เปิดใช้งานการตัดสินใจบนพื้นฐานของการปรับแต่งแบบจำลอง การเรียกคืน ความแม่นยำ และการวัดอื่นๆ ที่คล้ายคลึงกันช่วยให้คุณเห็นว่าแบบจำลองของคุณแม่นยำเพียงใด และคุณสามารถปรับเปลี่ยนพารามิเตอร์ของโมเดลนั้นเพื่อเพิ่มความแม่นยำของค่าเดียวกันได้ หากความแม่นยำของคุณไม่สูง คุณจะได้รับคะแนนตามนั้น ซึ่งหมายความว่าคุณต้องปรับปรุงแบบจำลองของคุณ
การเรียนรู้แบบไม่มีผู้ดูแลไม่มีป้ายกำกับใดๆ ดังนั้นจึงแทบเป็นไปไม่ได้เลยที่จะวัดความแม่นยำของแบบจำลองของคุณอย่างเป็นรูปธรรม คุณจะแน่ใจได้อย่างไรว่าอัลกอริทึมการจัดกลุ่ม k-mean ของคุณพบคลัสเตอร์ที่ถูกต้อง คุณจะกำหนดความถูกต้องของผลลัพธ์ได้อย่างไร การเรียนรู้ภายใต้การดูแลจะให้คะแนนความแม่นยำแก่คุณเพื่อช่วยให้คุณตัดสินว่าผลลัพธ์ของคุณถูกต้องหรือไม่ แต่ด้วยการเรียนรู้แบบไม่มีผู้ดูแล คุณไม่มีความหรูหราขนาดนั้น เรียนรู้เพิ่มเติมเกี่ยวกับประเภทของการเรียนรู้ภายใต้การดูแล
ตอนนี้ไม่ว่าการเรียนรู้แบบไม่มีผู้ดูแลจะเป็นประโยชน์สำหรับการแก้ปัญหาหรือไม่นั้นขึ้นอยู่กับหลายปัจจัย การเรียนรู้แบบไม่มีผู้ดูแลจะไม่แพร่หลายมากนักหากไม่มีแอปพลิเคชันใดๆ เราได้กล่าวถึงความสำคัญของมันในหัวข้อถัดไป
ทำไมการเรียนรู้โดยไม่ได้รับการดูแลจึงมีความจำเป็น
หลังจากอ่านความท้าทาย วิธีนี้ก่อให้เกิด คุณอาจสงสัยว่ามันมีประโยชน์ด้วยซ้ำ การเรียนรู้โดยไม่ได้รับการดูแลมีประโยชน์มากมาย และสาเหตุบางประการที่แพร่หลายมากมีดังต่อไปนี้:
- ช่วยให้เครื่องจักรสามารถแก้ปัญหาที่จิตใจมนุษย์ไม่สามารถทำได้เนื่องจากอคติหรือความสามารถ
- การเรียนรู้แบบไม่มีผู้ดูแลเหมาะสำหรับการสำรวจข้อมูลที่ไม่รู้จัก หากคุณไม่รู้ว่าต้องการค้นหาอะไร นี่คือวิธีที่สมบูรณ์แบบสำหรับคุณ
- การใส่คำอธิบายประกอบชุดข้อมูลขนาดใหญ่มีค่าใช้จ่ายค่อนข้างสูง ด้วยเหตุนี้ ผู้เชี่ยวชาญจึงใช้ตัวอย่างบางส่วนในการแก้ไขปัญหา
- หากคุณไม่รู้ว่าข้อมูลมีกี่คลาส คุณจะต้องใช้อัลกอริทึมการเรียนรู้แบบไม่มีผู้ดูแล ตัวอย่างที่ดีของสิ่งนี้คือการทำเหมืองข้อมูล
ตัวอย่างการเรียนรู้ที่ไม่ได้รับการดูแลที่ดีคือระบบการแนะนำ ระบบคำแนะนำทำงานผ่านการรวบรวมข้อมูลทางประวัติศาสตร์ของบุคคลและแนะนำคำแนะนำตามนั้น ระบบการแนะนำเหล่านี้ใช้การเรียนรู้แบบไม่มีผู้ดูแลเพื่อให้คำแนะนำดังกล่าว ตัวอย่างของระบบเหล่านี้ ได้แก่ Netflix และ YouTube
ดังนั้น คุณจะเห็นได้ว่าการเรียนรู้แบบไม่มีผู้ดูแลนั้นค่อนข้างมีประสิทธิภาพในการแก้ปัญหาบางประเภท เมื่อคุณเข้าใจถึงความสำคัญของมันแล้ว เราสามารถไปยังส่วนที่มีรายละเอียดเพิ่มเติมและดูหมวดหมู่ของมันได้
หมวดหมู่ของการเรียนรู้โดยไม่ได้รับการดูแล
เราสามารถจำแนกการเรียนรู้แบบไม่มีผู้ดูแลออกเป็นสองประเภท:

พารามิเตอร์
เมื่อคุณสมมติการกระจายข้อมูลแบบพาราเมตริก คุณจะใช้อัลกอริธึมการเรียนรู้ที่ไม่มีผู้ดูแลเหล่านี้ ในกรณีนี้, คุณคิดว่าค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานกำหนดสมาชิกทั้งหมดของแฟมิลีของการแจกแจงทั่วไป คุณยังถือว่าข้อมูลมาจากประชากรตามการกระจายความน่าจะเป็นที่ยึดตามชุดพารามิเตอร์เฉพาะ
ซึ่งหมายความว่าคุณสามารถทราบความน่าจะเป็นของการสังเกตในอนาคตโดยเพียงแค่รู้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน คุณจะใช้อัลกอริธึมการเพิ่มความคาดหวังสูงสุดและการสร้างแบบจำลองส่วนผสมแบบเกาส์เซียนเพื่อทำนายคลาสของกลุ่มตัวอย่างที่คุณมี เนื่องจากคุณมีป้ายกำกับคำตอบที่ต้องใช้งาน จึงยากกว่าและท้าทายกว่าเล็กน้อยในการแก้ปัญหาดังกล่าว คุณจะไม่มีมาตรการแก้ไขใดๆ เพื่อเปรียบเทียบผลลัพธ์ของคุณ
ไม่ใช่พารามิเตอร์
ในหมวดหมู่นี้ คุณจัดกลุ่มข้อมูลเป็นกลุ่ม แต่ละคลัสเตอร์ของข้อมูลชี้ให้เห็นบางอย่างเกี่ยวกับคลาสและประเภทที่เหมือนกัน เป็นวิธีมาตรฐานในการสร้างแบบจำลองและวิเคราะห์ข้อมูลเมื่อคุณมีตัวอย่างขนาดเล็ก ด้วยโมเดลที่ไม่ใช่พารามิเตอร์ คุณไม่จำเป็นต้องตั้งสมมติฐานใดๆ เกี่ยวกับการกระจายข้อมูลประชากร นั่นเป็นสาเหตุที่ชื่อที่นิยมอีกชื่อหนึ่งสำหรับการเรียนรู้แบบไม่อยู่ภายใต้การดูแลแบบไม่มีพารามิเตอร์คือการเรียนรู้แบบไม่ต้องมีการแจกแจงแบบกระจาย
แนวคิดที่สำคัญในอัลกอริทึมการเรียนรู้แบบไม่มีผู้ดูแล
การบีบอัดข้อมูล
เนื่องจากต้นทุนการจัดเก็บข้อมูลที่สูงและข้อจำกัดของพลังการประมวลผลของเรา เราจึงมองหาวิธีที่จะปรับปรุงประสิทธิภาพของการดำเนินการข้อมูลของเราอย่างต่อเนื่อง และทางออกที่ดีในเรื่องนี้คือการลดขนาด การลดมิติข้อมูลเป็นกระบวนการที่มีอยู่ในการเรียนรู้แบบไม่มีผู้ดูแล และทำงานโดยใช้แนวคิดต่างๆ ที่คล้ายกับทฤษฎีสารสนเทศ
การลดขนาดมิติถือว่าข้อมูลส่วนใหญ่มีความซ้ำซ้อน และคุณสามารถแสดงข้อมูลเกือบทั้งหมดในชุดข้อมูลได้โดยใช้ข้อมูลเพียงเศษเสี้ยวของข้อมูลที่คุณมี
ผู้เชี่ยวชาญอัลกอริธึมที่ได้รับความนิยมสูงสุดสองคนใช้เพื่อจุดประสงค์นี้คือการสลายตัวของค่าเอกพจน์และการวิเคราะห์องค์ประกอบหลัก แบบแรกแยกข้อมูลของคุณในผลิตภัณฑ์อีกสามตัวในขณะที่ตัวหลังพบชุดค่าผสมเชิงเส้นที่ถ่ายทอดความแปรปรวนหรือความแตกต่างส่วนใหญ่ที่มีอยู่ในข้อมูลของคุณ มีอัลกอริธึมที่แตกต่างกันมากมายในการเรียนรู้แบบไม่มีผู้ดูแลซึ่งทำงานหลากหลาย
อ่านเพิ่มเติม: แนวคิดโครงการการเรียนรู้ของเครื่องสำหรับผู้เริ่มต้น
ด้วยการลดมิติข้อมูลของคุณ คุณสามารถ ปรับปรุงไปป์ไลน์แมชชีนเลิ ร์นนิง หากคุณสามารถลดข้อมูลตามลำดับความสำคัญได้ คุณจะสามารถลดกำลังในการประมวลผลและพื้นที่จัดเก็บที่ต้องการได้อย่างมาก ซึ่งจะช่วยคุณในการลดต้นทุนการดำเนินงานเช่นกัน ตัวอย่างการเรียนรู้ที่ไม่ได้รับการดูแลที่ดีในกรณีนี้คือการมองเห็นด้วยคอมพิวเตอร์ SVD และ PCA ค่อนข้างมีประโยชน์ในการบีบอัดข้อมูลของรูปภาพ และผู้เชี่ยวชาญใช้หนึ่งในนั้นในขั้นตอนเตรียมการประมวลผลของไปป์ไลน์แมชชีนเลิร์นนิง
การจัดกลุ่ม
ในการจัดกลุ่ม คุณจัดระเบียบจุดข้อมูลเป็นกลุ่มในลักษณะที่สมาชิกของกลุ่มมีความคล้ายคลึงกันในบางรูปแบบ อาจเป็นปัญหาที่สำคัญที่สุดในการเรียนรู้แบบไม่มีผู้ดูแล ในการจัดกลุ่ม คุณสร้างกลุ่มของจุดข้อมูลที่มีความคล้ายคลึงและแยกจากจุดข้อมูลที่แตกต่างจากจุดข้อมูลเหล่านั้น
การทำคลัสเตอร์เน้นที่การกำหนดการจัดกลุ่มภายในของอินพุต เนื่องจากเป็นแนวคิดของการเรียนรู้แบบไม่มีผู้ดูแล จึงทำงานร่วมกับข้อมูลที่ไม่มีป้ายกำกับ จะสร้างกลุ่มของจุดข้อมูลตามความคล้ายคลึงที่สังเกตเห็นในคุณลักษณะ อย่างไรก็ตามคลัสเตอร์จะถูกต้องหรือไม่ขึ้นอยู่กับผู้ใช้

อัลกอริทึมการจัดกลุ่มมีสี่ประเภทและมีดังนี้:
- อัลกอริธึมการจัดกลุ่มความน่าจะเป็น
- อัลกอริทึมการจัดกลุ่มแบบลำดับชั้น
- อัลกอริธึมการทำคลัสเตอร์ที่ทับซ้อนกัน
- อัลกอริธึมการจัดกลุ่มพิเศษ
ชื่อของชนิดแรกเป็นตัวอธิบาย อันที่สองมุ่งเน้นไปที่การรวมกันของสองคลัสเตอร์ที่ใกล้ที่สุด ในขณะที่อัลกอริธึมที่ทับซ้อนกันใช้ชุดคลุมเครือเพื่อให้จุดหนึ่งอาจเป็นของหลายคลัสเตอร์ ข้อมูลของกลุ่มสุดท้ายในลักษณะที่จุดข้อมูลของคลัสเตอร์หนึ่งไม่สามารถอยู่ในกลุ่มอื่นได้
รุ่นทั่วไป
ในแบบจำลองทั่วไป คุณจะได้รับข้อมูลการฝึกอบรมเพื่อสร้างตัวอย่างใหม่จากข้อมูลดังกล่าว โมเดลดังกล่าวมีหน้าที่ในการสร้างข้อมูลคล้ายกับที่คุณมอบให้ และพวกเขาทำได้โดยการเรียนรู้แก่นแท้ของข้อมูลอย่างมีประสิทธิภาพ โมเดลทั่วไปสามารถเรียนรู้คุณลักษณะของข้อมูลที่คุณให้ไว้ได้ และนั่นเป็นข้อได้เปรียบระยะยาวที่สำคัญ ชุดข้อมูลรูปภาพเป็นตัวอย่างที่ดีของแบบจำลองกำเนิด ด้วยความช่วยเหลือของชุดข้อมูลรูปภาพ คุณสามารถสร้างรูปภาพที่คล้ายกันได้มากมาย
อะไรต่อไป ?
การเรียนรู้แบบไม่มีผู้ดูแลเป็นแนวคิดกว้างๆ ของการเรียนรู้ของเครื่อง มีอัลกอริธึมมากมายในหมวดหมู่นี้ และคุณต้องสังเกตว่ามีอัลกอริธึมมากมายเพียงใด หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับหัวข้อนี้ คุณควรไปที่บล็อกของเรา คุณจะพบบทความที่มีประโยชน์มากมายเกี่ยวกับการเรียนรู้แบบไม่มีผู้ดูแลและแมชชีนเลิร์นนิง
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ