การวิเคราะห์การเลือกปฏิบัติเชิงเส้นสำหรับการเรียนรู้ของเครื่อง: สิ่งที่คุณต้องรู้

เผยแพร่แล้ว: 2020-05-22

ความก้าวหน้าทางเทคโนโลยีในช่วงไม่กี่ปีที่ผ่านมาทำให้อุปกรณ์ที่เชื่อมต่อสามารถจัดการข้อมูลจำนวนมหาศาลได้ อย่างไรก็ตาม การจัดเก็บและความปลอดภัยของข้อมูลยังคงเป็นปัญหาใหญ่เมื่อต้องจัดการกับข้อมูลจำนวนมหาศาลดังกล่าว ด้วยเหตุนี้จึงเป็นสิ่งสำคัญมากในการจัดการข้อมูลอย่างถูกต้อง มักจะเป็นงานที่ใช้เวลานาน

นี่คือจุดที่เทคนิคการลดมิติข้อมูล เช่น การวิเคราะห์จำแนกเชิงเส้นหรือ LDA เข้ามาในรูปภาพ เทคนิคเหล่านี้สามารถช่วยคุณในการจัดการชุดข้อมูลได้ดีขึ้นมากในขณะที่รับรองความปลอดภัยและความเป็นส่วนตัวของข้อมูล จุดเน้นของเราในบล็อกนี้จะอยู่ที่การหารือเกี่ยวกับเทคนิคการลดมิติข้อมูลการวิเคราะห์การเลือกปฏิบัติเชิงเส้น เรามาเริ่มด้วยการพูดถึงการลดมิติ

สารบัญ

การลดมิติคืออะไร?

คุณจะสามารถเข้าใจเทคนิคของการวิเคราะห์จำแนกเชิงเส้นได้ดียิ่งขึ้น หากคุณทราบภูมิหลังของแนวคิดที่อิงตามนั้น เมื่อคุณจัดการกับข้อมูลหลายมิติ คุณมีข้อมูลที่มีคุณสมบัติหลายอย่างที่สัมพันธ์กัน ถ้าเราพล็อตข้อมูลหลายมิติในสองหรือสามมิติ เรากำลังใช้เทคนิคการลดขนาด

อีกทางเลือกหนึ่งที่ใช้กันทั่วไปแทนการลดมิติคือการพล็อตข้อมูลโดยใช้ฮิสโตแกรม แผนภาพแบบกระจาย และแผนภาพแบบกล่อง กราฟเหล่านี้สามารถใช้เพื่อค้นหารูปแบบในชุดข้อมูลดิบที่กำหนด อย่างไรก็ตาม แผนภูมิไม่ได้นำเสนอข้อมูลในลักษณะที่ง่ายต่อการถอดรหัสสำหรับคนทั่วไป นอกจากนี้ ข้อมูลที่มีคุณลักษณะมากมายจะต้องใช้แผนภูมิหลายแผนภูมิเพื่อระบุรูปแบบในชุดข้อมูลนั้น

เทคนิคการลดขนาดข้อมูล เช่น LDA ช่วยในการเอาชนะข้อกังวลเหล่านี้โดยใช้มิติข้อมูลสองหรือสามมิติสำหรับการวางแผนข้อมูล วิธีนี้จะช่วยให้คุณนำเสนอข้อมูลได้ชัดเจนยิ่งขึ้น ซึ่งจะเหมาะกับผู้ที่ไม่มีพื้นฐานทางเทคนิค

อ่าน : 25 คำถามและคำตอบสำหรับการสัมภาษณ์แมชชีนเลิร์นนิง

การวิเคราะห์จำแนกเชิงเส้นคืออะไร?

เป็นหนึ่งในเทคนิคการลดขนาดที่ใช้มากที่สุด มันถูกใช้ในการเรียนรู้ของเครื่องเช่นเดียวกับแอพพลิเคชั่นที่เกี่ยวข้องกับการจำแนกรูปแบบ LDA มีจุดประสงค์ที่เฉพาะเจาะจงมาก ซึ่งก็คือการฉายคุณลักษณะที่มีอยู่ในพื้นที่มิติสูงไปยังพื้นที่ในมิติที่ต่ำกว่า

สิ่งนี้ทำเพื่อขจัดปัญหามิติทั่วไปและลดต้นทุนและทรัพยากรมิติ Ronald A Fisher ถือเครดิตในการพัฒนาแนวคิดดั้งเดิมใน ปี 1936 – การวิเคราะห์การเลือกปฏิบัติของฟิชเชอร์หรือการเลือกปฏิบัติเชิงเส้น ในขั้นต้น การเลือกปฏิบัติเชิงเส้นเป็นเทคนิคสองระดับ รุ่นมัลติคลาสเข้ามาในภายหลัง

การวิเคราะห์จำแนกเชิงเส้นเป็นวิธีการจำแนกประเภทภายใต้การดูแลที่ใช้เพื่อสร้างแบบจำลองการเรียนรู้ของเครื่อง โมเดลเหล่านี้อิงตามการลดมิติข้อมูลใช้ในแอปพลิเคชัน เช่น การวิเคราะห์เชิงคาดการณ์ทางการตลาดและการจดจำรูปภาพ เป็นต้น เราจะหารือเกี่ยวกับแอปพลิเคชันในภายหลัง

เรากำลังมองหาอะไรกันแน่กับ LDA? มีสองด้านที่เทคนิคการลดขนาดมิตินี้ช่วยในการค้นพบ – พารามิเตอร์ที่สามารถใช้เพื่ออธิบายความสัมพันธ์ระหว่างกลุ่มกับวัตถุ – แบบจำลองอุปถัมภ์การจำแนกประเภทที่สามารถช่วยในการแยกกลุ่ม นี่คือเหตุผลที่ LDA ถูกใช้อย่างกว้างขวางเพื่อสร้างแบบจำลองพันธุ์ต่างๆ ในกลุ่มต่างๆ ดังนั้น คุณสามารถใช้เทคนิคนี้เพื่อใช้คลาสสองหรือมากกว่าสองคลาสสำหรับการกระจายตัวแปร

การขยายไปสู่การวิเคราะห์จำแนกเชิงเส้น

LDA ถือเป็นหนึ่งในวิธีการที่ง่ายและมีประสิทธิภาพมากที่สุดสำหรับการจำแนกประเภท เนื่องจากวิธีการนี้เรียบง่ายและเข้าใจง่าย เราจึงมีรูปแบบต่างๆ สองสามแบบรวมถึงส่วนขยายที่พร้อมใช้งาน สิ่งเหล่านี้รวมถึง:

1. การวิเคราะห์การเลือกปฏิบัติที่เป็นมาตรฐานหรือ RDA

RDA ใช้สำหรับนำการทำให้เป็นมาตรฐานไปสู่การประมาณค่าความแปรปรวนหรือความแปรปรวนร่วม สิ่งนี้ทำเพื่อกลั่นกรองผลกระทบที่ตัวแปรมีต่อ LDA

2. การวิเคราะห์จำแนกกำลังสองหรือ QDA

ใน QDA คลาสต่างๆ ใช้ค่าประมาณความแปรปรวนของตนเอง ในกรณีที่จำนวนตัวแปรอินพุตมากกว่าปกติ ทุกคลาสจะใช้ค่าความแปรปรวนร่วมของตัวมันเอง

3. การวิเคราะห์จำแนกที่ยืดหยุ่นหรือFDA

องค์การอาหารและยาใช้ประโยชน์จากปัจจัยการผลิตที่มีชุดค่าผสมที่ไม่เป็นเชิงเส้น Splines เป็นตัวอย่างที่ดี

เรียนรู้เกี่ยวกับ: แนวคิดและหัวข้อโครงการ Python

แอปพลิเคชัน LDA ทั่วไป

LDA พบการใช้งานในหลายแอปพลิเคชัน สามารถใช้ในปัญหาใด ๆ ที่สามารถกลายเป็นปัญหาการจำแนกประเภท ตัวอย่างทั่วไป ได้แก่ การจดจำความเร็ว การจดจำใบหน้า เคมี การจำแนกข้อมูลไมโครเรย์ การดึงภาพ ไบโอเมตริก และชีวสารสนเทศ เป็นต้น มาพูดคุยกันสองสามเรื่อง

1. การจดจำใบหน้า

ในการมองเห็นด้วยคอมพิวเตอร์ การจดจำใบหน้าถือเป็นหนึ่งในแอพพลิเคชั่นยอดนิยม การจดจำใบหน้าทำได้โดยการแสดงใบหน้าโดยใช้ค่าพิกเซลจำนวนมาก LDA ใช้เพื่อตัดจำนวนคุณลักษณะเพื่อเตรียมพื้นฐานสำหรับการใช้วิธีการจัดประเภท มิติข้อมูลใหม่เป็นการรวมกันของค่าพิกเซลที่ใช้ในการสร้างเทมเพลต

2. รหัสลูกค้า

หากคุณต้องการระบุลูกค้าโดยพิจารณาจากแนวโน้มที่พวกเขาจะซื้อสินค้า คุณสามารถใช้ LDA เพื่อรวบรวมคุณลักษณะของลูกค้าได้ คุณสามารถระบุและเลือกคุณลักษณะที่อธิบายกลุ่มลูกค้าที่มีโอกาสสูงที่จะซื้อผลิตภัณฑ์ได้

3. การแพทย์

LDA สามารถใช้เพื่อแยกโรคออกเป็นประเภทต่างๆ เช่น รุนแรง ไม่รุนแรง หรือปานกลาง มีพารามิเตอร์ของผู้ป่วยหลายอย่างที่จะนำไปใช้ในการจัดหมวดหมู่นี้ การจำแนกประเภทนี้ช่วยให้แพทย์สามารถกำหนดจังหวะการรักษาได้

อ่านเพิ่มเติม: 15 แนวคิดโครงงานการเรียนรู้ของเครื่องที่น่าสนใจสำหรับผู้เริ่มต้น

บทสรุป

LDA เป็นเทคนิคที่เรียบง่ายและเข้าใจดีซึ่งมักใช้ในแบบจำลอง ML การจำแนกประเภท PCA และการถดถอยโลจิสติกเป็นเทคนิคการลดขนาดอื่น ๆ ที่มีให้เรา แต่เมื่อพูดถึงปัญหาการจำแนกประเภทพิเศษ LDA เป็นที่ต้องการมากกว่าอีกสองปัญหา

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การวิเคราะห์จำแนกเชิงเส้นคืออะไร?

Linear Discriminant Analysis (LDA) เป็นอัลกอริธึมการจำแนกประเภทเพื่อเรียนรู้คุณลักษณะพื้นฐานซึ่งดีต่อการเลือกปฏิบัติกลุ่มตัวอย่างจากกลุ่มอื่นๆ ทั้งหมด จากการใช้อัลกอริธึม LDA ทำให้เราได้ชุดคุณลักษณะใหม่ซึ่งสามารถใช้ในการทำนายความเป็นสมาชิกกลุ่มได้ ตัวอย่างเช่น สมมติว่าคุณรวบรวมที่อยู่ IP และคุณต้องการทราบว่าที่อยู่นั้นอยู่ในประเทศใด คุณมีชุดฝึกอบรมตัวอย่างที่อยู่ IP และคุณสามารถระบุประเทศต้นทางได้อย่างแม่นยำ หากคุณมีที่อยู่ IP ใหม่และต้องการทราบว่ามาจากประเทศใด คุณสามารถมอบที่อยู่ IP ดังกล่าวให้กับ LDA และมันจะกำหนดให้กับชั้นเรียนที่มีความเป็นไปได้สูงที่สุด

การวิเคราะห์จำแนกเชิงเส้นมีประโยชน์อย่างไร?

การวิเคราะห์จำแนกเชิงเส้น (LDA) เป็นชุดของเทคนิคในกรอบการเรียนรู้ภายใต้การดูแล LDA เป็นเมธอด โดยที่ตัวแปรตามสามารถแยกเชิงเส้นได้ในพื้นที่คุณลักษณะ LDA ใช้ในการตลาด การเงิน และด้านอื่นๆ เพื่อดำเนินการจัดประเภทงานต่างๆ เช่น การทำโปรไฟล์ลูกค้าและการตรวจจับการฉ้อโกง ตัวอย่างเช่น พิจารณาว่าเราต้องการหาการรวมเชิงเส้นของตัวแปรอิสระที่แยกจุดข้อมูลสองกลุ่ม LDA ค้นหาการรวมเชิงเส้นของตัวแปรอิสระที่สร้างการแยกสูงสุดระหว่างจุดข้อมูลสองกลุ่มในพื้นที่คุณลักษณะ

การลดมิติคืออะไร?

การลดขนาดหมายถึงชุดของเทคนิคในการลดจำนวนตัวแปรในชุดข้อมูล เทคนิคการลดขนาดโดยทั่วไปคือ Principal Components Analysis (PCA) PCA เป็นเทคนิคการลดขนาดที่ได้รับความนิยมมากที่สุด เนื่องจากความเรียบง่าย ความสง่างามทางคณิตศาสตร์ และคุณสมบัติทางสถิติที่สูง PCA ใช้เพื่อลดมิติของชุดข้อมูลโดยระบุแกนที่มีความแปรปรวนมากที่สุดพร้อมกับข้อผิดพลาดน้อยที่สุด