PCA ในการเรียนรู้ของเครื่อง: สมมติฐาน ขั้นตอนในการสมัคร & แอปพลิเคชัน
เผยแพร่แล้ว: 2020-11-12สารบัญ
ทำความเข้าใจเกี่ยวกับการลดขนาดใน ML
อัลกอริธึม ML (แมชชีนเลิร์นนิง) ได้รับการทดสอบด้วยข้อมูลบางส่วน ซึ่งสามารถเรียกได้ว่าเป็นชุดคุณลักษณะในขณะที่ทำการพัฒนาและทดสอบ นักพัฒนาจำเป็นต้องลดจำนวนตัวแปรอินพุตในชุดคุณลักษณะเพื่อเพิ่มประสิทธิภาพของโมเดล/อัลกอริทึม ML ใดๆ โดยเฉพาะ
ตัวอย่างเช่น สมมติว่าคุณมีชุดข้อมูลที่ประกอบด้วยคอลัมน์จำนวนมาก หรือคุณมีอาร์เรย์ของจุดในพื้นที่สามมิติ ในกรณีนั้น คุณสามารถลดขนาดของชุดข้อมูลของคุณโดยใช้เทคนิคการลดขนาดใน ML PCA (Principal Component Analysis) เป็นหนึ่งในเทคนิคการลดขนาดมิติที่ใช้กันอย่างแพร่หลายโดยนักพัฒนา/ผู้ทดสอบ ML ให้เราเจาะลึกลงไปในความเข้าใจ PCA ในการเรียนรู้ของเครื่อง
การวิเคราะห์องค์ประกอบหลัก
PCA เป็นเทคนิคทางสถิติที่ไม่มีผู้ดูแลซึ่งใช้ในการลดขนาดของชุดข้อมูล โมเดล ML ที่มีตัวแปรอินพุตจำนวนมากหรือมีมิติที่สูงกว่ามักจะล้มเหลวเมื่อทำงานกับชุดข้อมูลอินพุตที่สูงขึ้น PCA ช่วยในการระบุความสัมพันธ์ระหว่างตัวแปรต่างๆ แล้วจับคู่เข้าด้วยกัน PCA ทำงานบนสมมติฐานบางอย่างที่ต้องปฏิบัติตามและช่วยให้นักพัฒนารักษามาตรฐานไว้ได้
PCA เกี่ยวข้องกับการแปลงตัวแปรในชุดข้อมูลเป็นตัวแปรชุดใหม่ที่เรียกว่า PC (ส่วนประกอบหลัก) องค์ประกอบหลักจะเท่ากับจำนวนตัวแปรดั้งเดิมในชุดข้อมูลที่กำหนด
องค์ประกอบหลักแรก (PC1) ประกอบด้วยรูปแบบสูงสุดซึ่งมีอยู่ในตัวแปรก่อนหน้า และรูปแบบนี้จะลดลงเมื่อเราเลื่อนไปยังระดับที่ต่ำกว่า พีซีเครื่องสุดท้ายจะมีความแตกต่างระหว่างตัวแปรน้อยที่สุด และคุณจะสามารถลดขนาดของชุดคุณลักษณะของคุณได้
สมมติฐานใน PCA
มีข้อสันนิษฐานบางประการใน PCA ที่ต้องปฏิบัติตาม เนื่องจากจะนำไปสู่การทำงานที่แม่นยำของเทคนิคการลดขนาดใน ML สมมติฐานใน PCA คือ:

• ต้องมีความเป็นเส้นตรงในชุดข้อมูล กล่าวคือ ตัวแปรรวมกันในลักษณะเชิงเส้นเพื่อสร้างชุดข้อมูล ตัวแปรแสดงความสัมพันธ์ระหว่างกัน
• PCA ถือว่าส่วนประกอบหลักที่มีความแปรปรวนสูงต้องให้ความสนใจ และพีซีที่มีความแปรปรวนต่ำกว่าจะไม่สนใจว่าเป็นสัญญาณรบกวน กรอบค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันทำให้เกิด PCA และสันนิษฐานไว้ก่อนว่าแกนที่มีความแปรปรวนสูงจะเปลี่ยนเป็นส่วนประกอบหลักเท่านั้น
• ตัวแปรทั้งหมดควรเข้าถึงได้ในระดับอัตราส่วนเดียวกันของการวัด บรรทัดฐานที่พึงประสงค์มากที่สุดคือการสังเกตอย่างน้อย 150 ชุดของชุดตัวอย่างด้วยการวัดอัตราส่วน 5: 1
• ค่าสูงสุดที่เบี่ยงเบนจากจุดข้อมูลอื่นๆ ในชุดข้อมูลใดๆ ซึ่งเรียกว่าค่าผิดปกติ ควรมีค่าน้อยกว่า ค่าผิดปกติจำนวนมากขึ้นจะแสดงข้อผิดพลาดในการทดลองและจะลดรูปแบบ/อัลกอริทึม ML ของคุณ
• ชุดคุณลักษณะต้องสัมพันธ์กัน และชุดคุณลักษณะที่ลดลงหลังจากใช้ PCA จะแสดงชุดข้อมูลเดิมแต่ในลักษณะที่มีประสิทธิภาพโดยมีขนาดน้อยลง
ต้องอ่าน: เงินเดือนการเรียนรู้ของเครื่องในอินเดีย
ขั้นตอนการสมัคร PCA
ขั้นตอนสำหรับการใช้ PCA กับโมเดล/อัลกอริธึม ML ใดๆ มีดังนี้:
• Normalization ของข้อมูลมีความจำเป็นอย่างมากในการใช้ PCA ข้อมูลที่ไม่ได้มาตราส่วนอาจทำให้เกิดปัญหาในการเปรียบเทียบชุดข้อมูลแบบสัมพัทธ์ ตัวอย่างเช่น หากเรามีรายการตัวเลขใต้คอลัมน์ในชุดข้อมูล 2 มิติ ค่าเฉลี่ยของตัวเลขเหล่านั้นจะถูกลบออกจากตัวเลขทั้งหมดเพื่อทำให้ชุดข้อมูล 2 มิติเป็นปกติ การปรับข้อมูลให้เป็นมาตรฐานสามารถทำได้ในชุดข้อมูล 3 มิติด้วย
• เมื่อคุณปรับชุดข้อมูลให้เป็นมาตรฐานแล้ว ให้หาค่าความแปรปรวนร่วมระหว่างมิติต่างๆ แล้วใส่ลงในเมทริกซ์ความแปรปรวนร่วม องค์ประกอบนอกแนวทแยงในเมทริกซ์ความแปรปรวนร่วมจะแสดงความแปรปรวนร่วมระหว่างตัวแปรแต่ละคู่ และองค์ประกอบในแนวทแยงจะแสดงความแปรปรวนของตัวแปร/มิติแต่ละรายการ
เมทริกซ์ความแปรปรวนร่วมที่สร้างขึ้นสำหรับชุดข้อมูลใดๆ จะสมมาตรเสมอ เมทริกซ์ความแปรปรวนร่วมจะแสดงความสัมพันธ์ในข้อมูล และคุณสามารถเข้าใจปริมาณความแปรปรวนในแต่ละองค์ประกอบหลักได้อย่างง่ายดาย
• คุณต้องหาค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมซึ่งแสดงถึงความแปรปรวนในข้อมูลบนพื้นฐานมุมฉากในพล็อต คุณจะต้องค้นหาเวกเตอร์ลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมซึ่งจะแสดงทิศทางที่ความแปรปรวนสูงสุดของข้อมูลเกิดขึ้น
สมมติว่าเมทริกซ์ความแปรปรวนร่วมของคุณ 'C' มีเมทริกซ์กำลังสอง 'E' ของค่าลักษณะเฉพาะของ 'C' ในกรณีนั้น มันควรจะเป็นไปตามสมการนี้ – ดีเทอร์มีแนนต์ของ (EI – C) = 0 โดยที่ 'I' เป็นเมทริกซ์เอกลักษณ์ที่มีมิติเดียวกับ 'C' คุณควรตรวจสอบว่าเมทริกซ์ความแปรปรวนร่วมของพวกมันเป็นเมทริกซ์สมมาตร/สี่เหลี่ยมจัตุรัส เพราะจากนั้นจะคำนวณเฉพาะค่าลักษณะเฉพาะเท่านั้นที่ทำได้

• จัดเรียงค่าลักษณะเฉพาะในลำดับจากน้อยไปมาก/จากมากไปน้อยและเลือกค่าลักษณะเฉพาะที่สูงขึ้น คุณสามารถเลือกค่าลักษณะเฉพาะที่คุณต้องการดำเนินการได้ คุณจะสูญเสียข้อมูลบางส่วนในขณะที่ละเลยค่าลักษณะเฉพาะที่เล็กกว่า แต่ค่านาทีเหล่านั้นจะไม่สร้างผลกระทบเพียงพอต่อผลลัพธ์สุดท้าย
ค่าลักษณะเฉพาะที่สูงขึ้นที่เลือกจะกลายเป็นขนาดของชุดคุณลักษณะที่อัปเดตของคุณ เรายังสร้างเวกเตอร์คุณลักษณะ ซึ่งเป็นเมทริกซ์เวกเตอร์ที่ประกอบด้วยเวกเตอร์ลักษณะเฉพาะของค่าลักษณะเฉพาะที่เลือกสัมพัทธ์
• การใช้เวกเตอร์คุณลักษณะ เราจะค้นหาองค์ประกอบหลักของชุดข้อมูลภายใต้การวิเคราะห์ เราคูณทรานสโพสของเวกเตอร์คุณลักษณะด้วยทรานสโพสของเมทริกซ์ที่ปรับขนาด (เวอร์ชันของข้อมูลที่ปรับขนาดหลังจากการทำให้เป็นมาตรฐาน) เพื่อให้ได้เมทริกซ์ที่มีส่วนประกอบหลัก
เราจะสังเกตเห็นว่าค่าลักษณะเฉพาะสูงสุดจะเหมาะสมกับข้อมูล และค่าอื่นๆ จะไม่ให้ข้อมูลมากเกี่ยวกับชุดข้อมูล นี่เป็นการพิสูจน์ว่าเราไม่สูญเสียข้อมูลเมื่อลดขนาดของชุดข้อมูล เราแค่แสดงให้มีประสิทธิภาพมากขึ้น
วิธีการเหล่านี้ถูกนำมาใช้เพื่อลดขนาดของชุดข้อมูลใน PCA ในที่สุด
การประยุกต์ใช้ PCA
ข้อมูลถูกสร้างขึ้นในหลายภาคส่วน และมีความจำเป็นในการวิเคราะห์ข้อมูลสำหรับการเติบโตของบริษัท/บริษัทใดๆ PCA จะช่วยในการลดขนาดของข้อมูลทำให้ง่ายต่อการวิเคราะห์ แอปพลิเคชันของ PCA คือ:
• ประสาทวิทยาศาสตร์ – นักประสาทวิทยาใช้ PCA เพื่อระบุเซลล์ประสาทใดๆ หรือเพื่อสร้างแผนที่โครงสร้างสมองระหว่างการเปลี่ยนเฟส
• การเงิน – PCA ใช้ในภาคการเงินเพื่อลดมิติข้อมูลเพื่อสร้างพอร์ตตราสารหนี้ แง่มุมอื่น ๆ ของภาคการเงินเกี่ยวข้องกับ PCA เช่น การคาดการณ์ผลตอบแทน การสร้างอัลกอริธึมการจัดสรรสินทรัพย์ หรืออัลกอริธึมส่วนทุน ฯลฯ
• เทคโนโลยีภาพ – PCA ยังใช้สำหรับการบีบอัดภาพหรือการประมวลผลภาพดิจิทัล แต่ละภาพสามารถแสดงผ่านเมทริกซ์โดยพล็อตค่าความเข้มของแต่ละพิกเซล จากนั้นเราก็สามารถใช้ PCA กับภาพได้
• การจดจำใบหน้า – PCA ในการจดจำใบหน้านำไปสู่การสร้างใบหน้าเฉพาะซึ่งทำให้การจดจำใบหน้าแม่นยำยิ่งขึ้น
• การแพทย์ – PCA ใช้กับข้อมูลทางการแพทย์จำนวนมากเพื่อค้นหาความสัมพันธ์ระหว่างตัวแปรต่างๆ ตัวอย่างเช่น แพทย์ใช้ PCA เพื่อแสดงความสัมพันธ์ระหว่างคอเลสเตอรอลและไลโปโปรตีนชนิดความหนาแน่นต่ำ

• ความปลอดภัย – พบความผิดปกติได้อย่างง่ายดายโดยใช้ PCA ใช้เพื่อระบุการโจมตีทางไซเบอร์/คอมพิวเตอร์ และแสดงภาพด้วยความช่วยเหลือของ PCA
คะแนนซื้อกลับบ้าน
PCA ยังสามารถนำไปสู่ประสิทธิภาพของแบบจำลองต่ำหลังจากนำไปใช้หากชุดข้อมูลดั้งเดิมมีความสัมพันธ์ที่อ่อนแอหรือไม่มีความสัมพันธ์ ตัวแปรต้องสัมพันธ์กันจึงจะสามารถใช้ PCA ได้อย่างสมบูรณ์ PCA นำเสนอคุณลักษณะต่างๆ ที่ผสมผสานกัน และความสำคัญของคุณลักษณะแต่ละรายการจากชุดข้อมูลดั้งเดิมจะถูกกำจัดให้สิ้นซาก แกนหลักที่มีความแปรปรวนมากที่สุดคือส่วนประกอบหลักในอุดมคติ
อ่านเพิ่มเติม: แนวคิดโครงการการเรียนรู้ของเครื่อง
บทสรุป
PCA เป็นเทคนิคที่ใช้กันอย่างแพร่หลายในการลดขนาดของชุดคุณลักษณะ
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
PCA สามารถใช้กับข้อมูลทั้งหมดได้หรือไม่?
ใช่. การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการวิเคราะห์ข้อมูลที่ให้วิธีการดูและทำความเข้าใจข้อมูลซึ่งมีมิติสูงมาก กล่าวอีกนัยหนึ่ง PCA สามารถนำไปใช้กับข้อมูลที่มีตัวแปรจำนวนมากได้ มีความเข้าใจผิดกันโดยทั่วไปว่า PCA สามารถใช้ได้กับข้อมูลที่อยู่ในรูปแบบใดรูปแบบหนึ่งเท่านั้น ตัวอย่างเช่น หลายคนคิดว่า PCA มีประโยชน์เฉพาะกับตัวแปรที่เป็นตัวเลขเท่านั้น กรณีนี้ไม่ได้. อันที่จริง PCA สามารถใช้ได้กับตัวแปรทุกประเภท ตัวอย่างเช่น สามารถใช้ PCA กับตัวแปรหมวดหมู่ ตัวแปรลำดับ และอื่นๆ
อะไรคือข้อจำกัดของ Principal Component Analysis?
PCA เป็นเครื่องมือที่ยอดเยี่ยมในการวิเคราะห์ข้อมูลของคุณและแยกปัจจัยที่สำคัญที่สุดสองสามประการ เป็นการดีที่จะระบุค่าผิดปกติและแนวโน้ม แต่มีข้อจำกัดบางประการ เช่น ไม่เหมาะสำหรับชุดข้อมูลขนาดเล็ก (โดยทั่วไป ชุดข้อมูลควรมีมากกว่า 30 แถว) ไม่พบปัจจัยสำคัญแต่เลือกปัจจัยเหล่านี้ตามค่า ดังนั้นจึงเป็นการยากที่จะหาปัจจัยสำคัญ ไม่มีโครงสร้างทางคณิตศาสตร์ที่แข็งแกร่งอยู่เบื้องหลัง เป็นการยากที่จะเปรียบเทียบข้อมูลกับ PCA ไม่พบความสัมพันธ์ที่ไม่เป็นเชิงเส้นใดๆ
ข้อดีของการวิเคราะห์องค์ประกอบหลักคืออะไร
การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นวิธีทางสถิติที่ใช้ในการแปลงตัวแปรที่อาจสัมพันธ์กันจำนวนมากให้เป็นตัวแปรที่ไม่สัมพันธ์กันจำนวนน้อยกว่ามากซึ่งเรียกว่าองค์ประกอบหลัก PCA สามารถใช้เป็นเทคนิคการลดข้อมูลได้ เนื่องจากช่วยให้เราค้นหาตัวแปรที่สำคัญที่สุดที่จำเป็นในการอธิบายชุดข้อมูล PCA สามารถใช้เพื่อลดมิติของพื้นที่ข้อมูลเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับโครงสร้างภายในของข้อมูล สิ่งนี้มีประโยชน์เมื่อต้องจัดการกับชุดข้อมูลขนาดใหญ่