บทนำสู่อัลกอริทึมป่าสุ่ม: ฟังก์ชัน แอปพลิเคชัน และประโยชน์

เผยแพร่แล้ว: 2020-12-17

Random Forest เป็นอัลกอริธึม AI หลักที่มีกลยุทธ์การเรียนรู้ที่มีการควบคุม มันอาจจะใช้สำหรับปัญหาการจัดประเภทและการถดถอยใน ML ขึ้นอยู่กับแนวคิดของการเรียนรู้ทั้งมวล ซึ่งเป็นวงจรของการรวมตัวแยกประเภทจำนวนมากเพื่อจัดการกับปัญหาที่ซับซ้อนและปรับปรุงการนำเสนอของแบบจำลอง

ตามชื่อที่เสนอ "Random Forest เป็นตัวแยกประเภทที่มีแผนผังการตัดสินใจที่แตกต่างกันในชุดย่อยต่างๆ ของชุดข้อมูลที่กำหนด และใช้ค่าปกติในการปรับปรุงความแม่นยำในการรับรู้ของชุดข้อมูลนั้น"

แทนที่จะอาศัยต้นไม้ตัดสินใจเพียงต้นเดียว ป่าสุ่มเอาร่างจากต้นไม้แต่ละต้นและให้เป็นไปตามส่วนใหญ่โหวตของความปรารถนา และทำนายผลสุดท้าย จำนวนต้นไม้ในป่าที่สังเกตเห็นได้ชัดเจนยิ่งขึ้นทำให้เกิดความถูกต้องแม่นยำยิ่งขึ้นและขัดขวางปัญหาการใส่มากเกินไป

สารบัญ

ข้อสันนิษฐานสำหรับป่าสุ่ม
ทำไมต้องใช้ป่าสุ่ม?
ลักษณนามเทียบกับ ตัวถดถอย
อัลกอริทึมป่าสุ่มทำงานอย่างไร
การใช้ประโยชน์จากป่าสุ่ม
ประโยชน์ของป่าสุ่ม
จุดด้อยของป่าสุ่ม
จุดอ่อนของป่าสุ่ม
บทสรุป
ไตรมาสที่ 1 เหตุใดการวิเคราะห์ความเชื่อมั่นจึงมีความสำคัญ
ไตรมาสที่ 2 การวิเคราะห์ความเชื่อมั่นในแง่ของแมชชีนเลิร์นนิงคืออะไร
ไตรมาสที่ 3 การวิเคราะห์ความเชื่อมั่นเหมือนกับ NLP หรือไม่

ข้อสันนิษฐานสำหรับป่าสุ่ม

เนื่องจากฟอเรสต์สุ่มรวบรวมต้นไม้ต่างๆ เพื่อคาดการณ์คลาสของชุดข้อมูล จึงเป็นไปได้ว่าต้นไม้ทางเลือกบางต้นอาจมองเห็นผลผลิตที่ถูกต้อง ในขณะที่บางต้นอาจไม่เห็น ทว่าต้นไม้ทุกต้นต่างก็คาดหวังว่าจะได้ผลผลิตที่เหมาะสม ด้วยวิธีนี้ ด้านล่างนี้เป็นข้อสันนิษฐานสองข้อสำหรับตัวแยกประเภทฟอเรสต์แบบสุ่มที่เหนือกว่า:

ควรมีคุณสมบัติที่แท้จริงบางอย่างในตัวแปรคอมโพเนนต์ของชุดข้อมูลโดยมีเป้าหมายที่ตัวแยกประเภทสามารถคาดการณ์ผลลัพธ์ที่แม่นยำได้ เมื่อเทียบกับผลลัพธ์ที่คาดการณ์ไว้
การคาดการณ์จากต้นไม้แต่ละต้นต้องมีการเชื่อมต่อต่ำ

อ่าน: คำถามสัมภาษณ์ต้นไม้ตัดสินใจ

ทำไมต้องใช้ป่าสุ่ม?

ต่อไปนี้เป็นจุดเน้นบางส่วนที่ชี้แจงว่าทำไมเราจึงควรใช้ อัลกอริธึมฟอเรสต์แบบสุ่ม :

ต้องใช้เงินลงทุนบางส่วนเมื่อเปรียบเทียบกับอัลกอริธึมต่างๆ
โดยคาดการณ์ผลตอบแทนด้วยความแม่นยำสูง ไม่ว่าในกรณีใดๆ สำหรับชุดข้อมูลขนาดใหญ่ที่รันอย่างมีประสิทธิผล
นอกจากนี้ยังสามารถรักษาความถูกต้องเมื่อไม่มีข้อมูลจำนวนมาก

ลักษณนามเทียบกับ ตัวถดถอย

ตัวแยกประเภทฟอเรสต์แบบสุ่มทำงานกับข้อมูลที่มีเครื่องหมายแยกกันหรือเรียกอีกอย่างว่าคลาส

ตัวอย่าง: ผู้ป่วยกำลังประสบกับการเติบโตที่ร้ายแรงหรือไม่ บุคคลมีคุณสมบัติสำหรับเครดิตหรือไม่ เป็นต้น เป็นต้น

ตัวถดถอยของฟอเรสต์แบบสุ่มทำงานกับข้อมูลที่ให้ผลผลิตเป็นตัวเลขหรือต่อเนื่อง และคลาสไม่สามารถอธิบายลักษณะได้

ตัวอย่าง: ค่าบ้าน, การสร้างนมจากวัว, รายได้รวมขององค์กร และอื่นๆ

อัลกอริทึมป่าสุ่มทำงานอย่างไร

ป่าสุ่มทำงานในสองขั้นตอน ในขั้นต้น เป้าหมายคือการสร้างป่าแบบสุ่มโดยเข้าร่วม N Choice tree และประการที่สองคือการทำให้ความคาดหวังสำหรับต้นไม้แต่ละต้นที่ทำในเวทีหลัก

วงจรการทำงานสามารถชี้แจงได้ในขั้นตอนและแผนภูมิด้านล่าง:

ขั้นตอนที่ 1 : เลือกสุ่มข้อมูล K เน้นที่ชุดเตรียมการ

ขั้นตอนที่ 2 : สร้างแผนผังทางเลือกที่เกี่ยวข้องกับข้อมูลที่เลือกเน้น (ชุดย่อย)

ขั้นตอนที่ 3 : เลือกหมายเลข N สำหรับต้นไม้ทางเลือกที่คุณต้องการสร้าง

ขั้นตอนที่ 4: ทำซ้ำขั้นตอนที่ 1 และ 2

ขั้นที่ 5 : สำหรับการเน้นข้อมูลใหม่ ให้ค้นหาการคาดการณ์ของแผนภูมิตัวเลือกทั้งหมด และจัดสรรข้อมูลใหม่ที่เน้นไปที่ชั้นเรียนที่ประสบความสำเร็จในส่วนที่ใหญ่กว่านั้นทำการลงคะแนน

ตัวอย่าง: สมมติว่ามีชุดข้อมูลที่มีรูปภาพผลิตภัณฑ์ออร์แกนิกจำนวนมาก ตามบรรทัดเหล่านี้ ชุดข้อมูลนี้จะถูกส่งไปยังตัวแยกประเภทฟอเรสต์แบบสุ่ม ชุดข้อมูลถูกแบ่งออกเป็นส่วนย่อยและมอบให้กับทรีตัวเลือกทุกอัน

ในระหว่างขั้นตอนการเตรียมการ ต้นไม้ตัวเลือกทั้งหมดจะสร้างผลลัพธ์การคาดการณ์ เมื่อจุดข้อมูลอื่นเกิดขึ้น ณ จุดนั้น ขึ้นอยู่กับผลลัพธ์ส่วนใหญ่ ตัวแยกประเภทฟอเรสต์สุ่มทำนายข้อสรุปอย่างเป็นทางการ พิจารณาภาพต่อไปนี้:

อ่านเพิ่มเติม: ประเภทของอัลกอริทึมการจำแนกประเภท

การใช้ประโยชน์จากป่าสุ่ม

ส่วนใหญ่มีสี่พื้นที่ที่ใช้ป่าสุ่มโดยทั่วไป:

การธนาคาร : โดยทั่วไปพื้นที่การธนาคารใช้อัลกอริธึมนี้ในการพิสูจน์ความแตกต่างของความเสี่ยงด้านเครดิต
ยา: ด้วยความช่วยเหลือของอัลกอริธึมนี้ รูปแบบการเจ็บป่วยและอันตรายของการเจ็บป่วยสามารถรับรู้ได้
การใช้ที่ดิน: เราสามารถจำแนกพื้นที่ของการใช้ที่ดินเปรียบเทียบโดยใช้อัลกอริธึมนี้
การส่งเสริม: รูปแบบการตลาดสามารถรับรู้ได้โดยใช้อัลกอริธึมนี้

ประโยชน์ของป่าสุ่ม

มันเอาชนะปัญหาของการ overfitting โดยหาค่าเฉลี่ยหรือเข้าร่วมผลของต้นไม้ทางเลือกต่างๆ
ป่าสุ่มทำงานได้อย่างน่าชื่นชมสำหรับขอบเขตข้อมูลขนาดใหญ่กว่าต้นไม้ทางเลือกที่โดดเดี่ยว
ป่าสุ่มมีการเปลี่ยนแปลงน้อยกว่าต้นไม้ทางเลือกเดียว ณ จุดนั้น
ป่าสุ่มนั้นปรับตัวได้อย่างแท้จริงและมีความแม่นยำสูง
การปรับขนาดข้อมูลไม่จำเป็นต้องใช้ อัลกอริธึ ม ฟอ เรสต์แบบสุ่ม มันยังคงความแม่นยำที่ยอดเยี่ยมแม้หลังจากที่ให้ข้อมูลโดยไม่ต้องปรับขนาด
อัลกอริธึมของฟอเรสต์แบบสุ่ม มีความแม่นยำอย่างไม่น่าเชื่อ แม้กระทั่งข้อมูลในระดับมหึมาก็หายไป

จุด ด้อย ของป่าสุ่ม

ป่าสุ่มมีอุปกรณ์สำหรับการดำเนินการทั้งการจัดประเภทและการถดถอย
เป็นอุปกรณ์สำหรับดูแลชุดข้อมูลขนาดมหึมาที่มีมิติสูง
ปรับปรุงความถูกต้องของแบบจำลองและป้องกันปัญหาการใส่มากเกินไป
ลักษณะหลายแง่มุมเป็นการก่อความเสียหายเบื้องต้นของ อัลกอริธึ ม ฟอ เรสต์แบบสุ่ม
การพัฒนาป่าสุ่มนั้นยากและน่าเบื่อกว่าต้นไม้ทางเลือกมาก
จำเป็นต้องมีสินทรัพย์ในการคำนวณเพิ่มเติมเพื่อทำให้ อัลกอริธึมฟอเรสต์แบบสุ่ม เป็น จริง
มันเป็นสัญชาตญาณน้อยกว่าในกรณีที่เมื่อเรามีต้นไม้ทางเลือกมากมาย
วงจรความคาดหวังที่ใช้ป่าสุ่มนั้นน่าเบื่อมากในการตรวจสอบด้วยอัลกอริธึมที่แตกต่างกัน

จุดอ่อนของป่าสุ่ม

แม้ว่าฟอเรสต์สุ่มสามารถใช้ได้สำหรับทั้งการกำหนดลักษณะเฉพาะและการกำเริบของโรค แต่ก็ไม่เหมาะสำหรับการทำธุระการถดถอย

บทสรุป

ฟอเรสต์สุ่มทำงานได้อย่างน่าชื่นชมเมื่อเราพยายามหลบเลี่ยงการสร้างต้นไม้ทางเลือกมากเกินไป ในทำนองเดียวกัน จะทำงานได้ดีเมื่อข้อมูลมีปัจจัยที่ชัดเจน อัลกอริธึมต่างๆ เช่น การกำเริบของกลยุทธ์สามารถเอาชนะได้ด้วยปัจจัยที่เป็นตัวเลข แต่เมื่อพูดถึงการตัดสินใจเลือกที่ขึ้นอยู่กับเงื่อนไข การสุ่มฟอเรสต์คือการตัดสินใจในอุดมคติ

โดยอาศัยผู้ตรวจสอบเพื่อยุ่งกับขอบเขตเพื่อปรับปรุงความแม่นยำ มีโอกาสน้อยที่จะใส่มากเกินไปเนื่องจากใช้วิธีการที่เป็นมาตรฐาน อีกครั้งหนึ่งที่ต้องอาศัยข้อมูลและผู้ตรวจสอบในการเลือกอัลกอริธึมที่ดีที่สุด

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับโครงสร้างการตัดสินใจ แมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมอย่างเข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษามากกว่า 30+ การมอบหมายงาน, สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ไตรมาสที่ 1 เหตุใดการวิเคราะห์ความเชื่อมั่นจึงมีความสำคัญ

การวิเคราะห์ความรู้สึกเป็นแนวปฏิบัติในการติดตามและวิเคราะห์ข้อความเพื่อตรวจหาความรู้สึกที่แฝงอยู่ที่แสดงออกมา ไม่ว่าจะเป็นเชิงบวก เป็นกลาง หรือเชิงลบ ซอฟต์แวร์วิเคราะห์ความรู้สึกสามารถประมวลผลข้อมูลที่เข้ามาโดยอัตโนมัติเพื่อวิเคราะห์และกำหนดความรู้สึก การวิเคราะห์ความรู้สึกเป็นสิ่งสำคัญและช่วยธุรกิจในด้านต่างๆ เริ่มจากการติดตามโซเชียลมีเดียอย่างมีประสิทธิภาพและการทำความเข้าใจคำติชมของลูกค้า ไปจนถึงการปรับปรุงการสนับสนุนลูกค้าและการจัดการชื่อเสียง นอกจากนี้ยังสามารถช่วยให้บริษัทต่างๆ มีการวิเคราะห์ผลิตภัณฑ์ที่ถูกต้อง ตลอดจนการวิจัยทางการตลาดและการแข่งขัน นอกจากนี้ยังเป็นเครื่องมือสำคัญในการวัดเสียงของลูกค้าและเสียงของพนักงาน ซึ่งเป็นกุญแจสำคัญในการอยู่รอดในแนวธุรกิจที่มีการแข่งขันสูง

ไตรมาสที่ 2 การวิเคราะห์ความเชื่อมั่นในแง่ของแมชชีนเลิร์นนิงคืออะไร

ในการเรียนรู้ของเครื่อง คุณสามารถพิจารณาการวิเคราะห์ความรู้สึกเป็นเครื่องมือที่สามารถช่วยวิเคราะห์ข้อความเพื่อกำหนดขั้ว บวก หรือลบ ขณะนี้ คอมพิวเตอร์สามารถฝึกให้เข้าใจความรู้สึกที่แฝงอยู่ในข้อความได้โดยไม่ต้องมีการแทรกแซงของมนุษย์โดยใช้อัลกอริธึมการเรียนรู้ของเครื่อง อันที่จริง แบบจำลองการวิเคราะห์ความรู้สึกกำลังถูกใช้เพื่ออ่านมากกว่าแค่คำจำกัดความที่เป็นข้อความ สิ่งเหล่านี้สามารถตรวจจับบริบท น้ำเสียง การเสียดสี และยังระบุคำที่นำไปใช้ในทางที่ผิดได้อีกด้วย แมชชีนเลิร์นนิงใช้อัลกอริทึมที่ซับซ้อนเพื่อฝึกคอมพิวเตอร์สำหรับการวิเคราะห์ความรู้สึก เช่น ทฤษฎี Naive Bayes, Support Vector Machines (SVM), การถดถอยเชิงเส้น และอื่นๆ

ไตรมาสที่ 3 การวิเคราะห์ความเชื่อมั่นเหมือนกับ NLP หรือไม่

การวิเคราะห์ความคิดเห็นเป็นเทคนิคการประมวลผลภาษาธรรมชาติ (NLP) ที่ใช้ในการพิจารณาว่าอารมณ์พื้นฐานของข้อมูลที่เป็นข้อความนั้นเป็นไปในเชิงบวก เป็นกลาง หรือเชิงลบ มีการวิเคราะห์ความรู้สึกหลายประเภทที่สามารถใช้เพื่อเน้นไม่เพียงขั้ว (บวก ลบ) แต่ยังรวมถึงอารมณ์ (ความสุข ความโกรธ ความเศร้า) ความตั้งใจ (ไม่สนใจ สนใจ) และความเร่งด่วน (ไม่เร่งด่วน เร่งด่วน) . โดยพื้นฐานแล้วเป็นเครื่องมือในการวัดหรือตีความความคิดเห็นของลูกค้าออนไลน์และการสอบถามและฟังก์ชันตาม NLP ที่ซับซ้อนและอัลกอริธึมการเรียนรู้ของเครื่อง อัลกอริทึมเหล่านี้ช่วยให้เครื่องมือวิเคราะห์ความรู้สึกเข้าใจอารมณ์เบื้องหลังการสนทนาออนไลน์โดยอัตโนมัติ