ต้นไม้สุ่มและต้นไม้ตัดสินใจ: ความแตกต่างระหว่างป่าสุ่มและแผนภูมิต้นไม้ตัดสินใจ

เผยแพร่แล้ว: 2020-12-30

ความก้าวหน้าล่าสุดได้ปูทางการเติบโตของอัลกอริธึมที่หลากหลาย อัลกอริธึมใหม่และน่าทึ่งเหล่านี้ได้จุดไฟเผาข้อมูล ช่วยในการจัดการข้อมูลและตัดสินใจร่วมกับพวกเขาอย่างมีประสิทธิภาพ เนื่องจากโลกกำลังเผชิญกับความสนุกสนานทางอินเทอร์เน็ต เกือบทุกอย่างอยู่บนอินเทอร์เน็ต ในการจัดการข้อมูลดังกล่าว เราจำเป็นต้องมีอัลกอริทึมที่เข้มงวดในการตัดสินใจและตีความ ตอนนี้ การเลือกอัลกอริธึมที่เหมาะสมที่สุดเป็นงานที่หนักหนาเนื่องจากมีรายการอัลกอริธึมมากมาย

องค์กรส่วนใหญ่ใช้อัลกอริธึมในการตัดสินใจอย่างกว้างขวาง พวกเขาต้องตัดสินใจเรื่องเล็ก ๆ น้อย ๆ และยิ่งใหญ่ทุก ๆ ชั่วโมง จากการวิเคราะห์ว่าวัสดุใดที่จะเลือกเพื่อให้ได้พื้นที่รวมสูง การตัดสินใจเกิดขึ้นในแบ็กเอนด์ ความก้าวหน้าของ python และ ML ล่าสุดได้ผลักดันแถบสำหรับการจัดการข้อมูล ดังนั้น ข้อมูลจึงมีจำนวนมาก เกณฑ์ขึ้นอยู่กับองค์กร มี 2 อัลกอริธึมการตัดสินใจหลักที่ใช้กันอย่างแพร่หลาย Decision Tree and Random Forest- ฟังดูคุ้นๆ ใช่ไหม?

ต้นไม้และป่าไม้!

ลองสำรวจสิ่งนี้ด้วยตัวอย่างง่ายๆ

สมมติว่าคุณต้องซื้อแพ็คเก็ต Rs. 10 บิสกิตหวาน. ตอนนี้ คุณต้องตัดสินใจเลือกแบรนด์บิสกิตหนึ่งแบรนด์

คุณเลือกอัลกอริทึมแผนผังการตัดสินใจ ตอนนี้มันจะตรวจสอบ Rs. 10ห่อก็หวานได้ มันจะเลือกบิสกิตที่ขายดีที่สุด คุณจะตัดสินใจซื้อในราคา Rs. บิสกิตช็อคโกแลต 10 ชิ้น. คุณมีความสุข!

แต่เพื่อนของคุณใช้อัลกอริธึม Random Forest ตอนนี้เขาได้ตัดสินใจหลายอย่าง นอกจากนี้ การเลือกมติเสียงข้างมาก เขาเลือกระหว่างรสสตรอเบอร์รี่ วานิลลา บลูเบอร์รี่ และส้มต่างๆ เขาตรวจสอบว่าเงินจำนวนหนึ่ง Rs. 10 ซอง เสิร์ฟไวกว่าเดิม 3 หน่วย เสิร์ฟในช็อกโกแลตวานิลลา เขาซื้อบิสกิตวานิลลาช็อคโกแล็ตนั่น เขาเป็นคนที่มีความสุขที่สุด ในขณะที่คุณต้องเสียใจกับการตัดสินใจของคุณ

เข้าร่วม หลักสูตร Machine Learning Online จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท, Executive Post Graduate Programme และ Advanced Certificate Program ใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

สารบัญ

อะไรคือความแตกต่างระหว่าง Decision Tree และ Random Forest?
- 1. ต้นไม้การตัดสินใจ
  - มันทำงานอย่างไร?
- ข้อดีและข้อเสียของโครงสร้างการตัดสินใจ
  - ข้อดี
  - ข้อเสีย
- 2. ป่าสุ่ม
  - 1. การบรรจุถุง
  - 2. Bootstrapping
  - ข้อดีและข้อเสียของป่าสุ่ม
    - ข้อดี
    - ข้อเสีย
บทสรุป
Random Forest ต่างจากต้นไม้ตัดสินใจทั่วไปอย่างไร?
ข้อได้เปรียบหลักของการใช้ฟอเรสต์สุ่มกับแผนผังการตัดสินใจเดี่ยวคืออะไร
ข้อจำกัดของต้นไม้การตัดสินใจคืออะไร?

อะไรคือความแตกต่างระหว่าง Decision Tree และ Random Forest?

1. ต้นไม้การตัดสินใจ

แหล่งที่มา

Decision Tree คืออัลกอริธึมการเรียนรู้ภายใต้การดูแลที่ใช้ในการเรียนรู้ของเครื่อง มันดำเนินการทั้งในอัลกอริธึมการจำแนกและการถดถอย ตามชื่อก็เปรียบเสมือนต้นไม้ที่มีปม สาขาขึ้นอยู่กับจำนวนเกณฑ์ มันแยกข้อมูลออกเป็นสาขาเช่นนี้จนกว่าจะถึงหน่วยเกณฑ์ แผนผังการตัดสินใจมีโหนดรูท โหนดย่อย และโหนดปลายสุด

การเรียกซ้ำใช้สำหรับการสำรวจผ่านโหนด คุณไม่จำเป็นต้องมีอัลกอริทึมอื่น มันจัดการข้อมูลได้อย่างแม่นยำและทำงานได้ดีที่สุดสำหรับรูปแบบเชิงเส้น จัดการข้อมูลขนาดใหญ่ได้อย่างง่ายดายและใช้เวลาน้อยลง

มันทำงานอย่างไร?

1. การแยกออก

ข้อมูลที่จัดให้กับโครงสร้างการตัดสินใจ จะถูกแบ่งออกเป็นหมวดหมู่ต่างๆ ตามกิ่งก้านสาขา

ต้องอ่าน: Naive Bayes Classifier: Pros & Cons, Applications & Types อธิบาย

2. การตัดแต่งกิ่ง

การตัดแต่งกิ่งเป็นการฉีกกิ่งเหล่านั้นด้วย มันทำงานเป็นการจัดประเภทเพื่ออุดหนุนข้อมูลในทางที่ดีขึ้น เช่นเดียวกับที่เราพูดถึงการตัดแต่งกิ่งส่วนที่เกิน มันได้ผลเหมือนกัน ถึงโหนดลีฟและการตัดแต่งกิ่งสิ้นสุดลง เป็นส่วนสำคัญของต้นไม้ตัดสินใจ

3. การเลือกต้นไม้

ตอนนี้ คุณต้องเลือกแผนผังที่ดีที่สุดที่สามารถทำงานกับข้อมูลของคุณได้อย่างราบรื่น

นี่คือปัจจัยที่ต้องพิจารณา:

4. เอนโทรปี

ในการตรวจสอบความเป็นเนื้อเดียวกันของต้นไม้ ต้องอนุมานเอนโทรปี ถ้าเอนโทรปีเป็นศูนย์ แสดงว่าเป็นเนื้อเดียวกัน อย่างอื่นไม่ได้

5. ความรู้ที่ได้รับ

เมื่อเอนโทรปีลดลง ข้อมูลจะได้รับ ข้อมูลนี้ช่วยในการแยกสาขาเพิ่มเติม

คุณต้องคำนวณเอนโทรปี
แบ่งข้อมูลตามเกณฑ์ต่างๆ
เลือกข้อมูลที่ดีที่สุด

ความลึกของต้นไม้เป็นสิ่งสำคัญ ความลึกทำให้เราทราบถึงจำนวนของการตัดสินใจที่ต้องทำก่อนที่เราจะสรุปได้ ต้นไม้ความลึกตื้นทำงานได้ดีขึ้นด้วยอัลกอริธึมทรีการตัดสินใจ

ข้อดีและข้อเสียของโครงสร้างการตัดสินใจ

ข้อดี

ง่าย
กระบวนการที่โปร่งใส
จัดการทั้งข้อมูลตัวเลขและหมวดหมู่
ยิ่งข้อมูลมาก ยิ่งได้ผลลัพธ์ที่ดี
ความเร็ว

ข้อเสีย

อาจมากเกินไป
ขั้นตอนการตัดแต่งกิ่งขนาดใหญ่
การเพิ่มประสิทธิภาพไม่รับประกัน
การคำนวณที่ซับซ้อน
โก่งตัวสูง

ชำระเงิน: อธิบายแบบจำลองการเรียนรู้ของเครื่อง

2. ป่าสุ่ม

แหล่งที่มา

นอกจากนี้ยังใช้สำหรับการเรียนรู้ภายใต้การดูแล แต่มีประสิทธิภาพมาก มันถูกใช้กันอย่างแพร่หลายมาก ความแตกต่างพื้นฐานไม่ได้ขึ้นอยู่กับการตัดสินใจเพียงครั้งเดียว มันรวบรวมการตัดสินใจแบบสุ่มจากการตัดสินใจหลายๆ ครั้ง และทำการตัดสินใจขั้นสุดท้ายโดยพิจารณาจากเสียงส่วนใหญ่

ไม่ค้นหาคำทำนายที่ดีที่สุด แต่จะทำการทำนายแบบสุ่มหลายครั้งแทน ดังนั้นจึงแนบความหลากหลายมากขึ้นและการทำนายจะราบรื่นขึ้นมาก

คุณสามารถอนุมานสุ่มฟอเรสต์เพื่อรวบรวมต้นไม้การตัดสินใจหลายแบบได้!

การบรรจุถุงเป็นกระบวนการสร้างป่าแบบสุ่มในขณะที่การตัดสินใจทำงานควบคู่กัน

1. การบรรจุถุง

ใช้ชุดข้อมูลการฝึกอบรม
ต้นไม้ตัดสินใจ
ทำซ้ำขั้นตอนในช่วงเวลาที่แน่นอน
ตอนนี้ใช้คะแนนเสียงหลัก คนที่ชนะคือการตัดสินใจของคุณ

2. Bootstrapping

Bootstrapping เป็นการสุ่มเลือกตัวอย่างจากข้อมูลการฝึก นี่เป็นกระบวนการสุ่ม

เป็นขั้นเป็นตอน

สุ่มเลือกเงื่อนไข

คำนวณโหนดรูท

แยก

ทำซ้ำ

คุณจะได้ป่า

อ่าน : Naive Bayes อธิบาย

ข้อดีและข้อเสียของป่าสุ่ม

ข้อดี

ทรงพลังและแม่นยำสูง
ไม่จำเป็นต้องทำให้เป็นมาตรฐาน
รองรับคุณสมบัติหลายอย่างพร้อมกัน
วิ่งต้นไม้แบบคู่ขนาน

ข้อเสีย

มีอคติกับคุณสมบัติบางอย่างในบางครั้ง
ช้า
ไม่สามารถใช้กับวิธีการเชิงเส้นได้
แย่กว่าสำหรับข้อมูลมิติสูง

บทสรุป

ต้นไม้แห่งการตัดสินใจนั้นง่ายมากเมื่อเทียบกับป่าสุ่ม ต้นไม้การตัดสินใจรวมการตัดสินใจบางอย่าง ในขณะที่ป่าสุ่มรวมต้นไม้การตัดสินใจหลายต้น ดังนั้นจึงเป็นกระบวนการที่ยาวนานแต่ก็ช้า

ในขณะที่แผนผังการตัดสินใจนั้นรวดเร็วและทำงานได้อย่างง่ายดายบนชุดข้อมูลขนาดใหญ่ โดยเฉพาะชุดข้อมูลเชิงเส้น แบบจำลองป่าสุ่มต้องมีการฝึกอบรมที่เข้มงวด เมื่อคุณพยายามจัดทำโครงการ คุณอาจต้องการมากกว่าหนึ่งแบบจำลอง ดังนั้นป่าสุ่มจำนวนมากจึงมีเวลามากขึ้น

ขึ้นอยู่กับความต้องการของคุณ หากคุณมีเวลาน้อยลงในการทำงานกับแบบจำลอง คุณจะต้องเลือกโครงสร้างการตัดสินใจ อย่างไรก็ตาม ความเสถียรและการคาดการณ์ที่เชื่อถือได้นั้นอยู่ในตะกร้าของป่าสุ่ม

หากคุณมีความหลงใหลและต้องการเรียนรู้เพิ่มเติมเกี่ยวกับปัญญาประดิษฐ์ คุณสามารถ เรียนหลักสูตร PG Diploma in Machine Learning และ Deep Learning ของ IIIT-B และ upGrad ที่มีการเรียนรู้มากกว่า 400 ชั่วโมง ภาคปฏิบัติ การช่วยเหลืองาน และอื่นๆ อีกมากมาย

Random Forest ต่างจากต้นไม้ตัดสินใจทั่วไปอย่างไร?

ในการเรียนรู้ของเครื่อง Decision Tree เป็นเทคนิคการเรียนรู้ภายใต้การดูแล สามารถทำงานกับทั้งเทคนิคการจำแนกและการถดถอย คล้ายกับต้นไม้ที่มีโหนดตามชื่อ จำนวนเกณฑ์กำหนดสาขา มันแบ่งข้อมูลออกเป็นกิ่งเหล่านี้จนกว่าจะถึงหน่วยธรณีประตู มีโหนดรูท โหนดย่อย และโหนดปลายสุดในแผนผังการตัดสินใจ ป่าสุ่มยังใช้สำหรับการเรียนรู้ภายใต้การดูแล แม้ว่าจะมีพลังมากก็ตาม มันค่อนข้างเป็นที่นิยม ความแตกต่างหลักคือไม่อาศัยการตัดสินใจเพียงครั้งเดียว มันรวบรวมการตัดสินใจแบบสุ่มจากการตัดสินใจหลายๆ ครั้ง จากนั้นจึงสร้างการตัดสินใจขั้นสุดท้ายโดยขึ้นอยู่กับคนส่วนใหญ่

ข้อได้เปรียบหลักของการใช้ฟอเรสต์สุ่มกับแผนผังการตัดสินใจเดี่ยวคืออะไร

ในโลกอุดมคติ เราต้องการลดข้อผิดพลาดทั้งเกี่ยวกับอคติและค่าความแปรปรวน ปัญหานี้ได้รับการแก้ไขอย่างดีจากป่าสุ่ม ป่าสุ่มไม่มีอะไรมากไปกว่าต้นไม้ตัดสินใจหลายชุดที่ผลการวิจัยรวมกันเป็นผลลัพธ์สุดท้ายเดียว มีประสิทธิภาพมากเนื่องจากความสามารถในการลดการใส่มากเกินไปโดยไม่ทำให้เกิดข้อผิดพลาดเพิ่มขึ้นอย่างมากเนื่องจากอคติ ในทางกลับกัน ป่าสุ่มเป็นเครื่องมือสร้างแบบจำลองที่ทรงพลังซึ่งมีความยืดหยุ่นมากกว่าต้นไม้ตัดสินใจเพียงต้นเดียว พวกเขารวมต้นไม้การตัดสินใจจำนวนมากเพื่อลดความไม่ถูกต้องและความลำเอียงที่เกี่ยวข้องกับอคติ และด้วยเหตุนี้จึงให้ผลลัพธ์ที่ใช้งานได้

ข้อจำกัดของต้นไม้การตัดสินใจคืออะไร?

ข้อเสียอย่างหนึ่งของแผนผังการตัดสินใจคือมันไม่เสถียรมากเมื่อเทียบกับตัวทำนายทางเลือกอื่นๆ การเปลี่ยนแปลงข้อมูลเล็กน้อยอาจทำให้เกิดการเปลี่ยนแปลงที่สำคัญในโครงสร้างของโครงสร้างการตัดสินใจ ส่งผลให้ผลลัพธ์แตกต่างจากที่ผู้บริโภคคาดหวังในเหตุการณ์ทั่วไป นอกจากนี้ เมื่อจุดประสงค์หลักคือการคาดการณ์ผลลัพธ์ของตัวแปรแบบต่อเนื่อง โครงสร้างการตัดสินใจไม่ค่อยมีประโยชน์ในการทำนาย