ข้อดีและข้อเสียของการถดถอยทรีการตัดสินใจในการเรียนรู้ของเครื่อง
เผยแพร่แล้ว: 2020-12-24อัลกอริธึมแมชชีนเลิร์นนิงที่ได้รับความนิยมมากที่สุดตัวหนึ่ง คือ การถดถอยแบบแผนผังการตัดสินใจ ซึ่ง ถูกใช้โดยทั้งคู่แข่งและผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูล เหล่านี้เป็นแบบจำลองการคาดการณ์ที่คำนวณค่าเป้าหมายตามชุดของกฎไบนารี
ใช้ในการสร้างทั้งแบบจำลองการถดถอยและการจำแนกประเภทในรูปแบบของโครงสร้างต้นไม้ ชุดข้อมูลจะถูกแบ่งออกเป็นชุดย่อยที่มีขนาดเล็กกว่าในแผนผังการตัดสินใจ ในขณะที่โครงสร้างการตัดสินใจที่เกี่ยวข้องจะถูกสร้างขึ้นพร้อมกันทีละส่วน
โครงสร้างการตัดสินใจจะใช้ในการเข้าถึงค่าประมาณตามการดำเนินการชุดคำถามในชุดข้อมูล โดยการถามคำถามจริง/เท็จเหล่านี้ โมเดลสามารถจำกัดค่าที่เป็นไปได้ให้แคบลงและทำการคาดคะเนได้ ลำดับและเนื้อหาของคำถามจะตัดสินโดยตัวแบบเอง
สารบัญ
ข้อตกลงต้นไม้การตัดสินใจคืออะไร?
ต้นไม้ตัดสินใจมีกิ่งก้าน โหนด ใบไม้ ฯลฯ โหนดรูทคือโหนดเริ่มต้นที่เป็นตัวแทนของกลุ่มตัวอย่างหรือประชากรทั้งหมด และสามารถแบ่งออกเป็นโหนดอื่นๆ หรือชุดที่เป็นเนื้อเดียวกันได้ โหนดการตัดสินใจประกอบด้วยโหนดตั้งแต่สองโหนดขึ้นไปที่แสดงค่าที่แยกจากกันของแอตทริบิวต์ที่ทดสอบ
โหนดปลายสุด/เทอร์มินัลไม่แยกออกเป็นโหนดเพิ่มเติม และแสดงถึงการตัดสินใจ กิ่งหรือต้นไม้ย่อยเป็นส่วนย่อยของต้นไม้ทั้งต้น การแยกเป็นกระบวนการของการแบ่งโหนดออกเป็นสองโหนดย่อยขึ้นไป ตรงกันข้ามกับการแยกเรียกว่า pruning นั่นคือการลบโหนดย่อยของโหนดการตัดสินใจ โหนดหลักคือโหนดที่แบ่งออกเป็นโหนดย่อย และโหนดย่อยคือโหนดย่อย
ที่เกี่ยวข้อง: คู่มืออัลกอริทึมแผนผังการตัดสินใจ

มันทำงานอย่างไร?
อัลกอริธึมแผนผังการตัดสินใจใช้จุดข้อมูลและดำเนินการทั่วทั้งทรีโดยถามคำถามจริง/เท็จ เริ่มต้นจากโหนดรูท คำถามจะถูกถาม และสร้างสาขาแยกสำหรับแต่ละคำตอบ และจะดำเนินต่อไปจนกว่าจะถึงโหนดปลายสุด การแบ่งพาร์ติชั่นแบบเรียกซ้ำใช้ในการสร้างทรี
โครงสร้างการตัดสินใจคือโมเดลแมชชีนเลิร์นนิงภายใต้การดูแล ดังนั้นจึงเรียนรู้ที่จะแมปข้อมูลกับผลลัพธ์ในขั้นตอนการฝึกอบรมของการสร้างแบบจำลอง ซึ่งทำได้โดยการปรับแบบจำลองให้เหมาะสมกับข้อมูลในอดีตซึ่งจำเป็นต้องเกี่ยวข้องกับปัญหา ควบคู่ไปกับคุณค่าที่แท้จริงที่ตัวแบบควรเรียนรู้ที่จะทำนายได้อย่างแม่นยำ ซึ่งจะช่วยให้โมเดลเรียนรู้ความสัมพันธ์ระหว่างข้อมูลกับตัวแปรเป้าหมาย
หลังจากระยะนี้ โครงสร้างการตัดสินใจสามารถสร้างแผนภูมิที่คล้ายกันได้โดยการคำนวณคำถามและลำดับของคำถาม ซึ่งจะช่วยให้ประมาณการได้แม่นยำที่สุด ดังนั้น การคาดคะเนจึงขึ้นอยู่กับข้อมูลการฝึกที่ป้อนลงในแบบจำลอง
การแยกออกเป็นการตัดสินใจอย่างไร?
การตัดสินใจแยกนั้นแตกต่างกันสำหรับแผนผังการจำแนกและการถดถอย และความแม่นยำของการทำนายของต้นไม้นั้นขึ้นอยู่กับการตัดสินใจนั้นอย่างมาก ข้อผิดพลาดกำลังสองเฉลี่ย (MSE) มักใช้เพื่อตัดสินใจว่าจะแบ่งโหนดออกเป็นสองโหนดหรือมากกว่าใน การถดถอยทรีการตัดสินใจ หรือไม่ ในกรณีของไบนารีทรี อัลกอริทึมจะเลือกค่าและแบ่งข้อมูลออกเป็นสองชุดย่อย คำนวณ MSE สำหรับแต่ละชุดย่อย และเลือกค่า MSE ที่น้อยที่สุดตามผลลัพธ์
การใช้ Decision Tree Regression
โครงสร้างพื้นฐานในการใช้ อัลกอริธึม การถดถอยของโครงสร้างการตัดสินใจ มีอยู่ในขั้นตอนต่อไปนี้
นำเข้าห้องสมุด
ขั้นตอนแรกในการพัฒนาโมเดลแมชชีนเลิร์นนิงคือการนำเข้าไลบรารีที่จำเป็นทั้งหมดสำหรับการพัฒนา
กำลังโหลดข้อมูล
หลังจากนำเข้าไลบรารี ขั้นตอนต่อไปคือการโหลดชุดข้อมูล สามารถดาวน์โหลดหรือใช้ข้อมูลได้จากโฟลเดอร์ในเครื่องของผู้ใช้
การแยกชุดข้อมูล
เมื่อโหลดข้อมูลแล้ว จะต้องแบ่งออกเป็นชุดการฝึกและชุดทดสอบ และสร้างตัวแปร x และ y ค่ายังต้องเปลี่ยนรูปแบบเพื่อให้ข้อมูลอยู่ในรูปแบบที่ต้องการ
ฝึกโมเดล
ที่นี่ แบบจำลอง การถดถอยของโครงสร้างข้อมูล ได้รับการฝึกอบรมโดยใช้ชุดการฝึกที่สร้างในขั้นตอนก่อนหน้า
ทำนายผล
ผลลัพธ์ของชุดทดสอบจะถูกทำนายโดยใช้แบบจำลองที่ฝึกในชุดการฝึก

การประเมินแบบจำลอง
ประสิทธิภาพของแบบจำลองจะถูกตรวจสอบโดยการเปรียบเทียบค่าจริงและค่าที่คาดการณ์ไว้ในขั้นตอนสุดท้าย ความถูกต้องของแบบจำลองสามารถอนุมานได้โดยการเปรียบเทียบค่าเหล่านี้ การแสดงผลลัพธ์ด้วยการสร้างกราฟของค่ายังช่วยในการวัดความแม่นยำของแบบจำลองอีกด้วย

อ่าน: วิธีการสร้างแผนภูมิการตัดสินใจที่สมบูรณ์แบบ?
ข้อดี
- แบบจำลองแผนผังการตัดสินใจสามารถใช้ได้ทั้งกับปัญหาการจำแนกประเภทและการถดถอย และง่ายต่อการตีความ ทำความเข้าใจ และเห็นภาพ
- ผลลัพธ์ของแผนผังการตัดสินใจสามารถเข้าใจได้ง่ายเช่นกัน
- เมื่อเปรียบเทียบกับอัลกอริธึมอื่นๆ การเตรียมข้อมูลระหว่างการประมวลผลล่วงหน้าในแผนผังการตัดสินใจนั้นใช้ความพยายามน้อยกว่าและไม่ต้องการการปรับข้อมูลให้เป็นมาตรฐาน
- การใช้งานสามารถทำได้โดยไม่ต้องปรับขนาดข้อมูล
- โครงสร้างการตัดสินใจเป็นหนึ่งในวิธีที่รวดเร็วที่สุดในการระบุความสัมพันธ์ระหว่างตัวแปรและตัวแปรที่สำคัญที่สุด
- นอกจากนี้ยังสามารถสร้างคุณสมบัติใหม่เพื่อการคาดคะเนตัวแปรเป้าหมายได้ดียิ่งขึ้น
- แผนผังการตัดสินใจไม่ได้ส่วนใหญ่ได้รับอิทธิพลจากค่าผิดปกติหรือค่าที่หายไป และสามารถจัดการได้ทั้งตัวแปรตัวเลขและหมวดหมู่
- เนื่องจากเป็นวิธีการที่ไม่ใช้พารามิเตอร์ จึงไม่มีสมมติฐานเกี่ยวกับการกระจายพื้นที่และโครงสร้างตัวแยกประเภท
ข้อเสีย
- การใส่มากเกินไปเป็นหนึ่งในปัญหาในทางปฏิบัติสำหรับแบบจำลองแผนผังการตัดสินใจ มันเกิดขึ้นเมื่ออัลกอริธึมการเรียนรู้ยังคงพัฒนาสมมติฐานที่ลดข้อผิดพลาดของชุดฝึกอบรม แต่มีค่าใช้จ่ายในการเพิ่มข้อผิดพลาดของชุดทดสอบ แต่ปัญหานี้สามารถแก้ไขได้โดยการตัดแต่งกิ่งและตั้งค่าข้อจำกัดในพารามิเตอร์แบบจำลอง
- แผนภูมิการตัดสินใจไม่สามารถใช้ได้ดีกับตัวแปรตัวเลขต่อเนื่อง
- การเปลี่ยนแปลงเล็กน้อยในข้อมูลมีแนวโน้มที่จะทำให้เกิดความแตกต่างอย่างมากในโครงสร้างต้นไม้ ซึ่งทำให้เกิดการไม่เสถียร
- การคำนวณที่เกี่ยวข้องอาจซับซ้อนเมื่อเทียบกับอัลกอริธึมอื่นๆ และต้องใช้เวลาในการฝึกโมเดลนานขึ้น
- นอกจากนี้ยังค่อนข้างแพงเนื่องจากระยะเวลาที่ใช้และระดับความซับซ้อนสูงขึ้น
บทสรุป
อัลกอริธึม การถดถอยของแผนผังการตัดสินใจ ได้ อธิบายไว้ในบทความนี้โดยอธิบายว่าโครงสร้างต้นไม้ถูกสร้างขึ้นอย่างไรพร้อมกับคำจำกัดความสั้นๆ ของคำศัพท์ต่างๆ ที่เกี่ยวข้อง คำอธิบายสั้น ๆ เกี่ยวกับวิธีการทำงานของแผนผังการตัดสินใจและวิธีตัดสินใจเกี่ยวกับการแยกโหนดใด ๆ จะถูกรวมไว้ด้วย
วิธีการที่สามารถใช้การถดถอยของโครงสร้างการตัดสินใจขั้นพื้นฐานได้นั้นยังได้อธิบายผ่านลำดับขั้นตอนอีกด้วย สุดท้ายนี้ ได้มีการจัดเตรียมข้อดีและข้อเสียของอัลกอริธึมทรีการตัดสินใจ
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจ แมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมอย่างเข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ , สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
การถดถอยใช้เพื่อทำนายตัวแปรต่อเนื่อง คือเวลาที่เราต้องทำนายตัวเลข ตัวอย่างเช่น หากคุณต้องการคาดการณ์ราคาบ้านในเมือง โดยพิจารณาจากคุณลักษณะต่างๆ เช่น ขนาดของบ้านและพื้นที่ของเมือง การถดถอยจะถูกใช้ ปัญหาการถดถอยนั้นแก้ไขได้ง่ายมากโดยใช้การถดถอยเชิงเส้น โดยสรุป การถดถอยคือการประเมินค่าเอาต์พุตที่ไม่ทราบโดยอิงจากค่าอินพุต โครงสร้างการตัดสินใจคือแผนภาพที่แสดงการตัดสินใจที่เป็นไปได้ทั้งหมดและผลลัพธ์ที่เป็นไปได้ แผนภูมิการตัดสินใจมักใช้เพื่อตรวจสอบว่าการตัดสินใจมีอิทธิพลต่อผลลัพธ์ในอนาคตอย่างไร ตัวอย่างเช่น โครงสร้างการตัดสินใจสามารถช่วยบริษัทในการวิเคราะห์ว่าควรซื้อคลังสินค้าเพิ่มเติมหรือสร้างศูนย์กระจายสินค้าใหม่ โดยทั่วไป ต้นไม้ตัดสินใจใช้ในการวิจัยการดำเนินงานและวิทยาศาสตร์การจัดการ แผนผังการตัดสินใจเป็นแนวคิดทั่วไปและเป็นที่นิยมในการตัดสินใจและการวางแผนโปรแกรม สามารถใช้ในการเลือกระหว่างหลักสูตรของการดำเนินการเมื่อหลักสูตรที่เป็นไปได้บางหลักสูตรเป็นแบบเฉพาะเจาะจงและเมื่อผลของการดำเนินการแต่ละอย่างขึ้นอยู่กับสถานะของโลก แบบจำลองแผนผังการตัดสินใจสามารถใช้ได้กับปัญหาทุกประเภท ไม่ว่าจะเป็นการจำแนกประเภทหรือการทำนายตัวเลข มันสามารถขยายไปยังระดับของปัญหาใดๆ สามารถใช้ได้ทั้งการจัดประเภทภายใต้การดูแลและไม่อยู่ภายใต้การดูแล มันสามารถจัดการกับส่วนผสมของคุณสมบัติตัวเลขและหมวดหมู่ มันให้ผลลัพธ์ที่มั่นคง อย่างไรก็ตาม เป็นการยากที่จะเข้าใจเหตุผลที่อยู่เบื้องหลังการทำนาย ควรเข้าใจว่าตัวแบบไม่ได้เรียนรู้การแบ่งที่ดีที่สุดในแต่ละโหนดของต้นไม้แต่เป็นการเรียนรู้การแจกแจงความน่าจะเป็นของคลาสภายในแต่ละโหนด ข้อกำหนดนี้ทำให้โมเดลใช้การคำนวณอย่างเข้มข้นและป้องกันไม่ให้จัดการข้อมูลจำนวนมากการถดถอยในการเรียนรู้ของเครื่องคืออะไร?
ต้นไม้ตัดสินใจคืออะไร?
ข้อดีและข้อเสียของต้นไม้ตัดสินใจคืออะไร?