ต้นไม้การตัดสินใจในการเรียนรู้ของเครื่อง: หน้าที่ การจำแนก ข้อดี & ข้อเสีย
เผยแพร่แล้ว: 2020-05-14ทุกคนต้องตัดสินใจในชีวิต การตัดสินใจเหล่านี้ขึ้นอยู่กับสถานการณ์ การตัดสินใจที่ถูกต้องจะช่วยให้เผชิญสถานการณ์ได้ดีที่สุด แก้ปัญหาด้วยวิธีที่ตรงไปตรงมาที่สุด ในวัยเด็ก การตัดสินใจส่วนใหญ่ของคุณจะเกี่ยวกับสิ่งที่คุณกินและสิ่งต่างๆ ที่เกี่ยวข้องกับโรงเรียนของคุณ
เมื่อคุณโตขึ้น การตัดสินใจของคุณเริ่มมีความหมายที่รุนแรงมากขึ้น ไม่เพียงแค่ชีวิตของคุณเท่านั้นแต่รวมถึงของผู้อื่นด้วย เมื่อถึงจุดหนึ่งในชีวิต คุณจะต้องตัดสินใจเกี่ยวกับอาชีพหรือธุรกิจของคุณ การเปรียบเทียบนี้จะแนะนำให้คุณรู้จักกับแนวคิดของแผนผังการตัดสินใจในแมชชีนเลิร์นนิง
สารบัญ
ต้นไม้ตัดสินใจคืออะไร?
ในการเริ่มต้น ให้เราบอกคุณว่าแผนผังการตัดสินใจเป็นรูปแบบการทำนายหรือเครื่องมือที่สนับสนุนการตัดสินใจ เป็นที่ทราบกันดีอยู่แล้วว่าสามารถอนุมานได้อย่างแม่นยำโดยใช้การออกแบบ โมเดลการออกแบบ หรือการนำเสนอที่เป็นไปตามโครงสร้างแบบต้นไม้ วัตถุประสงค์หลักของโมเดลนี้หรือโมเดลแมชชีนเลิร์นนิงคือการพิจารณาคุณลักษณะบางอย่างของเป้าหมาย จากนั้นจึงตัดสินใจบนพื้นฐานของคุณลักษณะเหล่านั้น
การตัดสินใจส่วนใหญ่ในแผนผังการตัดสินใจเป็นไปตามเงื่อนไข - ถ้าและอย่างอื่น เพื่อให้แบบจำลองแผนผังการตัดสินใจดีกว่าแบบอื่น จะมีโครงสร้างที่ลึกกว่าและมีกฎเกณฑ์ที่ซับซ้อนกว่าในการควบคุม เป็นหนึ่งในโมเดลการเรียนรู้ภายใต้การดูแลที่ต้องการมากที่สุดในการเรียนรู้ด้วยเครื่องและใช้ในหลายพื้นที่ อาจดูเหมือนแผนผังลำดับงานที่ออกแบบมาโดยคำนึงถึงเทคนิคอัลกอริธึมเพื่อให้แน่ใจว่าการแยกจะดำเนินการตามเงื่อนไข
โครงสร้างของผังงานนี้ค่อนข้างง่าย มีโหนดรูทที่ทำหน้าที่เป็นรากฐานของการสร้างแบบจำลอง จากนั้น โหนดและสาขาภายในบางโหนดจะแสดงคุณลักษณะหรือการทดสอบและผลลัพธ์ของการทดสอบตามลำดับ โหนดปลายสุดแสดงถึงกลุ่มที่มีค่าที่คล้ายกับค่าที่ได้รับเมื่อมีการตัดสินใจเกี่ยวกับแอตทริบิวต์ที่เกี่ยวข้อง
ต้นไม้การตัดสินใจส่วนใหญ่พบว่าใช้ในการจำแนกประเภทและปัญหาการถดถอย สิ่งเหล่านี้ถูกใช้เพื่อสร้างแบบจำลองการทำนายอัตโนมัติที่ให้บริการแอพพลิเคชั่นมากกว่าสองสามแอพพลิเคชั่นในแอพพลิเคชั่นอัลกอริธึมการเรียนรู้ด้วยเครื่องเท่านั้น แต่ยังรวมถึงสถิติ วิทยาศาสตร์ข้อมูล และการขุดข้อมูลในพื้นที่อื่นๆ โครงสร้างแบบต้นไม้เหล่านี้นำเสนอแบบจำลองการคาดการณ์ที่แม่นยำที่สุดบางส่วน ซึ่งสามารถตีความได้ง่ายและมีเสถียรภาพมากกว่าแบบจำลองการคาดการณ์อื่นๆ ส่วนใหญ่

ต่างจากตัวแบบเชิงเส้นตรงที่ดีสำหรับปัญหาจำนวนหนึ่งเท่านั้น ตัวแบบที่ยึดตามแผนผังการตัดสินใจก็สามารถนำมาใช้ในการแมปความสัมพันธ์ที่ไม่เป็นเชิงเส้นได้เช่นกัน ไม่น่าแปลกใจที่ต้นไม้ตัดสินใจจะได้รับความนิยม เหตุผลที่สำคัญมากประการหนึ่งสำหรับเรื่องนี้ก็คือความง่ายในการทำความเข้าใจแบบจำลองแผนภูมิการตัดสินใจขั้นสุดท้าย สามารถอธิบายได้อย่างชัดเจนถึงสิ่งที่อยู่เบื้องหลังการทำนายทั้งหมด นอกจากนี้ยังเป็นพื้นฐานของวิธีการทำงานร่วมกันหรือทั้งมวลที่ล้ำหน้ายิ่งขึ้น รวมถึงการไล่ระดับการไล่ระดับ การบรรจุถุง และการสุ่มป่า เป็นต้น
คุณกำหนดแผนผังการตัดสินใจอย่างไร?
ตอนนี้เราได้พัฒนาความเข้าใจพื้นฐานของแนวคิดนี้แล้ว ให้เรากำหนดแนวคิดนั้นให้กับคุณ โครงสร้างการตัดสินใจคืออัลกอริธึมการเรียนรู้ของเครื่องภายใต้การดูแล ซึ่งสามารถใช้เพื่อแก้ปัญหาทั้งแบบอิงประเภทและแบบถดถอย เรามาดูกันว่ามันใช้สำหรับการจัดหมวดหมู่อย่างไร
สมมติว่ามีชุดข้อมูลที่เรากำลังดำเนินการอยู่ เราสร้างแผน 2D ที่สามารถแบ่งออกเป็นส่วนต่าง ๆ เพื่อให้คะแนนในแต่ละพื้นที่ถูกกำหนดให้เป็นคลาสเดียวกัน การแบ่งหรือการแบ่งแยกจะแสดงด้วยอักขระเฉพาะ นี่คือไบนารีทรีที่เรากำลังดำเนินการอยู่
มีหลายสิ่งหลายอย่างในแผนผังการตัดสินใจนี้ซึ่งไม่มีการแสดงข้อมูลล่วงหน้า แต่สร้างขึ้นโดยใช้ข้อมูลการฝึกอบรมที่เราได้รับ สิ่งเหล่านี้รวมถึงจำนวนของโหนดที่ทรีนี้จะมี ตำแหน่งขอบ และโครงสร้างของมัน เราจะไม่สร้างต้นไม้ตั้งแต่เริ่มต้นที่นี่ เราจะก้าวไปข้างหน้าเท่านั้นโดยพิจารณาว่าต้นไม้ของเราอยู่ที่นั่นแล้ว
ทีนี้ เราจะจำแนกอินพุตใหม่ได้อย่างไร? เพียงแค่เราเคลื่อนตัวลงไปตามต้นไม้ก็ทำได้ ระหว่างการเดินทาง เราจะยังคงตั้งคำถามเกี่ยวกับจุดข้อมูลเมื่อไปถึงทุกโหนด ตัวอย่างเช่น เมื่อเราถามคำถามนี้ที่โหนดรูท คำตอบจะทำให้เราแยกสาขาไปทางขวาหรือทางซ้าย กฎทั่วไปคือถ้าคำถามที่ถามเป็นความจริงของเงื่อนไขที่วางไว้ในเงื่อนไขเราจะต้องแยกสาขาออกไป ถ้าไม่จริงเราต้องแยกสาขาให้ถูกต้อง หากเงื่อนไขของเรานำเราไปยังโหนดด้านซ้าย เราจะรู้ว่าจุดอินพุตต้องกำหนดคลาสใด
เมื่อพูดถึงแผนภูมิต้นไม้การตัดสินใจ มีบางสิ่งที่ไม่ควรลืม ไม่มีกฎเกณฑ์หรือความจำเป็นที่บอกว่าเราต้องสลับไปมาระหว่างพิกัดทั้งสองของแผนผังการตัดสินใจขณะข้ามผ่าน เราสามารถเลือกที่จะไปด้วยคุณสมบัติหรือมิติเดียว เราต้องจำไว้ว่าต้นไม้การตัดสินใจสามารถใช้กับชุดข้อมูลของมิติใดก็ได้ เราได้นำข้อมูล 2D ในตัวอย่างของเรา แต่นั่นไม่ได้หมายความว่าแผนผังการตัดสินใจมีไว้สำหรับชุดข้อมูลสองมิติเท่านั้น
ชำระเงิน: ประเภทของไบนารีทรี
คุณเคยมีส่วนร่วมในการประกวด Twenty Questions หรือไม่? มันค่อนข้างคล้ายกับการทำงานของต้นไม้การตัดสินใจ ให้เราหาวิธี? วัตถุประสงค์สูงสุดของเกม Twenty Questions คือการค้นหาวัตถุที่ผู้ตอบคำถามกำลังคิดขณะตอบคำถาม คำถามสามารถตอบได้เฉพาะในใช่หรือไม่ใช่
เมื่อคุณก้าวไปข้างหน้าในเกม คุณจะรู้จากคำตอบก่อนหน้านี้ว่าต้องถามคำถามอะไรเป็นพิเศษ เพื่อให้ได้คำตอบที่ถูกต้องก่อนที่เกมจะจบลง โครงสร้างการตัดสินใจคือชุดคำถามที่จะช่วยให้คุณได้คำตอบสุดท้ายโดยแนะนำให้คุณถามคำถามที่เกี่ยวข้องมากขึ้น
คุณจำวิธีการนำคุณไปยังบุคคลที่คุณต้องการพูดด้วยในบริษัทผ่านข้อความเสียงได้อย่างไร ขั้นแรก คุณพูดกับผู้ช่วยที่ใช้คอมพิวเตอร์ จากนั้นกดปุ่มบนโทรศัพท์หลายปุ่มและป้อนรายละเอียดบางอย่างเกี่ยวกับบัญชีของคุณ ก่อนที่คุณจะเข้าถึงบุคคลที่คุณต้องการคุยด้วยตั้งแต่แรก นี่อาจเป็นประสบการณ์ที่ลำบากสำหรับคุณ แต่นี่เป็นวิธีที่บริษัทส่วนใหญ่ใช้แผนผังการตัดสินใจเพื่อช่วยให้ลูกค้าเข้าถึงแผนกที่ถูกต้องหรือพูดคุยกับบุคคลที่เหมาะสม อ่าน การเรียนรู้ภายใต้การดูแล 6 ประเภทที่คุณต้องรู้ด้วย
ต้นไม้การตัดสินใจทำงานอย่างไร
คิดเกี่ยวกับวิธีสร้างแผนภูมิการตัดสินใจที่สมบูรณ์แบบหรือไม่? ดังที่เราได้กล่าวไปแล้วก่อนหน้านี้ โครงสร้างการตัดสินใจคือคลาสของอัลกอริทึมที่ใช้ในการแก้ปัญหาการเรียนรู้ของเครื่องที่เป็นของประเภทการจำแนกและการถดถอย สามารถใช้ได้กับทั้งตัวแปรตามหมวดหมู่และตัวแปรต่อเนื่อง
อัลกอริธึมนี้มีวิธีที่ง่ายในการก้าวไปข้างหน้า โดยแบ่งพาร์ติชั่นชุดข้อมูลหรือข้อมูลตัวอย่างออกเป็นชุดข้อมูลต่างๆ โดยที่ชุดข้อมูลแต่ละชุดจัดกลุ่มไว้ด้วยกันโดยใช้แอตทริบิวต์เดียวกันร่วมกัน แผนผังการตัดสินใจใช้อัลกอริธึมจำนวนหนึ่งเพื่อวัตถุประสงค์ที่แตกต่างกัน – ระบุการแยก ตัวแปรที่สำคัญที่สุด และค่าผลลัพธ์ที่ดีที่สุดที่สามารถสร้างการแบ่งย่อยเพิ่มเติมได้ต่อไป
โดยทั่วไป เวิร์กโฟลว์ของแผนผังการตัดสินใจจะเกี่ยวข้องกับการแบ่งข้อมูลออกเป็นชุดข้อมูลการฝึกอบรมและทดสอบ การประยุกต์ใช้อัลกอริทึม และการประเมินประสิทธิภาพของแบบจำลอง มาทำความเข้าใจกันว่ามันทำงานอย่างไรด้วยตัวอย่างง่ายๆ สมมติว่าเราต้องการตรวจสอบว่าบุคคลนั้นเหมาะสมกับงานหรือไม่ นี่จะเป็นรากของต้นไม้
ตอนนี้เราย้ายไปยังคุณลักษณะหรือคุณลักษณะของทรี ซึ่งจะประกอบเป็นโหนดภายใน ตามคุณลักษณะเหล่านั้น การตัดสินใจจะถูกดำเนินการ – การก่อตัวของกิ่งก้านของต้นไม้ ให้เราตั้งสมมติฐานอื่นที่นี่ พารามิเตอร์สำหรับบุคคลที่ถือว่าเหมาะสมกับงานคือประสบการณ์ 5 ปีขึ้นไป ดิวิชั่นแรกจะเกิดขึ้นกับพารามิเตอร์ที่เราเพิ่งตั้งค่านี้
เราต้องการชุดพารามิเตอร์เพิ่มเติมสำหรับการแยกเพิ่มเติม พารามิเตอร์เหล่านี้อาจเกี่ยวกับพวกเขาในกลุ่มอายุบางกลุ่มหรือไม่ มีระดับที่แน่นอนหรือไม่ เป็นต้น ผลที่ได้คือใบของต้นไม้ ยกเว้นรากและกิ่ง ใบไม้ไม่เคยแตกแยกและพรรณนาถึงการตัดสินใจ ต้นไม้นี้จะช่วยให้คุณตัดสินใจว่าผู้สมัครเหมาะสมกับงานหรือไม่
ดังที่ได้กล่าวไปแล้ว โครงสร้างการตัดสินใจมีลักษณะเฉพาะที่ช่วยให้สามารถแก้ปัญหาให้เราได้ มีราก โหนดภายใน กิ่ง และใบ แต่ละใบมีจุดประสงค์เฉพาะหรือทำงานเฉพาะ ขั้นตอนเหล่านี้จะช่วยคุณสร้างภาพแทนต้นไม้:
- รากของต้นไม้มีคุณลักษณะที่ดีที่สุดเวอร์ชันที่ปรับให้เหมาะสมที่สุด
- แบ่งข้อมูลตัวอย่างเป็นส่วนย่อยโดยใช้แอตทริบิวต์ที่เหมาะสม ตรวจสอบให้แน่ใจว่าชุดย่อยหรือกลุ่มข้อมูลใหม่ไม่มีค่าที่แตกต่างกันสำหรับแอตทริบิวต์เดียวกัน
- ทำซ้ำสองขั้นตอนข้างต้นจนกว่าคุณจะมีใบไม้สำหรับทุกกิ่งในแผนผังการตัดสินใจของคุณ
การจำแนกประเภทหรือการถดถอย (CART)
ลองมาดูตัวอย่างกัน ลองนึกภาพว่าเราได้รับมอบหมายงานให้จัดประเภทผู้สมัครงานโดยพิจารณาจากคุณลักษณะที่กำหนดไว้ล่วงหน้าบางอย่างเพื่อให้แน่ใจว่าจะมีการเลือกเฉพาะผู้สมัครที่สมควรได้รับเท่านั้นเมื่อสิ้นสุดกระบวนการ การตัดสินใจเลือกผู้สมัครจะขึ้นอยู่กับเหตุการณ์แบบเรียลไทม์หรือเหตุการณ์ที่เป็นไปได้ ทั้งหมดที่เราต้องการคือแผนผังการตัดสินใจเพื่อค้นหาเกณฑ์ที่เหมาะสมสำหรับการจัดประเภท ผลลัพธ์จะขึ้นอยู่กับวิธีการจัดหมวดหมู่
การจำแนกประเภทอย่างที่เราทุกคนทราบมีสองขั้นตอน ขั้นตอนแรกเกี่ยวข้องกับการสร้างแบบจำลองสุ่มบนชุดข้อมูลตัวอย่าง ขั้นตอนที่สองเกี่ยวข้องกับการทำนาย – แบบจำลองที่ได้รับการฝึกในขั้นตอนแรกจะถูกนำไปใช้เพื่อคาดการณ์เกี่ยวกับการตอบสนองต่อข้อมูลที่กำหนด

ขณะนี้ มีบางสถานการณ์ที่ตัวแปรเป้าหมายเป็นจำนวนจริง หรือมีการตัดสินใจเกี่ยวกับข้อมูลอย่างต่อเนื่อง คุณอาจถูกขอให้คาดการณ์เกี่ยวกับราคาของสินค้าตามต้นทุนแรงงาน หรือคุณอาจถูกขอให้ตัดสินใจเกี่ยวกับเงินเดือนของผู้สมัครโดยพิจารณาจากเงินเดือนก่อนหน้า ชุดทักษะ ประสบการณ์ และข้อมูลที่เกี่ยวข้องอื่นๆ
ค่าของค่าเป้าหมายในสถานการณ์เหล่านี้อาจเป็นค่าจริงหรือค่าที่เกี่ยวข้องกับชุดข้อมูลต่อเนื่อง เราจะใช้โครงสร้างการตัดสินใจแบบถดถอยเพื่อแก้ปัญหาเหล่านี้ ต้นไม้นี้จะพิจารณาการสังเกตที่ทำเกี่ยวกับคุณสมบัติของวัตถุและฝึกแบบจำลองเพื่อคาดการณ์และให้ผลลัพธ์ที่ต่อเนื่องซึ่งสมเหตุสมผลอย่างยิ่ง
ให้เราพูดถึงความเหมือนและความแตกต่างบางประการระหว่างแผนผังการจำแนกประเภทและการถดถอย แผนผังการตัดสินใจใช้เป็นแบบจำลองการจัดหมวดหมู่ในสถานการณ์ที่ตัวแปรเป้าหมายมีลักษณะการจัดหมวดหมู่ ค่าที่ชุดข้อมูลการฝึกได้รับที่จุดสุดยอดของโหนดปลายทางจะเท่ากับค่าที่ได้รับเมื่อเราใช้โหมดของการสังเกตสำหรับส่วนนั้นโดยเฉพาะ ในกรณีที่มีการเพิ่มการสังเกตใหม่ๆ ในส่วนนั้นของแผนผัง เราจะแทนที่การสังเกตนั้นด้วยค่าโหมด แล้วทำการคาดคะเน
ในทางกลับกัน ต้นไม้การตัดสินใจถูกใช้เป็นแบบจำลองการถดถอยเมื่อตัวแปรเป้าหมายเป็นส่วนหนึ่งของชุดข้อมูลต่อเนื่อง ค่าที่ได้รับ ณ จุดเดียวกับที่เราพูดถึงสำหรับแผนผังการจำแนกประเภท คือค่าเฉลี่ยของการสังเกตในส่วนนั้น เมื่อพูดถึงต้นไม้การถดถอย
มีความคล้ายคลึงกันเล็กน้อยเช่นกัน โมเดลแผนผังการตัดสินใจทั้งสองแบบใช้วิธีการไบนารีแบบเรียกซ้ำและแบ่งตัวแปรอิสระออกเป็นส่วนๆ ที่ไม่ทับซ้อนกันและมีความแน่นอน ในต้นไม้ทั้งสองนี้ การแบ่งเริ่มต้นที่ด้านบนของต้นไม้ และการสังเกตอยู่ในพื้นที่เดียวกัน การสังเกตเหล่านี้แบ่งตัวแปรออกเป็นสองสาขา การแบ่งส่วนนี้เป็นกระบวนการต่อเนื่องที่ทำให้ต้นไม้โตเต็มที่
อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง
จะเรียนรู้โมเดล CART ได้อย่างไร?
มีสิ่งสำคัญบางอย่างที่คุณต้องทำเพื่อสร้างแบบจำลอง CART ซึ่งรวมถึงการเลือกตัวแปรอินพุตและจุดของการแบ่งในลักษณะที่ต้นไม้ถูกสร้างขึ้นอย่างเหมาะสม อัลกอริธึมโลภที่ลดฟังก์ชันต้นทุนใช้เพื่อเลือกตัวแปรอินพุตและจุดแบ่ง
การหดตัวของต้นไม้สิ้นสุดลงด้วยความช่วยเหลือของเกณฑ์การหยุดซึ่งกำหนดไว้ล่วงหน้า เกณฑ์การหยุดสามารถพูดถึงอะไรก็ได้ เช่น จำนวนอินสแตนซ์การฝึกอบรมที่กำหนดให้กับโหนดลีฟของต้นไม้
1. Greedy Algorithm : ต้องแบ่งพื้นที่อินพุตอย่างถูกต้องเพื่อสร้างไบนารีทรี การแยกไบนารีแบบเรียกซ้ำเป็นอัลกอริธึมโลภที่ใช้เพื่อการนี้ เป็นวิธีการทางตัวเลขที่เกี่ยวข้องกับการเรียงค่าต่างๆ จากนั้นใช้ฟังก์ชันต้นทุนเพื่อลองทดสอบจุดแบ่งหลายจุด เลือกจุดหารด้วยต้นทุนขั้นต่ำ วิธีนี้ใช้เพื่อประเมินทุกจุดของการหารเช่นเดียวกับตัวแปรอินพุต
2. การตัดแต่งต้นไม้ : เกณฑ์การหยุดช่วยปรับปรุงประสิทธิภาพของแผนผังการตัดสินใจของคุณ เพื่อให้ดียิ่งขึ้นไปอีก คุณสามารถลองตัดแต่งต้นไม้หลังจากเรียนรู้ จำนวนดิวิชั่นที่แผนผังการตัดสินใจบอกได้มากมายเกี่ยวกับความซับซ้อนของมัน ทุกคนชอบต้นไม้ที่ง่ายกว่าต้นไม้อื่น ไม่ใส่ข้อมูลมากเกินไป และสามารถถอดรหัสได้ง่าย
วิธีที่ดีที่สุดในการตัดต้นไม้คือการดูทุกโหนดของใบไม้และค้นหาว่าการเอาออกจะส่งผลต่อต้นไม้อย่างไร การนำโหนดปลายสุดออกจะเกิดขึ้นเมื่อการดำเนินการนี้รับประกันว่าฟังก์ชันต้นทุนจะลดลง เมื่อคุณคิดว่าไม่มีทางที่คุณจะปรับปรุงประสิทธิภาพได้มากกว่านี้ คุณสามารถหยุดกระบวนการลบนี้ได้ วิธีการตัดแต่งกิ่งที่คุณสามารถใช้ได้ ได้แก่
3. Stopping criterion : วิธี greedy splitting ที่เราพูดถึงก่อนหน้านี้ ต้องมีคำสั่ง stop หรือเงื่อนไขที่จะรู้ว่าควรหยุดเมื่อไร เกณฑ์ทั่วไปคือการนับจำนวนอินสแตนซ์ที่โหนดปลายสุดทุกอันได้รับมอบหมาย หากถึงจำนวนนั้น การแบ่งจะไม่เกิดขึ้น และโหนดนั้นจะถือเป็นโหนดสุดท้าย
ตัวอย่างเช่น สมมติว่าเกณฑ์การหยุดที่กำหนดไว้ล่วงหน้าถูกกล่าวถึงเป็นห้ากรณี ตัวเลขนี้ยังบอกถึงความถูกต้องของต้นไม้เป็นอย่างมากตามข้อมูลการฝึก หากแม่นหรือแม่นเกินไป จะส่งผลให้สวมใส่มากเกินไป ซึ่งหมายความว่าประสิทธิภาพต่ำ
จะหลีกเลี่ยงการ overfitting ในแผนภูมิการตัดสินใจได้อย่างไร?
ต้นไม้ตัดสินใจส่วนใหญ่ต้องเผชิญกับความเหมาะสม เราสามารถสร้างโครงสร้างการตัดสินใจที่สามารถจำแนกข้อมูลในลักษณะที่เหมาะสมได้ หรือเราสามารถมีสถานการณ์ที่เราไม่มีคุณลักษณะใดๆ สำหรับการแบ่งได้ วิธีนี้ใช้ไม่ได้ผลกับชุดข้อมูลการทดสอบมากเกินไป อย่างไรก็ตาม มันจะเหมาะกับชุดข้อมูลการฝึก คุณสามารถปฏิบัติตามหนึ่งในสองแนวทางที่เราจะกล่าวถึงเพื่อหลีกเลี่ยงสถานการณ์นี้

คุณสามารถตัดต้นไม้ได้ถ้ามันใหญ่เกินไปหรือหยุดการเจริญเติบโตก่อนที่ต้นไม้จะโตจนเกินพอดี ในกรณีส่วนใหญ่ มีการกำหนดขอบเขตเพื่อควบคุมการเจริญเติบโตของปอยผมที่กล่าวถึงความลึก จำนวนชั้น และสิ่งอื่น ๆ ที่สามารถมีได้ ชุดข้อมูลที่ต้นไม้ต้องได้รับการฝึกอบรมจะแบ่งออกเป็นชุดข้อมูลทดสอบและชุดข้อมูลการฝึกอบรม ชุดข้อมูลทั้งสองนี้จะมีความลึกสูงสุดตามชุดข้อมูลการฝึกอบรม และจะทดสอบกับชุดข้อมูลการทดสอบ คุณยังสามารถใช้การตรวจสอบความถูกต้องควบคู่ไปกับแนวทางนี้ได้
เมื่อคุณเลือกที่จะตัดแต่งต้นไม้ แสดงว่าคุณทดสอบรุ่นที่ตัดแต่งแล้วของต้นไม้กับรุ่นดั้งเดิม หากแผนผังที่ตัดแต่งแล้วทำได้ดีกว่าเวอร์ชันเมื่อต้องการทดสอบกับชุดข้อมูลการทดสอบ ต้นไม้จะไม่สามารถใช้ได้กับทรีตราบเท่าที่สถานการณ์ยังคงอยู่
เรียนรู้เพิ่มเติมเกี่ยวกับ: โครงสร้างการตัดสินใจใน R
ข้อดีของแนวทางต้นไม้การตัดสินใจ
- สามารถใช้กับข้อมูลแบบต่อเนื่องและแบบหมวดหมู่ได้
- สามารถส่งได้หลายเอาต์พุต
- สามารถตีความผลลัพธ์ได้อย่างแม่นยำ และคุณสามารถวัดปริมาณและไว้วางใจความน่าเชื่อถือของต้นไม้ได้
- ด้วยวิธีนี้ คุณจะสำรวจข้อมูล ค้นหาตัวแปรที่สำคัญ และค้นหาความสัมพันธ์ระหว่างตัวแปรต่างๆ เพื่อเสริมความแข็งแกร่งให้กับตัวแปรเป้าหมายและสร้างคุณสมบัติใหม่ได้ในเวลาที่น้อยลงมาก
- ง่ายต่อการเข้าใจและอธิบายให้ผู้อื่นเข้าใจ
- จะเป็นประโยชน์ในการทำความสะอาดข้อมูล เทียบกับวิธีอื่นใช้เวลาไม่นานเพราะไม่มีผลกระทบต่อค่าและค่าผิดปกติหลังจากจุดหนึ่ง
- ประสิทธิภาพและประสิทธิภาพของแผนผังการตัดสินใจไม่ได้รับผลกระทบจากความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างคุณลักษณะต่างๆ
- การเตรียมข้อมูลใช้เวลาไม่นาน เนื่องจากไม่จำเป็นต้องมีการแทนที่ค่าที่ขาดหายไป การปรับข้อมูลให้เป็นมาตรฐาน และอื่นๆ
- เป็นวิธีการที่ไม่ใช้พารามิเตอร์ มันไม่เกี่ยวอะไรกับการออกแบบและการจัดพื้นที่ของตัวแยกประเภท
ข้อเสียของต้นไม้ตัดสินใจ
- ผู้ใช้บางคนสามารถสร้างแผนผังการตัดสินใจที่ซับซ้อนเกินไป แม้กระทั่งสำหรับความชอบของพวกเขาเอง ต้นไม้เหล่านี้ไม่ได้สรุปข้อมูลเหมือนต้นไม้ทั่วไป
- ต้นไม้ลำเอียงมักถูกสร้างขึ้นเนื่องจากการครอบงำของบางคลาส ด้วยเหตุนี้จึงเป็นสิ่งสำคัญมากในการปรับสมดุลข้อมูลตัวอย่างก่อนนำไปใช้
- บางครั้งต้นไม้เหล่านี้ก็ไม่มั่นคงเกินไป รูปแบบข้อมูลอาจส่งผลให้เกิดการสร้างต้นไม้ที่ไม่เข้ากับใบเรียกเก็บเงิน ความผิดปกตินี้เรียกว่าความแปรปรวน มันสามารถจัดการได้โดยใช้การส่งเสริมและการบรรจุถุง
- คุณไม่สามารถคาดหวังได้ว่าจะได้แผนผังการตัดสินใจที่ดีที่สุดด้วยอัลกอริธึมที่โลภ เพื่อแก้ปัญหานี้ คุณสามารถฝึกต้นไม้ได้หลายต้น
บทสรุป
บล็อกนี้กล่าวถึงสิ่งสำคัญทั้งหมดที่ผู้เรียนจำเป็นต้องรู้เกี่ยวกับแผนผังการตัดสินใจ หลังจากอ่านบล็อกนี้ คุณจะมีความเข้าใจในแนวคิดนี้มากขึ้น และคุณจะอยู่ในสถานะที่ดีขึ้นในการนำไปใช้ในชีวิตจริง
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิงและ AI โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ สถานะศิษย์เก่า IIIT-B โครงการหลัก 5 โครงการและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
อัลกอริทึมแผนผังการตัดสินใจใช้ทำอะไร
โครงสร้างการตัดสินใจเป็นส่วนหนึ่งของอัลกอริธึมการเรียนรู้ภายใต้การดูแล ซึ่งเป็นส่วนหนึ่งของอัลกอริธึมการจำแนกประเภทที่ใช้กันอย่างแพร่หลาย เข้าใจง่ายและตีความได้ง่ายมาก ซึ่งถือว่าเป็นที่นิยม สามารถใช้แผนผังการตัดสินใจเพื่อพัฒนาแบบจำลองการฝึกอบรมที่สามารถทำนายค่าของตัวแปรเป้าหมายตามคำสั่งการตัดสินใจง่ายๆ ที่ได้มาจากข้อมูลการฝึกอบรมในอดีต สิ่งที่ดีที่สุดเกี่ยวกับอัลกอริธึมทรีการตัดสินใจคือสามารถใช้แก้ปัญหาการจำแนกประเภทและการถดถอยได้อย่างมีประสิทธิภาพ ซึ่งอัลกอริธึมการเรียนรู้ภายใต้การดูแลอื่นๆ ไม่สามารถนำมาใช้ได้ สามารถใช้แผนผังการตัดสินใจประเภทต่างๆ ได้ตามประเภทของตัวแปรเป้าหมาย
โครงสร้างการตัดสินใจเป็นส่วนหนึ่งของอัลกอริธึมการเรียนรู้ภายใต้การดูแล ซึ่งเป็นส่วนหนึ่งของอัลกอริธึมการจำแนกประเภทที่ใช้กันอย่างแพร่หลาย เข้าใจง่ายและตีความได้ง่ายมาก ซึ่งถือว่าเป็นที่นิยม สามารถใช้แผนผังการตัดสินใจเพื่อพัฒนาแบบจำลองการฝึกอบรมที่สามารถทำนายค่าของตัวแปรเป้าหมายตามคำสั่งการตัดสินใจง่ายๆ ที่ได้มาจากข้อมูลการฝึกอบรมในอดีต สิ่งที่ดีที่สุดเกี่ยวกับอัลกอริธึมทรีการตัดสินใจคือสามารถใช้แก้ปัญหาการจำแนกประเภทและการถดถอยได้อย่างมีประสิทธิภาพ ซึ่งอัลกอริธึมการเรียนรู้ภายใต้การดูแลอื่นๆ ไม่สามารถนำมาใช้ได้ สามารถใช้แผนผังการตัดสินใจประเภทต่างๆ ได้ตามประเภทของตัวแปรเป้าหมาย
ใน AI อัลกอริธึมทรีการตัดสินใจมาพร้อมกับแอพพลิเคชั่นมากมาย การประยุกต์ใช้แผนผังการตัดสินใจที่น่าสนใจที่สุดบางส่วน ได้แก่ การประเมินโอกาสในการเติบโตที่เป็นไปได้สำหรับบริษัทต่างๆ โดยพิจารณาจากข้อมูลในอดีต ด้วยเหตุนี้ ข้อมูลการขายในอดีตสามารถช่วยแผนภูมิการตัดสินใจระบุเส้นทางที่เป็นไปได้สำหรับการขยายและการเติบโตของธุรกิจต่อไป แผนภูมิการตัดสินใจยังสามารถใช้เพื่อค้นหาผู้มีโอกาสเป็นลูกค้าโดยใช้ข้อมูลประชากร นอกจากนี้ สถาบันการเงินยังสามารถใช้แผนผังการตัดสินใจเพื่อสร้างแบบจำลองการคาดการณ์สำหรับการประเมินความน่าเชื่อถือทางเครดิตของลูกค้าและผู้ผิดนัดในสินเชื่อ
อัลกอริทึมอื่นใดที่ใช้ในปัญญาประดิษฐ์
อัลกอริธึมที่ใช้ในปัญญาประดิษฐ์สามารถจำแนกได้กว้างๆ ได้เป็นสามส่วน – อัลกอริธึมการถดถอย อัลกอริธึมการจำแนกประเภท และอัลกอริธึมการจัดกลุ่ม อัลกอริทึมการจำแนกประเภทใช้เพื่อจำแนกชุดข้อมูลในลักษณะเฉพาะ อัลกอริทึมการจัดกลุ่มถูกนำไปใช้กับชุดข้อมูลทั้งหมดเพื่อค้นหาความแตกต่างและความคล้ายคลึงกันระหว่างจุดข้อมูลเฉพาะ สามารถใช้เพื่อชี้ให้เห็นกลุ่มลูกค้าวัยเดียวกันในกลุ่มใหญ่ได้ อัลกอริทึมการถดถอยมีประโยชน์ในการคาดการณ์ผลลัพธ์ในอนาคตโดยขึ้นอยู่กับข้อมูลที่ป้อน ตัวอย่างเช่น สามารถใช้อัลกอริธึมการถดถอยเพื่อออกแบบแบบจำลองสำหรับการพยากรณ์อากาศ