การจำแนกต้นไม้การตัดสินใจ: ทุกสิ่งที่คุณจำเป็นต้องรู้

เผยแพร่แล้ว: 2020-05-29

สารบัญ

บทนำ
ต้นไม้ตัดสินใจทำมาจากอะไร?
การจำแนกต้นไม้การตัดสินใจ
- 1. ต้นไม้จำแนก
- 2. ต้นไม้ถดถอย
ต้นไม้ตัดสินใจถูกสร้างขึ้นอย่างไร?
แบ่งแยกและพิชิต
ตัวแยกประเภทแผนผังการตัดสินใจทำงานอย่างไร
ข้อดีของการใช้การจำแนกประเภททรีการตัดสินใจ
ข้อเสียของการใช้ตัวแยกประเภทแผนผังการตัดสินใจ
บทสรุป
ต้นไม้แห่งการตัดสินใจมีแนวโน้มที่จะเกินกำลังหรือไม่?
ต้นไม้การตัดสินใจจำเป็นต้องทำให้เป็นมาตรฐานหรือไม่?
วิธีการประกบต้นไม้ตัดสินใจ?

บทนำ

การเปรียบเทียบหลายอย่างสามารถขับเคลื่อนจากธรรมชาติเข้ามาในชีวิตจริงของเรา ต้นไม้เป็นหนึ่งในสิ่งที่มีอิทธิพลมากที่สุดของพวกเขา ต้นไม้มีผลกระทบต่อการเรียนรู้ของเครื่องอย่างมาก ครอบคลุมทั้งการจำแนกและการถดถอยที่จำเป็น เมื่อวิเคราะห์การตัดสินใจใด ๆ สามารถใช้ตัว แยกประเภทต้นไม้การตัดสินใจ เพื่อเป็นตัวแทนของกระบวนการตัดสินใจ

โดยพื้นฐานแล้ว โครงสร้างการตัดสินใจเป็นส่วนหนึ่งของการเรียนรู้ของเครื่องภายใต้การดูแล ซึ่งการประมวลผลข้อมูลเกิดขึ้นโดยการแยกข้อมูลอย่างต่อเนื่อง โดยคำนึงถึงพารามิเตอร์เฉพาะ

ต้นไม้ตัดสินใจทำมาจากอะไร?

คำตอบของคำถามนั้นตรงไปตรงมา ต้นไม้แห่งการตัดสินใจประกอบด้วยสิ่งสำคัญสามประการ การเปรียบเทียบกับต้นไม้แต่ละต้นสามารถวาดเป็นต้นไม้ในชีวิตจริงได้ ทั้งสามรายการมีดังต่อไปนี้:

โหนด: นี่คือสถานที่ที่มีการทดสอบค่าเกิดขึ้น ในโหนด ค่าของแอตทริบิวต์เฉพาะจะถูกส่งผ่าน และจะมีการตรวจสอบและทดสอบเทียบกับค่าต่างๆ เพื่อทำการตัดสินใจ
ขอบ/กิ่ง: ส่วนนี้สอดคล้องกับผลของผลการทดสอบใดๆ ขอบ/กิ่งมีส่วนรับผิดชอบในการเชื่อมโยงโหนดหรือใบที่แตกต่างกันสองโหนด
Leaf Nodes: โหนด เหล่านี้เป็นโหนดที่มักพบที่เทอร์มินัล โหนดใบมีหน้าที่ในการทำนายผล

การจำแนกต้นไม้การตัดสินใจ

ต้นไม้การตัดสินใจสามารถจำแนกได้กว้างๆ ได้เป็นสองประเภท ได้แก่ ต้นไม้การจำแนกและต้นไม้การถดถอย

1. ต้นไม้จำแนก

ต้นไม้การจำแนกประเภทคือต้นไม้การตัดสินใจประเภทนั้น ๆ ซึ่งขึ้นอยู่กับการตอบคำถาม "ใช่" หรือ "ไม่ใช่" และใช้ข้อมูลนี้ในการตัดสินใจ ดังนั้น ต้นไม้ ซึ่งกำหนดว่าบุคคลนั้นเหมาะสมหรือไม่เหมาะสมโดยการถามคำถามที่เกี่ยวข้องจำนวนมากและใช้คำตอบเพื่อหาวิธีแก้ปัญหาที่เหมาะสม จึงเป็นต้นไม้ประเภทหนึ่ง

ต้นไม้ประเภทนี้มักจะสร้างโดยใช้กระบวนการที่เรียกว่าการแบ่งพาร์ติชันแบบเรียกซ้ำแบบไบนารี วิธีการแบ่งพาร์ติชั่นแบบเรียกซ้ำแบบไบนารีเกี่ยวข้องกับการแยกข้อมูลออกเป็นโมดูลหรือพาร์ติชั่นแยกกัน จากนั้นพาร์ติชั่นเหล่านี้จะถูกประกบต่อกันในทุกสาขาของตัว แยกประเภทแผนผัง การ ตัดสินใจ

2. ต้นไม้ถดถอย

ตอนนี้ ประเภทการถดถอยของโครงสร้างการตัดสินใจแตกต่างจากประเภทการจำแนกประเภทโครงสร้างการตัดสินใจในด้านหนึ่ง ข้อมูลที่ป้อนเข้าไปในต้นไม้ทั้งสองนั้นแตกต่างกันมาก ต้นไม้การจำแนกประเภทจะจัดการกับข้อมูล ซึ่งมีความรอบคอบ ในขณะที่แผนภูมิการตัดสินใจการถดถอยจะจัดการกับชนิดข้อมูลต่อเนื่อง ตัวอย่างที่ดีของต้นไม้ถดถอยคือราคาบ้านหรือระยะเวลาที่ผู้ป่วยมักจะอยู่ในโรงพยาบาล

เรียนรู้เพิ่มเติม: การถดถอยเชิงเส้นในการเรียนรู้ของเครื่อง

ต้นไม้ตัดสินใจถูกสร้างขึ้นอย่างไร?

โครงสร้างการตัดสินใจถูกสร้างขึ้นโดยนำชุดข้อมูลที่โมเดลต้องได้รับการฝึกอบรม (แผนผังการตัดสินใจเป็นส่วนหนึ่งของการเรียนรู้ของเครื่องที่มีการควบคุมดูแล) ชุดข้อมูลการฝึกอบรมนี้จะถูกต่อเข้าด้วยกันเป็นชุดย่อยข้อมูลที่มีขนาดเล็กลงอย่างต่อเนื่อง กระบวนการนี้เสริมด้วยการสร้างแผนผังการเชื่อมโยงที่ค่อยๆ สร้างขึ้นเคียงข้างกันในกระบวนการทำลายข้อมูล หลังจากที่เครื่องเรียนรู้เสร็จแล้ว การสร้างแผนผังการตัดสินใจตามชุดข้อมูลการฝึกอบรมที่จัดเตรียมไว้ให้จะสิ้นสุดลง จากนั้นทรีนี้จะถูกส่งคืนไปยังผู้ใช้

แนวคิดหลักที่อยู่เบื้องหลังการใช้แผนผังการตัดสินใจคือการแยกข้อมูลออกเป็นสองภูมิภาคหลัก ได้แก่ ภูมิภาคที่มีประชากรหนาแน่น (คลัสเตอร์) หรือพื้นที่ ซึ่งว่างเปล่า (หรือเบาบาง)

การจำแนกต้นไม้การตัดสินใจ ทำงานบนหลักการพื้นฐานของการแบ่ง มันเอาชนะในกรณีที่ตัวอย่างใหม่ใดๆ ที่ถูกป้อนเข้าไปในต้นไม้ หลังจากผ่านการทดสอบหลายชุดแล้ว จะได้รับการจัดระเบียบและให้ป้ายกำกับชั้นเรียน อัลกอริธึมของการแบ่งและการพิชิตมีรายละเอียดดังต่อไปนี้:

แบ่งแยกและพิชิต

เห็นได้ชัดว่าตัว แยกประเภทแผนผังการตัดสินใจ มีพื้นฐานและสร้างขึ้นโดยใช้ฮิวริสติกที่เรียกว่าการแบ่งพาร์ติชั่นแบบเรียกซ้ำ หรือที่เรียกว่าอัลกอริธึมการแบ่งและพิชิต มันแบ่งข้อมูลออกเป็นชุดเล็ก ๆ และดำเนินการต่อไป จนกว่าจะระบุได้ว่าข้อมูลภายในแต่ละชุดย่อยมีความเหมือนกัน หรือหากผู้ใช้กำหนดเกณฑ์การหยุดอื่น ซึ่งจะทำให้อัลกอริทึมหยุดทำงาน

ตัว แยกประเภทแผนผังการตัดสินใจ ทำงานอย่างไร

อัลกอริทึมการแบ่งและพิชิตใช้เพื่อสร้างตัว แยกประเภทแผนผัง การ ตัดสินใจ การใช้อัลกอริธึมทำให้เราเริ่มต้นที่รูทของทรีเสมอ และเรายังแยกชุดข้อมูลเพื่อลดความไม่แน่นอนในการตัดสินใจขั้นสุดท้าย
มันเป็นกระบวนการวนซ้ำ ดังนั้นเราจึงทำขั้นตอนนี้ซ้ำทุกโหนด กระบวนการนี้ทำซ้ำจนกระทั่งถึงเวลาที่เราไม่มีโหนดของความบริสุทธิ์ที่เราต้องการ
โดยทั่วไป เพื่อหลีกเลี่ยงความเหมาะสม เรากำหนดขีดจำกัดของความบริสุทธิ์ที่จะบรรลุ ซึ่งหมายความว่าผลลัพธ์สุดท้ายอาจไม่บริสุทธิ์ 100%

พื้นฐานของอัลกอริทึมการแบ่งและพิชิต:

ขั้นแรกคือการเลือกหรือเลือกการทดสอบสำหรับโหนดรูท จากนั้นจึงเริ่มกระบวนการสร้างสาขา สาขาต่างๆ ได้รับการออกแบบโดยคำนึงถึงผลลัพธ์ที่เป็นไปได้ของการทดลองใช้ที่กำหนดไว้
ต่อมาคือการแบ่งอินสแตนซ์ของข้อมูลออกเป็นชุดย่อยที่เล็กกว่า แต่ละสาขาจะมี splice ของตัวเองซึ่งเชื่อมต่อกับโหนด
กระบวนการนี้จะต้องทำซ้ำสำหรับแต่ละสาขาโดยใช้เฉพาะกรณีที่มาถึงสาขาที่เป็นปัญหา
ควรหยุดกระบวนการแบบเรียกซ้ำนี้หากอินสแตนซ์ทั้งหมดอยู่ในคลาสเดียวกัน

ข้อดีของการใช้ การจำแนกประเภททรีการตัดสินใจ

ไม่ต้องใช้เงินจำนวนมากในการสร้าง
เป็นกระบวนการที่รวดเร็วในการจำแนกประเภทระเบียนที่ใหม่หรือไม่รู้จัก
สามารถตีความได้ง่ายมาก โดยเฉพาะถ้าต้นไม้มีขนาดเล็ก
ความแม่นยำของการทำนายโดยใช้ตัว แยกประเภทแผนผังการตัดสินใจ นั้นเทียบได้กับวิธีการทำนายหรือการจัดประเภทอื่นๆ
อีกทั้งยังมีความสามารถในการแยกคุณลักษณะที่ไม่สำคัญออกไป ขั้นตอนการกำจัดคุณสมบัติที่ไม่เกี่ยวข้องนี้ดำเนินการโดยอัตโนมัติ

อ่าน: วิธีการสร้างแผนภูมิการตัดสินใจที่สมบูรณ์แบบ?

ข้อเสียของการใช้ตัว แยกประเภทแผนผังการตัดสินใจ

การใส่ชุดข้อมูลมากเกินไปนั้นง่ายมากในกรณีนี้
ขอบเขตของการตัดสินใจมีข้อจำกัด สามารถขนานกับแกนซึ่งมีแอตทริบิวต์ได้เท่านั้น
โมเดลที่อิงตามแผนผังการตัดสินใจมักมีการแบ่งแยกแบบเอนเอียงซึ่งมีระดับจำนวนมาก
การเปลี่ยนแปลงเล็กๆ น้อยๆ ที่เกิดขึ้นกับชุดข้อมูลอาจมีผลกระทบอย่างมีนัยสำคัญต่อตรรกะที่ควบคุมการตัดสินใจ
ต้นลาเกอร์เป็นเรื่องยากที่จะเข้าใจเพราะบางครั้งอาจรู้สึกว่าใช้การได้หลายอย่าง

อ่านเพิ่มเติม: ต้นไม้แห่งการตัดสินใจในการเรียนรู้ของเครื่อง

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

บทสรุป

ต้นไม้แห่งการตัดสินใจมีประโยชน์ในขณะที่เรากำลังเผชิญกับปัญหาที่ไม่สามารถจัดการกับวิธีแก้ปัญหาเชิงเส้นตรงได้ จากการสังเกต มีการตั้งข้อสังเกตว่าแบบจำลองแบบต้นไม้สามารถแมปความไม่เชิงเส้นของอินพุตได้อย่างง่ายดายและขจัดปัญหาที่มีอยู่อย่างมีประสิทธิภาพ วิธีการที่ซับซ้อน เช่น การสร้างป่าแบบสุ่มและการเพิ่มระดับความชัน ล้วนขึ้นอยู่กับ ตัว แยกประเภทแผนผังการตัดสินใจ

ต้นไม้แห่งการตัดสินใจเป็นเครื่องมือที่มีประสิทธิภาพซึ่งสามารถใช้ได้ในหลายพื้นที่ของชีวิตจริง เช่น วิศวกรรมชีวการแพทย์ ดาราศาสตร์ การควบคุมระบบ ยารักษาโรค ฟิสิกส์ ฯลฯ สิ่งนี้ทำให้ การจำแนกแผนภูมิการตัดสินใจ เป็นเครื่องมือที่สำคัญและขาดไม่ได้สำหรับการเรียนรู้ด้วยเครื่อง

ต้นไม้แห่งการตัดสินใจมีแนวโน้มที่จะเกินกำลังหรือไม่?

Decision Trees แยกส่วนข้อมูลที่ซับซ้อนให้อยู่ในรูปแบบที่ง่ายกว่า การจัดประเภทแผนภูมิการตัดสินใจพยายามแบ่งข้อมูลจนกว่าจะไม่สามารถแบ่งออกได้อีก แผนภูมิที่ชัดเจนของเนื้อหาที่เป็นไปได้ทั้งหมดจะถูกสร้างขึ้น ซึ่งช่วยในการวิเคราะห์เพิ่มเติม แม้ว่าต้นไม้ใหญ่ที่มีรอยต่อจำนวนมากจะทำให้เรามีเส้นทางที่ตรง แต่ก็สร้างปัญหาได้เช่นกันเมื่อทำการทดสอบข้อมูล การต่อประสานที่มากเกินไปนี้นำไปสู่การใส่มากเกินไป ซึ่งการแบ่งส่วนจำนวนมากทำให้ต้นไม้เติบโตอย่างมาก ในกรณีเช่นนี้ ความสามารถในการทำนายของแผนผังการตัดสินใจจะด้อยลง และด้วยเหตุนี้จึงเกิดความไม่มั่นคง การตัดแต่งกิ่งเป็นเทคนิคที่ใช้ในการจัดการกับการใส่มากเกินไป โดยที่ส่วนย่อยที่มากเกินไปจะถูกลบออก

ต้นไม้การตัดสินใจจำเป็นต้องทำให้เป็นมาตรฐานหรือไม่?

Decision Trees เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่ใช้บ่อยที่สุดสำหรับการจำแนกประเภทและการถดถอยของข้อมูล กลไกภายใต้การดูแลนี้จะแยกข้อมูลต่อชุดย่อยออกเป็นกลุ่มต่างๆ จนกว่าจะถึงโหนดปลายสุด ซึ่งไม่สามารถแบ่งเพิ่มเติมได้ เนื่องจากข้อมูลนี้จะถูกแบ่งออกเป็นหมวดหมู่ตามแอตทริบิวต์ที่ให้มา ข้อมูลจะถูกแบ่งเท่าๆ กัน มันบ่งบอกว่าทั้งข้อมูลที่ผ่านการทำให้เป็นมาตรฐานและข้อมูลที่ไม่มีการแบ่งจำนวนเท่ากัน ดังนั้น การทำให้เป็นมาตรฐานจึงไม่ใช่ข้อกำหนดเบื้องต้นสำหรับแบบจำลองแผนภูมิที่อิงตามการตัดสินใจ

วิธีการประกบต้นไม้ตัดสินใจ?

โครงสร้างการตัดสินใจเป็นกลไกที่เชื่อถือได้ในการจำแนกข้อมูลและคาดการณ์โซลูชัน การประกบในแผนผังการตัดสินใจต้องการความแม่นยำ ความผิดพลาดเพียงเล็กน้อยอาจส่งผลต่อความสมบูรณ์ของ Decision Tree การประกบในแผนผังการตัดสินใจเกิดขึ้นโดยใช้การแบ่งพาร์ติชันแบบเรียกซ้ำ การแยกข้อมูลเริ่มต้นด้วยการสร้างชุดย่อยของข้อมูลผ่านแอตทริบิวต์ที่กำหนด ข้อมูลจะถูกแยกออกซ้ำๆ ซ้ำๆ จนกว่าข้อมูลที่ต่อกันที่แต่ละโหนดจะถือว่าล้าสมัยในการแก้ปัญหาการคาดการณ์ เซตย่อยสามารถคล้ายกับค่าของตัวแปรเป้าหมายได้เช่นกัน การต่อประกบต้องมีระเบียบวิธีและทำซ้ำๆ เพื่อความแม่นยำที่ดี