โครงสร้างการตัดสินใจใน R: ส่วนประกอบ ประเภท ขั้นตอนในการสร้าง ความท้าทาย

เผยแพร่แล้ว: 2020-04-02

“แผนภูมิการตัดสินใจใน R” คือการแสดงตัวเลือกแบบกราฟิกที่สามารถทำได้และผลลัพธ์ที่ได้จะเป็นอย่างไร มันถูกแสดงในรูปแบบของต้นไม้กราฟิก ส่วนต่างๆ ของแผนผังแสดงถึงกิจกรรมต่างๆ ของผู้มีอำนาจตัดสินใจ เป็นวิธีที่มีประสิทธิภาพในการมองเห็นความเป็นไปได้และผลลัพธ์ต่างๆ ของการกระทำนั้นๆ

สารบัญ

เหตุใดฉันจึงควรใช้แผนผังการตัดสินใจใน R

คุณอาจตั้งคำถามถึง ความสำคัญของแผนผังการตัดสินใจใน R แผนผังการตัดสินใจไม่เพียงแต่วางปัญหาและแนวทางแก้ไขต่างๆ แต่ยังรวมถึงตัวเลือกที่เป็นไปได้ทั้งหมดด้วย ตัวเลือกเหล่านี้อาจเป็นความท้าทายที่ผู้มีอำนาจตัดสินใจต้องเผชิญในการหาวิธีแก้ปัญหาที่กว้างขึ้น

นอกจากนี้ยังช่วยวิเคราะห์ผลที่ตามมาที่เป็นไปได้ต่างๆ ของปัญหาและวางแผนล่วงหน้า มันให้กรอบการทำงานที่ครอบคลุมเพื่อให้คุณสามารถวัดค่าของผลลัพธ์ที่แตกต่างกันได้อย่างง่ายดายด้วย นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อความน่าจะเป็นแบบมีเงื่อนไขปรากฏในภาพ

อะไรคือส่วนต่าง ๆ ของแผนผังการตัดสินใจใน R?

เพื่อให้เข้าใจและตีความความหมายของแผนผังการตัดสินใจ คุณต้องเข้าใจว่าส่วนต่างๆ ของแผนผังการตัดสินใจคืออะไร คุณอาจพบคำศัพท์เหล่านี้บ่อยมากเมื่อคุณดูที่แผนผังการตัดสินใจ

  • โหนด: โหนดของต้นไม้แสดงถึงเหตุการณ์ที่เกิดขึ้นหรือเป็นทางเลือกที่ผู้มีอำนาจตัดสินใจต้องทำ
  • ขอบ: นี่คือเงื่อนไขหรือกฎที่แตกต่างกันที่กำหนดไว้
  • โหนดราก: นี่แสดงประชากรทั้งหมดหรือกลุ่มตัวอย่างในกรณีที่มีการสร้างภาพตัวอย่าง
  • การ แยก: นี่คือเมื่อโหนดถูกแบ่งออกเป็นโหนดย่อย
  • โหนดตัดสินใจ: นี่คือโหนดย่อยเฉพาะที่แยกออกไปอีก
  • ใบไม้: นี่คือเงื่อนไขสิ้นสุดหรือโหนดที่ไม่แยกออกด้วย
  • การตัดแต่งกิ่ง: นี่คือการลบโหนดย่อยของโหนดการตัดสินใจ
  • สาขา: นี่คือส่วนย่อยของแผนผังการตัดสินใจทั้งหมด

อ่าน: Data Science vs Decision Science

ฉันจะใช้แผนผังการตัดสินใจใน R ได้อย่างไร

เนื่องจากแผนผังการตัดสินใจสามารถทำได้ใน R เท่านั้น คุณต้องติดตั้ง R ก่อน สามารถทำได้อย่างรวดเร็วทางออนไลน์ หลังจากที่คุณดาวน์โหลด R คุณต้องสร้างและแสดงภาพแพ็คเกจเพื่อใช้แผนผังการตัดสินใจ หนึ่งแพ็คเกจที่อนุญาตนี้คือ "ปาร์ตี้" เมื่อคุณพิมพ์คำสั่ง install.package (“ปาร์ตี้”) คุณสามารถใช้การแสดงโครงสร้างการตัดสินใจได้ แผนผังการตัดสินใจยังถือว่าเป็นอัลกอริธึมที่ซับซ้อนและอยู่ภายใต้การดูแล

ต้นไม้การตัดสินใจทำงานอย่างไรใน R?

แผนผังการตัดสินใจมักใช้ในการเรียนรู้ของเครื่องและการทำเหมืองข้อมูลเมื่อคุณใช้ R องค์ประกอบสำคัญที่ใช้ในกรณีนี้คือข้อมูลที่สังเกตได้หรือข้อมูลการฝึกอบรม หลังจากนี้จะมีการสร้างแบบจำลองที่ครอบคลุม ชุดข้อมูลการตรวจสอบความถูกต้องยังใช้เพื่ออัปเกรดและปรับปรุงโครงสร้างการตัดสินใจอีกด้วย

เรียนรู้เพิ่มเติม: การสร้างภาพข้อมูลในการเขียนโปรแกรม R

ต้นไม้ตัดสินใจประเภทต่าง ๆ มีอะไรบ้าง?

ต้นไม้การตัดสินใจประเภทที่สำคัญที่สุดคือ ต้นไม้การจำแนกและการถดถอย โดยทั่วไปจะใช้เมื่ออินพุตและเอาต์พุตถูกจัดหมวดหมู่

ต้นไม้การจำแนกประเภท: นี่คือแบบจำลองต้นไม้ที่ตัวแปรสามารถรับชุดค่าเฉพาะได้ ในกรณีเหล่านี้ ใบไม้แสดงถึงป้ายกำกับของชั้นเรียน ในขณะที่กิ่งก้านแสดงถึงคำสันธานของคุณลักษณะที่แตกต่างกัน โดยทั่วไปจะเป็นต้นไม้ประเภท "ใช่" หรือ "ไม่ใช่"

ต้นไม้ถดถอย: มีต้นไม้การตัดสินใจที่มีตัวแปรที่สามารถรับค่าต่อเนื่องได้

เมื่อคุณรวมแผนผังการตัดสินใจทั้งสองประเภทข้างต้น คุณจะได้ CART หรือแผนผังการจัดหมวดหมู่และการถดถอย นี่เป็นคำศัพท์เฉพาะที่คุณอาจพบเห็นได้หลายครั้ง สิ่งเหล่านี้อ้างถึงขั้นตอนดังกล่าวข้างต้น ความแตกต่างเพียงอย่างเดียวในสองสิ่งนี้คือประเภทของตัวแปรตาม - ทั้งแบบแบ่งหมวดหมู่หรือตัวเลข

ขั้นตอนที่เกี่ยวข้องในการสร้างแผนผังการตัดสินใจบน R คืออะไร?

ขั้นตอนที่ 1: นำ เข้า- นำเข้าชุดข้อมูลที่คุณต้องการวิเคราะห์

ขั้นตอนที่ 2: การทำความสะอาด- ต้องทำความสะอาด ชุดข้อมูล

ขั้นตอนที่ 3: สร้างชุดฝึกหรือชุดทดสอบ - นี่หมายความว่าต้องมีการฝึกอัลกอริทึมเพื่อทำนายป้ายกำกับแล้วจึงใช้สำหรับการอนุมาน
ขั้นตอนที่ 4: สร้าง โมเดล - ไวยากรณ์ rpart() ใช้สำหรับสิ่งนี้ ซึ่งหมายความว่าโหนดแยกไปเรื่อย ๆ จนถึงจุดที่ไม่สามารถแยกเพิ่มเติมได้

ขั้นตอนที่ 5: ทำนายชุดข้อมูลของคุณ - ใช้รูปแบบการทำนาย () สำหรับขั้นตอนนี้

ขั้นตอนที่ 6: วัดประสิทธิภาพ - ขั้นตอนนี้แสดงความแม่นยำของเมทริกซ์

ขั้นตอนที่ 7: ปรับไฮเปอร์พารามิเตอร์- เพื่อควบคุมลักษณะของความพอดี โครงสร้างการตัดสินใจมีพารามิเตอร์ต่างๆ พารามิเตอร์สามารถควบคุมได้โดยใช้ฟังก์ชัน rpart.control()

อ่านเพิ่มเติม: R บทช่วยสอนสำหรับผู้เริ่มต้น

อะไรคือความท้าทายในการใช้โครงสร้างการตัดสินใจใน R?

การตัดแต่งกิ่งอาจเป็นกระบวนการที่น่าเบื่อหน่าย และต้องทำอย่างระมัดระวังเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง นอกจากนี้ยังมีความไม่แน่นอนสูงในกรณีที่มีการเปลี่ยนแปลงเล็กน้อย ดังนั้นจึงมีความผันผวนสูงซึ่งอาจสร้างปัญหาให้กับผู้ใช้โดยเฉพาะผู้เริ่มต้น ยิ่งไปกว่านั้น มันอาจล้มเหลวในการสร้างผลลัพธ์ที่พึงประสงค์และผลลัพธ์ในบางกรณี

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ห่อ

หากคุณต้องการเลือกสิ่งที่ดีที่สุดในขณะที่ตระหนักถึงผลที่จะตามมา คุณต้องแน่ใจว่าคุณรู้วิธีใช้แผนผังการตัดสินใจใน R ซึ่งเป็นแผนผังแสดงสิ่งที่อาจเกิดขึ้นและสิ่งที่อาจจะไม่เกิดขึ้น มีองค์ประกอบที่แตกต่างกันหลายประการของแผนผังการตัดสินใจ ซึ่งได้อธิบายไว้ข้างต้น เป็นอัลกอริธึมการเรียนรู้ด้วยเครื่องที่ได้รับความนิยมและมีประสิทธิภาพ

ต้นไม้การตัดสินใจและหมวดหมู่คืออะไร?

ต้นไม้การตัดสินใจเป็นเครื่องมือสนับสนุนที่มีโครงสร้างคล้ายต้นไม้สำหรับแบบจำลองผลลัพธ์ที่น่าจะเป็นไปได้ ผลที่ตามมา สาธารณูปโภค และต้นทุนของทรัพยากรด้วย แผนผังการตัดสินใจทำให้ง่ายต่อการแสดงอัลกอริธึมต่างๆ โดยใช้คำสั่งควบคุมแบบมีเงื่อนไข โครงสร้างการตัดสินใจประกอบด้วยสาขาสำหรับแสดงขั้นตอนการตัดสินใจต่างๆ ที่นำไปสู่ผลลัพธ์ที่น่าพอใจในที่สุด

ตามตัวแปรเป้าหมาย มีแผนผังการตัดสินใจสองประเภทหลัก

1. แผนผังการตัดสินใจของตัวแปรตามหมวดหมู่ - ในแผนผังการตัดสินใจนี้ ตัวแปรเป้าหมายจะถูกแบ่งออกเป็นหมวดหมู่ต่างๆ หมวดหมู่ต่างๆ จะกำหนดว่าทุกกระบวนการตัดสินใจจะจัดอยู่ในหมวดหมู่ใดหมวดหมู่หนึ่ง และไม่มีโอกาสเกิดขึ้นระหว่างนั้นในทุกกรณี
2. โครงสร้างการตัดสินใจของตัวแปรต่อเนื่อง - มีตัวแปรเป้าหมายต่อเนื่องในแผนผังการตัดสินใจนี้ ตัวอย่างเช่น หากไม่ทราบรายได้ของบุคคลใดบุคคลหนึ่ง ก็สามารถทราบได้ด้วยความช่วยเหลือจากข้อมูลที่มีอยู่ เช่น อายุ อาชีพ และตัวแปรต่อเนื่องอื่นๆ

การใช้งานของต้นไม้การตัดสินใจคืออะไร?

มีการใช้งานหลักสองประการของแผนผังการตัดสินใจ

1. การใช้ข้อมูลประชากรเพื่อค้นหาผู้มีโอกาสเป็นลูกค้า - องค์กรใดๆ ก็สามารถปรับปรุงงบประมาณการตลาดของตนเพื่อการตัดสินใจอย่างมีข้อมูล เพื่อให้เงินถูกใช้ไปในสถานที่ที่เหมาะสมโดยคำนึงถึงข้อมูลประชากรที่เหมาะสม
2. การประเมินโอกาสในการเติบโตที่คาดหวัง - แผนผังการตัดสินใจมีประโยชน์ในการประเมินข้อมูลในอดีตเพื่อประเมินโอกาสในการเติบโตที่คาดหวังในธุรกิจใดๆ และช่วยในการขยาย

ข้อดีและข้อเสียของต้นไม้ตัดสินใจคืออะไร?

ข้อดี-

1. อ่านและตีความง่าย - คุณสามารถอ่านและตีความผลลัพธ์ของแผนผังการตัดสินใจได้อย่างง่ายดายแม้จะไม่มีความรู้ทางสถิติก็ตาม
2. ง่ายต่อการเตรียม - โครงสร้างการตัดสินใจใช้ความพยายามเพียงเล็กน้อยในการเตรียมข้อมูล เมื่อเทียบกับเทคนิคการตัดสินใจอื่นๆ
3. ความต้องการการล้างข้อมูลน้อยลง - โครงสร้างการตัดสินใจต้องการการล้างข้อมูลที่ค่อนข้างน้อย เนื่องจากตัวแปรถูกสร้างขึ้นแล้ว

ข้อเสีย-

1. ลักษณะที่ไม่เสถียร - ข้อจำกัดที่ใหญ่ที่สุดคือแผนผังการตัดสินใจนั้นไม่เสถียรอย่างมากเมื่อเทียบกับเทคนิคการตัดสินใจอื่นๆ แม้ว่าข้อมูลจะมีการเปลี่ยนแปลงเล็กน้อย แต่จะสะท้อนถึงการเปลี่ยนแปลงครั้งใหญ่ในโครงสร้างการตัดสินใจ
2. มีประสิทธิภาพน้อยกว่าในการทำนายผลลัพธ์ของตัวแปรต่อเนื่อง - เมื่อต้องแบ่งตัวแปรออกเป็นหลายประเภท ต้นไม้การตัดสินใจมักจะสูญเสียข้อมูล