คู่มืออัลกอริทึมแผนผังการตัดสินใจ: แอปพลิเคชัน ข้อดี & ข้อเสีย & ตัวอย่าง
เผยแพร่แล้ว: 2020-12-10มีอัลกอริธึมการเรียนรู้ของเครื่องหลายประเภทและแต่ละอันมีแอปพลิเคชันที่ไม่ซ้ำกัน ในบทความนี้ เราจะมาดูอัลกอริธึม ML ที่ได้รับความนิยมและมีประโยชน์มากที่สุดตัวหนึ่ง นั่นคือ อัลกอริธึมทรีการตัดสินใจ เราได้พูดถึงตัวอย่างของโครงสร้างการตัดสินใจใน R เพื่อช่วยให้คุณคุ้นเคยกับการใช้งาน มาเริ่มกันเลย.
สารบัญ
อัลกอริธึมต้นไม้ตัดสินใจคืออะไร?
Decision Tree เป็นอัลกอริธึมการเรียนรู้ของเครื่องภายใต้การดูแลที่มีโหนดรูทและโหนดปลายสุด ทุกโหนดแสดงถึงคุณลักษณะ และการเชื่อมโยงระหว่างโหนดต่างๆ แสดงถึงการตัดสินใจ ทุกใบแสดงถึงผลลัพธ์
สมมุติว่าคุณอยากไปตลาดเพื่อซื้อผัก คุณมีทางเลือกสองทาง: คุณจะไปหรือไม่ไป ถ้าคุณไม่ไป คุณก็จะไม่ได้ผัก แต่ถ้าไป คุณจะต้องไปตลาดซึ่งนำไปสู่ส่วนอื่นที่คุณเลือก ต้นไม้การตัดสินใจทำงานในลักษณะนี้
การประยุกต์ใช้ต้นไม้การตัดสินใจ
ต่อไปนี้คือแอปพลิเคชันบางส่วนของแผนผังการตัดสินใจ:
การตลาด:
ธุรกิจสามารถใช้แผนผังการตัดสินใจเพื่อเพิ่มความถูกต้องของแคมเปญส่งเสริมการขายโดยสังเกตประสิทธิภาพของผลิตภัณฑ์และบริการของคู่แข่ง แผนผังการตัดสินใจสามารถช่วยแบ่งกลุ่มผู้ชมและสนับสนุนธุรกิจในการผลิตโฆษณาที่ตรงเป้าหมายยิ่งขึ้นซึ่งมีอัตราการแปลงที่สูงขึ้น
การรักษาลูกค้า:
บริษัทต่างๆ ใช้แผนผังการตัดสินใจเพื่อรักษาลูกค้าโดยการวิเคราะห์พฤติกรรมและเผยแพร่ข้อเสนอหรือผลิตภัณฑ์ใหม่เพื่อให้เหมาะกับพฤติกรรมเหล่านั้น ด้วยการใช้แบบจำลองแผนผังการตัดสินใจ บริษัทต่างๆ สามารถทราบระดับความพึงพอใจของลูกค้าได้เช่นกัน
การวินิจฉัยโรคและความเจ็บป่วย:
โครงสร้างการตัดสินใจสามารถช่วยแพทย์และผู้เชี่ยวชาญทางการแพทย์ในการระบุผู้ป่วยที่มีความเสี่ยงสูงที่จะเกิดภาวะร้ายแรง (หรือป้องกันได้) เช่น โรคเบาหวานหรือภาวะสมองเสื่อม ความสามารถของแผนผังการตัดสินใจในการจำกัดขอบเขตความเป็นไปได้ตามตัวแปรเฉพาะจะมีประโยชน์มากในกรณีเช่นนี้
การตรวจจับการฉ้อโกง:
บริษัทสามารถป้องกันการฉ้อโกงโดยใช้แผนผังการตัดสินใจเพื่อระบุพฤติกรรมการฉ้อโกงล่วงหน้า สามารถประหยัดทรัพยากรของบริษัทได้มากมาย รวมทั้งเวลาและเงิน
ข้อดีและข้อเสียของต้นไม้ตัดสินใจ
ข้อดีของอัลกอริทึมทรีตัดสินใจ:
ต่อไปนี้เป็นข้อดีหลักของการใช้แผนผังการตัดสินใจใน R:
- เข้าใจผลลัพธ์ได้ง่ายกว่ารุ่นอื่นๆ คุณสามารถให้ทีมเทคนิคตั้งโปรแกรมแบบจำลองแผนผังการตัดสินใจของคุณ เพื่อให้ทำงานได้เร็วขึ้น และนำไปใช้กับอินสแตนซ์ใหม่ได้ การคำนวณมีการทดสอบการรวมตามตัวอย่าง ซึ่งเป็นแบบจำลองเชิงคุณภาพหรือเชิงปริมาณ
- มันไม่ใช่พารามิเตอร์ ตัวแปรอิสระที่มีอยู่ในปัญหาของเราไม่จำเป็นต้องทำตามการแจกแจงความน่าจะเป็นเฉพาะใดๆ เนื่องจากเหตุผลนี้ คุณสามารถมีตัวแปร collinear ไม่ว่าพวกเขาจะเลือกปฏิบัติหรือไม่ก็ตาม ก็ไม่มีผลกระทบต่อโครงสร้างการตัดสินใจของคุณ เพราะไม่ต้องเลือกตัวแปรเหล่านั้น
- พวกเขาสามารถทำงานกับค่าที่ขาดหายไป CHAID ใส่ค่าที่ขาดหายไปทั้งหมดในหมวดหมู่ ซึ่งคุณสามารถรวมเข้ากับค่าอื่นหรือแยกจากค่าอื่นได้
- ค่าเฉพาะตัวขั้นสุด (เช่น ค่าผิดปกติ) ไม่ได้ส่งผลกระทบมากนักต่อแผนผังการตัดสินใจ คุณสามารถแยกพวกมันออกเป็นโหนดเล็ก ๆ เพื่อไม่ให้กระทบกับการจำแนกประเภททั้งหมด
- ช่วยให้คุณเห็นภาพที่ชัดเจนของกระบวนการตัดสินใจ ทุกสาขาของแผนภูมิต้นไม้การตัดสินใจหมายถึงปัจจัยที่อาจส่งผลต่อการตัดสินใจของคุณ และคุณจะได้เห็นภาพที่ใหญ่ขึ้น คุณสามารถใช้แผนผังการตัดสินใจเพื่อปรับปรุงการสื่อสารในทีมของคุณได้
- แผนผัง CART สามารถจัดการตัวแปรทุกประเภทได้โดยตรง รวมถึงตัวแปรเชิงคุณภาพ ตัวแปรต่อเนื่อง และตัวแปรแบบไม่ต่อเนื่อง
ข้อเสียของ Decision Tree Algorithm
- ไม่วิเคราะห์ตัวแปรอิสระทั้งหมดพร้อมกัน แต่จะประเมินตามลำดับ ด้วยเหตุนี้ ต้นไม้จึงไม่แก้ไขการแบ่งโหนดในทุกระดับ ซึ่งอาจทำให้เกิดอคติในการเลือกของต้นไม้ได้
- การแก้ไขแม้แต่ตัวแปรเดียวอาจส่งผลต่อทรีทั้งหมดได้หากอยู่ใกล้ด้านบนสุด มีวิธีแก้ปัญหานี้ ตัวอย่างเช่น คุณสามารถสร้างต้นไม้จากตัวอย่างหลาย ๆ ตัวอย่างและรวมเข้าด้วยกันตามค่าเฉลี่ย (หรือโหวต) สิ่งนี้เรียกว่าการสุ่มตัวอย่างซ้ำ อย่างไรก็ตาม มันนำไปสู่ปัญหาอีกชุดหนึ่งเนื่องจากลดความสามารถในการอ่านของแบบจำลองโดยทำให้ซับซ้อนมากขึ้น ดังนั้น โดยการสุ่มตัวอย่างใหม่ คุณสามารถกำจัดคุณสมบัติที่ดีที่สุดของแผนผังการตัดสินใจได้ ทำไมถึงเป็นปัญหา? สมมติว่าตัวแปรหนึ่งมีคุณสมบัติทั้งหมดของกลุ่มใดกลุ่มหนึ่ง แต่ก็มีคุณภาพตามที่ต้นไม้แยกออกด้วย ในกรณีนี้ ต้นไม้จะจัดชั้นผิดเพียงเพราะมันมีคุณสมบัติที่สำคัญเช่นนั้น
- โหนดทั้งหมดของระดับเฉพาะในแผนผังการตัดสินใจขึ้นอยู่กับโหนดในระดับก่อนหน้า กล่าวอีกนัยหนึ่ง วิธีที่คุณกำหนดโหนดในระดับ 'n +1' ขึ้นอยู่กับคำจำกัดความของคุณสำหรับโหนดในระดับ 'n' หากคำจำกัดความของคุณที่ระดับ 'n' ผิด ระดับที่ตามมาทั้งหมดและโหนดที่มีอยู่ในระดับเหล่านั้นก็จะผิดด้วย
เรียนรู้: การถดถอยเชิงเส้นในการเรียนรู้ของเครื่อง

โครงสร้างการตัดสินใจใน R (ตัวอย่าง)
คุณจะต้องใช้ rpart เพื่อสร้างโครงสร้างการตัดสินใจใน R เราใช้ rpart สำหรับการจำแนกประเภท ใน R คุณสร้างแผนผังการตัดสินใจโดยใช้อัลกอริธึมการแบ่งพาร์ติชั่นแบบเรียกซ้ำซึ่งสร้างการตัดสินใจ ตามด้วยแผนผังการถดถอย มันมีสองขั้นตอน:
- อันดับแรก จะระบุตัวแปรที่แยกข้อมูลออกเป็นสองกลุ่มแยกกันด้วยวิธีที่ดีที่สุด
- ประการที่สอง จะทำซ้ำขั้นตอนในขั้นตอนก่อนหน้าในทุกกลุ่มย่อยจนกว่ากลุ่มเหล่านั้นจะมีขนาดเฉพาะหรือหากไม่สามารถปรับปรุงในกลุ่มย่อยเหล่านั้นได้อีกต่อไป
เรามีข้อมูลต่อไปนี้เป็นตัวอย่าง:
จากข้อมูลข้างต้น คุณมีเวลาและความเร่งของจักรยานยนต์ เราต้องทำนายความเร่งตามเวลา เราจะดำเนินการดังนี้:
1ห้องสมุด(rpart)
จากนั้นโหลดข้อมูล:
1data(จักรยาน)
ตอนนี้เราจะสร้างพล็อตกระจาย:
1 พล็อต (เร่ง ~ ครั้ง ข้อมูล = จักรยาน)
ครั้งหนึ่ง เราทำเสร็จแล้ว และเราจะสร้างต้นไม้:
1mct <- rpart(เร่ง ~ ครั้ง data=bike)
ขั้นตอนสุดท้ายของเราคือการวางแผนกราฟ:
1พล็อต(mct)
อ่าน: วิธีการสร้างแผนภูมิการตัดสินใจที่สมบูรณ์แบบ?
ความคิดสุดท้าย
ตอนนี้ เรามีรูปแบบการทำงานที่สมบูรณ์แบบของโครงสร้างการตัดสินใจใน R คุณสามารถหาบทช่วยสอนที่คล้ายกันเพิ่มเติมได้ในบล็อกของเรา
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจ แมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมอย่างเข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ , สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
อะไรคือคุณลักษณะที่สำคัญที่สุดในอัลกอริธึมทรีการตัดสินใจ?
อัลกอริธึมแผนผังการตัดสินใจเป็นเครื่องมือที่มีค่าสำหรับการวิเคราะห์การตัดสินใจและความเสี่ยง และมักแสดงเป็นกราฟหรือรายการกฎ ความเรียบง่ายของการใช้อัลกอริธึมทรีการตัดสินใจเป็นหนึ่งในคุณสมบัติที่สำคัญที่สุด สามารถเข้าใจได้ง่ายและมีความเกี่ยวข้องเนื่องจากเป็นภาพ แม้ว่าผู้ใช้จะไม่คุ้นเคยกับการสร้างอัลกอริธึมทรีการตัดสินใจ แต่ก็สามารถนำไปใช้ได้สำเร็จ อัลกอริทึมแผนผังการตัดสินใจมักใช้เพื่อคาดการณ์เหตุการณ์ในอนาคตโดยอิงจากประสบการณ์ก่อนหน้านี้และช่วยในการตัดสินใจอย่างมีเหตุผล เขตข้อมูลที่สำคัญอีกประการหนึ่งของอัลกอริธึมทรีการตัดสินใจคือการทำเหมืองข้อมูล โดยที่แผนผังการตัดสินใจถูกใช้เป็นเครื่องมือการจัดหมวดหมู่และการสร้างแบบจำลอง ดังที่อธิบายเพิ่มเติมด้านล่าง
อัลกอรึทึมทรีการตัดสินใจมีความสำคัญอย่างไร?
อัลกอริธึมแผนผังการตัดสินใจมีข้อได้เปรียบที่สำคัญในการบังคับให้มีการวิเคราะห์ผลลัพธ์ที่เป็นไปได้ทั้งหมดของการตัดสินใจและติดตามแต่ละเส้นทางไปสู่ข้อสรุป สร้างการศึกษารายละเอียดเกี่ยวกับความหมายตามแต่ละสาขา และระบุโหนดการตัดสินใจที่ต้องมีการตรวจสอบเพิ่มเติม นอกจากนี้ ทุกความยาก เส้นทางการตัดสินใจ และผลลัพธ์จะได้รับการกำหนดค่าที่ไม่ซ้ำกันโดยอัลกอริธึมแผนผังการตัดสินใจ วิธีการนี้เน้นย้ำถึงเส้นทางการตัดสินใจที่สำคัญ ลดความไม่แน่นอน ขจัดความคลุมเครือ และชี้แจงความหมายทางการเงินของแนวทางปฏิบัติทางเลือก เมื่อไม่มีข้อมูลข้อเท็จจริง ผู้ใช้สามารถใช้อัลกอริธึมแผนผังการตัดสินใจเพื่อให้ตัวเลือกต่างๆ อยู่ในมุมมองซึ่งกันและกันเพื่อการเปรียบเทียบอย่างง่ายโดยใช้ความน่าจะเป็นสำหรับสถานการณ์
อัลกอริธึมแผนผังการตัดสินใจขึ้นอยู่กับเทคนิคใด
อัลกอริธึมแผนผังการตัดสินใจใช้เทคนิคแผนผังการตัดสินใจ ซึ่งสามารถใช้สำหรับปัญหาการจำแนกประเภทและการถดถอย ชื่อแสดงถึงการใช้โครงสร้างแบบต้นไม้ที่เหมือนผังงานเพื่อแสดงการคาดคะเนที่เป็นผลสืบเนื่องของการแยกตามคุณลักษณะที่ต่อเนื่องกัน มันเริ่มต้นด้วยโหนดรูทและสรุปด้วยการตัดสินใจของลีฟ แผนผังการตัดสินใจประกอบด้วยโหนดสามประเภท กล่าวคือ สี่เหลี่ยมซึ่งมักเป็นตัวแทนของโหนดการตัดสินใจ โหนดโอกาสซึ่งมักจะแสดงเป็นวงกลม และรูปสามเหลี่ยมที่เป็นสัญลักษณ์ของโหนดปลาย