คู่มืออัลกอริทึมแผนผังการตัดสินใจ: แอปพลิเคชัน ข้อดี & ข้อเสีย & ตัวอย่าง

เผยแพร่แล้ว: 2020-12-10

มีอัลกอริธึมการเรียนรู้ของเครื่องหลายประเภทและแต่ละอันมีแอปพลิเคชันที่ไม่ซ้ำกัน ในบทความนี้ เราจะมาดูอัลกอริธึม ML ที่ได้รับความนิยมและมีประโยชน์มากที่สุดตัวหนึ่ง นั่นคือ อัลกอริธึมทรีการตัดสินใจ เราได้พูดถึงตัวอย่างของโครงสร้างการตัดสินใจใน R เพื่อช่วยให้คุณคุ้นเคยกับการใช้งาน มาเริ่มกันเลย.

สารบัญ

อัลกอริธึมต้นไม้ตัดสินใจคืออะไร?
การประยุกต์ใช้ต้นไม้การตัดสินใจ
ข้อดีและข้อเสียของต้นไม้ตัดสินใจ
- ข้อดีของอัลกอริทึมทรีตัดสินใจ:
- ข้อเสียของ Decision Tree Algorithm
โครงสร้างการตัดสินใจใน R (ตัวอย่าง)
ความคิดสุดท้าย
อะไรคือคุณลักษณะที่สำคัญที่สุดในอัลกอริธึมทรีการตัดสินใจ?
อัลกอรึทึมทรีการตัดสินใจมีความสำคัญอย่างไร?
อัลกอริธึมแผนผังการตัดสินใจขึ้นอยู่กับเทคนิคใด

อัลกอริธึมต้นไม้ตัดสินใจคืออะไร?

Decision Tree เป็นอัลกอริธึมการเรียนรู้ของเครื่องภายใต้การดูแลที่มีโหนดรูทและโหนดปลายสุด ทุกโหนดแสดงถึงคุณลักษณะ และการเชื่อมโยงระหว่างโหนดต่างๆ แสดงถึงการตัดสินใจ ทุกใบแสดงถึงผลลัพธ์

สมมุติว่าคุณอยากไปตลาดเพื่อซื้อผัก คุณมีทางเลือกสองทาง: คุณจะไปหรือไม่ไป ถ้าคุณไม่ไป คุณก็จะไม่ได้ผัก แต่ถ้าไป คุณจะต้องไปตลาดซึ่งนำไปสู่ส่วนอื่นที่คุณเลือก ต้นไม้การตัดสินใจทำงานในลักษณะนี้

การประยุกต์ใช้ต้นไม้การตัดสินใจ

ต่อไปนี้คือแอปพลิเคชันบางส่วนของแผนผังการตัดสินใจ:

การตลาด:

ธุรกิจสามารถใช้แผนผังการตัดสินใจเพื่อเพิ่มความถูกต้องของแคมเปญส่งเสริมการขายโดยสังเกตประสิทธิภาพของผลิตภัณฑ์และบริการของคู่แข่ง แผนผังการตัดสินใจสามารถช่วยแบ่งกลุ่มผู้ชมและสนับสนุนธุรกิจในการผลิตโฆษณาที่ตรงเป้าหมายยิ่งขึ้นซึ่งมีอัตราการแปลงที่สูงขึ้น

การรักษาลูกค้า:

บริษัทต่างๆ ใช้แผนผังการตัดสินใจเพื่อรักษาลูกค้าโดยการวิเคราะห์พฤติกรรมและเผยแพร่ข้อเสนอหรือผลิตภัณฑ์ใหม่เพื่อให้เหมาะกับพฤติกรรมเหล่านั้น ด้วยการใช้แบบจำลองแผนผังการตัดสินใจ บริษัทต่างๆ สามารถทราบระดับความพึงพอใจของลูกค้าได้เช่นกัน

การวินิจฉัยโรคและความเจ็บป่วย:

โครงสร้างการตัดสินใจสามารถช่วยแพทย์และผู้เชี่ยวชาญทางการแพทย์ในการระบุผู้ป่วยที่มีความเสี่ยงสูงที่จะเกิดภาวะร้ายแรง (หรือป้องกันได้) เช่น โรคเบาหวานหรือภาวะสมองเสื่อม ความสามารถของแผนผังการตัดสินใจในการจำกัดขอบเขตความเป็นไปได้ตามตัวแปรเฉพาะจะมีประโยชน์มากในกรณีเช่นนี้

การตรวจจับการฉ้อโกง:

บริษัทสามารถป้องกันการฉ้อโกงโดยใช้แผนผังการตัดสินใจเพื่อระบุพฤติกรรมการฉ้อโกงล่วงหน้า สามารถประหยัดทรัพยากรของบริษัทได้มากมาย รวมทั้งเวลาและเงิน

ข้อดีและข้อเสียของต้นไม้ตัดสินใจ

ข้อดีของอัลกอริทึมทรีตัดสินใจ:

ต่อไปนี้เป็นข้อดีหลักของการใช้แผนผังการตัดสินใจใน R:

เข้าใจผลลัพธ์ได้ง่ายกว่ารุ่นอื่นๆ คุณสามารถให้ทีมเทคนิคตั้งโปรแกรมแบบจำลองแผนผังการตัดสินใจของคุณ เพื่อให้ทำงานได้เร็วขึ้น และนำไปใช้กับอินสแตนซ์ใหม่ได้ การคำนวณมีการทดสอบการรวมตามตัวอย่าง ซึ่งเป็นแบบจำลองเชิงคุณภาพหรือเชิงปริมาณ
มันไม่ใช่พารามิเตอร์ ตัวแปรอิสระที่มีอยู่ในปัญหาของเราไม่จำเป็นต้องทำตามการแจกแจงความน่าจะเป็นเฉพาะใดๆ เนื่องจากเหตุผลนี้ คุณสามารถมีตัวแปร collinear ไม่ว่าพวกเขาจะเลือกปฏิบัติหรือไม่ก็ตาม ก็ไม่มีผลกระทบต่อโครงสร้างการตัดสินใจของคุณ เพราะไม่ต้องเลือกตัวแปรเหล่านั้น
พวกเขาสามารถทำงานกับค่าที่ขาดหายไป CHAID ใส่ค่าที่ขาดหายไปทั้งหมดในหมวดหมู่ ซึ่งคุณสามารถรวมเข้ากับค่าอื่นหรือแยกจากค่าอื่นได้
ค่าเฉพาะตัวขั้นสุด (เช่น ค่าผิดปกติ) ไม่ได้ส่งผลกระทบมากนักต่อแผนผังการตัดสินใจ คุณสามารถแยกพวกมันออกเป็นโหนดเล็ก ๆ เพื่อไม่ให้กระทบกับการจำแนกประเภททั้งหมด
ช่วยให้คุณเห็นภาพที่ชัดเจนของกระบวนการตัดสินใจ ทุกสาขาของแผนภูมิต้นไม้การตัดสินใจหมายถึงปัจจัยที่อาจส่งผลต่อการตัดสินใจของคุณ และคุณจะได้เห็นภาพที่ใหญ่ขึ้น คุณสามารถใช้แผนผังการตัดสินใจเพื่อปรับปรุงการสื่อสารในทีมของคุณได้
แผนผัง CART สามารถจัดการตัวแปรทุกประเภทได้โดยตรง รวมถึงตัวแปรเชิงคุณภาพ ตัวแปรต่อเนื่อง และตัวแปรแบบไม่ต่อเนื่อง

ข้อเสียของ Decision Tree Algorithm

ไม่วิเคราะห์ตัวแปรอิสระทั้งหมดพร้อมกัน แต่จะประเมินตามลำดับ ด้วยเหตุนี้ ต้นไม้จึงไม่แก้ไขการแบ่งโหนดในทุกระดับ ซึ่งอาจทำให้เกิดอคติในการเลือกของต้นไม้ได้
การแก้ไขแม้แต่ตัวแปรเดียวอาจส่งผลต่อทรีทั้งหมดได้หากอยู่ใกล้ด้านบนสุด มีวิธีแก้ปัญหานี้ ตัวอย่างเช่น คุณสามารถสร้างต้นไม้จากตัวอย่างหลาย ๆ ตัวอย่างและรวมเข้าด้วยกันตามค่าเฉลี่ย (หรือโหวต) สิ่งนี้เรียกว่าการสุ่มตัวอย่างซ้ำ อย่างไรก็ตาม มันนำไปสู่ปัญหาอีกชุดหนึ่งเนื่องจากลดความสามารถในการอ่านของแบบจำลองโดยทำให้ซับซ้อนมากขึ้น ดังนั้น โดยการสุ่มตัวอย่างใหม่ คุณสามารถกำจัดคุณสมบัติที่ดีที่สุดของแผนผังการตัดสินใจได้ ทำไมถึงเป็นปัญหา? สมมติว่าตัวแปรหนึ่งมีคุณสมบัติทั้งหมดของกลุ่มใดกลุ่มหนึ่ง แต่ก็มีคุณภาพตามที่ต้นไม้แยกออกด้วย ในกรณีนี้ ต้นไม้จะจัดชั้นผิดเพียงเพราะมันมีคุณสมบัติที่สำคัญเช่นนั้น
โหนดทั้งหมดของระดับเฉพาะในแผนผังการตัดสินใจขึ้นอยู่กับโหนดในระดับก่อนหน้า กล่าวอีกนัยหนึ่ง วิธีที่คุณกำหนดโหนดในระดับ 'n +1' ขึ้นอยู่กับคำจำกัดความของคุณสำหรับโหนดในระดับ 'n' หากคำจำกัดความของคุณที่ระดับ 'n' ผิด ระดับที่ตามมาทั้งหมดและโหนดที่มีอยู่ในระดับเหล่านั้นก็จะผิดด้วย

เรียนรู้: การถดถอยเชิงเส้นในการเรียนรู้ของเครื่อง

โครงสร้างการตัดสินใจใน R (ตัวอย่าง)

คุณจะต้องใช้ rpart เพื่อสร้างโครงสร้างการตัดสินใจใน R เราใช้ rpart สำหรับการจำแนกประเภท ใน R คุณสร้างแผนผังการตัดสินใจโดยใช้อัลกอริธึมการแบ่งพาร์ติชั่นแบบเรียกซ้ำซึ่งสร้างการตัดสินใจ ตามด้วยแผนผังการถดถอย มันมีสองขั้นตอน:

อันดับแรก จะระบุตัวแปรที่แยกข้อมูลออกเป็นสองกลุ่มแยกกันด้วยวิธีที่ดีที่สุด
ประการที่สอง จะทำซ้ำขั้นตอนในขั้นตอนก่อนหน้าในทุกกลุ่มย่อยจนกว่ากลุ่มเหล่านั้นจะมีขนาดเฉพาะหรือหากไม่สามารถปรับปรุงในกลุ่มย่อยเหล่านั้นได้อีกต่อไป

เรามีข้อมูลต่อไปนี้เป็นตัวอย่าง:

จากข้อมูลข้างต้น คุณมีเวลาและความเร่งของจักรยานยนต์ เราต้องทำนายความเร่งตามเวลา เราจะดำเนินการดังนี้:

1ห้องสมุด(rpart)

จากนั้นโหลดข้อมูล:

1data(จักรยาน)

ตอนนี้เราจะสร้างพล็อตกระจาย:

1 พล็อต (เร่ง ~ ครั้ง ข้อมูล = จักรยาน)

ครั้งหนึ่ง เราทำเสร็จแล้ว และเราจะสร้างต้นไม้:

1mct <- rpart(เร่ง ~ ครั้ง data=bike)

ขั้นตอนสุดท้ายของเราคือการวางแผนกราฟ:

1พล็อต(mct)

อ่าน: วิธีการสร้างแผนภูมิการตัดสินใจที่สมบูรณ์แบบ?

ความคิดสุดท้าย

ตอนนี้ เรามีรูปแบบการทำงานที่สมบูรณ์แบบของโครงสร้างการตัดสินใจใน R คุณสามารถหาบทช่วยสอนที่คล้ายกันเพิ่มเติมได้ในบล็อกของเรา

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจ แมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมอย่างเข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ , สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

อะไรคือคุณลักษณะที่สำคัญที่สุดในอัลกอริธึมทรีการตัดสินใจ?

อัลกอริธึมแผนผังการตัดสินใจเป็นเครื่องมือที่มีค่าสำหรับการวิเคราะห์การตัดสินใจและความเสี่ยง และมักแสดงเป็นกราฟหรือรายการกฎ ความเรียบง่ายของการใช้อัลกอริธึมทรีการตัดสินใจเป็นหนึ่งในคุณสมบัติที่สำคัญที่สุด สามารถเข้าใจได้ง่ายและมีความเกี่ยวข้องเนื่องจากเป็นภาพ แม้ว่าผู้ใช้จะไม่คุ้นเคยกับการสร้างอัลกอริธึมทรีการตัดสินใจ แต่ก็สามารถนำไปใช้ได้สำเร็จ อัลกอริทึมแผนผังการตัดสินใจมักใช้เพื่อคาดการณ์เหตุการณ์ในอนาคตโดยอิงจากประสบการณ์ก่อนหน้านี้และช่วยในการตัดสินใจอย่างมีเหตุผล เขตข้อมูลที่สำคัญอีกประการหนึ่งของอัลกอริธึมทรีการตัดสินใจคือการทำเหมืองข้อมูล โดยที่แผนผังการตัดสินใจถูกใช้เป็นเครื่องมือการจัดหมวดหมู่และการสร้างแบบจำลอง ดังที่อธิบายเพิ่มเติมด้านล่าง

อัลกอรึทึมทรีการตัดสินใจมีความสำคัญอย่างไร?

อัลกอริธึมแผนผังการตัดสินใจมีข้อได้เปรียบที่สำคัญในการบังคับให้มีการวิเคราะห์ผลลัพธ์ที่เป็นไปได้ทั้งหมดของการตัดสินใจและติดตามแต่ละเส้นทางไปสู่ข้อสรุป สร้างการศึกษารายละเอียดเกี่ยวกับความหมายตามแต่ละสาขา และระบุโหนดการตัดสินใจที่ต้องมีการตรวจสอบเพิ่มเติม นอกจากนี้ ทุกความยาก เส้นทางการตัดสินใจ และผลลัพธ์จะได้รับการกำหนดค่าที่ไม่ซ้ำกันโดยอัลกอริธึมแผนผังการตัดสินใจ วิธีการนี้เน้นย้ำถึงเส้นทางการตัดสินใจที่สำคัญ ลดความไม่แน่นอน ขจัดความคลุมเครือ และชี้แจงความหมายทางการเงินของแนวทางปฏิบัติทางเลือก เมื่อไม่มีข้อมูลข้อเท็จจริง ผู้ใช้สามารถใช้อัลกอริธึมแผนผังการตัดสินใจเพื่อให้ตัวเลือกต่างๆ อยู่ในมุมมองซึ่งกันและกันเพื่อการเปรียบเทียบอย่างง่ายโดยใช้ความน่าจะเป็นสำหรับสถานการณ์

อัลกอริธึมแผนผังการตัดสินใจขึ้นอยู่กับเทคนิคใด

อัลกอริธึมแผนผังการตัดสินใจใช้เทคนิคแผนผังการตัดสินใจ ซึ่งสามารถใช้สำหรับปัญหาการจำแนกประเภทและการถดถอย ชื่อแสดงถึงการใช้โครงสร้างแบบต้นไม้ที่เหมือนผังงานเพื่อแสดงการคาดคะเนที่เป็นผลสืบเนื่องของการแยกตามคุณลักษณะที่ต่อเนื่องกัน มันเริ่มต้นด้วยโหนดรูทและสรุปด้วยการตัดสินใจของลีฟ แผนผังการตัดสินใจประกอบด้วยโหนดสามประเภท กล่าวคือ สี่เหลี่ยมซึ่งมักเป็นตัวแทนของโหนดการตัดสินใจ โหนดโอกาสซึ่งมักจะแสดงเป็นวงกลม และรูปสามเหลี่ยมที่เป็นสัญลักษณ์ของโหนดปลาย