การทำความเข้าใจ Decision Tree Entropy ในการเรียนรู้ของเครื่อง

เผยแพร่แล้ว: 2020-12-29

Decision Tree เป็นส่วนหนึ่งของ Supervised Machine Learning ซึ่งคุณจะอธิบายอินพุตที่เอาท์พุตอยู่ในข้อมูลการฝึก ในแผนผังการตัดสินใจ ข้อมูลจะถูกแบ่งหลายครั้งตามพารามิเตอร์ที่กำหนด มันคอยแบ่งข้อมูลออกเป็นชุดย่อยที่เล็กลง และต้นไม้ก็ได้รับการพัฒนาแบบค่อยเป็นค่อยไปพร้อมๆ กัน ทรีมีสองเอนทิตี ซึ่งก็คือโหนดการตัดสินใจและโหนดปลายสุด

สารบัญ

หน่วยงานต่างๆ ของโครงสร้างการตัดสินใจ
- 1. โหนดการตัดสินใจ
- 2. โหนดใบ
การจำแนกต้นไม้การตัดสินใจ
- 1. ต้นไม้จำแนก
- 2. ต้นไม้ถดถอย
- ตัวอย่าง
บรรทัดล่าง
อะไรคือความแตกต่างระหว่างเอนโทรปีและจินีเจือปน?
การรับข้อมูลในแผนผังการตัดสินใจคืออะไร?
อะไรคือข้อเสียของต้นไม้การตัดสินใจ?

หน่วยงานต่างๆ ของโครงสร้างการตัดสินใจ

1. โหนดการตัดสินใจ

โหนดการตัดสินใจคือโหนดที่ข้อมูลแยกออก มักจะมีสองสาขาขึ้นไป

2. โหนดใบ

โหนดปลายสุดแสดงถึงผลลัพธ์ การจำแนกประเภท หรือการตัดสินใจของเหตุการณ์ ต้นไม้ไบนารีสำหรับ "สิทธิ์ในการประกวดนางงามอินเดีย":

ให้เรายกตัวอย่างของไบนารีทรีอย่างง่ายเพื่อทำความเข้าใจแผนผังการตัดสินใจ ให้เราพิจารณาว่าคุณต้องการค้นหาว่าผู้หญิงคนไหนมีสิทธิ์เข้าประกวดนางงามอย่างมิสอินเดีย

โหนดการตัดสินใจจะถามคำถามก่อนว่าเด็กหญิงคนนั้นมีถิ่นที่อยู่ในอินเดียหรือไม่ ถ้าใช่ เธอมีอายุระหว่าง 18 ถึง 25 ปีหรือไม่? ถ้าใช่ เธอมีสิทธิ์ อย่างอื่นไม่ ถ้าไม่มี เธอมีใบรับรองที่ถูกต้องหรือไม่? ถ้าใช่ เธอมีสิทธิ์ อย่างอื่นไม่ นี่เป็นปัญหาประเภทใช่หรือไม่ใช่ง่ายๆ ต้นไม้ตัดสินใจแบ่งออกเป็นสองประเภทหลัก:

ต้องอ่าน: ต้นไม้การตัดสินใจใน AI

การจำแนกต้นไม้การตัดสินใจ

1. ต้นไม้จำแนก

ต้นไม้การจำแนกประเภทเป็นต้นไม้ประเภทใช่หรือไม่ใช่อย่างง่าย คล้ายกับตัวอย่างที่เราได้เห็นข้างต้น ซึ่งผลลัพธ์มีตัวแปรเช่น 'มีสิทธิ์' หรือ 'ไม่มีสิทธิ์' ตัวแปรการตัดสินใจที่นี่คือหมวดหมู่

2. ต้นไม้ถดถอย

ในแผนผังการถดถอย ตัวแปรผลลัพธ์หรือการตัดสินใจจะต่อเนื่องกัน เช่น ตัวอักษรเช่น ABC

เมื่อคุณทราบโครงสร้างการตัดสินใจและประเภทของต้นไม้แล้ว เราก็สามารถเจาะลึกลงไปได้ แผนผังการตัดสินใจสามารถสร้างได้โดยใช้อัลกอริธึมมากมาย อย่างไรก็ตาม ID3 หรือ Iterative Dichotomiser 3 Algorithm นั้นดีที่สุด นี่คือจุดที่ เอนโทรปีของต้นไม้ตัดสินใจ เข้ามาในกรอบ

อัลกอริธึม ID3 ในการวนซ้ำทุกครั้งต้องผ่านแอตทริบิวต์ที่ไม่ได้ใช้ของชุด และคำนวณเอนโทรปี H(s) หรือข้อมูลที่ได้รับ IG(s) เนื่องจากเราสนใจที่จะรู้เกี่ยวกับ การตัดสินใจของต้นไม้เอนโทรปี มากขึ้นในบทความปัจจุบัน ให้เราเข้าใจคำว่าเอนโทรปีก่อนและทำให้มันง่ายขึ้นด้วยตัวอย่าง

เอนโทรปี: สำหรับเซตจำกัด S เอนโทรปีหรือที่เรียกว่าแชนนอนเอนโทรปีคือการวัดปริมาณของการสุ่มหรือความไม่แน่นอนในข้อมูล มันเขียนแทนด้วย H(S)

กล่าวอย่างง่าย ๆ มันทำนายเหตุการณ์บางอย่างโดยการวัดความบริสุทธิ์ โครงสร้างการตัดสินใจถูกสร้างขึ้นในลักษณะจากบนลงล่างและเริ่มต้นด้วยโหนดรูท ข้อมูลของโหนดรูทนี้ถูกแบ่งพาร์ติชันเพิ่มเติมหรือจำแนกเป็นเซตย่อยที่มีอินสแตนซ์ที่เป็นเนื้อเดียวกัน

ตัวอย่างเช่น พิจารณาจานที่ใช้ในร้านกาแฟที่มีคำว่า "we are open" เขียนอยู่ด้านหนึ่งและ "we are closed" อีกด้านหนึ่ง ความน่าจะเป็นของ "เราเปิด" คือ 0.5 และความน่าจะเป็นของ "เราถูกปิด" คือ 0.5 เนื่องจากไม่มีวิธีกำหนดผลลัพธ์ในตัวอย่างนี้ เอนโทรปีจึงเป็นค่าสูงสุดที่เป็นไปได้

จากตัวอย่างเดียวกัน ถ้าแผ่นจานมีเขียนว่า "we are open" ทั้งสองข้างเท่านั้น ก็สามารถทำนายเอนโทรปีได้ดีมากเพราะเรารู้อยู่แล้วว่าไม่ว่าจะอยู่ด้านหน้าหรือด้านหลัง เราก็ยังคงไป เพื่อให้ “เราเปิดกว้าง” กล่าวอีกนัยหนึ่ง มันไม่มีการสุ่ม หมายความว่าเอนโทรปีเป็นศูนย์ ควรจำไว้ว่ายิ่งค่าเอนโทรปีต่ำ เหตุการณ์ยิ่งมีความบริสุทธิ์สูง และค่าเอนโทรปียิ่งสูง ความบริสุทธิ์ของเหตุการณ์ก็จะยิ่งต่ำลง

อ่าน: การจำแนกต้นไม้การตัดสินใจ

ตัวอย่าง

ให้เราพิจารณาว่าคุณมี 110 ลูก 89 ลูกเป็นสีเขียว และ 21 ลูกเป็นสีน้ำเงิน คำนวณเอนโทรปีสำหรับชุดข้อมูลโดยรวม

จำนวนลูกทั้งหมด (n) = 110

เนื่องจากเรามีลูกบอลสีเขียว 89 ลูกจาก 110 ลูก ความน่าจะเป็นของสีเขียวจะเท่ากับ 80.91% หรือ 89 หารด้วย 110 ซึ่งให้ 0.8091 นอกจากนี้ ความน่าจะเป็นของลูกบอลสีเขียวคูณกับบันทึกของความน่าจะเป็นของสีเขียว ให้ 0.2473 ในที่นี้ควรจำไว้ว่าบันทึกความน่าจะเป็นจะเป็นจำนวนลบเสมอ ดังนั้นเราต้องแนบเครื่องหมายลบ นี้สามารถแสดงได้ง่ายๆดังนี้:

ตอนนี้ ทำขั้นตอนเดียวกันกับลูกบอลสีน้ำเงิน เรามี 21 จาก 110 ดังนั้น ความน่าจะเป็นของลูกบอลสีน้ำเงินคือ 19.09% หรือ 21 หารด้วย 110 ซึ่งให้ 0.1909 นอกจากนี้ ในการคูณความน่าจะเป็นของลูกบอลสีน้ำเงินกับบันทึกของความน่าจะเป็นของลูกบอลสีน้ำเงิน เราได้ 0.4561 ตามคำแนะนำข้างต้น เราจะแนบเครื่องหมายลบ เนื่องจากบันทึกของความน่าจะเป็นจะให้ผลลัพธ์เชิงลบเสมอ ซึ่งเราไม่ได้คาดหวัง แสดงสิ่งนี้อย่างง่าย:

ตอนนี้ Decision Tree Entrop y ของข้อมูลทั้งหมดถูกกำหนดโดยผลรวมของเอนโทรปีแต่ละรายการ เราต้องการผลรวมของผลคูณของความน่าจะเป็นของลูกบอลสีเขียวและบันทึกของความน่าจะเป็นของลูกบอลสีเขียวและผลคูณของความน่าจะเป็นของลูกบอลสีน้ำเงินและบันทึกของความน่าจะเป็นของลูกบอลสีน้ำเงิน

เอนโทรปี (ข้อมูลโดยรวม)= 0.2473 + 0.4561 =0.7034

นี่เป็นตัวอย่างหนึ่งที่จะช่วยให้คุณเข้าใจวิธีคำนวณเอนโทรปี หวังว่ามันค่อนข้างชัดเจน และคุณมีแนวคิดนี้ที่เข้าใจ การคำนวณ เอนโทรปีของต้นไม้ตัดสินใจ ไม่ใช่วิทยาศาสตร์จรวด

อย่างไรก็ตาม คุณต้องกระตือรือร้นในขณะที่ทำการคำนวณ เมื่ออยู่ในหน้านี้ เห็นได้ชัดว่าคุณเป็นคนที่กระตือรือร้นในการเรียนรู้ด้วยเครื่อง ดังนั้น คุณจึงถูกคาดหวังให้รู้ว่าบทบาทของรายละเอียดทุกนาทีมีความสำคัญเพียงใด แม้แต่ความผิดพลาดเพียงเล็กน้อยก็สร้างปัญหาได้ ดังนั้น คุณควรคำนวณให้ดีเสียก่อน

ชำระเงิน: ประเภทของไบนารีทรี

บรรทัดล่าง

โครงสร้างการตัดสินใจคือการเรียนรู้ของเครื่องภายใต้การดูแลที่ใช้อัลกอริธึมต่างๆ เพื่อสร้างโครงสร้างการตัดสินใจ ในบรรดาอัลกอริธึมต่างๆ อัลกอริทึม ID3 ใช้เอนโทรปี เอนโทรปีไม่ได้เป็นอะไรนอกจากการวัดความบริสุทธิ์ของเหตุการณ์

เรารู้ว่าอาชีพการเรียนรู้ด้วยเครื่องมีอนาคตที่สดใสและอาชีพที่เฟื่องฟู อุตสาหกรรมนี้ยังมีหนทางอีกยาวไกลที่จะไปถึงจุดสูงสุด และด้วยเหตุนี้โอกาสสำหรับผู้ที่ชื่นชอบการเรียนรู้ด้วยเครื่องจึงเพิ่มขึ้นอย่างมากพร้อมข้อดีอื่นๆ มากมาย สร้างตำแหน่งที่โดดเด่นของคุณในอุตสาหกรรมแมชชีนเลิร์นนิงด้วยความช่วยเหลือจากความรู้และทักษะที่เหมาะสม

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

อะไรคือความแตกต่างระหว่างเอนโทรปีและจินีเจือปน?

อัลกอริธึม Decision Tree เป็นวิธีการจัดหมวดหมู่ที่ใช้ในการทำนายโซลูชันที่เป็นไปได้และเชื่อถือได้ เอนโทรปีคำนวณในแผนผังการตัดสินใจเพื่อเพิ่มประสิทธิภาพ ชุดย่อยเหล่านี้ที่เสริมคุณสมบัติของทรีการตัดสินใจได้รับการคัดเลือกเพื่อให้ได้ความบริสุทธิ์ที่มากขึ้นโดยการคำนวณเอนโทรปี กำหนดความบริสุทธิ์ของส่วนประกอบในกลุ่มย่อยและแยกอินพุตตามลำดับ เอนโทรปีอยู่ระหว่าง 0 ถึง 1 Gini ยังวัดสิ่งเจือปนของข้อมูลเพื่อเลือกการแยกที่เหมาะสมที่สุด Gini Index หรือ Gini Impurity จะวัดว่าการแบ่งส่วนเกี่ยวกับคุณลักษณะต่างๆ ไม่ถูกต้องหรือไม่ ตามหลักการแล้วการแยกทั้งหมดควรมีการจำแนกประเภทเดียวกันเพื่อให้ได้ความบริสุทธิ์

การรับข้อมูลในแผนผังการตัดสินใจคืออะไร?

ต้นไม้การตัดสินใจเกี่ยวข้องกับการแยกส่วนจำนวนมากเพื่อให้ได้ความบริสุทธิ์ในชุดย่อย เมื่อความบริสุทธิ์สูงที่สุด การทำนายผลการตัดสินใจจะแข็งแกร่งที่สุด การรับข้อมูลเป็นกระบวนการคำนวณอย่างต่อเนื่องในการวัดสิ่งเจือปนที่แต่ละชุดย่อยก่อนที่จะแยกข้อมูลต่อไป การรับข้อมูลใช้เอนโทรปีเพื่อกำหนดความบริสุทธิ์นี้ ในแต่ละกลุ่มย่อย อัตราส่วนของตัวแปรต่างๆ ในชุดย่อยจะกำหนดปริมาณข้อมูลที่จำเป็นในการเลือกชุดย่อยเพื่อแยกย่อยเพิ่มเติม การรับข้อมูลจะมีความสมดุลมากขึ้นในสัดส่วนของตัวแปรในกลุ่มย่อย ซึ่งมีแนวโน้มว่าจะมีความบริสุทธิ์มากขึ้น

อะไรคือข้อเสียของต้นไม้การตัดสินใจ?

อัลกอริธึมแผนผังการตัดสินใจเป็นกลไกการเรียนรู้ของเครื่องที่ใช้กันอย่างแพร่หลายมากที่สุดสำหรับการตัดสินใจ คล้ายกับต้นไม้ ใช้โหนดเพื่อจัดประเภทข้อมูลเป็นชุดย่อยจนกว่าจะมีการตัดสินใจที่เหมาะสมที่สุด Decision Trees ช่วยทำนายวิธีแก้ปัญหาที่ประสบความสำเร็จ อย่างไรก็ตาม พวกเขามีข้อจำกัดเช่นกัน ต้นไม้แห่งการตัดสินใจขนาดยักษ์ที่มากเกินไปนั้นยากที่จะติดตามและรับรู้ นี่อาจเป็นเพราะข้อมูลที่มากเกินไป หากชุดข้อมูลถูกปรับแต่งในลักษณะใด ผลสะท้อนในการตัดสินใจขั้นสุดท้ายจะตามมา ดังนั้น Decision Trees อาจซับซ้อน แต่สามารถดำเนินการได้อย่างเหมาะสมด้วยการฝึกอบรม