Multinomial Naive Bayes อธิบาย: หน้าที่ ข้อดี & ข้อเสีย การนำไปใช้ในปี 2022

เผยแพร่แล้ว: 2021-01-03

สารบัญ

บทนำ

มีซอฟต์แวร์หรือเครื่องมือมากมายสำหรับการวิเคราะห์ข้อมูลตัวเลข แต่มีข้อความน้อยมาก Multinomial Naive Bayes เป็นหนึ่งในการจัดประเภทการเรียนรู้ภายใต้การดูแลที่ได้รับความนิยมมากที่สุดซึ่งใช้สำหรับการวิเคราะห์ข้อมูลข้อความที่จัดหมวดหมู่

การจัดประเภทข้อมูลข้อความกำลังได้รับความนิยมเนื่องจากมีข้อมูลจำนวนมากในอีเมล เอกสาร เว็บไซต์ ฯลฯ ที่ต้องวิเคราะห์ การรู้บริบทเกี่ยวกับข้อความบางประเภทช่วยในการค้นหาการรับรู้ของซอฟต์แวร์หรือผลิตภัณฑ์ต่อผู้ใช้ที่จะใช้งาน

บทความนี้จะให้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับอัลกอริธึม Naive Bayes แบบหลายชื่อและแนวคิดทั้งหมดที่เกี่ยวข้อง เรามาดูภาพรวมคร่าวๆ ของอัลกอริทึม วิธีการทำงาน ประโยชน์และการใช้งานของอัลกอริทึม

อัลกอริธึม Multinomial Naive Bayes คืออะไร?

อัลกอริธึม Multinomial Naive Bayes เป็นวิธีการเรียนรู้ความน่าจะเป็นที่ส่วนใหญ่ใช้ในการประมวลผลภาษาธรรมชาติ (NLP) อัลกอริทึมนี้ใช้ทฤษฎีบท Bayes และคาดการณ์แท็กของข้อความ เช่น ชิ้นส่วนของอีเมลหรือบทความในหนังสือพิมพ์ จะคำนวณความน่าจะเป็นของแต่ละแท็กสำหรับตัวอย่างที่กำหนด จากนั้นให้แท็กที่มีความน่าจะเป็นสูงสุดเป็นผลลัพธ์

ตัวแยกประเภท Naive Bayes คือชุดของอัลกอริธึมจำนวนมากที่อัลกอริธึมทั้งหมดมีหลักการร่วมกันเพียงข้อเดียว และคุณลักษณะแต่ละอย่างที่จัดประเภทนั้นไม่เกี่ยวข้องกับคุณลักษณะอื่นใด การมีหรือไม่มีคุณลักษณะนี้จะไม่ส่งผลต่อการมีอยู่หรือไม่มีคุณลักษณะอื่น

เข้าร่วม การฝึกอบรมแมชชีนเลิร์นนิ่ง ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท หลักสูตร Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

Multinomial Naive Bayes ทำงานอย่างไร

Naive Bayes เป็นอัลกอริธึมที่ทรงพลังซึ่งใช้สำหรับการวิเคราะห์ข้อมูลข้อความและมีปัญหากับหลายคลาส เพื่อให้เข้าใจการทำงานของทฤษฎีบท Naive Bayes สิ่งสำคัญคือต้องเข้าใจแนวคิดของทฤษฎีบท Bayes ก่อน เนื่องจากแนวคิดนี้มีพื้นฐานมาจากแนวคิดหลัง

ทฤษฎีบท Bayes ซึ่งกำหนดโดย Thomas Bayes คำนวณความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นตามความรู้เดิมเกี่ยวกับเงื่อนไขที่เกี่ยวข้องกับเหตุการณ์ มันขึ้นอยู่กับสูตรต่อไปนี้:

P(A|B) = P(A) * P(B|A)/P(B)

ที่ซึ่งเรากำลังคำนวณความน่าจะเป็นของคลาส A เมื่อมีการระบุตัวทำนาย B แล้ว

P(B) = ความน่าจะเป็นก่อนหน้าของ B

P(A) = ความน่าจะเป็นก่อนหน้าของคลาส A

P(B|A) = การเกิดขึ้นของตัวทำนาย B เมื่อพิจารณาความน่าจะเป็นของคลาส A

สูตรนี้ช่วยในการคำนวณความน่าจะเป็นของแท็กในข้อความ

ให้เราเข้าใจอัลกอริทึม Naive Bayes ด้วยตัวอย่าง ในตารางด้านล่าง เราได้นำชุดข้อมูลสภาพอากาศที่มีแดดจัด มืดครึ้ม และมีฝนตก ตอนนี้ เราต้องคาดการณ์ความน่าจะเป็นที่ผู้เล่นจะเล่นตามสภาพอากาศหรือไม่

ต้องอ่าน: รู้เบื้องต้นเกี่ยวกับ Naive Bayes

ชุดข้อมูลการฝึก

สภาพอากาศ แดดจัด มืดครึ้ม ฝนตก แดดจัด แดดจัด มืดครึ้ม ฝนตก ฝนตก แดดจัด ฝนตก แดดจัด มืดครึ้ม มืดครึ้ม ฝนตก
เล่น ไม่ ใช่ ใช่ ใช่ ใช่ ใช่ ไม่ ไม่ ใช่ ใช่ ไม่ ใช่ ใช่ ไม่

สามารถคำนวณได้ง่ายโดยทำตามขั้นตอนที่กำหนดด้านล่าง:

สร้างตารางความถี่ของชุดข้อมูลการฝึกอบรมที่ระบุในข้อความแจ้งปัญหาข้างต้น นับจำนวนสภาพอากาศทั้งหมดเทียบกับสภาพอากาศที่เกี่ยวข้อง

สภาพอากาศ ใช่ ไม่
แดดจัด 3 2
มืดครึ้ม 4 0
ฝนตก 2 3
รวม 9 5

ค้นหาความน่าจะเป็นของสภาพอากาศแต่ละอย่างและสร้างตารางความน่าจะเป็น

สภาพอากาศ ใช่ ไม่
แดดจัด 3 2 =5/14(0.36)
มืดครึ้ม 4 0 =4/14(0.29)
ฝนตก 2 3 =5/14(0.36)
รวม 9 5
=9/14 (0.64) =5/14 (0.36)

คำนวณความน่าจะเป็นภายหลังสำหรับสภาพอากาศแต่ละอย่างโดยใช้ทฤษฎีบท Naive Bayes สภาพอากาศที่มีโอกาสเป็นไปได้สูงที่สุดจะเป็นผลจากการที่ผู้เล่นจะลงเล่นหรือไม่

ใช้สมการต่อไปนี้เพื่อคำนวณความน่าจะเป็นภายหลังของสภาพอากาศทั้งหมด:

P(A|B) = P(A) * P(B|A)/P(B)

หลังจากแทนที่ตัวแปรในสูตรข้างต้น เราได้รับ:

P(ใช่|ซันนี่) = P(ใช่) * P(ซันนี่|ใช่) / P(ซันนี่)

นำค่าจากตารางความน่าจะเป็นด้านบนมาใส่ในสูตรข้างต้น

P(ซันนี่|ใช่) = 3/9 = 0.33, P(ใช่) = 0.64 และ P(ซันนี่) = 0.36

ดังนั้น P(ใช่|ซันนี่) = (0.64*0.33)/0.36 = 0.60

P(ไม่|ซันนี่) = P(ไม่) * P(ซันนี่|ไม่) / P(ซันนี่)

นำค่าจากตารางความน่าจะเป็นด้านบนมาใส่ในสูตรข้างต้น

P(ซันนี่|ไม่) = 2/5 = 0.40, P(ไม่ใช่) = 0.36 และ P(ซันนี่) = 0.36

P(ไม่|ซันนี่) = (0.36*0.40)/0.36 = 0.6 = 0.40

ความน่าจะเป็นที่จะเล่นในสภาพอากาศที่มีแดดจัดจะสูงขึ้น ดังนั้นผู้เล่นจะเล่นหากสภาพอากาศมีแดด

ในทำนองเดียวกัน เราสามารถคำนวณความน่าจะเป็นภายหลังของสภาพฝนตกและมืดครึ้ม และพิจารณาจากความน่าจะเป็นสูงสุด เราสามารถคาดเดาได้ว่าผู้เล่นจะเล่นหรือไม่

ชำระเงิน: อธิบายแบบจำลองการเรียนรู้ของเครื่อง

ข้อดี

อัลกอริทึม Naive Bayes มีข้อดีดังต่อไปนี้:

  • ง่ายต่อการใช้งาน เนื่องจากคุณต้องคำนวณความน่าจะเป็นเท่านั้น
  • คุณสามารถใช้อัลกอริทึมนี้กับข้อมูลทั้งแบบต่อเนื่องและแบบไม่ต่อเนื่องได้
  • มันง่ายและสามารถใช้สำหรับการทำนายแอปพลิเคชันตามเวลาจริง
  • สามารถปรับขนาดได้สูงและสามารถจัดการชุดข้อมูลขนาดใหญ่ได้อย่างง่ายดาย

ข้อเสีย

อัลกอริทึม Naive Bayes มีข้อเสียดังต่อไปนี้:

  • ความแม่นยำในการทำนายของอัลกอริธึมนี้ต่ำกว่าอัลกอริธึมความน่าจะเป็นอื่นๆ
  • ไม่เหมาะสำหรับการถดถอย อัลกอริธึม Naive Bayes ใช้สำหรับการจัดประเภทข้อมูลที่เป็นข้อความเท่านั้น และไม่สามารถใช้ทำนายค่าตัวเลขได้

แอปพลิเคชั่น

อัลกอริทึม Naive Bayes ใช้ในสถานที่ต่อไปนี้:

  • การจดจำใบหน้า
  • พยากรณ์อากาศ
  • การวินิจฉัยทางการแพทย์
  • การตรวจจับสแปม
  • การระบุอายุ/เพศ
  • การระบุภาษา
  • การวิเคราะห์ทางอารมณ์
  • การระบุผู้แต่ง
  • การจัดหมวดหมู่ข่าว

บทสรุป

การเรียนรู้อัลกอริธึม Multinomial Naive Bayes นั้นคุ้มค่า เนื่องจากมีแอพพลิเคชั่นมากมายในหลายอุตสาหกรรม และการคาดคะเนของอัลกอริธึมนี้ทำได้รวดเร็วอย่างแท้จริง การจัดหมวดหมู่ข่าวสารเป็นหนึ่งในกรณีการใช้งานที่ได้รับความนิยมมากที่สุดของอัลกอริทึม Naive Bayes มีการใช้อย่างแพร่หลายในการจำแนกข่าวออกเป็นส่วนต่างๆ เช่น การเมือง ระดับภูมิภาค ระดับโลก และอื่นๆ

บทความนี้ครอบคลุมทุกสิ่งที่คุณควรรู้เพื่อเริ่มต้นใช้งานอัลกอริธึม Multinomial Naive Bayes และการทำงานของตัวแยกประเภท Naive Bayes ทีละขั้นตอน

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับ AI, แมชชีนเลิร์นนิง, ลองดู โปรแกรม Executive PG ของ IIIT-B & upGrad ในการเรียนรู้ของเครื่องและ AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ , สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

คุณหมายถึงอะไรโดยอัลกอริทึม multinomial naive bayes?

อัลกอริธึม Multinomial Naive Bayes เป็นวิธีการเรียนรู้แบบ Bayesian ที่ได้รับความนิยมในการประมวลผลภาษาธรรมชาติ (NLP) โปรแกรมจะเดาแท็กของข้อความ เช่น อีเมลหรือเรื่องราวในหนังสือพิมพ์ โดยใช้ทฤษฎีบทเบย์ จะคำนวณความน่าจะเป็นของแต่ละแท็กสำหรับตัวอย่างที่กำหนดและส่งออกแท็กที่มีโอกาสมากที่สุด ตัวแยกประเภท Naive Bayes ประกอบด้วยอัลกอริธึมจำนวนหนึ่งซึ่งทั้งหมดมีสิ่งหนึ่งที่เหมือนกัน: แต่ละคุณลักษณะที่ถูกจัดประเภทนั้นไม่เกี่ยวข้องกับคุณลักษณะอื่นใด การมีอยู่หรือไม่มีของคุณลักษณะไม่มีผลต่อการรวมหรือการยกเว้นของคุณลักษณะอื่น

อัลกอริทึม multinomial naive bayes ทำงานอย่างไร

วิธี Naive Bayes เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์การป้อนข้อความและแก้ปัญหาในชั้นเรียนจำนวนมาก เนื่องจากทฤษฎีบท Naive Bayes มีพื้นฐานมาจากทฤษฎีบท Bayes จึงจำเป็นต้องเข้าใจแนวคิดของทฤษฎีบท Bayes ก่อน ทฤษฎีบท Bayes ซึ่งพัฒนาโดย Thomas Bayes ประเมินความเป็นไปได้ที่จะเกิดขึ้นตามความรู้เดิมเกี่ยวกับเงื่อนไขของเหตุการณ์ เมื่อตัวทำนาย B พร้อมใช้งาน เราจะคำนวณความน่าจะเป็นของคลาส A โดยอิงจากสูตรด้านล่าง: P(A|B) = P(A) * P(B|A)/P(B)

ข้อดีและข้อเสียของอัลกอริทึม multinomial naive bayes คืออะไร?

ใช้งานได้ง่ายเพราะสิ่งที่คุณต้องทำคือคำนวณความน่าจะเป็น วิธีนี้ใช้ได้กับข้อมูลทั้งแบบต่อเนื่องและแบบไม่ต่อเนื่อง ตรงไปตรงมาและสามารถใช้เพื่อคาดการณ์แอปพลิเคชันแบบเรียลไทม์ สามารถปรับขนาดได้มากและสามารถจัดการชุดข้อมูลขนาดใหญ่ได้อย่างง่ายดาย

ความแม่นยำในการทำนายของอัลกอริธึมนี้ต่ำกว่าอัลกอริธึมความน่าจะเป็นอื่นๆ ไม่เหมาะสำหรับการถดถอย เทคนิค Naive Bayes สามารถใช้เพื่อจัดประเภทการป้อนข้อความเท่านั้น และไม่สามารถใช้ในการประมาณค่าตัวเลขได้