تصنيف بايز ساذج: إيجابيات وسلبيات ، شرح التطبيقات والأنواع

نشرت: 2020-12-11

عندما تحتاج إلى خوارزمية سريعة لحل المشكلات ، فأين تذهب؟ تذهب إلى مصنف Naive Bayes. إنها خوارزمية سريعة وبسيطة يمكنها حل مشاكل التصنيف المختلفة. في هذه المقالة ، سوف نفهم ماهية هذه الخوارزمية ، وكيف تعمل ، وما هي صفاتها. هيا بنا نبدأ.

جدول المحتويات

ما هو مصنف بايز السذاجة؟
مزايا بايز السذاجة
عيوب السذاجة بايز
تطبيقات خوارزمية بايز السذاجة
أنواع مصنف بايز ساذج
- برنولي سايف بايز
- متعدد الحدود بايز السذاجة
- بايز غاوسيان ساذج
خاتمة
ما هي حدود Naive Bayes؟
ما هي أكبر ميزة وعيوب لمصنفات Naive Bayes؟
كيف يمكنني التوقف عن Overfitting في Naive Bayes؟

ما هو مصنف بايز السذاجة؟

يفصل مصنف Naive Bayes البيانات إلى فئات مختلفة وفقًا لنظرية بايز ، جنبًا إلى جنب مع افتراض أن جميع المتنبئين مستقلون عن بعضهم البعض. يفترض أن ميزة معينة في الفصل لا تتعلق بوجود ميزات أخرى.

على سبيل المثال ، يمكنك اعتبار الفاكهة بطيخًا إذا كانت خضراء ودائرية وقطرها 10 بوصات. يمكن أن تعتمد هذه الميزات على بعضها البعض في وجودها ، لكن كل واحدة منها تساهم بشكل مستقل في احتمال أن تكون الفاكهة قيد الدراسة بطيخًا. هذا هو السبب في أن هذا المصنف لديه مصطلح "ساذج" في اسمه.

تحظى هذه الخوارزمية بشعبية كبيرة لأنها يمكن أن تتفوق على تقنيات التصنيف المتقدمة للغاية. علاوة على ذلك ، الأمر بسيط للغاية ، ويمكنك بناؤه بسرعة.

ها هي نظرية بايز ، وهي أساس هذه الخوارزمية:

الفوسفور (ج | س) = الفوسفور (س | ج) الفوسفور (ج) / الفوسفور (س)

في هذه المعادلة ، يشير الحرف "c" إلى الفئة ، بينما يشير الحرف "x" إلى السمات. تشير P (c / x) إلى الاحتمال اللاحق للفئة وفقًا للتنبؤ. P (x) هو الاحتمال السابق للمتنبئ ، و P (c) هو الاحتمال السابق للفئة. يُظهر P (x / c) احتمال المتنبئ وفقًا للفئة.

قراءة: شرح بايز ساذج

مزايا بايز السذاجة

تعمل هذه الخوارزمية بسرعة كبيرة ويمكنها بسهولة التنبؤ بفئة مجموعة بيانات الاختبار.
يمكنك استخدامه لحل مشاكل التنبؤ متعددة الفئات لأنها مفيدة جدًا معهم.
يعمل مصنف Naive Bayes بشكل أفضل من النماذج الأخرى مع بيانات تدريب أقل إذا كان افتراض استقلالية الميزات ثابتًا.
إذا كان لديك متغيرات إدخال فئوية ، فإن خوارزمية Naive Bayes تعمل جيدًا بشكل استثنائي مقارنة بالمتغيرات الرقمية.

عيوب السذاجة بايز

إذا كانت مجموعة بيانات الاختبار الخاصة بك تحتوي على متغير فئوي لفئة لم تكن موجودة في مجموعة بيانات التدريب ، فسيقوم نموذج Naive Bayes بتعيين احتمالية صفرية لها ولن يكون قادرًا على إجراء أي تنبؤات في هذا الصدد. تسمى هذه الظاهرة "التردد الصفري" ، وسيتعين عليك استخدام أسلوب تجانس لحل هذه المشكلة.
تشتهر هذه الخوارزمية أيضًا بأنها مقدر رديء. لذلك ، لا يجب أن تأخذ نواتج احتمالية "توقع_بروبا" على محمل الجد.
يفترض أن جميع الميزات مستقلة. بينما قد يبدو رائعًا من الناحية النظرية ، في الحياة الواقعية ، بالكاد ستجد مجموعة من الميزات المستقلة.

تطبيقات خوارزمية بايز السذاجة

كما لاحظت ، توفر هذه الخوارزمية الكثير من المزايا لمستخدميها. لهذا السبب يحتوي على الكثير من التطبيقات في مختلف القطاعات أيضًا. فيما يلي بعض تطبيقات خوارزمية Naive Bayes:

نظرًا لأن هذه الخوارزمية سريعة وفعالة ، يمكنك استخدامها لعمل تنبؤات في الوقت الفعلي.
هذه الخوارزمية شائعة للتنبؤات متعددة الفئات. يمكنك بسهولة العثور على احتمال وجود فئات مستهدفة متعددة باستخدام هذه الخوارزمية.
تستخدم خدمات البريد الإلكتروني (مثل Gmail) هذه الخوارزمية لمعرفة ما إذا كان البريد الإلكتروني بريدًا عشوائيًا أم لا. هذه الخوارزمية ممتازة لتصفية البريد العشوائي.
إن افتراض استقلالية الميزة ، وفعاليتها في حل المشكلات متعددة الفئات ، يجعلها مثالية لأداء تحليل المشاعر. يشير تحليل المشاعر إلى تحديد المشاعر الإيجابية أو السلبية لمجموعة مستهدفة (العملاء والجمهور وما إلى ذلك)
يعمل التصفية التعاونية وخوارزمية Naive Bayes معًا لبناء أنظمة التوصية. تستخدم هذه الأنظمة التنقيب عن البيانات والتعلم الآلي للتنبؤ بما إذا كان المستخدم يرغب في مورد معين أم لا.

اقرأ أيضًا: شرح نماذج التعلم الآلي

أنواع مصنف بايز ساذج

هذه الخوارزمية لها أنواع متعددة. فيما يلي أهمها:

برنولي سايف بايز

هنا ، المتنبئين هم متغيرات منطقية. لذا ، فإن القيم الوحيدة التي لديك هي "صواب" و "خطأ" (يمكنك أيضًا الحصول على "نعم" أو "لا"). نستخدمها عندما تكون البيانات وفقًا لتوزيع برنولي متعدد المتغيرات.

متعدد الحدود بايز السذاجة

يستخدم الناس هذه الخوارزمية لحل مشاكل تصنيف المستندات. على سبيل المثال ، إذا كنت تريد تحديد ما إذا كان المستند ينتمي إلى فئة "قانوني" أو فئة "الموارد البشرية" ، فيمكنك استخدام هذه الخوارزمية لفرزها. يستخدم تواتر الكلمات الحالية كميزات.

بايز غاوسيان ساذج

إذا لم تكن المتنبئات منفصلة ولكن لها قيمة مستمرة ، فإننا نفترض أنها عينة من توزيع غاوسي.

خاتمة

نأمل أن تكون قد وجدت هذه المقالة مفيدة. إذا كانت لديك أي أسئلة تتعلق بخوارزمية Naive Bayes ، فلا تتردد في مشاركتها في قسم التعليقات. نحب أن نسمع منك.

إذا كنت مهتمًا بمعرفة المزيد عن الذكاء الاصطناعي والتعلم الآلي ، فراجع IIIT-B & upGrad's دبلوم PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، حالة خريجي IIIT-B ، أكثر من 5 مشاريع تكميلية عملية ومساعدة وظيفية مع أفضل الشركات.

ما هي حدود Naive Bayes؟

مصنف Bayes الساذج هو خوارزمية تستخدم لتصنيف مثيلات البيانات الجديدة باستخدام مجموعة من بيانات التدريب المعروفة. إنها خوارزمية جيدة للتصنيف ؛ ومع ذلك ، يجب أن يكون عدد الميزات مساويًا لعدد السمات في البيانات. إنه مكلف حسابيًا عند استخدامه لتصنيف عدد كبير من العناصر. انها ليست مناسبة للبيانات العددية. يمكن أن تعمل فقط عندما تكون الميزات مستقلة عن بعضها البعض. إنه غير مناسب عندما تكون قيم السمات اسمية. يتطلب أن تكون قيم الميزات متنافية. يتطلب أن يكون تواتر قيم السمات متناسبًا مع احتمال صحتها.

ما هي أكبر ميزة وعيوب لمصنفات Naive Bayes؟

أكبر ميزة لـ Naive Bayes هي أنه يمكن أن يعمل مع مجموعات بيانات صغيرة جدًا. إنها واحدة من أكثر الخوارزميات شيوعًا لتصفية البريد العشوائي. كما أنه سهل التنفيذ نسبيًا. يتم استخدامه دائمًا كمصنف. إذا لم تكن مجموعة البيانات متاحة ، فلا يزال بإمكان المرء استخدامها كخوارزمية تصنيف. تُستخدم هذه الخوارزمية في تصفية البريد الإلكتروني العشوائي ، كما تستخدمه Google لتصنيف صفحات الويب. ومع ذلك ، قد لا تكون فعالة في مشاكل التصنيف الأكثر تعقيدًا. يمكن أن تعمل فقط عندما تكون الميزات مستقلة عن بعضها البعض.

كيف يمكنني التوقف عن Overfitting في Naive Bayes؟

أحد أسباب فرط التجهيز هو وجود بيانات تدريب خاطئة. إذا كانت لديك مجموعة بيانات تدريب بها الكثير من الضوضاء ولديك الكثير من أمثلة التدريب ، فسوف ينظر المصنف إلى الضوضاء في بيانات التدريب وليس النمط الأساسي الذي تحاول بناء نموذج له. سبب آخر هو أن نموذجك معقد للغاية. إذا كان لديك نموذج يمكن أن يتسبب فيه تغيير بسيط في الإدخال في حدوث تغيير كبير في الإخراج ، فيمكنك الحصول على التخصيص. حل آخر هو استخدام التسوية. سيؤدي التنظيم إلى تقليص الفروع الطويلة في نموذجك. ينعم النموذج الخاص بك ويمنع فرط التجهيز.