5 أنواع خوارزميات التصنيف في التعلم الآلي [2022]

نشرت: 2021-01-02

جدول المحتويات

مقدمة

يعد التعلم الآلي من أهم الموضوعات في الذكاء الاصطناعي. وهي مقسمة أيضًا إلى التعلم الخاضع للإشراف وغير الخاضع للإشراف والذي يمكن أن يكون مرتبطًا بتحليل البيانات المصنفة وغير المصنفة أو التنبؤ بالبيانات. في التعلم الخاضع للإشراف ، لدينا نوعان آخران من مشاكل الأعمال تسمى الانحدار والتصنيف.

التصنيف عبارة عن خوارزمية تعلم آلي حيث نحصل على البيانات المصنفة كمدخلات ونحتاج إلى توقع المخرجات في الفصل. إذا كان هناك فئتان ، فإنه يسمى التصنيف الثنائي. إذا كان هناك أكثر من فئتين ، فإنه يسمى تصنيف متعدد الفئات. في سيناريوهات العالم الحقيقي ، نميل إلى رؤية كلا النوعين من التصنيف.

سنحقق في هذه المقالة في بعض أنواع خوارزميات التصنيف جنبًا إلى جنب مع مزاياها وعيوبها. هناك العديد من خوارزميات التصنيف المتاحة ولكن دعونا نركز على الخوارزميات الخمسة أدناه:

الانحدار اللوجستي
K أقرب الجار
أشجار القرار
غابة عشوائية
دعم آلات النواقل

1. الانحدار اللوجستي

على الرغم من أن الاسم يشير إلى الانحدار ، إلا أنها خوارزمية تصنيف. الانحدار اللوجستي هو طريقة إحصائية لتصنيف البيانات التي يوجد فيها واحد أو أكثر من المتغيرات أو السمات المستقلة التي تحدد النتيجة التي يتم قياسها باستخدام متغير (TARGET) يحتوي على فئتين أو أكثر. هدفها الرئيسي هو العثور على أفضل نموذج مناسب لوصف العلاقة بين المتغير المستهدف والمتغيرات المستقلة.

الايجابيات

1) سهل التنفيذ والتفسير وفعال للتدريب لأنه لا يقدم أي افتراضات وهو سريع في التصنيف.

2) يمكن استخدامها لتصنيف متعدد الفئات.

3) إنه أقل عرضة للإفراط في التركيب ولكنه يتناسب مع مجموعات البيانات عالية الأبعاد.

سلبيات

1) تتعطل عندما تكون الملاحظات أقل من الميزات.

2) يعمل فقط مع وظائف منفصلة.

3) لا يمكن حل المشاكل غير الخطية.

4) يصعب تعلم الأنماط المعقدة وعادة ما تتفوق الشبكات العصبية عليها.

2. K أقرب الجار

تستخدم خوارزمية K- الأقرب للجيران (KNN) تقنية "تشابه الميزات" أو "الجيران الأقرب" للتنبؤ بالمجموعة التي تقع فيها نقطة بيانات جديدة. فيما يلي بعض الخطوات التي يمكننا من خلالها فهم عمل هذه الخوارزمية بشكل أفضل

الخطوة 1 - لتنفيذ أي خوارزمية في التعلم الآلي ، نحتاج إلى مجموعة بيانات نظيفة وجاهزة للنمذجة. لنفترض أن لدينا بالفعل مجموعة بيانات نظيفة تم تقسيمها إلى مجموعة بيانات تدريب واختبار.

الخطوة 2 - نظرًا لأن لدينا مجموعات البيانات جاهزة بالفعل ، نحتاج إلى اختيار قيمة K (عدد صحيح) التي تخبرنا عن عدد نقاط البيانات الأقرب التي يجب أن نأخذها في الاعتبار لتنفيذ الخوارزمية. يمكننا التعرف على كيفية تحديد قيمة k في المراحل اللاحقة من المقالة.

الخطوة 3 - هذه الخطوة تكرارية ويجب تطبيقها على كل نقطة بيانات في مجموعة البيانات

احسب المسافة بين بيانات الاختبار وكل صف من بيانات التدريب باستخدام أي من مقياس المسافة
المسافة الإقليدية
مسافة مانهاتن
مسافة مينكوفسكي
مسافة المطرقة.

يميل العديد من علماء البيانات إلى استخدام المسافة الإقليدية ، لكن يمكننا التعرف على أهمية كل واحدة في المرحلة اللاحقة من هذه المقالة.

نحتاج إلى فرز البيانات بناءً على مقياس المسافة الذي استخدمناه في الخطوة أعلاه.

اختر أعلى صفوف K في البيانات المحولة التي تم فرزها.

ثم تقوم بتعيين فئة لنقطة الاختبار بناءً على الفئة الأكثر شيوعًا في هذه الصفوف.

الخطوة 4 - النهاية

الايجابيات

سهل الاستخدام والفهم والتفسير.
وقت الحساب السريع.
لا توجد افتراضات حول البيانات.
دقة عالية في التنبؤات.
متعدد الاستخدامات - يمكن استخدامه لكل من مشاكل الأعمال المتعلقة بالتصنيف والانحدار.
يمكن استخدامها أيضًا في حل المشكلات متعددة الفئات.
لدينا معلمة Hyper واحدة فقط للتعديل في خطوة Hyperparameter Tuning.

سلبيات

مكلفة من الناحية الحسابية وتتطلب ذاكرة عالية حيث تقوم الخوارزمية بتخزين جميع بيانات التدريب.
تصبح الخوارزمية أبطأ مع زيادة المتغيرات.
إنه حساس جدًا للميزات غير ذات الصلة.
لعنة الأبعاد.
اختيار القيمة المثلى لـ K.
فئة مجموعة البيانات غير المتوازنة سوف تسبب مشكلة.
القيم المفقودة في البيانات تسبب أيضًا مشكلة.

قراءة: أفكار مشروع التعلم الآلي

3. أشجار القرار

يمكن استخدام أشجار القرار لكل من التصنيف والانحدار حيث يمكنها التعامل مع البيانات العددية والفئوية. يقوم بتقسيم مجموعة البيانات إلى مجموعات فرعية أو عقد أصغر وأصغر مع تطور الشجرة. تحتوي شجرة القرار على مخرجات مع عقد القرار والأوراق حيث تحتوي عقدة القرار على فرعين أو أكثر بينما تمثل العقدة الطرفية قرارًا. العقدة العلوية التي تتوافق مع أفضل متنبئ تسمى عقدة الجذر.

الايجابيات

سهل الفهم
تصور سهل
تفسير أقل للبيانات
يتعامل مع البيانات العددية والفئوية.

سلبيات

في بعض الأحيان لا تعمم بشكل جيد
غير مستقر للتغييرات في بيانات الإدخال

4. الغابات العشوائية

الغابات العشوائية هي طريقة تعلم جماعية يمكن استخدامها للتصنيف والانحدار. وهي تعمل من خلال بناء العديد من أشجار القرار وإخراج النتائج بأخذ متوسط كل أشجار القرار في مشاكل الانحدار أو تصويت الأغلبية في مشاكل التصنيف. يمكنك التعرف من الاسم نفسه على أن مجموعة من الأشجار تسمى غابة.

الايجابيات

يمكنه التعامل مع مجموعات البيانات الكبيرة.
سينتج أهمية المتغيرات.
يمكنه التعامل مع القيم المفقودة.

سلبيات

إنها خوارزمية الصندوق الأسود.
التنبؤ بالوقت الحقيقي البطيء والخوارزميات المعقدة.

5. دعم ناقلات الآلات

آلة ناقلات الدعم هي تمثيل لمجموعة البيانات كنقاط في الفضاء مقسمة إلى فئات بواسطة فجوة أو خط واضح إلى أقصى حد ممكن. يتم الآن تعيين نقاط البيانات الجديدة في نفس المساحة ويتم تصنيفها على أنها تنتمي إلى فئة بناءً على أي جانب من الخط أو الفصل الذي تقع فيه.

الايجابيات

يعمل بشكل أفضل في المساحات عالية الأبعاد.
يستخدم مجموعة فرعية من نقاط بيانات التدريب في وظيفة القرار مما يجعلها خوارزمية فعالة للذاكرة.

سلبيات

لن تقدم تقديرات احتمالية.
يمكن حساب تقديرات الاحتمالية باستخدام التحقق المتقاطع ولكنه يستغرق وقتًا طويلاً.

اقرأ أيضًا: مهنة في تعلم الآلة

خاتمة

لقد ناقشنا في هذه المقالة فيما يتعلق بخوارزميات التصنيف الخمسة وتعريفاتها الموجزة وإيجابياتها وسلبياتها. هذه ليست سوى عدد قليل من الخوارزميات التي قمنا بتغطيتها ولكن هناك خوارزميات أكثر قيمة مثل Naive Bayes ، والشبكات العصبية ، والانحدار اللوجستي المطلوب. لا يمكن للمرء أن يعرف الخوارزمية التي تعمل بشكل جيد مع أي مشكلة ، لذا فإن أفضل الممارسات هي تجربة القليل منها واختيار النموذج النهائي بناءً على مقاييس التقييم.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

ما هو الغرض الرئيسي من استخدام الانحدار اللوجستي؟

يستخدم الانحدار اللوجستي بشكل رئيسي في الاحتمالات الإحصائية. يستخدم معادلة الانحدار اللوجستي لفهم العلاقة بين المتغيرات التابعة والمتغيرات المستقلة الموجودة في البيانات المقدمة. يتم ذلك عن طريق تقدير احتمالات الحدث الفردي. نموذج الانحدار اللوجستي مشابه جدًا لنموذج الانحدار الخطي ، ومع ذلك ، يفضل استخدامه حيث يكون المتغير التابع الوارد في البيانات ثنائي التفرع.

كيف يختلف SVM عن الانحدار اللوجستي؟

على الرغم من أن SVM يوفر دقة أكثر من نماذج الانحدار اللوجستي ، إلا أنه معقد للاستخدام ، وبالتالي فهو ليس سهل الاستخدام. في حالة وجود كميات كبيرة من البيانات ، لا يفضل استخدام SVM. بينما يتم استخدام SVM لحل مشاكل الانحدار والتصنيف ، فإن الانحدار اللوجستي لا يحل سوى مشاكل التصنيف بشكل جيد. على عكس SVM ، يعتبر الإفراط في التركيب أمرًا شائعًا عند استخدام الانحدار اللوجستي. أيضًا ، يكون الانحدار اللوجستي أكثر عرضة للقيم المتطرفة عند مقارنته بآلات ناقلات الدعم.

هل شجرة الانحدار نوع من شجرة القرار؟

نعم ، أشجار الانحدار هي أساسًا أشجار قرارات تُستخدم لمهام الانحدار. تُستخدم نماذج الانحدار لفهم العلاقة بين المتغيرات التابعة والمتغيرات المستقلة التي نشأت بالفعل عن طريق تقسيم مجموعة البيانات الأولية المحددة. يمكن استخدام أشجار الانحدار فقط عندما تتكون شجرة القرار من متغير هدف مستمر.