مقدمة في خوارزمية التصنيف: مفاهيم وأنواع مختلفة
نشرت: 2020-04-13تساعدك خوارزميات التصنيف في تقسيم بياناتك إلى فئات مختلفة. تمامًا مثلما تريد فرز الأشياء أثناء التعبئة ، تساعدك خوارزمية التصنيف في تصنيف البيانات. في هذه المقالة ، سوف نلقي نظرة على ماهية خوارزميات التصنيف ، وأنواع خوارزميات التصنيف ، وبعض المفاهيم الأساسية لهذا الموضوع ، وكيفية عملها.
جدول المحتويات
ماذا يعني التصنيف؟
للتنبؤ بالفئة المستهدفة ، عندما نستخدم مجموعة بيانات التدريب الخاصة بنا للحصول على شروط حدودية ، فإننا نطلق على هذا التصنيف العملية. هناك العديد من أنواع الفئات المستهدفة التي يمكنك تحقيقها. على سبيل المثال ، افترض أنك تريد توقع ما إذا كان عملاؤك سيشترون منتجًا معينًا أم لا وفقًا لبيانات العميل التي لديك. في هذه الحالة ، ستكون الفئات المستهدفة إما "نعم" أو "لا".
من ناحية أخرى ، قد ترغب في تصنيف الخضروات وفقًا لوزنها أو حجمها أو لونها. في هذا السيناريو ، قد تكون الفئات المستهدفة المتاحة هي السبانخ والطماطم والبصل والبطاطس والملفوف. يمكنك أيضًا تصنيف الجنس ، حيث ستكون الفصول المستهدفة إناث وذكور.
دعونا نفهم قليلاً كيف تعمل خوارزمية التصنيف من خلال النظر في المثال الثالث. يمكننا الحفاظ على طول الشعر كمعامل ميزة ، على الرغم من أنه من أجل هذا المثال فقط. يمكننا تدريب نموذجنا باستخدام خوارزمية التصنيف والسماح له بتحديد شروط الحدود لإجراء التمايز بين الجنسين من الذكور والإناث من خلال معلمة الميزة المحددة ، أي طول الشعر.
المفاهيم الأساسية للتصنيف
قبل أن نبدأ في مناقشة خوارزميات التصنيف بشكل أكبر ، يجب أن تكون على دراية بالعديد من التعريفات. بهذه الطريقة ، ستكون قادرًا على تجنب أي ارتباك لاحقًا:
سمات
إنها خاصية فردية قابلة للقياس لظاهرة معينة نلاحظها في وقت ما.

المصنفات
المصنف هو خوارزمية ترسم بيانات إدخال نموذج إلى فئة معينة.
نماذج التصنيف
يجب أن تستنتج نماذج التصنيف قيم المدخلات التي نعطيها للنموذج أثناء التدريب. تتنبأ هذه النماذج بالفئات (تسميات الفئات) للبيانات الجديدة التي نقدمها لهم.
تصنيف متعدد التسمية
التصنيف متعدد العلامات هو عندما نقوم بتعيين كل عينة لمجموعة من التسميات المستهدفة لفئات متعددة. على سبيل المثال ، يمكن أن تحتوي الحقيبة المدرسية على كتب وصندوق غذاء وأقلام في نفس الوقت.
تصنيف متعدد الفئات
التصنيف متعدد الفئات هو عندما نخصص كل عينة لتسمية هدف واحدة فقط. يحدث عندما يكون لدينا أكثر من فصلين. على سبيل المثال ، يمكن أن تكون السيارة متحركة أو متوقفة ، ولكن ليس كلاهما في نفس الوقت.
التصنيف الثنائي
التصنيف الثنائي هو عندما يكون لدينا فئتان محتملتان فقط. على سبيل المثال ، يمكن أن يكون جنس الشخص ذكرًا أو أنثى.
أنواع خوارزميات التصنيف
فيما يلي جميع أنواع خوارزميات التصنيف:

- تقدير النواة
(K- الجار الأقرب)
- المصنفات الخطية
(الانحدار اللوجستي ، ومميز فيشر الخطي ، ومصنف Naive Bayes)
- المصنفات التربيعية
- الشبكات العصبية
- تعلم تكميم المتجهات
- دعم آلات المتجهات
(المربعات الصغرى تدعم آلات المتجهات)
دعنا الآن نناقش بعض الأنواع الأساسية لخوارزميات التصنيف:
تعرف على المزيد: أنواع خوارزميات التعلم الآلي مع أمثلة من حالات الاستخدام
K- أقرب الجار
K- الجار الأقرب ، المعروف أيضًا باسم KNN ، هو خوارزمية شائعة لحل مشاكل الانحدار والتصنيف. يصنف الحالات الجديدة وفقًا لتصويت الجيران ك. نحدد k- أقرب الجيران باستخدام وظائف المسافة. أكثر وظائف المسافة شيوعًا هي Euclidean ، ولكن هناك خيارات أخرى أيضًا ، مثل Manhattan و Hamming.
لفهم KNN ، يمكنك إلقاء نظرة على مثال من الحياة الواقعية. افترض أنك تريد إقامة صداقة مع شخص ليس لديك الكثير من المعلومات عنه. للتعرف عليهم بشكل أفضل ، عليك أولاً التحدث إلى أصدقائهم وزملائهم للحصول على فكرة عما يعجبهم. هذه هي الطريقة التي تعمل بها خوارزمية KNN.
أثناء استخدام خوارزمية k- الجار الأقرب ، تأكد من تطبيع المتغيرات حيث يمكن لمتغيرات النطاق الأعلى تطوير تحيز. علاوة على ذلك ، فإن خوارزميات KNN باهظة الثمن من الناحية الحسابية.
أشجار القرار
تساعدك أشجار القرار على توقع النتائج المحتملة وفقًا لسلسلة من الخيارات. إنها خوارزمية تعلم خاضعة للإشراف وتستخدم ميزات مختلفة مع متغيرات تابعة مستمرة وفئوية.
على سبيل المثال ، افترض أنك تريد الخروج لشراء فواكه لنفسك ، لكنك لاحظت أن الطقس غائم. الآن ، لديك خياران ، قد تذهب ، أو ربما لن تفعل. إذا ذهبت ، فقد تمطر ، ثم يتعين عليك العودة خالي الوفاض. من ناحية أخرى ، إذا لم تمطر ، يمكنك شراء الفاكهة التي تحتاج إلى شرائها. لقد كان مثالًا بسيطًا يحتوي على متغيرات متعددة ، لكنك حصلت على الفكرة.
اقرأ أيضًا: شجرة القرار في R
الانحدار اللوجستي
الانحدار اللوجستي ليس خوارزمية انحدار. يقدر الانحدار اللوجستي القيم المنفصلة وفقًا لمجموعة معينة من المتغيرات المستقلة. بمعنى آخر ، يتنبأ بفرص حدوث حدث باستخدام وظيفة السجل. لهذا السبب يحمل أيضًا اسم الانحدار اللوغاريتمي.
نظرًا لأنه تم تصميم الانحدار اللوجستي من أجل التصنيف ، فهو خيار شائع بين الخبراء. أيضًا ، إنها الخوارزمية الأكثر ملاءمة لفهم تأثير المتغيرات المستقلة المختلفة على نتيجة محتملة. عيبه هو أنه يعمل فقط مع المتغيرات الثنائية التي يمكن التنبؤ بها ويفترض أن بياناته لا تحتوي على أي قيم مفقودة.
دعم شاحنات النقل
في آلة المتجه الداعمة ، تكون قيمة كل ميزة هي قيمة إحداثيات معينة ، وكل عنصر هو نقطة في الفضاء ذي البعد n. هنا ، تشير كلمة "n" إلى عدد الميزات التي لديك.

لنفترض أن لديك سمتان ، طول الشعر ، والطول. في هذه الحالة ، سنقوم أولاً برسم هذه المتغيرات في فضاء ثنائي الأبعاد ، ولكل نقطة إحداثيان. نسمي هذه الإحداثيات متجهات الدعم ؛ لهذا السبب تسمى هذه الخوارزمية Support Vector Machine.
بعد أن نرسم هذه النقاط ، سنجد خطًا يقسم البيانات إلى مجموعتين مصنفتين بشكل واضح. هذا الخط هو المصنف ، وسننشئ فئات وفقًا للجانب الذي تكمن فيه بيانات الاختبار الخاصة بنا في النتيجة النهائية.
أفكار ختامية
في هذه المدونة ، حاولنا شرح خوارزميات التصنيف بشكل شامل قدر الإمكان. إذا كنت ترغب في معرفة المزيد عن هذا الموضوع ، نقترح التوجه إلى مدونتنا ، المليئة بالمقالات القيمة من هذا النوع.
يمكنك أيضًا الانتقال إلى كتالوج دورات التعلم الآلي لمعرفة المزيد حول هذا الموضوع. نحن على يقين من أنك ستجد شيئًا مفيدًا.
إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.