التجميع مقابل التصنيف: الفرق بين التجميع والتصنيف
نشرت: 2020-12-01جدول المحتويات
مقدمة
يتم تصنيف خوارزميات التعلم الآلي بشكل عام بناءً على نوع متغير الإخراج ونوع المشكلة التي يجب معالجتها. تنقسم هذه الخوارزميات على نطاق واسع إلى ثلاثة أنواع ، أي الانحدار والتجميع والتصنيف. الانحدار والتصنيف نوعان من خوارزميات التعلم الخاضع للإشراف بينما التجميع هو نوع من الخوارزمية غير الخاضعة للإشراف.
عندما يكون متغير المخرجات مستمرًا ، فإنها تكون مشكلة انحدار بينما عندما تحتوي على قيم منفصلة ، فهي مشكلة تصنيف. تُستخدم خوارزميات التجميع بشكل عام عندما نحتاج إلى إنشاء المجموعات بناءً على خصائص نقاط البيانات. تركز هذه المقالة على إعطاء مقدمة موجزة عن التجميع والتصنيف وسرد بعض الاختلافات بين الاثنين.
لا يشترط وجود خبرة في الترميز. 360 درجة الدعم الوظيفي. دبلوم PG في التعلم الآلي والذكاء الاصطناعي من IIIT-B وما فوق.تصنيف
التصنيف هو نوع من خوارزمية التعلم الآلي الخاضعة للإشراف. لأي مدخلات معينة ، تساعد خوارزميات التصنيف في التنبؤ بفئة متغير المخرجات. يمكن أن يكون هناك أنواع متعددة من التصنيفات مثل التصنيف الثنائي ، التصنيف متعدد الفئات ، إلخ. يعتمد ذلك على عدد الفئات في متغير الإخراج.
أنواع خوارزميات التصنيف
الانحدار اللوجستي : - وهو أحد النماذج الخطية التي يمكن استخدامها في التصنيف. يستخدم الدالة السينية لحساب احتمالية وقوع حدث معين. إنها طريقة مثالية لتصنيف المتغيرات الثنائية.
K-Nearest Neighbours (kNN) : - يستخدم مقاييس المسافة مثل المسافة الإقليدية ، ومسافة مانهاتن ، وما إلى ذلك لحساب مسافة نقطة بيانات واحدة من كل نقطة بيانات أخرى. لتصنيف المخرجات ، يتطلب الأمر تصويت الأغلبية من أقرب جيران k لكل نقطة بيانات.
أشجار القرار : - هو نموذج غير خطي يتغلب على بعض عيوب الخوارزميات الخطية مثل الانحدار اللوجستي. يبني نموذج التصنيف في شكل هيكل شجرة يتضمن العقد والأوراق. تتضمن هذه الخوارزمية العديد من عبارات if-else التي تساعد في تقسيم الهيكل إلى هياكل أصغر وفي النهاية توفير النتيجة النهائية. يمكن استخدامه للانحدار وكذلك مشاكل التصنيف.
الغابة العشوائية : - إنها طريقة تعلم جماعية تتضمن عدة أشجار قرار للتنبؤ بنتيجة المتغير المستهدف. توفر كل شجرة قرار نتيجتها الخاصة. في حالة مشكلة التصنيف ، يتطلب الأمر تصويت أغلبية أشجار القرار المتعددة هذه لتصنيف النتيجة النهائية. في حالة مشكلة الانحدار ، تأخذ متوسط القيم التي تنبأت بها أشجار القرار.
Naive Bayes : - إنها خوارزمية مبنية على نظرية بايز. يفترض أن أي ميزة معينة مستقلة عن تضمين ميزات أخرى. أي أنها لا ترتبط ببعضها البعض. بشكل عام لا تعمل بشكل جيد مع البيانات المعقدة بسبب هذا الافتراض حيث يوجد في معظم مجموعات البيانات نوع من العلاقة بين الميزات.
آلة المتجهات الداعمة : - تمثل نقاط البيانات في فضاء متعدد الأبعاد. ثم يتم فصل نقاط البيانات هذه إلى فئات بمساعدة الطائرات الفائقة. يرسم مساحة ذات أبعاد n لعدد n من الميزات في مجموعة البيانات ثم يحاول إنشاء المخططات الفوقية بحيث يقسم نقاط البيانات مع الحد الأقصى للهامش.
قراءة: أمثلة شائعة للتنقيب في البيانات.
التطبيقات
- كشف البريد الإلكتروني العشوائي.
- التعرف على الوجه.
- تحديد ما إذا كان العميل سيخضض أم لا.
- الموافقة على قرض البنك.
تجمع
التجميع هو نوع من خوارزمية التعلم الآلي غير الخاضعة للرقابة. يتم استخدامه لتجميع نقاط البيانات التي لها خصائص متشابهة مثل المجموعات. من الناحية المثالية ، يجب أن تظهر نقاط البيانات في نفس المجموعة خصائص متشابهة ويجب أن تكون النقاط في مجموعات مختلفة غير متشابهة قدر الإمكان.
ينقسم التجميع إلى مجموعتين - التجميع الصلب والتكتل الناعم. في التجميع الثابت ، يتم تعيين نقطة البيانات إلى إحدى المجموعات فقط بينما في التجميع الناعم ، توفر احتمالية وجود نقطة بيانات في كل مجموعة.
أنواع خوارزميات التجميع
K-Means Clustering : - يقوم بتهيئة عدد محدد مسبقًا من مجموعات k ويستخدم مقاييس المسافة لحساب مسافة كل نقطة بيانات من النقطة المركزية لكل مجموعة. يقوم بتعيين نقاط البيانات في إحدى مجموعات k بناءً على المسافة.
التجميع الهرمي التجميعي (نهج من أسفل إلى أعلى) : - يعتبر كل نقطة بيانات على أنها كتلة ويدمج نقاط البيانات هذه على أساس قياس المسافة والمعيار المستخدم لربط هذه المجموعات.
التجميع الهرمي الخلافي (نهج من أعلى إلى أسفل) : - يتم التهيئة مع جميع نقاط البيانات كمجموعة واحدة ويقسم نقاط البيانات هذه على أساس قياس المسافة والمعيار. يمكن تمثيل المجموعات التراكمية والمقسمة على شكل مخطط شجر وعدد المجموعات التي سيتم اختيارها من خلال الإشارة إلى ذلك.

DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء) : - إنها طريقة تجميع تعتمد على الكثافة. تعمل الخوارزميات مثل K-Means بشكل جيد على المجموعات المنفصلة إلى حد ما وإنشاء مجموعات كروية الشكل. يتم استخدام DBSCAN عندما تكون البيانات في شكل تعسفي وتكون أيضًا أقل حساسية للقيم المتطرفة. يقوم بتجميع نقاط البيانات التي تحتوي على العديد من نقاط البيانات المجاورة داخل نصف قطر معين.
OPTICS (ترتيب النقاط لتحديد هيكل التجميع) : - إنه نوع آخر من طرق التجميع المعتمدة على الكثافة وهو مشابه في العملية لـ DBSCAN باستثناء أنه يأخذ في الاعتبار عددًا قليلاً من المعلمات. لكنها أكثر تعقيدًا من الناحية الحسابية من DBSCAN. أيضًا ، لا يفصل نقاط البيانات إلى مجموعات ، ولكنه ينشئ مخطط قابلية الوصول يمكن أن يساعد في تفسير إنشاء المجموعات.
BIRCH (الاختزال التكراري المتوازن والتكتل باستخدام التسلسلات الهرمية) : - يقوم بإنشاء مجموعات عن طريق إنشاء ملخص للبيانات. إنه يعمل بشكل جيد مع مجموعات البيانات الضخمة لأنه يلخص البيانات أولاً ثم يستخدمها لإنشاء مجموعات. ومع ذلك ، يمكن فقط التعامل مع السمات الرقمية التي يمكن تمثيلها في الفضاء.
اقرأ أيضًا: خوارزميات استخراج البيانات التي يجب أن تعرفها
التطبيقات
- تجزئة قاعدة المستهلكين في السوق.
- تحليل الشبكة الاجتماعية.
- تقطيع الصورة.
- أنظمة التوصية.
الفرق بين التجميع والتصنيف
- النوع : - التجميع هو طريقة تعلم غير خاضعة للرقابة بينما التصنيف هو طريقة تعلم خاضعة للإشراف.
- العملية : - في التجميع ، يتم تجميع نقاط البيانات في شكل مجموعات بناءً على أوجه التشابه بينها. يتضمن التصنيف تصنيف بيانات الإدخال كأحد تسميات الفئة من متغير الإخراج.
- التنبؤ : - يتضمن التصنيف التنبؤ بمتغير المدخلات بناءً على بناء النموذج. يستخدم التجميع بشكل عام لتحليل البيانات واستخلاص الاستنتاجات منها لاتخاذ قرارات أفضل.
- تقسيم البيانات : - تحتاج خوارزميات التصنيف إلى تقسيم البيانات على أنها بيانات تدريب واختبار للتنبؤ بالنموذج وتقييمه. لا تحتاج خوارزميات التجميع إلى تقسيم البيانات لاستخدامها.
- تسمية البيانات : - تتعامل خوارزميات التصنيف مع البيانات ذات العلامات بينما تتعامل خوارزميات التجميع مع البيانات غير الموسومة.
- المراحل : - تتكون عملية التصنيف من مرحلتين - التدريب والاختبار. تتضمن عملية التجميع تجميع البيانات فقط.
- التعقيد : - نظرًا لأن التصنيف يتعامل مع عدد أكبر من المراحل ، فإن تعقيد خوارزميات التصنيف أعلى من خوارزميات التجميع التي تهدف فقط إلى تجميع البيانات.
خاتمة
تختلف منهجية التصنيف والتجميع ، كما تختلف النتيجة المتوقعة من الخوارزميات الخاصة بهم. باختصار ، يتم استخدام كل من التصنيف والتجميع لمعالجة المشكلات المختلفة. قدمت هذه المقالة مقدمة موجزة للتصنيف والتكتل.
قرأنا أيضًا قليلاً عن الأنواع المختلفة من الخوارزميات المستخدمة في كل حالة إلى جانب بعض التطبيقات. الخوارزميات المذكورة في هذه المقالة ليست شاملة. أي أنها ليست قائمة كاملة وهناك العديد من الخوارزميات الأخرى التي يمكن استخدامها لمعالجة مثل هذه المشاكل.
إذا كنت مهتمًا بتعلم علوم البيانات ، فراجع دبلوم PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، وجهاً لوجه مع الصناعة الموجهين ، 400+ ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ما هي الأساليب والتطبيقات المختلفة للتجميع؟
يمكن تسمية الكتلة بمجموعة من الكائنات التي تقع ضمن نفس الفئة. بكلمات بسيطة ، يمكننا القول أن الكتلة هي مجموعة من الكائنات لها خصائص متشابهة. يُعرف التجميع بأنه عملية مهمة للتحليل في التعلم الآلي.
طرق مختلفة للتجميع
1. التجميع القائم على التقسيم
2. التجميع على أساس هرمي
3. التجميع على أساس الكثافة
4. التجميع على أساس الشبكة
5. التجميع القائم على النموذج
تطبيقات مختلفة للتجميع
1. محركات التوصية
2. تجزئة السوق والعملاء
3. تحليل الشبكة الاجتماعية (SNA)
4. نتائج البحث العنقودية
5. تحليل البيانات البيولوجية
6. تحليل التصوير الطبي
7. التعرف على الخلايا السرطانية
هذه بعض الطرق الأكثر استخدامًا والتطبيقات الأكثر شيوعًا للتجميع.
ما هي المصنفات المختلفة وتطبيقات التصنيف؟
يتم استخدام تقنية التصنيف لوضع تسمية على كل فئة تم إجراؤها عن طريق تصنيف البيانات إلى عدد مميز من الفئات.
يمكن أن تكون المصنفات من نوعين:
1. مصنف ثنائي - هنا ، يتم إجراء التصنيف من خلال نتيجتين محتملتين فقط أو فئتين متميزتين. على سبيل المثال ، تصنيف الذكور والإناث ، والبريد الإلكتروني العشوائي والبريد الإلكتروني غير العشوائي ، وما إلى ذلك.
2. مصنف متعدد الفئات - هنا ، يتم التصنيف بأكثر من فئتين متميزتين. على سبيل المثال ، تصنيف أنواع التربة ، تصنيف الموسيقى ، إلخ.
تطبيقات التصنيف هي:
1. تصنيف الوثيقة
تحديد الهوية
التعرف على خط اليد
التعرف على الكلام
هذه ليست سوى عدد قليل من تطبيقات التصنيف. هذا مفهوم مفيد في عدة أماكن في صناعات مختلفة.
ما هي خوارزميات التصنيف الأكثر شيوعًا في التعلم الآلي؟
التصنيف هو مهمة معالجة اللغة الطبيعية التي تعتمد كليًا على خوارزميات التعلم الآلي. يتم استخدام كل خوارزمية لحل مشكلة معينة. لذلك ، يتم استخدام كل خوارزمية في مكان مختلف بناءً على المتطلبات.
هناك الكثير من خوارزميات التصنيف التي يمكن استخدامها في مجموعة البيانات. في الإحصاء ، تعد دراسة التصنيف واسعة جدًا ، وسيعتمد استخدام أي خوارزمية معينة تمامًا على مجموعة البيانات التي تعمل عليها. فيما يلي الخوارزميات الأكثر شيوعًا في التعلم الآلي للتصنيف:
1. دعم ناقلات الآلات
2. ساذج بايز
3. شجرة القرار
4. K- أقرب الجيران
5. الانحدار اللوجستي
تُستخدم خوارزميات التصنيف هذه لجعل العديد من المهام التحليلية سهلة وفعالة والتي قد تستغرق مئات الساعات لأداء البشر.
