المجموعات في التعلم الآلي: شرح 3 أنواع من المجموعات
نشرت: 2020-11-30جدول المحتويات
مقدمة
يعد التعلم الآلي أحد أهم التقنيات في عام 2020 ، حيث تتزايد البيانات يومًا بعد يوم ، كما تتزايد الحاجة إلى التعلم الآلي بشكل كبير. يعد التعلم الآلي موضوعًا واسعًا للغاية يحتوي على خوارزميات وحالات استخدام مختلفة في كل مجال وصناعة. أحدها هو التعلم غير الخاضع للإشراف والذي يمكننا من خلاله رؤية استخدام التجميع.
التعلم غير الخاضع للإشراف هو تقنية تتعلم فيها الآلة من البيانات غير المسماة. نظرًا لأننا لا نعرف الملصقات ، فلا توجد إجابة صحيحة للجهاز للتعلم منها ، ولكن الجهاز نفسه يجد بعض الأنماط من البيانات المعطاة للتوصل إلى إجابات لمشكلة العمل.
التجميع هو أسلوب تعلم غير خاضع للإشراف للتعلم الآلي يتضمن تجميع بيانات معينة غير مصنفة. في كل مجموعة بيانات نظيفة ، باستخدام خوارزمية التجميع ، يمكننا تجميع نقاط البيانات المعطاة في كل مجموعة. تفترض خوارزمية التجميع أن نقاط البيانات الموجودة في نفس المجموعة يجب أن يكون لها خصائص متشابهة ، بينما يجب أن تحتوي نقاط البيانات في مجموعات مختلفة على خصائص متباينة للغاية.
في هذه المقالة ، سوف نتعلم الحاجة إلى التجميع ، وأنواع مختلفة من المجموعات جنبًا إلى جنب مع مزاياها وعيوبها.
قراءة: المتطلبات الأساسية لتعلم الآلة
ما هي الحاجة إلى التكتل؟
التجميع هو خوارزمية ML المستخدمة على نطاق واسع والتي تسمح لنا بالعثور على العلاقات المخفية بين نقاط البيانات في مجموعة البيانات الخاصة بنا.

أمثلة:
1) يتم تقسيم العملاء وفقًا لأوجه التشابه بين العملاء السابقين ويمكن استخدامها للتوصيات.
2) بناءً على مجموعة من البيانات النصية ، يمكننا تنظيم البيانات وفقًا لأوجه تشابه المحتوى من أجل إنشاء تسلسل هرمي للموضوع.
3) معالجة الصور بشكل رئيسي في أبحاث الأحياء لتحديد الأنماط الأساسية.
4) تصفية البريد العشوائي.
5) تحديد الأنشطة الاحتيالية والإجرامية.
6) يمكن استخدامه أيضًا في كرة القدم الخيالية والرياضة.
أنواع التجميع
هناك أنواع عديدة من خوارزميات التجميع في التعلم الآلي. سنناقش الخوارزميات الثلاثة أدناه في هذه المقالة:
1) K-Means Clustering.
2) متوسط التحول التجميعي.
3) DBSCAN.
1. K-Means Clustering
K-Means هي خوارزمية التجميع الأكثر شيوعًا بين خوارزميات التجميع الأخرى في التعلم الآلي. يمكننا أن نرى هذه الخوارزمية مستخدمة في العديد من الصناعات الكبرى أو حتى في الكثير من الدورات التمهيدية. إنه أحد أسهل النماذج للبدء في التنفيذ والفهم.
الخطوة 1 نختار أولاً عددًا عشوائيًا من k لاستخدامه وتهيئة نقاط المركز الخاصة بهما بشكل عشوائي.
الخطوة 2 يتم بعد ذلك تصنيف كل نقطة بيانات عن طريق حساب المسافة (الإقليدية أو مانهاتن) بين تلك النقطة وكل مركز مجموعة ، ثم تجميع نقطة البيانات لتكون في العنقود الذي يكون مركزه الأقرب إليه.
الخطوة 3 نعيد حساب مركز المجموعة بأخذ متوسط جميع المتجهات في المجموعة.
الخطوة 4 نكرر كل هذه الخطوات لعدد من التكرارات أو حتى لا تتغير مراكز المجموعة كثيرًا.
الايجابيات
1) سريع جدا.
2) عدد قليل جدا من الحسابات
3) التعقيد الخطي O (n).
سلبيات
1) اختيار قيمة k.
2) مراكز تجميع مختلفة في أشواط مختلفة.
3) عدم الاتساق.
2. متوسط التحول العنقودي
يعني تجميع التحول هو خوارزمية قائمة على النافذة المنزلقة تحاول تحديد المناطق الكثيفة لنقاط البيانات. كونها خوارزمية مبنية على النقطه الوسطى ، مما يعني أن الهدف هو تحديد النقاط المركزية لكل فئة والتي تعمل بدورها عن طريق تحديث المرشحين لنقاط المركز ليكون متوسط النقاط في النافذة المنزلقة.

يتم بعد ذلك تصفية هذه النوافذ المرشحة المختارة في مرحلة ما بعد المعالجة من أجل التخلص من التكرارات التي ستساعد في تشكيل المجموعة النهائية من المراكز والفئات المقابلة لها.
الخطوة 1 نبدأ بنافذة دائرية منزلقة تتمحور حول النقطة C (تم اختيارها عشوائيًا) ويكون نصف قطرها r كالنواة. يعني التحول نوعًا من خوارزمية تسلق التل والتي تتضمن تحويل هذه النواة بشكل تكراري إلى منطقة كثافة أعلى في كل خطوة حتى نصل إلى نقطة التقارب.
الخطوة 2 بعد كل تكرار يتم إزاحة النافذة المنزلقة باتجاه المناطق ذات الكثافة الأعلى عن طريق تحويل النقطة المركزية إلى متوسط النقاط داخل النافذة. تزداد الكثافة داخل النافذة المنزلقة مع زيادة عدد النقاط الموجودة بداخلها. سيؤدي تغيير متوسط النقاط في النافذة إلى التحرك تدريجيًا نحو مناطق ذات كثافة نقطية أعلى.
الخطوة 3 في هذه الخطوة ، نواصل تغيير النافذة المنزلقة بناءً على القيمة المتوسطة حتى لا يكون هناك اتجاه يمكن أن يحصل فيه التحول على المزيد من النقاط داخل النواة المحددة.
الخطوة 4 تتم الخطوات 1-2 بالعديد من النوافذ المنزلقة حتى تقع جميع النقاط داخل النافذة. عندما تميل العديد من النوافذ المنزلقة إلى التداخل ، يتم تحديد النافذة التي تحتوي على معظم النقاط. يتم الآن تجميع نقاط البيانات وفقًا للنافذة المنزلقة التي يقيمون فيها.
الايجابيات
1) لا حاجة لتحديد عدد المجموعات.
2) يناسب بشكل جيد بمعنى البيانات المدفوعة بشكل طبيعي
سلبيات
1) العيب الوحيد هو اختيار حجم النافذة (r) يمكن أن يكون غير تافه.
3. التجميع المكاني المستند إلى الكثافة للتطبيقات ذات الضوضاء (DBSCAN)
يشبه DBSCAN تجميع Mean-Shift وهو أيضًا خوارزمية تعتمد على الكثافة مع بعض التغييرات.
الخطوة 1 : تبدأ بنقطة بداية عشوائية ، ويتم استخراج المنطقة المجاورة من هذه النقطة باستخدام مسافة تسمى إبسيلون.
الخطوة 2 سيبدأ التجميع إذا كانت هناك نقاط كافية وتصبح نقطة البيانات هي أول نقطة جديدة في الكتلة. إذا لم تكن هناك بيانات كافية ، فسيتم تصنيف النقطة على أنها ضوضاء وسيتم تمييز النقطة بالزيارة.
الخطوة 3 تميل النقاط الموجودة داخل إبسيلون إلى أن تصبح جزءًا من الكتلة. يتكرر هذا الإجراء لجميع النقاط داخل الكتلة.
الخطوة 4 تتكرر الخطوتان 2 و 3 حتى تتم زيارة النقاط الموجودة في المجموعة وتمييزها.
الخطوة 5 عند استكمال الكتلة الحالية ، تتم معالجة نقطة جديدة غير متوقعة في كتلة جديدة تؤدي إلى تصنيفها إلى كتلة أو كضوضاء.
الايجابيات
1) لا حاجة لضبط عدد المجموعات.
2) يعرف القيم المتطرفة كالضوضاء.
3) يساعد في العثور على الكتل ذات الحجم التعسفي والشكل التعسفي بشكل جيد.
سلبيات

1) لا يعمل بشكل جيد في مجموعات متفاوتة الكثافة.
2) لا يعمل بشكل جيد مع البيانات عالية الأبعاد.
اقرأ أيضًا: أفكار مشروع التعلم الآلي
خاتمة
في هذه المقالة ، تعرفنا على الحاجة إلى التجميع في السوق الحالية ، وأنواع مختلفة من خوارزميات التجميع جنبًا إلى جنب مع مزاياها وعيوبها. يعتبر التجميع حقًا موضوعًا مثيرًا للاهتمام في التعلم الآلي وهناك العديد من الأنواع الأخرى من خوارزميات التجميع التي تستحق التعلم.
إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.
ما هو المقصود بخلطة جاوس العنقودية؟
تُستخدم نماذج الخليط الغاوسي عادةً في حالة الاستعلام عن البيانات لإجراء التجميع الصلب أو الناعم. تضع نماذج الخليط الغاوسي بعض الافتراضات من أجل أداء جيد التجميع. استنادًا إلى الافتراضات ، يقوم النموذج بتجميع نقاط البيانات التي تنتمي إلى توزيع واحد معًا. هذه نماذج احتمالية ، وتستخدم نهج التجميع الناعم لتنفيذ عملية التجميع بكفاءة.
ما هو معامل الصورة الظلية في التجميع؟
من أجل قياس مدى جودة تنفيذ التجميع ، نستخدم معامل الصورة الظلية. في الأساس ، يتم قياس متوسط المسافة بين مجموعتين ، ثم يتم حساب عرض الصورة الظلية باستخدام صيغة. بهذه الطريقة ، يمكننا بسهولة قياس العدد الأمثل للمجموعات الموجودة في البيانات المعطاة وبالتالي معرفة كفاءة التجميع المنجز.
ما المقصود بالتكتل الغامض في التعلم الآلي؟
عندما تأتي البيانات المعطاة تحت أكثر من مجموعة أو مجموعة واحدة ، يتم استخدام طريقة تجميع ضبابية ، والتي تعمل على خوارزمية C غامضة أو خوارزمية K غامضة. إنها طريقة تجميع ناعمة. وفقًا للمسافة بين مركز الكتلة ونقطة الصورة ، تقوم الطريقة بتعيين قيم العضوية لكل نقطة صورة مرتبطة بكل مركز مجموعة.