ما هو التجميع وأنواع مختلفة من طرق التجميع
نشرت: 2020-12-01اعتبر نفسك في محادثة مع مدير التسويق في مؤسستك. تريد المنظمة فهم العملاء بشكل أفضل بمساعدة البيانات حتى تتمكن من مساعدة أهداف أعمالها وتقديم تجربة أفضل للعملاء. الآن ، هذا هو أحد السيناريوهات حيث يأتي التجميع للإنقاذ.
جدول المحتويات
ما هو التجميع؟
التجميع هو نوع من طرق التعلم غير الخاضعة للإشراف للتعلم الآلي. في طريقة التعلم غير الخاضعة للإشراف ، يتم استخلاص الاستدلالات من مجموعات البيانات التي لا تحتوي على متغير إخراج محدد. إنها تقنية تحليل بيانات استكشافية تسمح لنا بتحليل مجموعات البيانات متعددة المتغيرات.
التجميع هو مهمة تقسيم مجموعات البيانات إلى عدد معين من المجموعات بطريقة تجعل نقاط البيانات التي تنتمي إلى الكتلة لها خصائص متشابهة. المجموعات ليست سوى تجميع نقاط البيانات بحيث تكون المسافة بين نقاط البيانات داخل الكتل ضئيلة.
بمعنى آخر ، المجموعات هي مناطق تكون فيها كثافة نقاط البيانات المتشابهة عالية. يتم استخدامه بشكل عام لتحليل مجموعة البيانات ، للعثور على بيانات ثاقبة بين مجموعات البيانات الضخمة واستخلاص الاستنتاجات منها. بشكل عام ، تُرى المجموعات في شكل كروي ، لكن هذا ليس ضروريًا لأن المجموعات يمكن أن تكون بأي شكل. تعرف على معلومات حول التجميع والمزيد من مفاهيم علوم البيانات في دورة علوم البيانات عبر الإنترنت.
يعتمد ذلك على نوع الخوارزمية التي نستخدمها والتي تحدد كيفية إنشاء المجموعات. تعتمد الاستنتاجات التي يجب استخلاصها من مجموعات البيانات أيضًا على المستخدم حيث لا يوجد معيار للتجميع الجيد.
ما هي أنواع طرق التجميع؟
يمكن تصنيف التجميع نفسه إلى نوعين. التجميع الصلب والتكتل الناعم. في التجميع الثابت ، يمكن أن تنتمي نقطة بيانات واحدة إلى مجموعة واحدة فقط. ولكن في التجميع الناعم ، يكون الناتج المقدم هو احتمال وجود نقطة بيانات تنتمي إلى كل من أعداد المجموعات المحددة مسبقًا.
التجميع القائم على الكثافة
في هذه الطريقة ، يتم إنشاء المجموعات بناءً على كثافة نقاط البيانات التي يتم تمثيلها في مساحة البيانات. المناطق التي أصبحت كثيفة بسبب العدد الهائل من نقاط البيانات المقيمة في تلك المنطقة تعتبر مجموعات.
تعتبر نقاط البيانات في المنطقة المتفرقة (المنطقة التي تكون فيها نقاط البيانات أقل جدًا) بمثابة ضوضاء أو قيم متطرفة. يمكن أن تكون المجموعات التي تم إنشاؤها في هذه الأساليب ذات شكل تعسفي. فيما يلي أمثلة لخوارزميات التجميع المعتمدة على الكثافة:
DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء)
تقوم DBSCAN بتجميع نقاط البيانات معًا بناءً على مقياس المسافة ومعيار الحد الأدنى من نقاط البيانات. يتطلب الأمر معلمتين - eps والحد الأدنى من النقاط. يشير Eps إلى مدى قرب نقاط البيانات التي يجب اعتبارها جيران. يجب استكمال معيار النقاط الدنيا لاعتبار تلك المنطقة منطقة كثيفة.
البصريات (ترتيب النقاط لتحديد هيكل التجميع)
إنه مشابه في العملية لـ DBSCAN ، لكنه يعالج أحد عيوب الخوارزمية السابقة ، أي عدم القدرة على تكوين مجموعات من البيانات ذات الكثافة العشوائية. وهي تعتبر معلمتين إضافيتين هما المسافة الأساسية ومسافة الوصول. تشير المسافة الأساسية إلى ما إذا كانت نقطة البيانات التي يتم النظر فيها أساسية أم لا من خلال تعيين حد أدنى لقيمة لها.
مسافة الوصول هي أقصى مسافة أساسية وقيمة مقياس المسافة المستخدمة لحساب المسافة بين نقطتي بيانات. شيء واحد يجب مراعاته حول مسافة الوصول هو أن قيمتها تظل غير محددة إذا كانت إحدى نقاط البيانات هي نقطة أساسية.
HDBSCAN (التجميع المكاني الهرمي القائم على الكثافة للتطبيقات مع الضوضاء)
HDBSCAN هي طريقة تجميع قائمة على الكثافة توسع منهجية DBSCAN عن طريق تحويلها إلى خوارزمية تجميع هرمي.
المجموعات الهرمية
مجموعات المجموعات الهرمية (التجميعية أو تسمى أيضًا باسم نهج من أسفل إلى أعلى) أو تقسم (تقسيم أو يسمى أيضًا نهج من أعلى إلى أسفل) المجموعات بناءً على مقاييس المسافة. في التجميع التجميعي ، تعمل كل نقطة بيانات كمجموعة في البداية ، ثم تقوم بتجميع المجموعات واحدة تلو الأخرى.
الانقسام هو عكس التكتل ، فهو يبدأ بكل النقاط في مجموعة واحدة ويقسمها لإنشاء المزيد من العناقيد. تنشئ هذه الخوارزميات مصفوفة مسافة لجميع المجموعات الموجودة وتؤدي الربط بين المجموعات اعتمادًا على معايير الارتباط. يتم تمثيل تجميع نقاط البيانات باستخدام مخطط الأسنان. هناك أنواع مختلفة من الروابط: -
ا الوصلة الواحدة : - في الوصلة الواحدة ، تكون المسافة بين المجموعتين هي أقصر مسافة بين النقاط في هاتين المجموعتين.
ا الربط الكامل : - في الربط الكامل ، تكون المسافة بين المجموعتين هي الأبعد مسافة بين النقاط في هاتين المجموعتين.
ا متوسط الارتباط : - في متوسط الارتباط ، تكون المسافة بين المجموعتين هي متوسط المسافة لكل نقطة في الكتلة مع كل نقطة في الكتلة الأخرى.
قراءة: أمثلة شائعة للتنقيب في البيانات.
مجموعات ضبابية
في التجميع الغامض ، لا يكون تعيين نقاط البيانات في أي من المجموعات أمرًا حاسمًا. هنا ، يمكن أن تنتمي نقطة بيانات واحدة إلى أكثر من مجموعة واحدة. يوفر النتيجة كاحتمال لنقطة البيانات التي تنتمي إلى كل مجموعة من المجموعات. إحدى الخوارزميات المستخدمة في التجميع الغامض هي مجموعة Fuzzy c-mean clustering.

تشبه هذه الخوارزمية في العملية مجموعة K-Means وتختلف في المعلمات التي تشارك في الحساب مثل fuzzifier وقيم العضوية.
تقسيم الكتل
تعد هذه الطريقة من أكثر الخيارات شيوعًا للمحللين لإنشاء مجموعات. في تقسيم المجموعات ، يتم تقسيم المجموعات بناءً على خصائص نقاط البيانات. نحتاج إلى تحديد عدد المجموعات التي سيتم إنشاؤها لطريقة التجميع هذه. تتبع خوارزميات التجميع هذه عملية تكرارية لإعادة تعيين نقاط البيانات بين المجموعات بناءً على المسافة. الخوارزميات التي تندرج تحت هذه الفئة هي كما يلي: -
ا K-Means Clustering: - تعد مجموعة K-Means واحدة من أكثر الخوارزميات استخدامًا. يقوم بتقسيم نقاط البيانات إلى مجموعات k بناءً على قياس المسافة المستخدم في التجميع. يجب تحديد قيمة "k" من قبل المستخدم. يتم حساب المسافة بين نقاط البيانات والنقط الوسطى من المجموعات.
يتم تعيين نقطة البيانات الأقرب إلى النقطه الوسطى للعنقود إلى تلك المجموعة. بعد التكرار ، يحسب النقط الوسطى لتلك المجموعات مرة أخرى وتستمر العملية حتى اكتمال عدد محدد مسبقًا من التكرارات أو عندما لا تتغير النقط الوسطى من المجموعات بعد التكرار.
إنها خوارزمية مكلفة للغاية من الناحية الحسابية لأنها تحسب مسافة كل نقطة بيانات مع النقط الوسطى لجميع المجموعات عند كل تكرار. هذا يجعل من الصعب تنفيذ نفس الشيء لمجموعات البيانات الضخمة.
PAM (التقسيم حول Medoids)
تسمى هذه الخوارزمية أيضًا باسم خوارزمية k-medoid. كما أنه مشابه في العملية لخوارزمية التجميع K-mean مع الاختلاف في تخصيص مركز الكتلة. في PAM ، يجب أن يكون متوسط الكتلة نقطة بيانات إدخال بينما هذا ليس صحيحًا لتجميع K-mean حيث أن متوسط جميع نقاط البيانات في الكتلة قد لا ينتمي إلى نقطة بيانات الإدخال.
ا CLARA (تجميع التطبيقات الكبيرة) : - CLARA هو امتداد لخوارزمية PAM حيث تم تقليل وقت الحساب لجعله يعمل بشكل أفضل لمجموعات البيانات الكبيرة. لإنجاز ذلك ، فإنه يختار جزءًا معينًا من البيانات بشكل تعسفي بين مجموعة البيانات الكاملة كممثل للبيانات الفعلية. يطبق خوارزمية PAM على عينات متعددة من البيانات ويختار أفضل المجموعات من عدد من التكرارات.
اقرأ أيضًا: خوارزميات استخراج البيانات التي يجب أن تعرفها
التجميع على أساس الشبكة
في التجميع المستند إلى الشبكة ، يتم تمثيل مجموعة البيانات في هيكل شبكة يتكون من شبكات (تسمى أيضًا الخلايا). يختلف النهج العام في خوارزميات هذه الطريقة عن باقي الخوارزميات.
إنهم مهتمون أكثر بمساحة القيمة المحيطة بنقاط البيانات بدلاً من نقاط البيانات نفسها. تتمثل إحدى أعظم مزايا هذه الخوارزميات في تقليل التعقيد الحسابي. هذا يجعلها مناسبة للتعامل مع مجموعات البيانات الضخمة.
بعد تقسيم مجموعات البيانات إلى خلايا ، يتم حساب كثافة الخلايا مما يساعد في تحديد المجموعات. بعض الخوارزميات القائمة على التجميع الشبكي هي كما يلي: -
ا STING (نهج شبكة المعلومات الإحصائية) : - في STING ، يتم تقسيم مجموعة البيانات بشكل متكرر بطريقة هرمية. يتم تقسيم كل خلية إلى عدد مختلف من الخلايا. إنه يلتقط المقاييس الإحصائية للخلايا مما يساعد في الإجابة على الاستفسارات في فترة زمنية قصيرة.
ا WaveCluster : - في هذه الخوارزمية ، يتم تمثيل مساحة البيانات في شكل موجات. تشكل مساحة البيانات إشارة ذات أبعاد n تساعد في تحديد المجموعات. تشير أجزاء الإشارة ذات التردد المنخفض والسعة العالية إلى أن نقاط البيانات مركزة. يتم تحديد هذه المناطق على أنها مجموعات بواسطة الخوارزمية. تمثل أجزاء الإشارة حيث يمثل التردد العالي حدود المجموعات. لمزيد من التفاصيل ، يمكنك الرجوع إلى هذه الورقة .
ا CLIQUE (التجميع في المهمة) : - CLIQUE عبارة عن مزيج من خوارزمية التجميع المستندة إلى الكثافة والقائمة على الشبكة. يقسم مساحة البيانات ويحدد المساحات الفرعية باستخدام مبدأ Apriori. يحدد الكتل عن طريق حساب كثافات الخلايا.
ملاحظات النهاية
في هذه المقالة ، رأينا نظرة عامة على ماهية التجميع والطرق المختلفة للتجميع جنبًا إلى جنب مع أمثلةها. كان الهدف من هذه المقالة هو خدمتك في بدء استخدام المجموعات.
طرق التجميع هذه لها مزاياها وعيوبها التي تقيدها لتكون مناسبة لمجموعات بيانات معينة فقط. إنها ليست الخوارزمية فقط ولكن هناك الكثير من العوامل الأخرى مثل مواصفات الأجهزة الخاصة بالآلات ، وتعقيد الخوارزمية ، وما إلى ذلك التي تظهر في الصورة عند إجراء التحليل على مجموعة البيانات.
كمحلل ، عليك اتخاذ قرارات بشأن الخوارزمية التي تختارها وأيها سيوفر نتائج أفضل في مواقف معينة. لا تعمل خوارزمية واحدة تناسب جميع الإستراتيجيات في أي من مشاكل التعلم الآلي. لذا ، استمر في التجربة واجعل يديك متسخين في عالم التجمعات.
إذا كنت مهتمًا بتعلم علوم البيانات ، فراجع برنامج IIIT-B و upGrad's Executive PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ما هي الأنواع المختلفة لطرق التجميع المستخدمة في ذكاء الأعمال؟
التجميع هو أسلوب غير موجه يستخدم في استخراج البيانات لتحديد العديد من الأنماط المخفية في البيانات دون الخروج بأي فرضية محددة. السبب وراء استخدام التجميع هو تحديد أوجه التشابه بين كائنات معينة وإنشاء مجموعة من العناصر المتشابهة.
هناك نوعان مختلفان من المجموعات ، وهما طرق هرمية وغير هرمية.
1. التجميع غير الهرمي
في هذه الطريقة ، يتم تقسيم مجموعة البيانات التي تحتوي على كائنات N إلى مجموعات M. في ذكاء الأعمال ، فإن تقنية المجموعات غير الهرمية الأكثر استخدامًا هي K-mean.
2. المجموعات الهرمية
في هذه الطريقة ، يتم إنتاج مجموعة من الكتل المتداخلة. في هذه المجموعات المتداخلة ، يتم تداخل كل زوج من الكائنات بشكل أكبر لتشكيل كتلة كبيرة حتى تبقى مجموعة واحدة فقط في النهاية.
متى يتم استخدام التجميع؟
تتمثل الوظيفة الأساسية للتجميع في إجراء التجزئة ، سواء كان ذلك المتجر أو المنتج أو العميل. يمكن تجميع العملاء والمنتجات في مجموعات هرمية بناءً على سمات مختلفة.
يُنظر إلى استخدام آخر لتقنية التجميع للكشف عن الحالات الشاذة مثل معاملات الاحتيال. هنا ، يتم الكشف عن مجموعة بها جميع المعاملات الجيدة والاحتفاظ بها كعينة. يقال أن هذه كتلة طبيعية . عندما يكون هناك شيء خارج عن الخط من هذه المجموعة ، فإنه يقع ضمن قسم المشتبه به. تم العثور على هذه الطريقة لتكون مفيدة حقًا في الكشف عن وجود خلايا غير طبيعية في الجسم.
بخلاف ذلك ، يُستخدم التجميع على نطاق واسع لتحطيم مجموعات البيانات الكبيرة لإنشاء مجموعات بيانات أصغر. هذا يعزز كفاءة تقييم البيانات.
ما هي مزايا التجميع؟
يُقال أن التجميع العنقودي أكثر فعالية من أخذ العينات العشوائية للبيانات المعطاة لأسباب عديدة. الميزة الرئيسية للتجميع هي:
1. يتطلب موارد أقل
تُنشئ الكتلة مجموعة موارد أقل من العينة بأكملها. نتيجة لهذا ، هناك متطلبات أقل للموارد مقارنة بأخذ العينات العشوائية. سيتطلب أخذ العينات العشوائية نفقات السفر والنفقات الإدارية ، ولكن هذا ليس هو الحال هنا.
2. خيار مجدي
هنا ، تحدد كل مجموعة مجموعة كاملة من السكان حيث يتم إنشاء مجموعات متجانسة من السكان بالكامل. مع هذا ، يصبح من السهل تضمين المزيد من الموضوعات في دراسة واحدة.