تحليل الكتلة في التنقيب عن البيانات: التطبيقات والأساليب والمتطلبات

نشرت: 2020-01-20

سنناقش هنا تحليل الكتلة في التنقيب في البيانات. لذا دعنا أولاً نعرف ما هو التجميع في التنقيب عن البيانات ثم تقديمه والحاجة إلى التجميع في التنقيب عن البيانات. سنناقش أيضًا الخوارزميات وتطبيقات تحليل الكتلة في علم البيانات. في وقت لاحق سوف نتعرف على الأساليب المختلفة في تحليل الكتلة وطرق تجميع البيانات التنقيب.

جدول المحتويات

ما هو التجميع في التنقيب عن البيانات؟

في التجميع ، يتم تصنيف مجموعة من كائنات البيانات المختلفة ككائنات متشابهة. مجموعة واحدة تعني مجموعة من البيانات. يتم تقسيم مجموعات البيانات إلى مجموعات مختلفة في التحليل العنقودي ، والذي يعتمد على تشابه البيانات. بعد تصنيف البيانات إلى مجموعات مختلفة ، يتم تعيين تسمية للمجموعة. يساعد في التكيف مع التغييرات من خلال القيام بالتصنيف.

قراءة: أمثلة شائعة للتنقيب في البيانات.

ما هو التحليل العنقودي في التنقيب عن البيانات؟

يعني تحليل الكتلة في تعدين البيانات اكتشاف مجموعة الكائنات التي تتشابه مع بعضها البعض في المجموعة ولكنها تختلف عن الكائن في المجموعات الأخرى.

تطبيقات تحليل الكتلة استخراج البيانات

هناك العديد من الاستخدامات لتحليل تجميع البيانات مثل معالجة الصور وتحليل البيانات والتعرف على الأنماط وأبحاث السوق وغيرها الكثير. باستخدام تجميع البيانات ، يمكن للشركات اكتشاف مجموعات جديدة في قاعدة بيانات العملاء. يمكن أيضًا تصنيف البيانات بناءً على أنماط الشراء.

يساعد التجميع في تعدين البيانات في تصنيف الحيوانات والنباتات باستخدام وظائف أو جينات مماثلة في مجال علم الأحياء. يساعد في اكتساب نظرة ثاقبة على بنية الأنواع. يتم تحديد المناطق باستخدام التجميع في استخراج البيانات. في قاعدة بيانات مراقبة الأرض ، يتم تحديد الأراضي المتشابهة مع بعضها البعض.

بناءً على الموقع الجغرافي والقيمة ونوع المنزل ، يتم تحديد مجموعة من المنازل في المدينة. يساعد التجميع في استخراج البيانات في اكتشاف المعلومات عن طريق تصنيف الملفات على الإنترنت. كما أنها تستخدم في تطبيقات الكشف. يمكن اكتشاف الاحتيال في بطاقة الائتمان بسهولة باستخدام التجميع في استخراج البيانات الذي يحلل نمط الخداع. اقرأ المزيد عن تطبيقات علم البيانات في الصناعة المالية.

يساعد في فهم كل مجموعة وخصائصها. يمكن للمرء أن يفهم كيفية توزيع البيانات ، وهي تعمل كأداة في وظيفة التنقيب عن البيانات.

متطلبات التجميع في التنقيب في البيانات

  • التفسير

يجب أن تكون نتيجة التجميع قابلة للاستخدام ومفهومة وقابلة للتفسير.

  • يساعد في التعامل مع البيانات الفاسدة

عادةً ما تكون البيانات معطلة وغير منظمة. لا يمكن تحليلها بسرعة ، وهذا هو سبب أهمية تجميع المعلومات في التنقيب عن البيانات. يمكن أن يعطي التجميع بعض البنية للبيانات عن طريق تنظيمها في مجموعات من كائنات البيانات المتشابهة. يصبح أكثر راحة لخبير البيانات في معالجة البيانات وأيضًا اكتشاف أشياء جديدة.

  • أبعاد عالية

تجميع البيانات قادر أيضًا على التعامل مع البيانات ذات الأبعاد العالية جنبًا إلى جنب مع البيانات ذات الحجم الصغير.

  • تم اكتشاف مجموعات أشكال السمات

يتم الكشف عن مجموعات الأشكال العشوائية باستخدام خوارزمية التجميع. يمكن أيضًا العثور على كتلة صغيرة الحجم ذات شكل كروي.

  • إمكانية استخدام الخوارزمية مع أنواع بيانات متعددة

يمكن استخدام العديد من أنواع البيانات المختلفة مع خوارزميات التجميع. يمكن أن تكون البيانات مثل البيانات الثنائية والبيانات الفئوية والمستندة إلى الفاصل الزمني.

اقرأ: خوارزميات التنقيب في البيانات التي يجب أن تعرفها

  • قابلية التوسع في التجميع

عادة ما تكون قاعدة البيانات ضخمة للتعامل معها. يجب أن تكون الخوارزمية قابلة للتطوير للتعامل مع قاعدة بيانات واسعة النطاق ، لذلك يجب أن تكون قابلة للتطوير.

طرق تجميع البيانات

1. طريقة التقسيم العنقودية

في هذه الطريقة ، دعنا نقول أن القسم "m" يتم على الكائنات "p" في قاعدة البيانات. سيتم تمثيل الكتلة بواسطة كل قسم و m <p. K هو عدد المجموعات بعد تصنيف الكائنات. هناك بعض المتطلبات التي يجب أن تكون راضية عن طريقة تقسيم التقسيم وهي: -

  1. يجب أن ينتمي هدف واحد إلى مجموعة واحدة فقط.
  2. يجب ألا تكون هناك مجموعة بدون حتى هدف واحد.

هناك بعض النقاط التي يجب تذكرها في هذا النوع من طريقة تقسيم التقسيم وهي:

  1. سيكون هناك تقسيم أولي إذا لم نعطيه بالفعل. من قسم (قل م).
  2. هناك تقنية واحدة تسمى النقل التكراري ، مما يعني أنه سيتم نقل الكائن من مجموعة إلى أخرى لتحسين التقسيم.

2. طرق التجميع الهرمي

في طريقة التجميع الهرمي هذه ، يتم إنشاء مجموعة معينة من كائن البيانات في نوع من التحلل الهرمي. سيحدد تشكيل التحلل الهرمي أغراض التصنيف. هناك نوعان من الأساليب لإنشاء التحلل الهرمي ، وهما: -

1. نهج الانقسام

اسم آخر لنهج الانقسام هو نهج من أعلى إلى أسفل. في بداية هذه الطريقة ، يتم الاحتفاظ بجميع كائنات البيانات في نفس المجموعة. يتم إنشاء مجموعات أصغر عن طريق تقسيم المجموعة باستخدام التكرار المستمر. ستستمر طريقة التكرار المستمر حتى يتم استيفاء شرط الإنهاء. لا يمكن التراجع عن التراجع بعد تقسيم المجموعة أو دمجها ، وهذا هو سبب عدم مرونة هذه الطريقة.

2. النهج التجميعي

اسم آخر لهذا النهج هو النهج التصاعدي. يتم فصل كل المجموعات في البداية. ثم يستمر في الدمج حتى يتم دمج جميع المجموعات ، أو استيفاء شرط الإنهاء.

هناك طريقتان يمكن استخدامهما لتحسين جودة التجميع الهرمي في استخراج البيانات وهما: -

  1. يجب على المرء أن يحلل بعناية روابط الكائن عند كل تقسيم للتجميع الهرمي.
  2. يمكن للمرء استخدام خوارزمية تكتلية هرمية لدمج التكتل الهرمي. في هذا النهج ، أولاً ، يتم تجميع الكائنات في مجموعات صغيرة. بعد تجميع كائنات البيانات في مجموعات صغيرة ، يتم إجراء التجميع الكلي على الكتلة الدقيقة.

3. طريقة التجميع المعتمدة على الكثافة

في طريقة التجميع هذه في التنقيب عن البيانات ، تكون الكثافة هي التركيز الرئيسي. يتم استخدام فكرة الكتلة كأساس لطريقة التجميع هذه. في طريقة التجميع هذه ، ستستمر الكتلة في النمو باستمرار. يجب أن يكون هناك عدد واحد على الأقل من النقاط في نصف قطر المجموعة لكل نقطة بيانات.

4. طريقة التجميع على أساس الشبكة

في هذا النوع من طريقة التجميع المستندة إلى الشبكة ، يتم تشكيل شبكة باستخدام الكائن معًا. يتم تكوين بنية الشبكة عن طريق تحديد مساحة الكائن في عدد محدود من الخلايا.

ميزة طريقة التجميع على أساس الشبكة: -

  1. وقت معالجة أسرع: وقت معالجة هذه الطريقة أسرع بكثير من أي طريقة أخرى ، وبالتالي يمكن أن توفر الوقت.
  2. هذه الطريقة تعتمد على لا. من الخلايا في فضاء كل بُعد.

5. طرق التجميع المستندة إلى النموذج

في هذا النوع من طرق التجميع ، يتم افتراض كل مجموعة بحيث يمكنها العثور على البيانات الأكثر ملاءمة للنموذج. يتم تجميع دالة الكثافة لتحديد موقع المجموعة في هذه الطريقة.

6. طريقة التجميع على أساس القيد

يتم دمج قيود التطبيق أو المستخدم لأداء التجميع. يُشار إلى توقع المستخدم بالقيد. في عملية التجميع هذه ، يكون الاتصال تفاعليًا للغاية ، والذي توفره القيود.

ما أنواع التصنيف التي لا تعتبر تحليل عنقودي؟

  1. تقسيم الرسم البياني - نوع التصنيف حيث لا تكون المناطق متشابهة ويتم تصنيفها فقط على أساس التآزر المتبادل والأهمية ليس تحليل الكتلة.
  2. نتائج استعلام - في هذا النوع من التصنيف ، يتم إنشاء المجموعات بناءً على المواصفات المعطاة من مصادر خارجية. لا يتم احتسابه كتحليل الكتلة.
  3. التقسيم البسيط - تقسيم الأسماء إلى مجموعات منفصلة من التسجيل بناءً على الاسم الأخير لا يتم تأهيله كتحليل الكتلة.
  4. التصنيف الخاضع للإشراف - لا يمكن قول هذا النوع من التصنيف الذي يتم تصنيفه باستخدام معلومات التسمية على أنه تحليل الكتلة لأن تحليل الكتلة يتضمن مجموعة بناءً على النمط.

خاتمة

حتى الآن تعلمنا العديد من الأشياء حول تجميع البيانات مثل مناهج وطرق تجميع البيانات وتحليل الكتلة في استخراج البيانات.

إذا كنت مهتمًا بتعلم علوم البيانات ، فراجع برنامج IIIT-B و upGrad's Executive PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هي بعض عيوب التحليل العنقودي؟

تحليل الكتلة هو نهج إحصائي لا يفترض مسبقًا معرفة مسبقة بالسوق أو سلوك العميل. تنتج بعض طرق التحليل العنقودي نتائج مختلفة نوعًا ما في كل مرة يتم فيها إجراء التحليل الإحصائي. يمكن أن ينشأ هذا بسبب عدم وجود طريقة مقاس واحد يناسب الجميع لتحليل البيانات. يمكن أن يكون تغيير مخرجات البيانات مربكًا ومزعجًا للطلاب الجدد في مفهوم التحليل العنقودي.

كيف يتم حساب نقاء الكتلة وجودة الكتلة؟

نضرب العدد الإجمالي لنقاط البيانات في عدد تسميات الفئات الدقيقة في كل مجموعة. ترتفع درجة النقاء مع ارتفاع عدد التجمعات بشكل عام. إذا كان لدينا نموذج ينظم كل ملاحظة في مجموعة خاصة بها ، على سبيل المثال ، فإن النقاء يصبح واحدًا. قد نحسب متوسط ​​قيمة معامل الصورة الظلية لجميع الكائنات في كتلة لتحديد مدى ملاءمتها داخل التجمع. يمكن استخدام متوسط ​​قيمة معامل الصورة الظلية لجميع الكائنات في مجموعة البيانات لتقييم جودة التجميع.

ما هي الفروق بين K-mean و K-medoids؟

يحاول K-mean تقليل إجمالي الخطأ التربيعي ، بينما يحاول k-medoids تقليل مجموع الاختلافات بين النقاط المصنفة على أنها في كتلة والنقطة المختارة كمركز الكتلة. على عكس طريقة k-mean ، تختار خوارزمية k-medoids نقاط البيانات كمراكز (ميدويدات أو نماذج).