تحليل الكتلة في R: دليل كامل ستحتاجه في أي وقت [2022]

نشرت: 2021-01-04

إذا كنت قد خطوت في أي وقت مضى حتى في عالم علم البيانات أو بايثون ، كنت قد سمعت عن R.

تم تطوير R كمشروع GNU ، وهي لغة وبيئة مصممة للرسومات والحوسبة الإحصائية. إنه مشابه للغة S ، وبالتالي يمكن اعتباره تطبيقًا له.

كلغة ، R قابلة للتوسعة بشكل كبير. يوفر مجموعة متنوعة من التقنيات الإحصائية والرسومية مثل تحليل السلاسل الزمنية والنمذجة الخطية والنمذجة غير الخطية والتجميع والتصنيف والاختبارات الإحصائية الكلاسيكية.

إنها إحدى هذه التقنيات التي سنستكشفها بعمق أكبر وهي التجميع أو التحليل العنقودي!

جدول المحتويات

ما هو التحليل العنقودي؟

في أبسط المصطلحات ، التجميع هو طريقة لتجزئة البيانات حيث يتم تقسيم البيانات إلى عدة مجموعات على أساس التشابه.

كيف يتم تقييم التشابه؟ على أساس مقاييس المسافة بين المراقبة. يمكن أن تكون هذه مقاييس مسافة إقليدية أو قائمة على الارتباط.

يعد تحليل الكتلة أحد الأساليب الأكثر شيوعًا وبديهية لتحليل البيانات واستخراج البيانات. إنه مثالي للحالات التي توجد فيها بيانات ضخمة وعلينا استخراج رؤى منها. في هذه الحالة ، يمكن تقسيم البيانات المجمعة إلى مجموعات فرعية أو مجموعات أصغر.

تُعرف المجموعات الصغيرة التي يتم تكوينها واستنتاجها من مجموعة البيانات بأكملها باسم المجموعات. يتم الحصول عليها عن طريق إجراء عملية إحصائية واحدة أو أكثر. تشترك كل مجموعة ، على الرغم من احتوائها على عناصر مختلفة ، في الخصائص التالية:

  1. أعدادهم غير معروفة مسبقا.
  2. يتم الحصول عليها من خلال إجراء عملية إحصائية.
  3. تحتوي كل مجموعة على كائنات متشابهة ولها خصائص مشتركة.

حتى بدون الاسم "الرائع" لتحليل الكتلة ، يتم استخدام نفس الشيء كثيرًا في الحياة اليومية.

على المستوى الفردي ، نصنع مجموعات من الأشياء التي نحتاج إلى حزمها عندما ننطلق في إجازة. أولا الملابس ، ثم أدوات النظافة ، ثم الكتب ، وهكذا. نصنع الفئات ثم نعالجها بشكل فردي.

تستخدم الشركات أيضًا التحليل العنقودي عند إجراء التجزئة في قوائم البريد الإلكتروني الخاصة بهم وتصنيف العملاء على أساس العمر والخلفية الاقتصادية وسلوك الشراء السابق وما إلى ذلك.

يشار إلى تحليل الكتلة أيضًا باسم "التعلم الآلي غير الخاضع للإشراف" أو التعرف على الأنماط. غير خاضع للإشراف لأننا لا نتطلع إلى تصنيف عينات معينة في عينات معينة فقط. التعلم لأن الخوارزمية تتعلم أيضًا كيفية التجميع.

3 طرق التجميع

لدينا ثلاث طرق تستخدم في الغالب للتجميع. وهذه هي:

  1. التجميع الهرمي التجميعي
  2. المجموعات العلائقية / طريقة Condorcet
  3. ك يعني التجميع

1. التجميع الهرمي التجميعي

هذا هو النوع الأكثر شيوعًا للتسلسل الهرمي. تعمل خوارزمية AHC بطريقة تصاعدية. يبدأ بالنظر إلى كل نقطة بيانات على أنها كتلة في حد ذاتها (تسمى الورقة).

ثم يجمع بين المجموعتين الأكثر تشابهًا. تسمى هذه المجموعات الجديدة والأكبر بالعقد. يتكرر التجميع حتى تتجمع مجموعة البيانات بأكملها معًا في شكل كتلة واحدة كبيرة تسمى الجذر.

يؤدي تصور ورسم كل خطوة من خطوات عملية AHC إلى تكوين شجرة تسمى dendrogram.

يؤدي عكس مسار AHC إلى تقسيم المجموعات وتكوين العناقيد.

يمكن أيضًا تصور مخطط الأسنان على النحو التالي:

مصدر

في الختام ، إذا كنت تريد خوارزمية جيدة في تحديد المجموعات الصغيرة ، فانتقل إلى AHC. إذا كنت تريد واحدة جيدة في تحديد المجموعات الكبيرة ، فيجب أن تكون طريقة التجميع الانقسامية هي اختيارك.

2. التجميع العلائقي / طريقة Condorcet

"التجميع حسب تجميع التشابه" هو اسم آخر لهذه الطريقة. يعمل على النحو التالي:

تتم مقارنة الكائنات الفردية في أزواج التي تبني التجميع العالمي. للمتجهات m (A ، B) و d (A ، B) ، يتم تعيين زوج من القيم الفردية (A ، B). في المتجه b (A ، B) ، يكون لكل من A و B نفس القيم ، بينما في المتجه d (A ، B) ، كلاهما لهما قيم مختلفة).

يُقال إن القيمتين الفرديتين لـ A و B تتبعان معيار Condorcet على النحو التالي:

ج (أ ، ب) = م (أ ، ب) - د (أ ، ب)

بالنسبة لقيمة فردية مثل A ومجموعة تسمى S ، فإن معيار Condorcet يقف على النحو التالي:

ج (أ ، ق) = Σ ط ج (أ ، ب ط )

المجموع الكلي هو Bi ∈ S.

مع استيفاء الشروط المذكورة أعلاه ، يتم إنشاء مجموعات من النموذج c (A ، S). يمكن أن يكون للقيمة الأقل قيمة 0 وهي الأكبر بين جميع نقاط البيانات في المجموعة.

أخيرًا ، يتم حساب معيار Condorcet العالمي. يتم ذلك عن طريق إجراء جمع لنقاط البيانات الفردية الموجودة في A والمجموعة S A التي تحتوي عليها.

تتكرر الخطوات المذكورة أعلاه حتى لا يتحسن معيار Condorcet العالمي أو يتم الوصول إلى أكبر عدد من التكرارات.

3. ك يعني التجميع

هذه واحدة من أكثر خوارزميات التقسيم شيوعًا. سيتم تجميع جميع البيانات المتاحة (تسمى أيضًا نقاط البيانات / الملاحظات في بعض الأحيان) في هذه المجموعات فقط. فيما يلي تفصيل لكيفية تقدم الخوارزمية:

  1. حدد مجموعات k بشكل عشوائي. ستعني هذه الصفوف k أيضًا العثور على k centroids لكل مجموعة.
  2. ثم يتم تعيين كل نقطة بيانات إلى النقطه الوسطى الأقرب إليها.
  3. مع تعيين المزيد والمزيد من نقاط البيانات ، يتم إعادة حساب النقط الوسطى كمتوسط ​​لجميع نقاط البيانات (التي يتم إضافتها).
  4. استمر في تعيين نقاط البيانات وتحويل النقطه الوسطى حسب الحاجة.
  5. كرر الخطوتين 3 و 4 حتى لا تغير نقاط البيانات الكتلة.

يتم حساب المسافة بين نقطة البيانات والنقطة الوسطى باستخدام إحدى الطرق التالية:

  1. المسافة الإقليدية
  2. مسافة مانهاتن
  3. مسافة مينلوفسكي

الأكثر شيوعًا - المسافة الإقليدية - يتم حسابها على النحو التالي:

في كل مرة يتم فيها تشغيل الخوارزمية ، يتم إرجاع مجموعات مختلفة كنتيجة لذلك. التخصيص الأول للمتغير k عشوائي تمامًا. هذا يجعل k-mean حساسة جدًا للاختيار الأول. نتيجة لذلك ، يصبح من المستحيل تقريبًا الحصول على نفس المجموعة ما لم يكن عدد المجموعات والملاحظات الإجمالية صغيرًا.

كيفية تعيين قيمة ل في البداية ، سنقوم بشكل عشوائي بتعيين قيمة لـ k والتي ستحدد الاتجاه الذي تتجه إليه النتائج. لضمان اتخاذ أفضل خيار ، من المفيد أن تضع في اعتبارك الصيغة التالية:

هنا ، n هو عدد نقاط البيانات في مجموعة البيانات.

بغض النظر عن وجود الصيغة ، فإن عدد المجموعات سيعتمد بشكل كبير على طبيعة مجموعة البيانات ، والصناعة والأعمال التي تنتمي إليها ، وما إلى ذلك. ومن ثم ، فمن المستحسن الانتباه إلى خبرة الفرد وحدسه أيضًا.

مع وجود حجم كتلة خاطئ ، قد لا يكون التجميع بنفس الفعالية ويمكن أن يؤدي إلى زيادة التجهيز. بسبب التجهيز الزائد ، قد لا تتمكن نقاط البيانات الجديدة من العثور على مكان في الكتلة لأن الخوارزمية قد خرجت من التفاصيل الصغيرة وفقدت كل التعميمات.

تطبيقات التحليل العنقودي

إذن ، أين بالضبط تستخدم طرق التجميع القوية؟ ذكرنا بعجلة بعض الأمثلة أعلاه. فيما يلي بعض الأمثلة الأخرى:

الطب والصحة

على أساس عمر المريض والتركيب الجيني ، يستطيع الأطباء تقديم تشخيص أفضل. يؤدي هذا في النهاية إلى علاج أكثر فائدة وتوافقًا. يمكن أيضًا اكتشاف أدوية جديدة بهذه الطريقة. يُطلق على التكتل في الطب اسم علم تصنيف الأمراض.

علم الاجتماع

في المجالات الاجتماعية ، يساعد تجميع الأشخاص على أساس التركيبة السكانية والعمر والمهنة وموقع الإقامة وما إلى ذلك الحكومة على تطبيق القوانين وتشكيل السياسات التي تناسب مجموعات متنوعة.

تسويق

في التسويق ، يتم استبدال مصطلح التجميع بالتحليل التصنيفي / النمطي. يتم استخدامه لاستكشاف واختيار المشترين المحتملين لمنتج معين. تقوم الشركات بعد ذلك باختبار عناصر كل مجموعة لمعرفة العملاء الذين يظهرون سلوكًا مؤيدًا للاحتفاظ.

التنميط السيبراني

كمدخل لخوارزمية التجميع التي سيتم تنفيذها هنا ، يتم إدخال صفحات الويب السابقة التي تم الوصول إليها من قبل المستخدم. ثم يتم تجميع صفحات الويب هذه. في النهاية ، يتم إنشاء ملف تعريف للمستخدم ، بناءً على نشاط التصفح الخاص به. من التخصيص إلى الأمان عبر الإنترنت ، يمكن الاستفادة من هذه النتيجة في أي مكان.

قطاعي

تستفيد المنافذ أيضًا من تجميع العملاء على أساس العمر ، وتفضيلات اللون ، وتفضيلات النمط ، والمشتريات السابقة ، وما إلى ذلك. وهذا يساعد تجار التجزئة على إنشاء تجارب مخصصة وأيضًا التخطيط للعروض المستقبلية المتوافقة مع رغبات العملاء.

خاتمة

كما هو واضح ، يعد التحليل العنقودي طريقة ذات قيمة عالية - بغض النظر عن اللغة أو البيئة التي يتم تنفيذها فيها. سواء أراد المرء استخلاص رؤى أو استنباط أنماط أو اقتطاع ملفات تعريف ، فإن تحليل الكتلة هو أداة مفيدة للغاية مع نتائج يمكن يتم تنفيذها عمليا. يمكن أن تؤدي الكفاءة في العمل مع خوارزميات التجميع المختلفة إلى إجراء تحليل بيانات دقيق وقيِّم حقًا.

تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

استعد لمهنة المستقبل

دبلوم PG من IIIT-B ، 100+ ساعة من التعلم داخل الفصل الدراسي ، 400+ ساعة من التعلم عبر الإنترنت و 360 درجة من الدعم الوظيفي
يتعلم أكثر