نظرة عامة على تعدين قواعد الجمعية وتطبيقاتها
نشرت: 2019-06-05Association Rule Mining ، كما يوحي الاسم ، قواعد الارتباط هي عبارات If / Then البسيطة التي تساعد في اكتشاف العلاقات بين قواعد البيانات العلائقية المستقلة على ما يبدو أو مستودعات البيانات الأخرى.
تعمل معظم خوارزميات التعلم الآلي مع مجموعات البيانات الرقمية ، وبالتالي تميل إلى أن تكون رياضية. ومع ذلك ، يعد تعدين قواعد الارتباط مناسبًا للبيانات الفئوية غير الرقمية ويتطلب أكثر قليلاً من مجرد عد بسيط.
تعدين قواعد الرابطة هو إجراء يهدف إلى مراقبة الأنماط أو الارتباطات أو الارتباطات التي تحدث بشكل متكرر من مجموعات البيانات الموجودة في أنواع مختلفة من قواعد البيانات مثل قواعد البيانات العلائقية وقواعد بيانات المعاملات وأشكال أخرى من المستودعات.
تتكون قاعدة الارتباط من جزأين:
- سابقة (إذا) و
- نتيجة (ثم)
السوابق هي شيء موجود في البيانات ، والنتيجة هي عنصر تم العثور عليه مع السوابق. ألق نظرة على هذه القاعدة على سبيل المثال:
"إذا اشترى العميل الخبز ، فمن المرجح أن يشتري الحليب بنسبة 70٪."
في قاعدة الارتباط أعلاه ، الخبز هو السبق والحليب هو نتيجة لذلك. ببساطة ، يمكن فهمه على أنه قاعدة ارتباط لمتجر البيع بالتجزئة لاستهداف عملائه بشكل أفضل. إذا كانت القاعدة المذكورة أعلاه نتيجة لتحليل شامل لبعض مجموعات البيانات ، فيمكن استخدامها ليس فقط لتحسين خدمة العملاء ولكن أيضًا لتحسين إيرادات الشركة.
يتم إنشاء قواعد الارتباط من خلال التحليل الشامل للبيانات والبحث عن أنماط if / then المتكررة. بعد ذلك ، بناءً على المعلمتين التاليتين ، تتم ملاحظة العلاقات المهمة:
- الدعم : يشير الدعم إلى مدى تكرار ظهور علاقة if / then في قاعدة البيانات.
- الثقة : تخبرنا الثقة عن عدد المرات التي تم العثور فيها على هذه العلاقات لتكون صحيحة.
لذلك ، في معاملة معينة مع عناصر متعددة ، يحاول Association Rule Mining في المقام الأول العثور على القواعد التي تحكم كيفية أو سبب شراء هذه المنتجات / العناصر معًا في كثير من الأحيان. على سبيل المثال ، كثيرًا ما يتم شراء زبدة الفول السوداني والمربى معًا لأن الكثير من الأشخاص يحبون صنع شطائر PB&J.
يشار أحيانًا إلى تعدين قواعد الرابطة باسم "تحليل سلة السوق" ، حيث كان أول مجال تطبيق للتعدين الجماعي. الهدف هو اكتشاف ارتباطات العناصر التي تحدث معًا في كثير من الأحيان أكثر مما تتوقعه من أخذ عينات عشوائية من جميع الاحتمالات. سوف تساعد الحكاية الكلاسيكية للبيرة والحفاضات في فهم هذا بشكل أفضل.
القصة على النحو التالي: الشباب الأمريكيون الذين يذهبون إلى المتاجر أيام الجمعة لشراء حفاضات لديهم استعداد للاستيلاء على زجاجة من البيرة أيضًا. على الرغم من أن هذا قد يبدو غامضًا وغير مرتبط به بالنسبة لنا ، إلا أن التنقيب في قواعد الجمعيات يوضح لنا كيف ولماذا!
دعونا نقوم ببعض التحليلات بأنفسنا ، أليس كذلك؟
افترض أن قاعدة بيانات معاملات البيع بالتجزئة لمتجر X تتضمن البيانات التالية:
- إجمالي عدد المعاملات: 600000
- المعاملات التي تحتوي على حفاضات: 7500 (1.25 بالمائة)
- المعاملات التي تحتوي على البيرة: 60.000 (10 بالمائة)
- المعاملات التي تحتوي على كل من البيرة وحفاضات الأطفال: 6000 (1.0 بالمائة)
من الأرقام المذكورة أعلاه ، يمكننا أن نستنتج أنه إذا لم تكن هناك علاقة بين البيرة والحفاضات (أي أنها كانت مستقلة إحصائيًا) ، فسنحصل على 10٪ فقط من مشتري الحفاضات لشراء البيرة أيضًا.
ومع ذلك ، ومما قد يبدو مفاجئًا ، تخبرنا الأرقام أن 80٪ (= 6000/7500) من الأشخاص الذين يشترون حفاضات الأطفال يشترون الجعة أيضًا .
هذه قفزة كبيرة بمقدار 8 عما كان الاحتمال المتوقع. يُعرف عامل الزيادة هذا باسم الرفع - وهي نسبة التكرار الملحوظ للتواجد المشترك لعناصرنا والتكرار المتوقع.
كيف حددنا المصعد؟
ببساطة عن طريق حساب المعاملات في قاعدة البيانات وإجراء عمليات حسابية بسيطة.
لذلك ، على سبيل المثال لدينا ، يمكن أن تنص إحدى قواعد الارتباط المعقولة على أن الأشخاص الذين يشترون الحفاضات سيشترون أيضًا البيرة بعامل رفع 8. إذا تحدثنا رياضيًا ، فيمكن حساب المصعد على أنه نسبة الاحتمال المشترك لعنصرين x و y مقسومة على حاصل ضرب احتمالاتهما.
الرفع = P (x، y) / [P (x) P (y)]
ومع ذلك ، إذا كان العنصران مستقلين إحصائيًا ، فسيكون الاحتمال المشترك للعنصرين هو نفسه ناتج احتمالاتهما. أو بعبارة أخرى ،
الفوسفور (س ، ص) = الفوسفور (س) الفوسفور (ص) ،
مما يجعل عامل الرفع = 1. نقطة مثيرة للاهتمام جديرة بالذكر هنا وهي أن منع الارتباط يمكن أن ينتج عنه قيم رفع أقل من 1 - وهو ما يتوافق مع العناصر المتنافية التي نادرًا ما تحدث معًا.
ساعدت Association Rule Mining علماء البيانات في اكتشاف أنماط لم يعرفوا بوجودها من قبل.
أساسيات الإحصاء الأساسية لعلوم البيانات
جدول المحتويات
لنلقِ نظرة على بعض المجالات التي ساعدت فيها Association Rule Mining كثيرًا:
تحليل سلة السوق:
هذا هو المثال الأكثر شيوعًا للتعدين الجماعي. يتم جمع البيانات باستخدام ماسحات الباركود في معظم محلات السوبر ماركت. تتكون قاعدة البيانات هذه ، المعروفة باسم قاعدة بيانات "سلة السوق" ، من عدد كبير من السجلات الخاصة بالمعاملات السابقة. يسرد سجل واحد جميع العناصر التي اشتراها عميل في عملية بيع واحدة. إن معرفة المجموعات التي تميل نحو أي مجموعة من العناصر يمنح هذه المتاجر حرية تعديل تخطيط المتجر وكتالوج المتجر لوضع الأشياء المتعلقة ببعضها البعض على النحو الأمثل.

تشخيص طبي:
يمكن أن تكون قواعد الجمعية في التشخيص الطبي مفيدة لمساعدة الأطباء في علاج المرضى. التشخيص ليس عملية سهلة ولديه مجموعة من الأخطاء التي قد تؤدي إلى نتائج نهائية غير موثوقة. باستخدام التنقيب عن قواعد الارتباط العلائقي ، يمكننا تحديد احتمالية حدوث المرض فيما يتعلق بالعوامل والأعراض المختلفة. علاوة على ذلك ، باستخدام تقنيات التعلم ، يمكن توسيع هذه الواجهة بإضافة أعراض جديدة وتحديد العلاقات بين العلامات الجديدة والأمراض المقابلة.
بيانات التعداد:
كل حكومة لديها أطنان من بيانات التعداد. يمكن استخدام هذه البيانات لتخطيط خدمات عامة فعالة (التعليم ، الصحة ، النقل) وكذلك مساعدة الشركات العامة (لإنشاء مصانع جديدة ، ومراكز تسوق ، وحتى تسويق منتجات معينة). هذا التطبيق لتعدين قواعد الجمعيات والتنقيب في البيانات لديه إمكانات هائلة في دعم السياسة العامة السليمة وتحقيق الأداء الفعال لمجتمع ديمقراطي.
تسلسل البروتين:
البروتينات عبارة عن تسلسلات مكونة من عشرين نوعًا من الأحماض الأمينية. كل بروتين له هيكل ثلاثي الأبعاد فريد يعتمد على تسلسل هذه الأحماض الأمينية. يمكن أن يتسبب تغيير طفيف في التسلسل في حدوث تغيير في البنية قد يغير أداء البروتين. كان هذا الاعتماد على البروتين الذي يعمل على تسلسل الأحماض الأمينية موضوع بحث كبير. في وقت سابق كان يُعتقد أن هذه التسلسلات عشوائية ، لكن يُعتقد الآن أنها ليست كذلك. نيتين جوبتا ، نيتين مانغال ، كمال تيواري ، وبابيترا ميترا قاموا بفك رموز طبيعة الارتباط بين الأحماض الأمينية المختلفة الموجودة في البروتين. ستأتي معرفة وفهم قواعد الارتباط هذه مفيدة للغاية أثناء تخليق البروتينات الاصطناعية.
بهذا ، أتمنى أن أكون قادرًا على توضيح كل ما تحتاج لمعرفته حول التنقيب عن قواعد الجمعيات.
إذا كان لديك أي شكوك أو استفسارات أو اقتراحات - فقم بإسقاطها في التعليقات أدناه!
ما هي بعض الأمثلة على تطبيقات التعدين لقواعد الجمعيات؟
تُعرف تقنية تحديد الأنماط الشائعة والارتباطات والارتباطات والهياكل السببية من مجموعات البيانات المخزنة في قواعد بيانات مختلفة ، بما في ذلك قواعد البيانات العلائقية وقواعد بيانات المعاملات وأشكال أخرى من مستودعات البيانات ، باسم التعدين في قواعد البيانات. يسمح التنقيب عن قواعد الرابطة بإيجاد اتصالات وروابط مثيرة للاهتمام بين مجموعات كبيرة من عناصر البيانات. تحدد هذه القاعدة عدد مرات ظهور عنصر معين في المعاملة. وخير مثال على ذلك هو التحليل القائم على السوق. تعد قواعد الرابطة أمرًا بالغ الأهمية في التنقيب عن البيانات لتحليل سلوك المستهلك والتنبؤ به. تعد تحليلات العملاء ، وتحليل سلة السوق ، وتجميع المنتجات ، وتصميم الكتالوج ، وتخطيط المتجر ، كلها أمثلة على الأماكن التي يعملون فيها. لإنشاء برامج التعلم الآلي ، يستخدم المبرمجون قواعد الارتباط.
عندما يتعلق الأمر بقواعد جمعيات التعدين ، لماذا يعتبر مبدأ Apriori فعالاً؟
بالنسبة للتعدين المتكرر لمجموعة العناصر وتعلم قواعد الارتباط ، فإن Apriori هي خوارزمية قاعدة بيانات علائقية. إنه يعمل عن طريق العثور على العناصر الفردية الأكثر شيوعًا في قاعدة البيانات ثم توسيعها إلى مجموعات عناصر أكبر وأكبر طالما أن مجموعات العناصر هذه تظهر بشكل متكرر بدرجة كافية. طريقة Apriori مخصصة للاستخدام مع قواعد بيانات المعاملات ، وتقوم بإنشاء قواعد اقتران باستخدام مجموعات العناصر المتكررة. تُستخدم معايير الارتباط هذه لتحديد قوة أو ضعف الاتصال بين شيئين. قد نتمكن من تقليل عدد مجموعات العناصر التي نحتاج إلى تقييمها من خلال استخدام مفهوم Apriori.
ما هي عيوب التنقيب عن قواعد الجمعيات؟
تتمثل العيوب الأساسية لخوارزميات قواعد الارتباط في الحصول على قواعد مملة ، ووجود عدد كبير من القواعد المكتشفة ، وأداء خوارزمية منخفض. تحتوي الخوارزميات المستخدمة على العديد من المعلمات لشخص ليس خبيرًا في التنقيب عن البيانات ، والقواعد المُنتجة كثيرة جدًا ، ومعظمها غير مثير للاهتمام وقابلية الفهم منخفضة.