إحاطة: مستودع البيانات
نشرت: 2022-03-11تنتج الشركات والمستهلكون بيانات أكثر من أي وقت مضى. يؤدي انتشار الأجهزة والمنتجات الرقمية إلى التوسع الهائل للكون الرقمي. على الرغم من كونه أصلًا من الناحية النظرية ، فإن حجم هذه البيانات يمثل تحديًا: كيف يمكن للشركات تنظيم معلوماتها عمليًا للكشف عن رؤى قابلة للتنفيذ؟
بينما يوفر التنقيب عن البيانات وذكاء الأعمال الاستخراج القيّم لهذه الأفكار وعرضها ، فإن مستودع البيانات (DWH) هو التجميع الأولي وإعادة تنظيم البيانات الأساسية الهائلة ، والتي غالبًا ما توجد في مواقع متعددة. يعد فهم دور DWH في النظام البيئي الأوسع لعلوم البيانات واستخراج البيانات وذكاء الأعمال أمرًا ضروريًا للمدير الحديث.
ما هو مستودع البيانات؟
DWH هو مستودع مركزي للمعلومات الرقمية ، مجمعة من مجموعة متنوعة من المصادر المتباينة ، ومنظمة في هيكل مُحسَّن لإعداد التقارير. الأهم من ذلك ، أن DWH يوفر معلومات قابلة للتنفيذ للمؤسسة بأكملها ، مما يمكّن الموظفين من إجراء تحليل مخصص واتخاذ قرارات أفضل.
مفاهيم مستودع البيانات الأساسية
النموذج العلائقي مقابل النموذج البعدي
لتقدير وظائف مستودع البيانات ، من المهم فهم الفرق بين النموذج العلائقي والأبعاد. أثناء السبر التقني ، من السهل تمييزها.
من منظور الاستخدام العملي ، تختلف قواعد البيانات العلائقية والأبعاد في معيار واحد مهم: تدفق المعلومات. بينما يتم تحسين قواعد البيانات العلائقية لإدخال البيانات ، يتم إنشاء قواعد البيانات ذات الأبعاد للإخراج ، لا سيما في شكل التقارير والتحليلات المعروفة باسم ذكاء الأعمال.
ينظم النموذج العلائقي المعلومات حول نقطة واحدة من المعلومات ، على سبيل المثال اسم العميل. في مثل هذا النموذج ، يوجد اسم العميل في مكان واحد ، مع جميع المعلومات المرتبطة - مثل تفاصيل الاتصال وتواريخ المعاملات - المدرجة في الجداول المرتبطة أو ذات الصلة.
على النقيض من ذلك ، فإن قاعدة البيانات ذات الأبعاد "تفكك" قاعدة البيانات العلائقية ، مما يسمح للمستخدمين بسهولة "تقطيع وتقطيع" البيانات في التقليب المطلوب اللازم لتلبية احتياجات إعداد التقارير الخاصة بهم. على سبيل المثال ، في إدخال قاعدة البيانات العلائقية أعلاه ، سيتم تقسيم تفاصيل الاتصال بالعميل إلى حقول منفصلة ، مثل رقم الهاتف وعنوان الشارع والمدينة والولاية والرمز البريدي.
قاعدة البيانات ذات الأبعاد "تفكك" قاعدة البيانات العلائقية ، مما يسمح للمستخدمين بسهولة "تقطيع وتقطيع" البيانات
قد يبدو التمييز بين قاعدة البيانات العلائقية والأبعاد مجردة. ومع ذلك ، بالنسبة للمكلفين بتقديم تحليلات وتقارير معقدة بشكل متزايد ، فإن تقدير التمييز يوفر فهماً أساسياً قيماً للعمل مع الفرق الفنية التي تحافظ على هذه الموارد.
مستودع البيانات - "قيد التشغيل"
كما أوضح بيل إنمون ، أحد مؤسسي مستودع البيانات ، بعض الخصائص المحددة التي تحكم تصميم مستودع البيانات. وفقًا لـ Inmon ، فإن مستودع البيانات عبارة عن مجموعة متغيرة من البيانات غير متطايرة ومتكاملة ومتغيرة الوقت لدعم قرارات الإدارة.
هذا هو الفم ، ولكن بمجرد تقسيمه إلى أجزاء ، يرسم هذا التعريف صورة واضحة للهيكل الأساسي DWH. لتسهيل تذكر هذه المعايير ، أعدنا تنظيم معايير Inmon وفقًا للجناس الناقص "إنه قيد التشغيل"
متكامل: يجب أن تحتوي البيانات على تنسيقات متسقة. غالبًا ما يتم استخلاصها من مصادر مختلفة ، يجب أن تحتوي حقول البيانات على اصطلاحات تسمية متسقة.
متغير الوقت: يكشف DWH عن الاتجاهات التي تعتمد على التغيير بمرور الوقت. يعد تسجيل نقاط البيانات بمرور الوقت أمرًا أساسيًا للكشف عن العلاقات بين البيانات.
موضوع المنحى: يتيح DWH التحليل وإعداد التقارير التي تركز على الموضوع. على سبيل المثال ، قد ترغب الشركة في تقييم مبيعات أحد المنتجات بمرور الوقت ، ثم التعمق في الاتجاهات الإقليمية أو الخاصة بقطاع العملاء.
غير متطايرة: بمجرد دخول البيانات إلى المستودع ، فإنها لا تتغير.
يختلف مستودع البيانات عن قاعدة بيانات المعاملات
تؤدي أنظمة قواعد البيانات DWH والمعاملات وظائف مختلفة اختلافًا جوهريًا وتخدم مستخدمين مختلفين. بينما تم تحسين DWH لإعداد التقارير والتحليل ، يتم تحسين أنظمة المعاملات - التي يشار إليها غالبًا باسم معالجة المعاملات عبر الإنترنت (OLTP) - من أجل التوافر وسرعة المعالجة.

عادةً ما يكون مستخدمو OLTP موظفين في الواجهة الأمامية ، وعادةً ما يصلون إلى عدة سجلات في وقت واحد. غالبًا ما يكون مستخدمو DWH محللين ومديرين ، وقد تتطلب تقاريرهم في وقت واحد ما يصل إلى عدة ملايين من السجلات.
يختلف نظام المعاملات و DWH أيضًا في دقة البيانات ودوامها. في OLTP ، تحتوي البيانات على القيم الحالية ، والتي تكون مفصلة ومتغيرة للغاية (كل بضع ثوان ، تقوم آلاف المعاملات بتغيير قيم هذه السجلات). على النقيض من ذلك ، يحتوي DWH على بيانات مُعاد هيكلتها لا يمكن تغييرها بمجرد تحميلها.
توضح عملية القروض الاستهلاكية بإيجاز الاختلافات الرئيسية بين هذه الأنظمة. عندما يحصل العميل على قرض سيارة ، على سبيل المثال ، تلتقط قاعدة بيانات المعاملات تفاصيل مثل نوع السيارة ولونها وسنة الشراء وسعر الشراء والتفاصيل الشخصية للمشتري. بمجرد تحويلها إلى نموذج DWH ، يتم تقسيم معلومات المعاملات (حول معاملة العميل الفردي) إلى أجزاء مكونة. يتم تجميع هذه الأجزاء ، بدورها ، بأجزاء قابلة للمقارنة من معاملات أخرى.
عند الاستعلام عن DWH ، قد يصل موظف لدى المُقرض إلى تقارير تتكون من بيانات العملاء المجمعة. على سبيل المثال ، في محاولة لتحسين الإنفاق الإعلاني ، قد يبحث مدير التسويق عن سيارات من نوع معين أو نطاق سعري مع أعلى معدل للموافقة على القرض ، أو متوسط العمر ومستوى الدخل لمقدمي طلبات القروض بمرور الوقت. قد توجه مثل هذه المعلومات الإنفاق الإعلاني إلى قنوات أكثر صلة مع رسائل أكثر استهدافًا.
مستودع البيانات مقابل سوق البيانات وبحيرة البيانات
قد يكون DWH مصحوبًا بقواعد البيانات ذات الصلة - سوق البيانات وبحيرة البيانات - التي تشير أسماؤها الوصفية إلى وظائف مميزة. مجموعة فرعية من DWH ، تخدم سوق البيانات مجموعة محددة من المستخدمين ، على سبيل المثال قسم أو وحدة أعمال محددة. بينما يحتفظ DWH بالعديد من الموضوعات ذات الصلة بإدارات متعددة - مثل المبيعات والعملاء والمنتجات والمخزون والموردين - عادةً ما يحتفظ سوق البيانات بموضوع واحد لقسم واحد ، مثل المبيعات أو التمويل.
هناك نوعان من مجموعات البيانات - التابعة والمستقلة - ولكل منها مزايا فريدة. تستمد البيانات المعتمدة مارت من DWH ، وتتمتع بميزة الاتساق. نظرًا لأن جميع البيانات مركزية ومتسقة داخل DWH ، فإن مجموعات البيانات الناتجة متسقة أيضًا. في حين أن مجموعات البيانات المعتمدة الأكثر قوة تتطلب DWH ، وبالتالي فهي أكثر تكلفة للتطوير.
من ناحية أخرى ، تقوم مجموعات البيانات المستقلة بسحب البيانات مباشرة من قواعد بيانات المصدر نفسها ، مثل DWH المصغر. على الرغم من أن تطويرها أسرع وأقل تكلفة ، إلا أن مجموعات البيانات المستقلة تحمل مخاطر متزايدة ، حيث يمكن أن تصبح تعريفات البيانات غير متسقة عبر مجموعات البيانات المطورة بشكل مستقل. ومع ذلك ، إذا تم تطويرها مع الانضباط ، يمكن في نهاية المطاف تجميع مجموعات البيانات المستقلة في DWH.
عادة ما يتم تكوين بحيرات البيانات على مجموعة من أجهزة السلع غير المكلفة والقابلة للتطوير. يسمح هذا بإلقاء البيانات في البحيرة دون الحاجة إلى القلق بشأن سعة التخزين. بينما يقتصر DWH عادةً على البيانات النصية والرقمية ، يمكن أن تحتوي البحيرة أيضًا على مجموعة متنوعة أوسع ، بما في ذلك الوسائط الاجتماعية وبيانات المستشعرات والصور.
مستودع البيانات واستخراج البيانات
يتيح DWH التنقيب عن البيانات ، والذي يزود الشركات بالقدرة على التنبؤ بالمستقبل. الهدف الأساسي من التنقيب في البيانات هو الكشف عن الأنماط في مجموعات البيانات الكبيرة. تكشف هذه الأنماط ، بدورها ، عن العلاقات بين فئات البيانات المختلفة ووظائف الأعمال الأساسية الخاصة بها.
توفر هذه العلاقات للمديرين معلومات قابلة للتنفيذ ، وهي في الأساس رافعات جديدة لسحبها لدفع نتائج الأعمال المرغوبة مثل نمو العملاء ، أو زيادة المبيعات لكل عميل. على سبيل المثال ، قد تبرز مراجعة بيانات المبيعات التاريخية حسب القطاع الجغرافي أو القطاع الصناعي نموًا غير طبيعي ، وقد يزود مصدره مديري المبيعات بالتعلمات لتطبيقها على قطاعات أخرى.