ثلاثة مبادئ لتطوير مستودع البيانات

نشرت: 2022-03-11

تقدر جارتنر أن ما يقرب من 70 إلى 80 في المائة من مشاريع ذكاء الأعمال التي بدأت حديثًا تفشل. هذا يرجع إلى أسباب لا تعد ولا تحصى ، من الاختيار السيئ للأداة إلى نقص التواصل بين تكنولوجيا المعلومات وأصحاب المصلحة في الأعمال. بعد أن نفذت بنجاح مشاريع ذكاء الأعمال عبر الصناعات ، آمل أن أشارك خبراتي في منشور المدونة هذا وأن أسلط الضوء على الأسباب الرئيسية لفشل مشاريع ذكاء الأعمال. ستقدم هذه المقالة تدابير مضادة للفشل بناءً على ثلاثة مبادئ يجب أن تحكم كيفية بناء مستودعات البيانات. يجب أن يساعدك اتباع مفاهيم مستودع البيانات هذه بصفتك مطورًا لمخزن البيانات على التنقل في رحلة التطوير وتجنب الحفر الشائعة أو حتى الثقوب في تطبيقات ذكاء الأعمال.

تنفيذ مستودع بيانات ذكاء الأعمال

بينما تختلف معايير مستودع بيانات ذكاء الأعمال الناجح حسب المشروع ، إلا أنه من المتوقع والمطلوب وجود حد أدنى معين في جميع المشاريع. فيما يلي قائمة بالسمات الرئيسية التي توجد عادة في مستودع بيانات ذكاء الأعمال الناجح:

  • القيمة: يمكن أن تمتد مشاريع ذكاء الأعمال على مدار عدة أشهر أو حتى سنوات. ومع ذلك ، من المهم إظهار فوائد مستودع البيانات لأصحاب المصلحة في العمل في وقت مبكر جدًا من المشروع لضمان استمرار التمويل والاهتمام. من الناحية المثالية ، ينبغي إظهار أصحاب المصلحة بعض القيمة التجارية ذات المغزى من النظام الجديد خلال الأسابيع الثلاثة الأولى من المشروع.
  • ذكاء الأعمال الذاتي للخدمة: لقد ولت أيام انتظار تكنولوجيا المعلومات للوفاء بطلبات البيانات أو إجراء تحليل البيانات. يقاس نجاح أي مشروع ذكاء الأعمال الآن بمدى تمكينه لمستخدمي الأعمال من استخراج القيمة من النظام بأنفسهم.
  • التكلفة: تتميز مشاريع استقصاء الأعمال عمومًا بتكاليف تنفيذ مسبقة مرتفعة نسبيًا. لموازنة التكلفة الأولية المرتفعة وتعويضها ، من المهم تصميم مستودعات بتكاليف صيانة منخفضة. إذا كان العميل يتطلب فريقًا كاملًا من مطوري ذكاء الأعمال لضمان / تشخيص مشكلات جودة البيانات ، أو إجراء تغييرات روتينية على نماذج البيانات ، أو التعامل مع فشل ETL ، فسيكون النظام مكلفًا من حيث الميزانية ومعرضًا لخطر إيقاف التشغيل بعد مرور بعض الوقت .
  • القدرة على التكيف: القدرة على التكيف مع متطلبات الأعمال المتطورة أمر بالغ الأهمية. من المهم أن تضع في اعتبارك العدد الذي لا يحصى من أدوات ذكاء الأعمال المتوفرة في السوق والوتيرة التي تتطور بها لتشمل وظائف وميزات إضافية. إلى جانب حقيقة أن الأعمال تتطور باستمرار ، ستتغير متطلبات المستودع ؛ تتطلب القدرة على التكيف تصميم مستودعات البيانات لتمكين استخدام أدوات ذكاء الأعمال البديلة مثل أدوات الخلفية أو التصور المختلفة في المستقبل وتكون قابلة للتكيف مع التغييرات غير المتوقعة في المتطلبات في كثير من الأحيان.

من خلال تجربتي في بناء الحلول الناجحة ، وربما الأهم من ذلك ، المشاركة في المشاريع الفاشلة ، توصلت إلى استنتاج مفاده أن ثلاثة مبادئ أساسية لها أهمية قصوى في زيادة احتمالية نجاح تنفيذ نظام ذكاء الأعمال. ومع ذلك ، قبل تغطيتها بالتفصيل ، لنبدأ ببعض السياق.

ما هو مستودع البيانات؟

قبل الخوض في مفاهيم مختلفة لمستودع البيانات ، من المهم أن تفهم ما هو مستودع البيانات في الواقع.

غالبًا ما يُنظر إلى مستودعات البيانات على أنها أنظمة ذكاء أعمال تم إنشاؤها للمساعدة في تلبية احتياجات إعداد التقارير اليومية لكيان الأعمال. ليس لديهم نفس متطلبات الأداء في الوقت الفعلي (في عمليات التنفيذ القياسية) مثل أنظمة بيانات OLTP ، وفي حين أن أنظمة OLTP ستحتوي فقط على البيانات المتعلقة بمجموعة فرعية صغيرة واحدة من العمل ، تتطلع مستودعات البيانات إلى تضمين جميع البيانات المتعلقة بـ عمل .

تقدم نماذج مستودعات البيانات مزايا للأعمال فقط عندما يُنظر إلى المستودع على أنه المحور المركزي "لكل بيانات الأشياء" وليس مجرد أداة يتم من خلالها إنتاج تقارير التشغيل الخاصة بك. يجب أن يكون لجميع أنظمة التشغيل اتصال ثنائي الاتجاه مع مستودع البيانات لتغذية البيانات وتلقي التعليقات حول كيفية تحسين الكفاءة التشغيلية. أي تغيير في الأعمال ، مثل زيادة الأسعار أو انخفاض العرض / المخزون ، يجب أولاً وضع نماذج أولية والتنبؤ بها داخل بيئة مستودع البيانات الخاصة بك حتى يتمكن عملك من التنبؤ بالنتائج وتحديدها بشكل موثوق. في هذا السياق ، ستتركز جميع وظائف علوم البيانات وتحليلات البيانات حول مستودع البيانات.

هناك العديد من مكونات مستودع البيانات ، وهي ليست مجرد قاعدة بيانات:

  • قاعدة البيانات هي وسيط تقوم من خلاله بتخزين بياناتك.
  • يتجاوز مخزن البيانات ذلك ليشمل الأدوات والمكونات الضرورية لاستخراج قيمة الأعمال من بياناتك ويمكن أن يشمل مكونات مثل خطوط أنابيب التكامل وأطر عمل جودة البيانات وأدوات التصور وحتى المكونات الإضافية للتعلم الآلي.

رسم تخطيطي يوضح الفرق بين مفاهيم مستودع البيانات وقواعد البيانات التقليدية

فيما يلي تمثيل مرئي أكثر للاختلاف بين قاعدة البيانات وهيكل مستودع قاعدة البيانات. تشكل قواعد البيانات أو مخازن البيانات الوصفية المنطقية الجديدة مثل Hive النجم المركزي للنظام النجمي لمستودع البيانات ، مع جميع المكونات الأخرى مثل الكواكب الدوارة. ومع ذلك ، على عكس النظام النجمي ، يمكن أن يحتوي مستودع البيانات على قاعدة بيانات واحدة أو أكثر ويجب أن تكون قواعد البيانات هذه قابلة للتبديل مع التقنيات الجديدة ، كما سنناقش لاحقًا في المقالة.

المبدأ الأول لمخزن البيانات: جودة البيانات تحتل الصدارة

تعد مستودعات البيانات مفيدة وقيمة فقط إلى الحد الذي تكون فيه البيانات الموجودة داخلها موثوقة من قبل أصحاب المصلحة التجاريين. لضمان ذلك ، يجب بناء الأطر التي تلتقط وتصحيح مشكلات جودة البيانات تلقائيًا (حيثما أمكن ذلك). يجب أن يكون تنقية البيانات جزءًا من عملية تكامل البيانات مع إجراء عمليات تدقيق منتظمة للبيانات أو إجراء تحديد سمات البيانات لتحديد أي مشكلات تتعلق بالبيانات. أثناء تنفيذ هذه الإجراءات الاستباقية ، تحتاج أيضًا إلى التفكير في التدابير التفاعلية عندما تتسلل البيانات السيئة إلى هذه البوابات ويبلغ عنها المستخدم.

لضمان ثقة المستخدم في نظام مستودع البيانات ، يجب التحقيق في أي بيانات سيئة أبرزها مستخدمو الأعمال كأولوية. للمساعدة في هذه الجهود ، يجب أن يتم تضمين نسب البيانات وأطر التحكم في البيانات في النظام الأساسي لضمان إمكانية تحديد أي مشكلات في البيانات ومعالجتها بسرعة من قبل موظفي الدعم. تدمج معظم منصات تكامل البيانات درجة معينة من حلول جودة البيانات ، مثل DQS في MS SQL Server أو IDQ في Informatica.

استفد من هذه الأنظمة الأساسية المدمجة إذا كنت تستخدم أداة تجارية في خطوط أنابيب تكامل البيانات الخاصة بك ، ولكن بالإضافة إلى ذلك أو خلاف ذلك ، تأكد من إنشاء الآليات التي من شأنها مساعدتك في الحفاظ على جودة بياناتك. على سبيل المثال ، تفتقر معظم أدوات تكامل البيانات إلى وظائف جيدة لتتبع نسب البيانات. للتغلب على هذا القيد ، يمكن إنشاء إطار عمل مخصص للتحكم في الدُفعات باستخدام سلسلة من جداول التحكم لتتبع كل تدفق بيانات يحدث داخل النظام.

من الصعب جدًا استعادة ثقة أصحاب المصلحة في عملك إذا واجهوا جودة سيئة داخل النظام الأساسي الخاص بك ، لذلك يجب أن يكون الاستثمار المسبق في أطر جودة البيانات يستحق التكلفة.

مبدأ مستودع البيانات الثاني: قلب المثلث

يوضح هذا الشكل تقسيم الجهد في تنفيذ واستخدام معظم مستودعات البيانات.

رسم توضيحي لمفاهيم مستودع قاعدة البيانات الأساسية

يتم استثمار معظم الجهود في بناء المستودع وصيانته بينما تعد القيمة المضافة لامتلاك مستودع لتحليلات الأعمال جزءًا أقل بكثير من الجهد. هذا سبب آخر لفشل مشاريع ذكاء الأعمال في كثير من الأحيان. في بعض الأحيان ، يستغرق الأمر وقتًا طويلاً في دورة المشروع لإظهار أي قيمة ذات مغزى للعميل ، وعندما يتم تشغيل النظام أخيرًا ، فإنه لا يزال يتطلب الكثير من جهود تكنولوجيا المعلومات للحصول على أي قيمة تجارية منه. كما قلنا في المقدمة ، يمكن أن يكون تصميم ونشر أنظمة ذكاء الأعمال عملية مكلفة وطويلة. لذلك ، يتوقع أصحاب المصلحة عن حق البدء بسرعة في جني القيمة المضافة من خلال جهود استخبارات الأعمال وتخزين البيانات. إذا لم تتحقق أي قيمة مضافة ، أو إذا كانت النتائج متأخرة جدًا بحيث لا تكون ذات قيمة حقيقية ، فليس هناك الكثير الذي يمنعهم من سحب القابس.

المبدأ الثاني لتطوير مستودع البيانات هو قلب المثلث كما هو موضح هنا.

انقلب رسم توضيحي لمفاهيم مستودع قاعدة البيانات رأسًا على عقب

يحتاج اختيارك لأدوات ذكاء الأعمال والأطر التي تضعها إلى ضمان أن جزءًا أكبر من الجهد المبذول في المستودع هو استخراج قيمة الأعمال بدلاً من بنائها وصيانتها. سيضمن ذلك مستويات عالية من المشاركة من أصحاب المصلحة التجاريين لأنهم سيرون على الفور قيمة الاستثمار في المشروع. والأهم من ذلك ، أنك تمكن الشركة من تحقيق الاكتفاء الذاتي في استخراج القيمة دون الاعتماد الشديد على تكنولوجيا المعلومات.

يمكنك الالتزام بهذا المبدأ باتباع منهجيات التطوير التزايدية عند بناء المستودع لضمان تقديم وظائف الإنتاج في أسرع وقت ممكن. سيساعدك اتباع استراتيجية Kimball's data mart أو منهجيات تصميم مستودع بيانات Data Vault من Linstedt على تطوير الأنظمة التي تُبنى بشكل تدريجي مع مراعاة التغيير بسلاسة. استخدم طبقة دلالية في النظام الأساسي الخاص بك مثل مكعب MS SSAS أو حتى Business Objects Universe لتوفير واجهة أعمال سهلة الفهم لبياناتك. في الحالة الأولى ، ستوفر أيضًا آلية سهلة للمستخدمين للاستعلام عن البيانات من Excel - وهي أداة تحليل البيانات الأكثر شيوعًا.

إن دمج أدوات ذكاء الأعمال التي تدعم ذكاء الأعمال ذاتية الخدمة مثل Tableau أو PowerBI سيساعد فقط في تحسين تفاعل المستخدم ، حيث أصبحت الآن واجهة الاستعلام عن البيانات مبسطة بشكل كبير بدلاً من كتابة SQL.

سيساعد تخزين بيانات المصدر في بحيرة البيانات قبل ملء قاعدة البيانات في عرض بيانات المصدر للمستخدمين في وقت مبكر جدًا من عملية الالتحاق. سيتمكن الآن المستخدمون المتقدمون على الأقل مثل Business quants من هضم بيانات المصدر (من خلال الملفات الأولية) عن طريق توصيل أدوات مثل Hive / Impala أعلى الملفات. سيساعد هذا في تقليل الوقت المطلوب للأعمال لتحليل نقطة بيانات جديدة من أسابيع إلى أيام أو حتى ساعات.

مبدأ مستودع قاعدة البيانات الثالث: التوصيل والتشغيل

البيانات على وشك أن تصبح المكافئ الرقمي للنفط. في السنوات الأخيرة ، شهدنا انفجارًا في عدد الأدوات التي يمكن استخدامها كجزء من منصة مستودع البيانات ومعدل الابتكار. تتصدر هذه المهمة عدد لا يحصى من أدوات التصور المتاحة الآن ، مع خيارات متقدمة للنهايات الخلفية قريبة من الخلف. بالنظر إلى هذه البيئة والميل إلى تغير متطلبات العمل باستمرار ، من المهم أن تضع في اعتبارك أنك ستحتاج إلى تبديل مكونات مجموعة التكنولوجيا الخاصة بك أو حتى إدخال / إزالة أخرى بمرور الوقت ، كما تملي تغيرات الأعمال والتكنولوجيا.

بناءً على التجربة الشخصية ، سيكون من حسن الحظ أن تستمر المنصة لمدة 12 شهرًا دون أي نوع من التغيير الكبير. قدر معقول من الجهد أمر لا مفر منه في هذه المواقف ؛ ومع ذلك ، يجب أن يكون من الممكن دائمًا تغيير التقنيات أو التصميم ، ويجب تصميم النظام الأساسي الخاص بك لتلبية هذه الحاجة النهائية. إذا كانت تكلفة الترحيل للمستودع مرتفعة للغاية ، فيمكن للشركة ببساطة أن تقرر أن التكلفة غير مبررة وتتخلى عما أنشأته بدلاً من البحث عن ترحيل الحل الحالي إلى أدوات جديدة.

إن بناء نظام يلبي جميع الاحتياجات المستقبلية التي يمكن تخيلها أمر مستحيل. لذلك ، هناك حاجة إلى مستوى معين من التقدير بأن كل ما تصممه وتبنيه الآن يمكن استبداله بالوقت عند بناء مستودعات البيانات. تحقيقا لهذه الغاية ، أود أن أدعو إلى استخدام الأدوات والتصميمات العامة حيثما أمكن ذلك بدلا من ربط منصتك بإحكام بالأدوات التي تعمل عليها. بالطبع ، يجب القيام بذلك بعد التخطيط الدقيق والاعتبار حيث أن القوة في الكثير من الأدوات ، وخاصة قواعد البيانات ، تكمن في فرديتها ومتكاملة بشكل وثيق.

على سبيل المثال ، تم تحسين أداء ETL بشكل كبير عند استخدام الإجراءات المخزنة في قاعدة بيانات لإنشاء بيانات تحليلات أعمال جديدة بدلاً من استخراج البيانات ومعالجتها خارج قاعدة البيانات باستخدام Python أو SSIS. فيما يتعلق بطبقة التقارير ، ستقدم أدوات التصور وظائف معينة غير متوفرة بسهولة في الآخرين - على سبيل المثال ، يدعم Power BI استعلامات MDX المخصصة ، لكن Tableau لا يدعمها. وجهة نظري ليست الدعوة إلى التخلي عن الإجراءات المخزنة أو تجنب مكعبات SSAS أو Tableau في أنظمتك. هدفي هو مجرد تعزيز أهمية توخي الحذر في تبرير أي قرارات لربط النظام الأساسي الخاص بك بأدواته بإحكام.

يوجد ثقب مجرى محتمل آخر في طبقة التكامل. من السهل جدًا استخدام أداة مثل SSIS لتكامل بياناتك نظرًا لقدراتها في تصحيح الأخطاء أو سهولة استخدامها مع نظام SQL Server الأساسي. ومع ذلك ، فإن ترحيل مئات حزم SSIS إلى أداة أخرى سيصبح مشروعًا مكلفًا للغاية. في الحالات التي تقوم فيها في الغالب بـ "EL" ، ابحث عن استخدام أداة عامة للقيام بالمعالجة. سيساعد استخدام لغة برمجة مثل Python أو Java لكتابة أداة تحميل عامة واحدة لتحميل طبقة التدريج في تقليل حزم SSIS الفردية التي كنت ستطلبها بخلاف ذلك. لا يساعد هذا النهج في تقليل تكاليف الصيانة والترحيل المستقبلية فحسب ، بل يساعد أيضًا في أتمتة المزيد من جوانب عملية إعداد البيانات مع عدم الاضطرار إلى كتابة حزم فردية جديدة (مرتبطة بالمبدأ 2).

في جميع هذه الحالات ، تحتاج إلى اتخاذ قرار بشأن حل وسط عملي بين الفوائد المباشرة وتكاليف الترحيل المستقبلية لضمان عدم إلغاء المستودع لأنه لا يمكنه التعامل مع التغيير ، أو لأن التغيير كان يتطلب الكثير من الوقت ، جهد أو استثمار.

تغليف

هناك العديد من الأسباب لفشل نظام ذكاء أعمال معين ، وهناك أيضًا بعض الإغفالات الشائعة التي يمكن أن تؤدي إلى فشل في نهاية المطاف. إن المشهد التكنولوجي المتغير باستمرار ، والميزانية المحدودة لأنظمة البيانات بسبب الأولوية الثانوية الخاطئة لأنظمة التشغيل ، والتعقيد الهائل وصعوبة العمل مع البيانات يعني أن الدراسة الدقيقة ليس فقط للأهداف الفورية ولكن أيضًا الخطط المستقبلية يجب أن تحدث عند التصميم و بناء مكونات مستودع البيانات.

تهدف أساسيات تخزين البيانات الموضحة في هذه المقالة إلى المساعدة في إرشادك عند اتخاذ هذه الاعتبارات المهمة. بطبيعة الحال ، فإن مراعاة هذه المبادئ لا تضمن النجاح ، لكنها بالتأكيد ستقطع شوطًا طويلاً نحو مساعدتك على تجنب الفشل.