كيفية تنفيذ عملية جودة البيانات

نشرت: 2022-03-11

تزداد أهمية جودة البيانات (DQ) في أنظمة مستودعات البيانات. زيادة المتطلبات التنظيمية ، وكذلك التعقيد المتزايد لحلول مستودعات البيانات ، يجبر الشركات على تكثيف (أو بدء) مبادرة جودة البيانات.

سينصب التركيز الرئيسي لهذه المقالة على تخزين البيانات "التقليدي" ، ولكن جودة البيانات تمثل أيضًا مشكلة في المفاهيم الأكثر "حداثة" مثل بحيرات البيانات. سيُظهر بعض النقاط الرئيسية التي يجب مراعاتها وأيضًا بعض المخاطر الشائعة التي يجب تجنبها عند تنفيذ استراتيجية جودة البيانات. لا يغطي الجزء المتعلق باختيار التقنية / الأداة المناسبة لبناء إطار عمل DQ.

واحدة من أكثر المشاكل التي تعيق مشروع DQ هي حقيقة أنه للوهلة الأولى ، يخلق الكثير من العمل لوحدات العمل دون توفير أي وظائف إضافية. عادة ما يكون لمبادرة جودة البيانات مؤيدون أقوياء فقط إذا:

  • هناك مشكلات تتعلق بجودة البيانات لها تأثير شديد على الأعمال.
  • تفرض الهيئات التنظيمية معايير جودة البيانات (على سبيل المثال ، BCBS 239 في صناعة التمويل).

معاملة DQ مماثلة لتلك الخاصة بالاختبار في تطوير البرمجيات - إذا نفد الوقت و / أو الميزانية للمشروع ، فسيتم تقليل هذا الجزء أولاً.

هذه ، بالطبع ، ليست الحقيقة الكاملة. يساعد نظام جودة البيانات الجيد في اكتشاف الأخطاء مبكرًا ، وبالتالي تسريع عملية تسليم البيانات ذات الجودة "الجيدة بما فيه الكفاية" للمستخدمين.

تعريف المصطلحات

قبل مناقشة الموضوع ، من المهم وجود فهم مشترك للمصطلحات المستخدمة.

مستودع البيانات (DWH)

مستودع البيانات (DWH) هو نظام غير تشغيلي يستخدم بشكل أساسي لدعم القرار. يقوم بدمج بيانات أنظمة التشغيل (جميعها أو مجموعة فرعية أصغر) ويوفر بيانات محسّنة للاستعلام لمستخدمي نظام DWH. يجب أن يوفر مستودع البيانات "نسخة واحدة من الحقيقة" داخل المؤسسة. عادةً ما يتم إنشاء مستودع البيانات من مراحل / طبقات:

طبقات مستودع البيانات الشائعة
الشكل 1: طبقات مستودع البيانات المشتركة.

يتم تخزين البيانات التشغيلية في الغالب دون تغيير في طبقة التدريج . تحتوي الطبقة الأساسية على بيانات موحدة وموحدة. المرحلة الاختيارية التالية هي منطقة اشتقاق توفر البيانات المشتقة (على سبيل المثال ، نقاط العميل للمبيعات) والتجميعات. تحتوي طبقة بيانات المتجر على بيانات محسّنة لمجموعة معينة من المستخدمين. غالبًا ما تحتوي مجموعات البيانات على مجموعات والكثير من المقاييس المشتقة. غالبًا ما يعمل مستخدمو مستودع البيانات فقط مع طبقة سوق البيانات.

بين كل مرحلة ، يحدث نوع من تحويل البيانات. عادة ، يتم تحميل مستودع البيانات بشكل دوري باستخراج دلتا للبيانات التشغيلية ويحتوي على خوارزميات للاحتفاظ بالبيانات التاريخية.

جودة البيانات

يتم تعريف جودة البيانات عادةً على أنها مقياس حول مدى تلبية المنتج لمتطلبات المستخدم. قد يكون لدى المستخدمين المختلفين متطلبات مختلفة للمنتج ، لذا فإن التنفيذ يعتمد على منظور المستخدم ، ومن المهم تحديد هذه الاحتياجات.

لا تعني جودة البيانات أن البيانات يجب أن تكون خالية تمامًا أو شبه خالية من الأخطاء - فهي تعتمد على متطلبات المستخدمين. النهج "الجيد بما فيه الكفاية" هو خيار جيد للبدء به. في الوقت الحاضر ، لدى الشركات الكبرى "سياسة حكومية للبيانات (أو المعلومات)" وجودة البيانات جزء منها. يجب أن تصف سياسة حكومة البيانات كيفية تعامل شركتك مع البيانات وكيف تتأكد من أن البيانات تتمتع بالجودة الصحيحة وأن قواعد خصوصية البيانات لا تنتهك.

جودة البيانات موضوع مستمر. يجب تنفيذ حلقة دارة DQ (انظر الفصل التالي). تؤثر المتطلبات التنظيمية وقواعد الامتثال أيضًا على جودة البيانات المطلوبة ، مثل TCPA (قانون حماية المستهلك عبر الهاتف الأمريكي) أو الناتج المحلي الإجمالي في أوروبا لقضايا الخصوصية ، ولكن أيضًا القواعد الخاصة بالصناعة مثل Solvency II للتأمين في الاتحاد الأوروبي ، BCBS 239 وغيرها من الخدمات المصرفية ، وما إلى ذلك.

حلقة دائرة جودة البيانات

كما هو الحال مع جميع موضوعات الجودة ، يعد DQ نشاطًا مستمرًا مصممًا للحفاظ على الجودة المرضية. كنتيجة لمشروع DQ ، يجب تنفيذ حلقة دارة مشابهة لتلك الموجودة أدناه:

حلقة دائرة جودة البيانات
الشكل 2: حلقة دائرة جودة البيانات.

سيتم وصف الخطوات داخل هذه الحلقة في الفصول التالية.

أدوار جودة البيانات

لتنفيذ مبادرة DQ الناجحة ، هناك حاجة إلى الأدوار التالية:

  • مالك البيانات. مالك البيانات هو المسؤول عن جودة البيانات ، ولكن أيضًا عن حماية خصوصية البيانات. مالك البيانات "يمتلك" نطاق بيانات ، ويتحكم في الوصول ، وهو مسؤول عن ضمان جودة البيانات واتخاذ الإجراءات لإصلاح النتائج. في المؤسسات الكبيرة ، من الشائع العثور على العديد من مالكي البيانات. يمكن أن تكون مجالات البيانات ، على سبيل المثال ، بيانات التسويق ، والتحكم في البيانات ، وما إلى ذلك. في حالة وجود أكثر من مالك بيانات واحد في شركة ، يجب أن يكون هناك شخص واحد (مالك البيانات أو شخص آخر) مسؤول عن عملية جودة البيانات الإجمالية. يجب أن يتمتع مالك البيانات بسلطة قوية لفرض جودة البيانات ودعم عملية DQ ؛ لذلك ، غالبًا ما يكون مالكو البيانات من كبار أصحاب المصلحة. من المهم الفهم الجيد لمجال الأعمال إلى جانب مهارات الاتصال الجيدة.
  • مضيف البيانات. يساعد مضيف البيانات في تنفيذ جودة البيانات داخل المؤسسة ، ودعم مستخدمي البيانات بشأن أسئلة حول كيفية تفسير البيانات / نموذج البيانات ، ومشكلات جودة البيانات ، وما إلى ذلك. غالبًا ما يكون مشرفو البيانات هم طاقم مالك البيانات أو يمكن تنظيمهم في مركز كفاءة جودة البيانات أو فريق DQ. يمكن أن يكون لمضيفي البيانات خلفية في مجال تكنولوجيا المعلومات أو الأعمال ولكن يجب أن يعرفوا كلا الجانبين. تعد المهارات التحليلية جنبًا إلى جنب مع الفهم الجيد لمجال الأعمال التي يدعمونها ، جنبًا إلى جنب مع مهارات الاتصال القوية ، من المتطلبات الأساسية لمضيف بيانات ناجح.
  • مستخدم البيانات. هؤلاء هم مستخدمو مستودع البيانات الذين يعملون مع البيانات. يعمل مستخدمو البيانات عادةً مع طبقة سوق البيانات ويكونون مسؤولين عن نتائج العمل مع البيانات. يتأكد مستخدمو البيانات من وجود فحوصات كافية لجودة البيانات لمستوى الجودة الذي يحتاجون إليه. يحتاج مستخدمو البيانات إلى فهم قوي لبياناتهم ومجال أعمالهم والمهارات التحليلية المطلوبة لتفسير البيانات. من المعقول أن تجد عددًا قليلاً من الأشخاص بين مستخدمي البيانات في كل وحدة عمل سيكونون مسؤولين عن مشكلات جودة البيانات.

لضمان النجاح ، من المهم أن تكون هذه الأدوار محددة بوضوح ومقبولة على نطاق واسع داخل مؤسستك في المراحل الأولى من مشروع DQ الخاص بك. من المهم بنفس القدر العثور على متخصصين أكفاء في البيانات لهذه الأدوار الذين يدعمون المشروع.

تحديد القواعد

البحث عن وتنفيذ اختبارات / قواعد DQ المفيدة . يتطلب تحديد قواعد DQ فهماً جيداً لمستودع البيانات الخاص بك واستخدامه.

كيف تجد قواعد DQ؟

كما تمت مناقشته سابقًا ، يتحمل مستخدمو البيانات (ومالك البيانات) المسؤولية عن استخدام البيانات ، وبالتالي أيضًا عن المستوى المطلوب من جودة البيانات. يجب أن يتمتع مستخدمو البيانات بفهم جيد لبياناتهم حتى يتمكنوا من تقديم أفضل إدخال لقواعد جودة البيانات المفيدة.

هم أيضًا من يحلل نتائج قواعد جودة البيانات ، لذلك من الجيد دائمًا السماح لهم بتحديد قواعدهم الخاصة. هذا يعزز القبول لفحص وتصنيف نتيجة قواعد DQ المخصصة لوحدة مستخدم البيانات (انظر فصل "التحليل").

يتمثل عيب هذا الأسلوب في أن مستخدمي البيانات عادةً ما يعرفون طبقة سوق البيانات فقط ، وليس الطبقات السابقة لمستودع البيانات. إذا تعرضت البيانات للتلف في المراحل "الدنيا" ، فلن يتم اكتشاف ذلك عن طريق فحص الطبقة "العليا" فقط من مستودع البيانات.

معالجة الأخطاء

ما نوع الأخطاء المعروفة التي قد تحدث في مستودع البيانات؟

  • منطق التحويل الخاطئ في مستودع البيانات
    • كلما كان مشهد تكنولوجيا المعلومات لديك أكثر تعقيدًا ، كلما كان منطق التحول أكثر تعقيدًا. هذه هي أكثر مشكلات DQ شيوعًا ، ويمكن أن يؤدي تأثير هذه الأخطاء إلى "فقد" البيانات ، والتكرارات ، والقيم غير الصحيحة ، وما إلى ذلك.
  • عملية تحميل غير مستقرة أو معالجة خاطئة للأحمال
    • يمكن أن يكون تحميل مستودع البيانات عملية معقدة قد تتضمن أخطاء في تعريف تنسيق الوظيفة (تبدأ المهام في وقت مبكر جدًا أو متأخر جدًا ، والوظائف التي لم يتم تنفيذها ، وما إلى ذلك). تحدث الأخطاء الناتجة عن التدخل اليدوي (على سبيل المثال ، تم تخطي بعض الوظائف ، أو بدء بعض المهام بتاريخ استحقاق خاطئ أو مع ملفات بيانات الأمس) غالبًا عند نفاد نطاق عملية التحميل بسبب بعض الانقطاع.
  • نقل بيانات خاطئ لمصادر البيانات
    • غالبًا ما يتم تنفيذ نقل البيانات كمهمة للنظام المصدر. قد تؤدي الحالات الشاذة أو الاضطرابات في تدفقات الوظائف إلى تسليم بيانات فارغة أو غير كاملة.
  • بيانات تشغيلية خاطئة
    • تحتوي البيانات الموجودة في نظام التشغيل على أخطاء لم يتم التعرف عليها حتى الآن. قد يبدو الأمر غريباً ، لكن من الواضح في مشاريع مستودعات البيانات أن جودة البيانات التشغيلية لا تُرى غالبًا حتى يتم تضمين البيانات في DWH.
  • سوء تفسير البيانات
    • البيانات صحيحة ، لكن المستخدمين لا يعرفون كيفية تفسيرها بشكل صحيح. هذا "خطأ" شائع جدًا ولا يتعلق بشكل صارم بجودة البيانات ولكنه شيء له علاقة بإدارة البيانات وهو مهمة لمضيفي البيانات.

غالبًا ما تحدث هذه المشكلات بسبب افتقار الأشخاص إلى المعرفة والمهارات المناسبة لتحديد أحد حلول مستودع البيانات وتنفيذه وتشغيله والعمل به.

أبعاد جودة البيانات

أبعاد DQ هي طريقة شائعة لتحديد وتجميع عمليات التحقق من DQ. هناك العديد من التعريفات ، ويختلف عدد الأبعاد بشكل كبير: قد تجد 16 ، أو حتى أكثر من الأبعاد. من منظور عملي ، من غير المربك أن تبدأ ببضعة أبعاد وإيجاد فهم عام لها بين المستخدمين.

  • الاكتمال: هل جميع البيانات المطلوبة متوفرة ويمكن الوصول إليها؟ هل جميع المصادر المطلوبة متوفرة ومحملة؟ هل فقدت البيانات بين المراحل؟
  • الاتساق: هل توجد بيانات خاطئة / متضاربة / غير متسقة؟ على سبيل المثال ، يجب أن يحتوي تاريخ إنهاء العقد في حالة "الإنهاء" على تاريخ صالح أعلى من أو يساوي تاريخ بدء العقد.
  • التفرد: هل هناك أي تكرارات؟
  • النزاهة: هل جميع البيانات مرتبطة بشكل صحيح؟ على سبيل المثال ، هل هناك أوامر مرتبطة بمعرفات العملاء غير الموجودة (مشكلة تكامل مرجعية تقليدية)؟
  • حسن التوقيت: هل البيانات حالية؟ على سبيل المثال ، في مستودع بيانات مع تحديثات يومية ، أتوقع توفر بيانات الأمس اليوم.

يمكن أن تكون البيانات التي تم إنشاؤها بواسطة عملية تحميل مستودع البيانات مفيدة أيضًا.

  • جداول بالبيانات المهملة. قد يحتوي مستودع البيانات الخاص بك على عمليات لتخطي / تأخير البيانات التي لا يمكن تحميلها بسبب مشكلات فنية (على سبيل المثال ، تحويل التنسيق ، والقيم الإلزامية المفقودة ، وما إلى ذلك).
  • معلومات التسجيل. قد تتم كتابة المشاكل الملحوظة في جداول التسجيل أو ملفات السجل.
  • فاتورة التسليم. تستخدم بعض الأنظمة "فواتير التسليم" للبيانات التي توفرها أنظمة التشغيل (على سبيل المثال ، عدد السجلات وعدد المفاتيح المميزة ومجموع القيم). يمكن استخدام هذه لفحوصات التسوية (انظر أدناه) بين مستودع البيانات وأنظمة التشغيل.

ضع في اعتبارك أن كل فحص لجودة البيانات يجب أن يتم تحليله من قبل مستخدم بيانات واحد على الأقل (انظر فصل "التحليل") في حالة العثور على أخطاء ، والتي ستحتاج إلى شخص مسؤول ومتوفر لرعاية كل فحص يتم تنفيذه.

داخل مستودع بيانات معقد ، قد ينتهي بك الأمر بالعديد (أحيانًا الآلاف) قواعد DQ. يجب أن تكون عملية تنفيذ قواعد جودة البيانات قوية وسريعة بما يكفي للتعامل مع هذا الأمر.

لا تتحقق من الحقائق التي يضمنها التنفيذ الفني. على سبيل المثال ، إذا تم تخزين البيانات في نظام DBMS علاقي ، فليس من الضروري التحقق مما يلي:

  • الأعمدة المعرفة على أنها إلزامية تحتوي على قيم فارغة.
  • قيم حقل (حقول) المفتاح الأساسي فريدة في الجدول.
  • لا توجد مفاتيح خارجية موجودة في الجدول مع تمكين عمليات التحقق من التكامل العلائقي.

ومع ذلك ، ضع في اعتبارك دائمًا أن مستودع البيانات يتغير باستمرار وأن تعريف البيانات للحقول والجداول قد يتغير بمرور الوقت.

التدبير المنزلي مهم جدا. قد تتداخل القواعد التي تحددها وحدات مستخدم البيانات المختلفة ويجب دمجها. كلما كانت مؤسستك أكثر تعقيدًا ، ستكون هناك حاجة إلى مزيد من التدبير المنزلي. يجب على مالكي البيانات تنفيذ عملية دمج القواعد كنوع من "جودة البيانات لقواعد جودة البيانات". أيضًا ، قد تصبح فحوصات جودة البيانات عديمة الفائدة إذا لم تعد البيانات مستخدمة أو إذا تغير تعريفها.

فئات قواعد جودة البيانات

يمكن تصنيف قواعد جودة البيانات بناءً على نوع الاختبار.

  • فحص جودة البيانات. الحالة "العادية" ، فحص البيانات داخل طبقة مستودع بيانات واحدة (انظر الشكل 1) إما داخل جدول واحد أو في مجموعة من الجداول.
  • تصالح. القواعد التي تتحقق مما إذا تم نقل البيانات بشكل صحيح بين طبقات مستودع البيانات (انظر الشكل 1). تُستخدم هذه القواعد في الغالب للتحقق من بُعد DQ لـ "الاكتمال". يمكن أن تستخدم التسوية صفًا واحدًا أو نهجًا موجزًا. يعد التحقق من الصفوف الفردية أكثر دقة ، ولكن سيتعين عليك إعادة إنتاج خطوات التحويل (تصفية البيانات ، والتغييرات في قيم الحقل ، وإلغاء التطابق ، والصلات ، وما إلى ذلك) بين الطبقات المقارنة. كلما تخطيت طبقات أكثر ، يجب تنفيذ منطق التحويل الأكثر تعقيدًا. لذلك ، يعد اختيارًا جيدًا لإجراء تسوية بين كل طبقة وسابقتها بدلاً من مقارنة التدريج بطبقة سوق البيانات. إذا كان لا بد من تنفيذ التحويلات في قواعد التسوية ، فاستخدم المواصفات ، وليس كود مستودع البيانات! للتسوية الملخصة ، ابحث عن الحقول ذات المعنى (على سبيل المثال ، التلخيص ، عدد القيم المميزة ، إلخ).
  • يراقب. عادةً ما يحتوي مستودع البيانات على بيانات تاريخية ويتم تحميله بمقتطفات دلتا من البيانات التشغيلية. هناك خطر حدوث فجوة متزايدة ببطء بين مستودع البيانات والبيانات التشغيلية. يساعد بناء سلاسل زمنية مُلخصة من البيانات في تحديد مشكلات مثل هذه (على سبيل المثال ، مقارنة بيانات الشهر الماضي ببيانات الشهر الحالي). يمكن لمستخدمي البيانات الذين لديهم معرفة جيدة ببياناتهم توفير مقاييس مفيدة وحدود لقواعد المراقبة.

كيفية تحديد مشكلة جودة البيانات

بمجرد تحديد ما يجب التحقق منه ، سيتعين عليك تحديد كيفية تحديد المشكلات المحددة. معلومات مثل "خمسة صفوف بيانات تنتهك قاعدة DQ بمعرف 15" لا معنى لها بالنسبة لجودة البيانات.

الأجزاء التالية مفقودة:

  • كيفية تحديد / حساب الأخطاء المكتشفة. يمكنك حساب "عدد الصفوف" ، ولكن يمكنك أيضًا استخدام مقياس نقدي (على سبيل المثال ، التعرض). ضع في اعتبارك أن القيم النقدية قد يكون لها علامات مختلفة ، لذلك عليك أن تبحث في كيفية تلخيصها بشكل هادف. قد تفكر في استخدام كل من وحدات القياس الكمي (عدد الصفوف والتلخيص) لقاعدة جودة البيانات.
  • تعداد سكاني. ما هو عدد الوحدات التي يتم فحصها بواسطة قاعدة جودة البيانات؟ تتميز "خمسة صفوف بيانات من أصل خمسة" بجودة مختلفة عن "خمسة من أصل 5 ملايين". يجب قياس السكان باستخدام نفس القياس الكمي للأخطاء. من الشائع إظهار نتيجة قاعدة جودة البيانات كنسبة مئوية. يجب ألا يكون المحتوى متطابقًا مع عدد الصفوف في الجدول. إذا كانت قاعدة DQ تتحقق فقط من مجموعة فرعية من البيانات (على سبيل المثال ، العقود المنتهية فقط في جدول العقود) ، يجب تطبيق نفس عامل التصفية لقياس السكان.
  • تعريف النتيجة. حتى إذا عثر فحص جودة البيانات على مشكلات ، فلن يتسبب ذلك دائمًا في حدوث خطأ. بالنسبة لجودة البيانات ، يعد استخدام نظام إشارات المرور (الأحمر والأصفر والأخضر) باستخدام قيم الحد لتقييم النتائج مفيدًا للغاية. على سبيل المثال ، أخضر: 0-2٪ ، أصفر: 2-5٪ ، أحمر: فوق 5٪. ضع في اعتبارك أنه إذا كانت وحدات مستخدمي البيانات تشترك في نفس القواعد ، فقد يكون لها عتبات مختلفة تمامًا لقاعدة معينة. قد لا تمانع وحدة الأعمال التسويقية في خسارة عدد قليل من الطلبات ، في حين أن وحدة المحاسبة قد تمانع حتى سنتات. يجب أن يكون من الممكن تحديد عتبات على النسبة المئوية أو على الأرقام المطلقة.
  • اجمع نموذجًا لصفوف الخطأ. من المفيد أن توفر قاعدة جودة البيانات عينة من الأخطاء المكتشفة - عادةً ما تكون المفاتيح (الأعمال!) وقيم البيانات التي تم التحقق منها كافية للمساعدة في فحص الخطأ. من الجيد تحديد عدد صفوف الأخطاء المكتوبة لقاعدة جودة البيانات.
  • في بعض الأحيان ، قد تجد "أخطاء معروفة" في البيانات التي لن يتم إصلاحها ولكن يتم العثور عليها من خلال فحوصات جودة البيانات المفيدة. بالنسبة لهذه الحالات ، يوصى باستخدام القوائم البيضاء (مفاتيح السجلات التي يجب تخطيها بفحص جودة البيانات).

بيانات وصفية أخرى

تعد البيانات الوصفية مهمة لتوجيه "التحليل" ومراقبة مراحل حلقة مراقبة جودة البيانات.

  • العناصر المحددة. يساعد في تعيين الجدول (الجداول) المحددة والحقل (الحقول) لقاعدة جودة البيانات. إذا كان لديك نظام بيانات وصفية مُحسَّن ، فقد يساعد ذلك في التعيين التلقائي لمستخدمي البيانات ومالك البيانات لهذه القاعدة. لأسباب تنظيمية (مثل BCBS 239) ، من الضروري أيضًا إثبات كيفية فحص البيانات بواسطة DQ. ومع ذلك ، فإن تعيين القواعد تلقائيًا لمستخدمي البيانات / مالكي البيانات عبر نسب البيانات (*) قد يكون سيفًا ذا حدين (انظر أدناه).
  • مستخدم البيانات. يجب أن تحتوي كل قاعدة DQ على وحدة مستخدم بيانات / مستخدم بيانات واحدة على الأقل مخصصة للتحقق من النتيجة أثناء مرحلة "التحليل" وتحديد ما إذا كان اكتشاف ما يؤثر على عملهم مع البيانات وكيف يؤثر ذلك.
  • مالك البيانات. يجب أن يكون لكل قاعدة DQ مالك بيانات معين.

(*) يُظهر سلالة البيانات تدفق البيانات بين نقطتين. باستخدام نسب البيانات ، يمكنك العثور على جميع عناصر البيانات التي تؤثر على حقل هدف معين داخل المستودع الخاص بك.

قد يكون استخدام نسب البيانات لتعيين المستخدمين للقواعد مشكلة. كما ذكرنا سابقًا ، عادةً ما يعرف مستخدمو الأعمال طبقة سوق البيانات (ونظام التشغيل) فقط ، ولكن ليس المستويات الأدنى من مستودع البيانات. من خلال التعيين عبر سلالة البيانات ، سيتم تعيين قواعد لمستخدمي البيانات ليسوا على دراية بها. بالنسبة للمستويات الدنيا ، قد تكون هناك حاجة لموظفي تكنولوجيا المعلومات لتقييم نتائج جودة البيانات. في كثير من الحالات ، يمكن أن يساعد التعيين اليدوي أو النهج المختلط (التعيين عبر سلالة البيانات داخل سوق البيانات فقط).

قياس جودة البيانات

يعني قياس جودة البيانات تنفيذ قواعد جودة البيانات المتاحة ، والتي يجب أن تتم تلقائيًا ، والتي يتم تشغيلها بواسطة عمليات تحميل مستودع البيانات. كما رأينا من قبل ، قد يكون هناك عدد ملحوظ من قواعد جودة البيانات ، لذا فإن عمليات التحقق ستستغرق وقتًا طويلاً.

في عالم مثالي ، لن يتم تحميل مستودع البيانات إلا إذا كانت جميع البيانات خالية من الأخطاء. في العالم الحقيقي ، نادرًا ما يكون هذا هو الحال (من الناحية الواقعية ، لا يحدث هذا على الإطلاق). اعتمادًا على إستراتيجية التحميل الشاملة لمستودع البيانات الخاص بك ، يجب أو لا ينبغي أن تحكم عملية جودة البيانات (الأخير على الأرجح) عملية التحميل. إنه تصميم جيد أن تكون عمليات جودة البيانات (شبكات العمل) موازية ومرتبطة بعمليات تحميل مستودع البيانات "العادية".

إذا كانت هناك اتفاقيات محددة على مستوى الخدمة ، فتأكد من عدم إحباط أحمال مستودع البيانات بفحوصات جودة البيانات. يجب ألا تؤدي الأخطاء / الإخفاقات في عمليات جودة البيانات إلى إيقاف عملية التحميل المنتظمة. يجب الإبلاغ عن الأخطاء غير المتوقعة في عمليات جودة البيانات وإظهارها لمرحلة "التحليل" (انظر الفصل التالي).

ضع في اعتبارك أن قاعدة جودة البيانات قد تتعطل بسبب أخطاء غير متوقعة (ربما تم تطبيق القاعدة نفسها بشكل خاطئ ، أو تغير هيكل البيانات الأساسي بمرور الوقت). سيكون من المفيد أن يوفر نظام جودة البيانات الخاص بك آلية لإلغاء تنشيط هذه القواعد ، خاصة إذا كان لدى شركتك عدد قليل من الإصدارات كل عام.

يجب تنفيذ عمليات DQ والإبلاغ عنها في أقرب وقت ممكن - بشكل مثالي ، مباشرة بعد تحميل البيانات التي تم فحصها. يساعد هذا في اكتشاف الأخطاء في أقرب وقت ممكن أثناء تحميل مستودع البيانات (بعض أحمال نظام المستودعات المعقدة لها مدة تصل إلى عدة أيام).

حلل

في هذا السياق ، يعني "التحليل" الرد على نتائج جودة البيانات. هذه مهمة لمستخدمي البيانات المعينين ومالك البيانات.

يجب تحديد طريقة الرد بوضوح من خلال مشروع جودة البيانات الخاص بك. يجب إلزام مستخدمي البيانات بالتعليق على قاعدة مع النتائج (على الأقل القواعد ذات الضوء الأحمر) ، مع توضيح التدابير التي يتم اتخاذها للتعامل مع النتيجة. يجب إبلاغ مالك البيانات ويجب أن يقرر مع مستخدم (مستخدمي) البيانات.

الإجراءات التالية ممكنة:

  • مشكلة خطيرة: يجب إصلاح المشكلة وتكرار تحميل البيانات.
  • المشكلة مقبولة: حاول إصلاحها لأحمال البيانات المستقبلية ومعالجة المشكلة داخل مستودع البيانات أو التقارير.
  • قاعدة DQ المعيبة: أصلح قاعدة DQ الخاطئة.

في عالم مثالي ، سيتم إصلاح كل مشكلة تتعلق بجودة البيانات. ومع ذلك ، غالبًا ما يؤدي نقص الموارد و / أو الوقت إلى حلول بديلة.

لتكون قادرًا على الاستجابة في الوقت المناسب ، يجب على نظام DQ إبلاغ مستخدمي البيانات بقواعد "هم "مع النتائج. يعد استخدام لوحة معلومات جودة البيانات (ربما بإرسال رسائل تفيد بوجود شيء ما) فكرة جيدة. كلما تم إبلاغ المستخدمين بالنتائج في وقت مبكر ، كان ذلك أفضل.

يجب أن تحتوي لوحة قياس جودة البيانات على:

  • جميع القواعد المخصصة لدور معين
  • نتائج القواعد (إشارات المرور والمقاييس وأمثلة الصفوف) مع إمكانية تصفية القواعد حسب النتيجة ومجال البيانات
  • تعليق إلزامي مفاده أن البيانات يجب على المستخدمين إدخالها للحصول على النتائج
  • ميزة "إلغاء" النتيجة اختياريًا (إذا كانت قاعدة جودة البيانات تبلغ عن أخطاء بسبب تطبيق معيب ، على سبيل المثال). إذا تم تعيين نفس قاعدة جودة البيانات لأكثر من وحدة عمل واحدة ، فإن "التجاوز" يكون صالحًا فقط لوحدة أعمال مستخدم البيانات (وليس الشركة بأكملها).
  • عرض القواعد التي لم يتم تنفيذها أو التي ألغيت

يجب أن تُظهر لوحة القيادة أيضًا الحالة الحالية لعملية تحميل مستودع البيانات الحديثة ، مما يمنح المستخدمين عرضًا بزاوية 360 درجة لعملية تحميل مستودع البيانات.

مالك البيانات مسؤول عن التأكد من التعليق على كل اكتشاف وأن حالة جودة البيانات (الأصلية أو الملغاة) صفراء على الأقل لجميع مستخدمي البيانات.

للحصول على نظرة عامة سريعة ، قد يساعد في بناء نوع من مؤشرات الأداء الرئيسية البسيطة (مؤشرات الأداء الرئيسية) لمستخدمي البيانات / مالك البيانات. من السهل جدًا الحصول على إشارة مرور شاملة لجميع نتائج القواعد المرتبطة إذا أعطيت كل قاعدة نفس الوزن.

أنا شخصياً أعتقد أن حساب القيمة الإجمالية لجودة البيانات لنطاق بيانات معين أمر معقد إلى حد ما ويميل إلى أن يكون متحدًا ، ولكن يمكنك على الأقل إظهار عدد القواعد الإجمالية المجمعة حسب النتيجة لنطاق البيانات (على سبيل المثال ، "100 قواعد DQ بنتائج 90٪ أخضر و 5٪ أصفر و 5٪ أحمر ").

تتمثل مهمة مالك البيانات في ضمان إصلاح النتائج وتحسين جودة البيانات.

تحسين العمليات

نظرًا لأن عمليات مستودع البيانات غالبًا ما تتغير ، فإن آلية جودة البيانات تحتاج أيضًا إلى الصيانة.

يجب على مالك البيانات دائمًا الاهتمام بالنقاط التالية:

  • ابقها محدثة. يجب أن يتم تسجيل التغييرات في مستودع البيانات في نظام جودة البيانات.
  • تحسين. تنفيذ قواعد جديدة للأخطاء التي لم تغطيها قواعد جودة البيانات حتى الآن.
  • انسيابية. تعطيل قواعد جودة البيانات التي لم تعد مطلوبة. توحيد القواعد المتداخلة.

مراقبة عمليات جودة البيانات

تساعد مراقبة عملية جودة البيانات بأكملها على تحسينها بمرور الوقت.

الأشياء التي تستحق المشاهدة ستكون:

  • تغطية بياناتك بقواعد جودة البيانات
  • النسبة المئوية لنتائج جودة البيانات ضمن القواعد النشطة بمرور الوقت
  • عدد قواعد جودة البيانات النشطة (راقبها - لقد رأيت أن مستخدمي البيانات يحلون نتائجهم ببساطة عن طريق تعطيل المزيد والمزيد من قواعد جودة البيانات.)
  • الوقت اللازم ضمن حمل البيانات لتصنيف جميع النتائج وتثبيتها

خاتمة

العديد من النقاط التالية مهمة في أي نوع من المشاريع.

توقع المقاومة. كما رأينا ، إذا لم تكن هناك مشكلة جودة ملحة ، فغالبًا ما يُنظر إلى جودة البيانات على أنها عبء إضافي دون تقديم وظائف جديدة. ضع في اعتبارك أنه قد يؤدي إلى إنشاء عبء عمل إضافي لمستخدمي البيانات. في كثير من الحالات ، يمكن أن تساعدك المطالب التنظيمية والامتثال في إقناع المستخدمين برؤيتها كشرط لا مفر منه.

اعثر على راعٍ. كما هو مذكور أعلاه ، DQ ليس عنصرًا سريع البيع ، لذلك هناك حاجة إلى راع / صاحب مصلحة قوي - كلما كان ذلك أعلى في الإدارة ، كان ذلك أفضل.

ابحث عن حلفاء. كما هو الحال مع الراعي ، فإن أي شخص يشارك فكرة جودة البيانات القوية سيكون مفيدًا للغاية. حلقة الدائرة DQ هي عملية مستمرة وتحتاج إلى أشخاص للحفاظ على حلقة الدائرة على قيد الحياة.

تبدأ صغيرة. إذا لم تكن هناك استراتيجية DQ حتى الآن ، فابحث عن وحدة أعمال تحتاج إلى جودة بيانات أفضل. أنشئ نموذجًا أوليًا لتظهر لهم فائدة البيانات الأفضل. إذا كانت مهمتك هي تحسين أو حتى استبدال استراتيجية جودة بيانات معينة ، فابحث عن الأشياء التي تعمل بشكل جيد / يتم قبولها في المنظمة ، واحتفظ بها.

لا تغفل الصورة كاملة. على الرغم من أن البداية صغيرة ، ضع في اعتبارك أن بعض النقاط ، خاصة الأدوار ، هي متطلبات أساسية لاستراتيجية DQ الناجحة.

بمجرد التنفيذ ، لا تتركها. يجب أن تكون عملية جودة البيانات جزءًا من استخدام مستودع البيانات. بمرور الوقت ، يميل التركيز على جودة البيانات إلى الضياع قليلاً ، والأمر متروك لك للحفاظ عليه.