بنية مستودع البيانات: كل ما تحتاج إلى معرفته
نشرت: 2020-04-30في هذا العالم المتمحور حول البيانات ، ليس من المفاجئ أنه عاجلاً وليس آجلاً ، سيقوم كل واحد منا بتوليد 1.7 ميجابايت من البيانات في الثانية . لكن إلى أين تذهب كل هذه البيانات؟ ألا يجب أن تكون هناك وحدة تخزين لحفظ كل هذه المعلومات بأمان ، بحيث يمكن إحيائها عند الحاجة؟
ماذا لو قلنا لك أن هناك وحدة تخزين كهذه؟ ليس من المستغرب أن يطلق عليه مستودع البيانات. إنها أداة تحليلية تحتوي على بيانات ومعلومات من مصادر تشغيلية ، تم إنشاؤها للمساعدة في صنع القرار وإعداد التقارير.
اليوم ، ارتفع سوق تخزين البيانات العالمي إلى حد حيث من المتوقع أن ينمو بمعدل نمو سنوي مركب بنسبة 16٪ في السنوات التالية.
لذلك ، دعونا نتعمق في التعرف على مستودع البيانات وبنيته.
تعرف على المزيد: ما المقصود بتخزين البيانات واستخراج البيانات
جدول المحتويات
ما هو مستودع البيانات؟
يُطلق على مكان الحفظ الآمن لجميع البيانات السابقة والتبادلية القادمة من مصدر واحد أو أكثر اسم مستودع البيانات. الغرض الأساسي من وجود مستودع بيانات هو تسهيل ذكاء الأعمال وعمليات إعداد التقارير الخاصة بالأعمال. يقوم بشكل أساسي بإجراء الاستعلام والتحليل على البيانات التي يخزنها.
نظرًا لأن مستودع البيانات يحتوي على بيانات معاملات من مصادر متعددة ، فإنه يساعد الشركات على:
- الاحتفاظ بالسجلات القديمة
- تقييم البيانات الموجودة وتحديد الثغرات في العمليات
إطار عمل تحليل الأعمال لتصميم مستودع بيانات
عادةً ما يجمع محلل البيانات البيانات ذات الصلة من المستودع ويحللها لمساعدة الأعمال على تحسين عملياتها. يعد استخدام مستودع البيانات مفيدًا لأنه يساعد في الوصول إلى البيانات بسرعة وكفاءة ، وبالتالي تحسين الإنتاجية الإجمالية.
علاوة على ذلك ، يمكنك إلقاء نظرة شاملة على العملاء وجميع المنتجات. بهذه الطريقة ، يمكنك ضمان علاقة سلسة مع العملاء.
ولكن لكي يحدث كل هذا ، سيحتاج محلل البيانات إلى فهم احتياجات العمل أولاً. ولهذا ، يحتاجون إلى إنشاء إطار عمل لتحليل الأعمال.
فقط بعد إنشاء إطار عمل لتحليل الأعمال ، يمكننا الانتقال إلى تصميم مستودع بيانات. هناك ثلاث آراء لهذا:
- عرض من أعلى لأسفل : في طريقة العرض هذه ، يمكنك مشاهدة المعلومات ذات الصلة المطلوبة لتصميم المستودع.
- عرض مصدر البيانات : يعرض البيانات التي يتم التقاطها وتخزينها وإدارتها.
- طريقة عرض مستودع البيانات : تسرد جداول البيانات الواقعية وجداول الأبعاد والبيانات في المستودع.
- طريقة عرض استعلام الأعمال : في هذا ، يمكنك رؤية البيانات من منظور المستخدم النهائي.
بمجرد عرض البيانات من جميع وجهات النظر هذه ، حان الوقت للانتقال إلى التعرف على الأنواع الثلاثة لبنية مستودع البيانات.
ثلاثة أنواع من بنية مستودع البيانات
في كل مرة تخطط لتصميم مستودع بيانات لشركة ما ، يمكنك التفكير في خارطة طريق لبناء مستودع البيانات الخاص بك وأيضًا المستويات الثلاثة التالية للهندسة المعمارية.
- المستوى الفردي : هذا مسؤول بشكل رئيسي عن إنشاء مجموعة حزم قريبة من البيانات وتقليل حجمها الإجمالي. ومع ذلك ، لا يوصى بهذا النوع للشركات التي لديها بيانات معقدة وتدفقات متعددة من البيانات.
- مستويان : في هذا النوع من البنية ، يتم تقسيم مصادر البيانات ، مما يجعل تنظيم البيانات وعملية التخزين أكثر كفاءة.
- ثلاثة مستويات : هذا النوع من بنية المستودعات هو النوع المفضل ، لأنه يعطي رؤى قيمة حقًا من البيانات الأولية ، وبالتالي ينتج تدفقًا منظمًا للبيانات.
يتكون من المستويات الثلاثة التالية:
- الطبقة السفلية ، والتي تحتوي على خوادم المستودع. هنا ، يتم تنظيف البيانات وتحميلها باستخدام أدوات الخلفية.
- تتكون الطبقة الوسطى من خادم OLAP. توفر هذه الطبقة للمستخدم عرضًا موجزًا لقاعدة البيانات ، وتعمل كوصلة بين المستخدم النهائي وقاعدة البيانات.
- يحتوي المستوى الأعلى على واجهة برمجة التطبيقات والأدوات (أدوات الاستعلام واستخراج البيانات والتحليل وإعداد التقارير) لاستخراج البيانات من المستودع.
مكونات بنية مستودع البيانات
لجعل عمل الهيكل قابلاً للإدارة ، يحتوي المستودع على خادم RDBMS ، محاط بخمسة مكونات رئيسية.
فيما يلي المكونات الخمسة الرئيسية لبنية مستودع البيانات.
قاعدة بيانات مستودع البيانات
الجزء المحوري من بنية المستودع هو بنك بيانات يحتوي على جميع المعلومات التجارية التي تجعله مفهومًا لإعداد التقارير. من الواضح أن هذا يعني أنه يجب عليك اختيار نوع قاعدة البيانات التي ستستخدمها لتخزين البيانات في المستودع الخاص بك.
فيما يلي أنواع قواعد البيانات الأربعة التي يمكنك استخدامها:
- قواعد البيانات العلائقية هي قواعد البيانات المستندة إلى الصفوف التي تصادفها أو تستخدمها كل يوم بشكل عام. وتشمل هذه Microsoft SQL Server و SAP و Oracle و IBM DB2.
- يتم إنشاء قواعد بيانات التحليلات بشكل حاسم لتخزين المعلومات لدعم التحليل والإشراف عليه. على سبيل المثال ، Teradata و Greenplum.
- تطبيقات مستودع البيانات ليست في الواقع نوعًا من قواعد بيانات السعة. إنها تطبيقات تقدم برامج لإدارة البيانات ، مثل SAP Hana و Oracle Exadata و IBM Netezza.
- قواعد البيانات المستندة إلى السحابة هي تلك التي يمكن تسهيلها واستعادتها على السحابة بهدف ألا تحتاج إلى الحصول على أي أجهزة لإعداد مستودع البيانات الخاص بك. على سبيل المثال ، Amazon Redshift و Microsoft Azure SQL و Google BigQuery.
إذا كنت مهتمًا بمعرفة المزيد عن علم البيانات ، فراجع تدريبنا في علم البيانات من أفضل الجامعات.
أدوات الاستخراج والتحويل والتحميل (ETL)
تعتبر أجهزة ETL أساسية لهندسة مستودع البيانات. تساعد هذه في فصل المعلومات من مصادر مختلفة ، وتحويلها إلى ترتيب معقول ، وتكديسها في مستودع.
أداة ETL التي تختارها ستقرر:
- الوقت المستغرق في استخلاص المعلومات
- طرق استخراج البيانات
- نوع التغييرات المطبقة والجهد المطلوب للقيام بذلك
- تعريف قاعدة العمل للتحقق من صحة المعلومات والتطهير لتحسين تحليلات المنتج النهائي
- ملء المعلومات المفقودة
- تخطيط تداول البيانات من المفتاح الآمن إلى تطبيقات ذكاء الأعمال
البيانات الوصفية
البيانات الوصفية تصور مستودع البيانات وتوفر نظامًا للمعلومات. يساعد في تطوير المستودع وحمايته والتعامل معه والاستفادة منه. وهي من نوعين:
- البيانات الوصفية الفنية : وتشمل البيانات التي يمكن للمهندسين والمديرين استخدامها عند تنفيذ مهام تطوير المستودعات وتنظيمها.
- البيانات الوصفية للأعمال : تشمل البيانات التي تقدم موقفًا مبررًا بشكل فعال للبيانات في المستودع.
تفترض البيانات الوصفية دورًا مهمًا للمنظمات لفهم البيانات الموجودة في المستودع وتحويلها إلى معلومات قابلة للاستخدام.
أدوات الوصول إلى مستودع البيانات
يستخدم مستودع البيانات قاعدة بيانات أو مجموعة قواعد بيانات كمنشأة. لا تستطيع الشركات ، في الغالب ، العمل مع قواعد البيانات بشكل شرعي. وهذا هو سبب استخدامهم لعدة أدوات ، منها:
- أدوات الاستعلام وإعداد التقارير : تساعد هذه الأدوات المستخدمين في إنشاء تقارير الشركة في جداول البيانات أو الحسابات أو المرئيات الذكية لإجراء تحليل متعمق.
- أجهزة OLAP : تساعد في تطوير مستودع بيانات متعدد الأبعاد وإجراء تحليل للبيانات الضخمة من وجهات نظر مختلفة.
- أدوات التنقيب عن البيانات : تنظم منهجية التعرف على المجموعات والوصلات بكميات هائلة من البيانات ، باستخدام استراتيجيات النمذجة الإحصائية. تعرف على المزيد حول تقنيات التنقيب عن البيانات.
- أدوات تطوير التطبيقات : تساعد في عمل تقارير مناسبة وتقديمها في الترجمات المتوقعة لأغراض إعداد التقارير المحددة.
ناقل مستودع البيانات
يساعد في تحديد تقدم البيانات في المستودع. يمكن ترتيب هذا التدفق على أنه تدفق داخلي ، وتدفق لأعلى ، وتدفق لأسفل ، وتدفق خارجي ، وتدفق ميتا.

أثناء تصميم ناقل البيانات ، تحتاج إلى التفكير في القياسات والحقائق الشائعة عبر مجموعات البيانات.
سوق البيانات
هذه طبقة دخول تُستخدم لإيصال المعلومات إلى المستخدمين. يتم تقديمه كإمكانية لمخزن بيانات ضخم الحجم ، لأنه لا يتطلب سوى قدر ضئيل من الوقت والمال لإنشائه. على أي حال ، لا يوجد معنى قياسي لسوق البيانات ، لأنه يختلف من فرد لآخر.
بشكل مبسط ، يعد سوق البيانات عنصرًا مساعدًا لمستودع البيانات ويستخدم لتقسيم المعلومات ، والذي يتم إنشاؤه لمجموعة مستخدمين معينة.
طبقات معمارية مستودع البيانات
يعتمد إنشاء مستودع بيانات بشكل أساسي على عمل معين. وهكذا ، كل بنية لها أربع طبقات. دعنا ندرسها بالتفصيل أدناه.
طبقة مصدر البيانات
طبقة مصدر البيانات هي المكان الذي توجد فيه المعلومات الفريدة ، التي تم جمعها من مجموعة متنوعة من المصادر الداخلية والخارجية ، في قاعدة البيانات الاجتماعية. فيما يلي أمثلة لطبقة مصدر البيانات:
- البيانات التشغيلية - معلومات المنتج أو معلومات المخزون أو معلومات التسويق أو معلومات الموارد البشرية
- بيانات الوسائط الاجتماعية - زيارات الموقع ، شهرة المحتوى ، استكمال صفحة الاتصال
- بيانات خارجية - معلومات ديموغرافية ، معلومات دراسة ، معلومات إحصائية
بينما تدير معظم مستودعات البيانات البيانات المنظمة ، يجب التفكير في الاستخدام المستقبلي لمصادر البيانات غير المهيكلة ، على سبيل المثال ، الحسابات الصوتية والصور الممسوحة ضوئيًا والنص غير المنظم. هذه الفيضانات من البيانات هي مخازن كبيرة للمعلومات ويجب أن يتم عرضها عند بناء المستودع الخاص بك.
طبقة التدريج للبيانات
تسكن هذه الطبقة بين مصادر المعلومات ومستودع البيانات. في هذه الطبقة ، يتم فصل المعلومات عن مصادر البيانات الداخلية والخارجية المختلفة. نظرًا لأن بيانات المصدر تأتي في مؤسسات مختلفة ، فإن طبقة استخراج البيانات ستستخدم العديد من التقنيات والأجهزة لاستخراج المعلومات الضرورية.
بمجرد تكديس البيانات المستخرجة ، ستتعرض لفحوصات جودة عالية المستوى. ستكون النتيجة الحاسمة بيانات مثالية ومنظمة ستقوم بتكديسها في مستودع البيانات الخاص بك. تحتوي طبقة التدريج على الأجزاء المحددة:
- قاعدة بيانات الهبوط ومنطقة التدريج
تخزن قاعدة بيانات الهبوط المعلومات المسترجعة من مصدر البيانات. قبل نقل البيانات إلى المستودع ، تجري عملية التدريج فحوصات جودة صارمة عليها. الترتيب هو خطوة أساسية في الهندسة المعمارية. ستؤدي المعلومات الضعيفة إلى عدم كفاية البيانات ، والنتيجة هي ضعف ديناميكية الأعمال. طبقة الترتيب هي المكان الذي تحتاج فيه إلى إجراء تغييرات وفقًا لعملية الأعمال للتعامل مع مصادر المعلومات غير المنظمة.
- أداة تكامل البيانات
أدوات الاستخراج والتحويل والتحميل (ETL) هي أدوات البيانات المستخدمة لاستخراج المعلومات من أطر عمل المصدر وتغيير وإعداد المعلومات وتحميلها في المستودع.
قراءة: راتب عالم البيانات في الهند
طبقة تخزين البيانات
هذه الطبقة هي المكان الذي يتم فيه وضع البيانات التي تم غسلها في منطقة الترتيب بعيدًا كأرشيف مركزي منفرد. اعتمادًا على عملك واحتياجات بنية المستودع الخاصة بك ، قد يكون تخزين البيانات الخاص بك عبارة عن مركز مستودع بيانات أو سوق بيانات (مخزن بيانات تم إعادة إنشاؤه إلى حد ما لإدارات معينة) أو مخزن بيانات تشغيلية (ODS).
طبقة عرض البيانات
هذا هو المكان الذي يتواصل فيه المستخدمون مع البيانات التي تم مسحها وفرزها. تمنح هذه الطبقة من بنية البيانات المستخدمين القدرة على الاستعلام عن البيانات الخاصة بالرؤى المتعلقة بالعنصر أو الخدمة ، وتفكيك البيانات لإجراء مواقف عمل نظرية ، وإنشاء تقارير محوسبة أو معينة بشكل خاص.
يمكنك استخدام OLAP أو أداة إعداد التقارير مع واجهة مستخدم رسومية سهلة الفهم (GUI) لمساعدة المستخدمين في بناء استفساراتهم أو إجراء التحليل أو التخطيط لتقاريرهم.
خصائص مستودع البيانات
مستودع البيانات هو موضوع المنحى ، وغير متقلب ، ومتغير زمني ، ومجموعة متكاملة من البيانات لتمكين عملية اتخاذ قرارات سريعة وفعالة لمؤسسة ما.
- موجه نحو الموضوع : يمكن استخدام مستودع البيانات لفحص فرع معين من المعرفة. على سبيل المثال ، يمكن أن تكون "المبيعات" موضوعًا محددًا.
- متكامل : مستودع البيانات يشتمل على معلومات من مصادر مختلفة. على سبيل المثال ، قد يكون للمصدر A والمصدر B طرق مختلفة لتمييز عنصر ما ، ومع ذلك ، في المستودع ، ستكون هناك طريقة فردية فقط للتعرف على العنصر.
- متغير الوقت : يحتوي المستودع على بيانات تاريخية. على سبيل المثال ، يمكن للمرء استرداد المعلومات من 3 أشهر أو نصف عام أو عام أو معلومات أقدم بشكل ملحوظ من مستودع البيانات. يظهر هذا بشكل مختلف فيما يتعلق بإطار المعاملات ، حيث يتم تخزين أحدث المعلومات فقط. على سبيل المثال ، قد يحتوي إطار المعاملات على أحدث موقع للعميل ، بينما يمكن لمخزن البيانات الاحتفاظ بجميع المواقع المتعلقة بالعميل.
- غير متطاير : من أفضل خصائص مستودع البيانات أنه بمجرد تخزين البيانات فيه ، من المستحيل أن تتغير. وبالتالي ، لن يتم تعديل المعلومات المسجلة في المستودع أبدًا.
كيفية استخدام بنية مستودع البيانات؟
يعد بناء نوع قاعدة البيانات التي يحتاجها عملك أو مؤسستك وكيف تنوي التعاون معها أمرًا بالغ الأهمية أثناء البحث عن الأفكار. من المهم أيضًا تقييم من سيقوم بفحص المعلومات والمصادر التي يحتاجون إليها أثناء التفكير في تصميم مستودع البيانات الخاص بك.
على الرغم من حقيقة أن مستودع البيانات مقابل مزاح البيانات ليس مناسبًا دائمًا للمنظمات الأصغر ، فإن أولئك الذين لديهم المزيد من المجموعات والأقسام والاحتياجات الواضحة قد يستفيدون من سوق البيانات. تجعل الطبيعة المحددة الموضوعية لسوق البيانات جزءًا أساسيًا من بنية مستودع البيانات.
بالإضافة إلى ذلك ، بناءً على حجم مؤسستك ، قد تكون أنواع مختلفة من تصميمات المستودعات عملية بشكل متزايد. يعتمد فهم أيهما أفضل على بياناتك وحجم مجموعاتك واحتياجات عملك.
خاتمة
مستودع البيانات هو إطار عمل لعلوم البيانات يحتوي على معلومات أصلية وتبادلية من مصادر فردية أو متنوعة. إنها طريقة ممتازة للوصول إلى البيانات القديمة والجديدة ، والحصول على رؤى منها ، وتحسين العمليات التجارية من خلال تحليل البيانات الحالية.
علاوة على ذلك ، فإن مفاهيم تخزين البيانات موجهة نحو الموضوع ، حيث إنها توفر بيانات تتعلق بالموضوع بدلاً من الأنشطة التقدمية للجمعية. في المستودع ، يعني التضمين تأسيس وحدة قياس نموذجية لكل مسند قابل للمقارنة من قواعد البيانات المختلفة. كما ذكرنا سابقًا ، فهي أيضًا غير متطايرة ، مما يعني أن المعلومات السابقة لا يتم حذفها عند إدخال معلومات جديدة فيها.
تتيح خاصية التباين الزمني لمستودع البيانات إطارًا زمنيًا عاليًا لقابلية الاستخدام الواقعية.
هناك خمسة أجزاء أساسية من مستودع البيانات. 1) قاعدة البيانات 2) أدوات ETL 3) البيانات الوصفية 4) أدوات الاستعلام 5) DataMarts
الفئات الأربع الأساسية لأدوات الاستعلام هي أدوات الاستعلام والتقارير وأدوات تطوير التطبيقات وأجهزة استخراج البيانات وأدوات OLAP.
يتم استخدام أدوات تحديد مصادر المعلومات والتغيير وإعادة التوطين لإجراء جميع التحولات والخطوط العريضة.
في بنية مستودع البيانات ، تفترض العلامة الوصفية وظيفة مهمة لأنها تشير إلى المصدر والاستخدام والصفات وإبرازات البيانات في مستودع البيانات.
نأمل أن تساعدك المعلومات الواردة في هذه المقالة في فهم أساسيات بنية مستودع البيانات. لمزيد من المعلومات ، تواصل مع الخبراء في upGrad. ما عليك سوى إرسال بريد إلكتروني إلينا ، وسنقوم بالرد عليك لمساعدتك في استفساراتك.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ما هي بنية مستودع البيانات؟
طريقة تحديد البنية الكاملة لمعالجة اتصالات البيانات بالإضافة إلى العرض التقديمي الموجود للعملاء النهائيين هي بنية مستودع البيانات. يختلف كل مستودع بيانات عن الآخر ، ويتم تصنيف كل منها بناءً على المكونات الحيوية القياسية.
بكلمات بسيطة ، مستودع البيانات هو نظام معلومات يتكون من بيانات تبادلية وتاريخية من مصادر فردية أو متعددة. يتم تبسيط عملية الإبلاغ عن البيانات وتحليلها في المؤسسات بمساعدة مفاهيم تخزين البيانات المختلفة. هناك طرق مختلفة لبناء بنية مستودع البيانات. يتم استخدام أي نهج بناءً على متطلبات المنظمات.
كم يكسب مهندس مستودع البيانات في المتوسط؟
Data Warehouse Architect هو دور وظيفي مطلوب للغاية حيث يمكنك توقع حزم رواتب ممتازة. في المتوسط ، راتب مهندس مستودع البيانات هو روبية. 13،00،000 سنويًا. حتى إذا كنت تبدأ حياتك المهنية في هذا المجال ، يمكنك أن تتوقع راتبًا مبتدئًا قدره روبية. 10000000 سنويا. عندما تكتسب المزيد من الخبرة وترتقي في السلم ، يمكن أن يصل الراتب إلى روبية. 22،00،000 سنويًا.
لا شك أن حزمة الراتب ستعتمد حتى على الشركة التي تنضم إليها ، ومستويات الخبرة ، والأهم من ذلك ، الموقع الجغرافي.
ما هو التدفق الصحيح لبنية مستودع البيانات؟
في كل قاعدة بيانات تشغيلية ، هناك عدد ثابت معين من العمليات التي يجب تطبيقها. هناك تقنيات مختلفة محددة جيدًا لتقديم حلول مناسبة. تم العثور على تخزين البيانات ليكون أكثر فعالية عندما يتم اتباع التدفق الصحيح لبنية مستودع البيانات بشكل كامل.
العمليات الأربع المختلفة التي تساهم في مستودع البيانات هي استخراج البيانات وتحميلها وتنظيفها وتحويلها ونسخ البيانات احتياطيًا وأرشفتها وتنفيذ عملية إدارة الاستعلام عن طريق توجيهها إلى مصادر البيانات المناسبة.