ماذا عن تخزين البيانات واستخراج البيانات

نشرت: 2018-02-22

تم تخزين بيانات المؤسسة في صوامع المعلومات التي كانت فيزيائية منفصلة عن مستودعات البيانات الأخرى ، وكل صومعة تخدم وظائف متخصصة - ولكن كان ذلك قبل أن تضرب البيانات الضخمة العالم (بواسطة عاصفة ، إذا جاز لنا القول). الآن ، من المستحيل عمليًا ممارسة نفس الأساليب على مجموعات البيانات الكبيرة هذه. فقط تخيل عدد مستخلصات البيانات التي قد تتطلبها من العديد من صوامع المعلومات المنفصلة ماديًا - فقط لتشغيل استعلام بسيط. كل ذلك بفضل الكومة الهائلة للغاية من البيانات التي تقع في المؤسسات وأساليب هندسة البيانات الضخمة.

دعونا نراقب عن كثب كيفية دخول تخزين البيانات واستخراج البيانات إلى المشهد. تم تطوير مستودعات البيانات لمكافحة مشكلة تخزين البيانات. بشكل أساسي ، يمكن اعتبار مخازن البيانات كمستودع موحد للبيانات التي تأتي من مصادر مختلفة وبأشكال مختلفة. من ناحية أخرى ، فإن التنقيب في البيانات هو عملية استخراج المعرفة من مستودع البيانات المذكور.

في هذه المقالة ، سنلقي نظرة مفصلة على مستودع البيانات واستخراج البيانات. من أجل فهم أفضل ، قمنا بتصميم المقالة على النحو التالي:

  • ما هو تخزين البيانات؟
  • عمليات تخزين البيانات
  • ما هو التنقيب عن البيانات؟
  • عملية كي دي دي
  • الاستخدام الواقعي - حالات التنقيب عن البيانات

جدول المحتويات

ما هو تخزين البيانات؟

إذا أردنا تعريف مستودع البيانات ، فيمكن تفسيره على أنه مجموعة متكاملة من البيانات موجهة نحو الموضوع ، ومتغير زمني ، وغير متقلبة. تشتمل مقدمة تخزين البيانات أيضًا على بيانات مجمعة من مصادر خارجية. الغرض من تصميم المستودع هو تحليل قرارات العمل والحث عليها من خلال الإبلاغ عن البيانات على مستوى إجمالي مختلف. قبل الانتقال من هنا ، دعنا أولاً نلقي نظرة على ما تعنيه هذه المصطلحات في سياق مستودع البيانات:

  • موجه نحو الموضوع

    يمكن للمؤسسات استخدام مستودع البيانات لتحليل مجال موضوع معين. لنفترض أنك تريد معرفة مدى جودة أداء فريق المبيعات الخاص بك في السنوات الخمس الماضية - يمكنك الاستعلام عن المستودع الخاص بك ، وسوف يخبرك بكل ما تحتاج إلى معرفته. في هذه الحالة ، يمكن التعامل مع "المبيعات" كموضوع.

  • تغير الوقت

    مخازن البيانات هي المسؤولة عن تخزين البيانات التاريخية للمنظمات. على سبيل المثال ، يمكن لنظام المعاملات أن يحتفظ بأحدث عنوان للعميل ، لكن مستودع البيانات سيحتفظ بجميع العناوين السابقة أيضًا. يحافظ باستمرار على إضافة البيانات من مصادر مختلفة ، بصرف النظر عن الاحتفاظ بالبيانات التاريخية - وهذا ما يجعله نموذجًا متغيرًا زمنيًا. ستختلف البيانات المخزنة دائمًا مع مرور الوقت.

  • غير متطاير

    بمجرد تخزين البيانات في مستودع البيانات ، لا يمكن تغييرها أو تعديلها. يمكننا فقط إضافة نسخة معدلة من البيانات التي نريد تعديلها.

  • المدمجة:

    كما قلنا سابقًا ، يحتفظ مستودع البيانات ببيانات من مصادر متعددة. لنفترض أن لدينا مصدرين للبيانات - A و B. قد يحتوي كلا المصدرين على أنواع مختلفة تمامًا من البيانات المخزنة فيهما ، ولكن عندما يتم إحضارهما إلى المستودع ، يتم إجراؤهما للخضوع للمعالجة المسبقة. هذه هي الطريقة التي يدمج بها مستودع البيانات البيانات من عدد من المصادر.

ابدأ في علوم البيانات مع بايثون

عمليات تخزين البيانات

تخزين البيانات واستخراج البيانات
الق نظرة على الصورة أعلاه. البيانات التي يتم جمعها من مصادر مختلفة (نظام التشغيل ، تخطيط موارد المؤسسات ، CRM ، الملفات المسطحة ، وما إلى ذلك) يتم إجراؤها للخضوع لعملية ETL قبل إدراجها في مستودع البيانات. يتم القيام بذلك بشكل أساسي لإزالة الانحرافات ، إن وجدت ، من البيانات - حتى لا يحدث أي ضرر لمخزن البيانات. ETL تعني - الاستخراج والتحويل والتحميل. دعونا نلقي نظرة على كل من هذه العمليات بالتفصيل. لفهم أفضل ، سنستخدم تشبيهًا - فكر في اندفاع الذهب واستمر في القراءة!

  • استخلاص

    يتم الاستخراج بشكل أساسي لجمع جميع البيانات المطلوبة من أنظمة المصدر باستخدام أقل قدر ممكن من الموارد.

فكر في هذه الخطوة مثل تجريف النهر بحثًا عن شذرات الذهب بأكبر حجم ممكن .

  • تحويل

    الهدف الرئيسي هو إدخال البيانات المستخرجة في قاعدة البيانات بتنسيق عام. هذا لأن المصادر المختلفة سيكون لها تنسيقات مختلفة لتخزين البيانات - على سبيل المثال ، قد يحتوي مصدر بيانات واحد على بيانات بتنسيق "dd / mm / yyyy" ، والآخر قد يكون بتنسيق "dd-mm-yy". في هذه الخطوة ، سنحول هذا إلى تنسيق عام - تنسيق سيتم استخدامه للبيانات من جميع المصادر.

الآن لديك كتلة صلبة من الذهب. ماذا تفعل؟ قم بإذابه وإزالة الشوائب.

  • جار التحميل

    في هذه الخطوة ، يتم تحميل البيانات المحولة في قاعدة البيانات الهدف.

الآن لديك ذهب نقي - قم بتشكيله في حلقة وبيعه بعيدًا!
عملية جلب البيانات من مصادر مختلفة وتخزينها في مستودع البيانات (بعد عملية ETL ، بالطبع) ، هي ما يُعرف باسم تخزين البيانات.
الآن ، لديك بياناتك في مكانها الصحيح - كلها نظيفة وجاهزة للعمل. ماذا يجب أن تكون الخطوة التالية؟ استخراج المعرفة - نعم!

تعدين البيانات للإنقاذ!

كيف يمكنك الانتقال إلى تحليلات البيانات؟

ما هو التنقيب عن البيانات؟

تعدين البيانات هو ، بكل بساطة ، عملية استخراج معلومات غير معروفة سابقًا ولكنها قد تكون مفيدة من مجموعات البيانات. نعني بكلمة "غير معروفة سابقًا" المعرفة التي لا يمكن اكتسابها إلا بعد التنقيب العميق في مستودع البيانات - أي أنها لن تكون منطقية على السطح. يبحث تعدين البيانات بشكل أساسي عن العلاقات بين الأنماط العالمية الموجودة بين عناصر البيانات.

على سبيل المثال ، تخيل أنك تدير سوبر ماركت. الآن ، قد لا يتطلع سجل شراء العميل إلى الكشف عن الكثير على السطح ، ولكن إذا تم تحليله بعناية - التعرف على الأنماط المحتملة ، فإن هذه المعلومات فقط كافية لإعطاء الكثير. إذا لم تكن قد خمنت ذلك بعد ، فنحن نتحدث عن Target - سوبر ماركت اكتشف أن فتاة مراهقة (زبون) كانت حاملاً فقط من خلال دراسة سجل الشراء بعناية والبحث عن الاتجاهات والأنماط. لذلك ، تبين أن المعلومات التي بدت تافهة جدًا على السطح كانت ذات قيمة كبيرة عند التنقيب عنها بعناية - وهذا بالضبط ما نعنيه بعبارة "المعرفة غير المعروفة سابقًا".

نشعر أنه سيكون غير عادل بالنسبة لك إذا قدمنا ​​لك نكهة تخزين البيانات واستخراج البيانات وتجاهلنا الصورة الكبيرة تمامًا - اكتشاف المعرفة في قواعد البيانات (KDD). يشكل تعدين البيانات إحدى خطوات عملية كي دي دي ، لنتحدث قليلاً عن كي دي دي.

احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. انضم إلى برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

اكتشاف المعرفة في قواعد البيانات (KDD)

يعد التنقيب عن البيانات أحد الخطوات الأكثر أهمية في عملية KDD. تغطي KDD بشكل أساسي كل شيء بدءًا من اختيار البيانات وحتى التقييم النهائي للبيانات الملغومة. تظهر دورة كي دي دي الكاملة في الصورة أدناه:

تخزين البيانات واستخراج البيانات

اختيار

من الأهمية بمكان معرفة البيانات الهدف بدقة. يعد تحليل تعدين البيانات إلى مجموعة فرعية لتخزين البيانات خطوة مهمة للغاية لأن إزالة عناصر البيانات غير المرتبطة سيقلل من مساحة البحث أثناء مرحلة التنقيب في البيانات .

ما قبل المعالجة

في هذه الخطوة ، يتم تحرير البيانات المحددة من أي حالات شاذة وقيم متطرفة. في الأساس ، يتم تنظيف البيانات بالكامل في هذه المرحلة. على سبيل المثال ، إذا كان هناك بعض حقول البيانات المفقودة ، فسيتم تعبئتها بالقيم المناسبة. على سبيل المثال ، في الجدول الذي يخزن تفاصيل موظفي مؤسستك ، افترض أن هناك عمودًا لـ "الاسم الأوسط". هناك احتمالات ، ستكون فارغة للعديد من الموظفين. في مثل هذا السيناريو ، يتم اختيار قيمة مناسبة (N / A ، على سبيل المثال).

تحويل

تحاول هذه المرحلة تقليل تنوع عناصر البيانات مع الحفاظ على جودة المعلومات.

بيانات التعدين

هذه هي المرحلة الرئيسية لعملية كي دي دي. تخضع البيانات المحولة لأساليب استخراج البيانات مثل التجميع والتجميع والانحدار وما إلى ذلك. ويتم ذلك بشكل متكرر لتحقيق أفضل النتائج. يمكن استخدام تقنيات مختلفة حسب المتطلبات.

تقييم

هذه هي الخطوة النهائية. في هذا ، يتم توثيق المعرفة التي تم الحصول عليها وتقديمها لمزيد من التحليل. يتم استخدام أدوات تصور البيانات المختلفة في هذه الخطوة لتصوير المعرفة المكتسبة بطريقة جميلة ومفهومة.
كيف تؤثر مفارقة سيمبسون على البيانات؟

الاستخدام الواقعي - حالات التنقيب عن البيانات

تستخدم كل مؤسسة من Amazon و Flipkart و Netflix و Facebook و Twitter و Instagram وحتى Walmart تعدين البيانات بشكل جيد. في هذا القسم ، سنتحدث عن أربع حالات استخدام واسعة لتعدين البيانات والتي تعد جزءًا لا يتجزأ من حياتك اليومية.

  • مقدمي الخدمة

    يستخدم مقدمو خدمات الاتصالات تعدين البيانات للتنبؤ بـ "الاضطراب" - وهو مصطلح يستخدمونه عندما يتخلى عنها العميل لمزود آخر. بصرف النظر عن ذلك ، يقومون بجمع معلومات الفوترة وزيارات موقع الويب وتفاعلات خدمة العملاء وأشياء أخرى من هذا القبيل لمنح كل عميل درجة احتمالية. بعد ذلك ، يتم تقديم العروض والحوافز للعملاء المعرضين لخطر "الاضطراب" بدرجة أكبر.

  • التجارة الإلكترونية

    التجارة الإلكترونية هي بسهولة حالة الاستخدام الأكثر شهرة عندما يتعلق الأمر بتعدين البيانات. ومن أشهرها بالطبع أمازون. يستخدمون تقنيات تعدين متطورة للغاية. تحقق من وظيفة "الأشخاص الذين شاهدوا هذا المنتج ، أحبوا هذا أيضًا" على سبيل المثال!

  • سوبر ماركت

    تعد المتاجر الكبرى أيضًا حالة استخدام مثيرة للاهتمام للتنقيب في البيانات. يتيح تعدين سجل الشراء للعملاء فهم أنماط الشراء الخاصة بهم. ثم يتم استخدام هذه المعلومات من قبل محلات السوبر ماركت لتقديم عروض مخصصة للعملاء. أوه ، وهل أخبرناك بما فعله Target باستخدام التنقيب في البيانات؟ (نعم فعلنا!)

  • قطاعي

    يقوم تجار التجزئة بتجميع عملائهم في مجموعات حداثة وتكرار ومجموعات نقدية (RFM). باستخدام التنقيب في البيانات ، يستهدفون التسويق لهذه المجموعات. العميل الذي ينفق القليل ولكن بشكل متكرر وكانت آخر عملية شراء له حديثة إلى حد ما سيتم التعامل معه بشكل مختلف عن العميل الذي أنفق الكثير ولكن مرة واحدة فقط.

من هو عالم البيانات ومحلل البيانات ومهندس البيانات؟

تغليف…

يشكل تخزين البيانات واستخراج البيانات اثنتين من أهم العمليات التي تدير العالم اليوم بكل معنى الكلمة. كل الأشياء الكبيرة تقريبًا اليوم هي نتيجة للتنقيب عن البيانات المعقدة. لأن البيانات غير الملغومة مفيدة (أو غير مجدية) مثل عدم وجود بيانات على الإطلاق.

مرة أخرى ، لفهم الاختلاف بين التنقيب في البيانات وتخزين البيانات ، يجب أن تنغمس في ذلك ، من المقدمة إلى استخراج البيانات إلى تخزين البيانات - وهي طريقة تركز جميع البيانات من مصادر مختلفة في قاعدة بيانات واحدة. يمكننا تعريف تخزين البيانات على أنها بيانات تاريخية مجمعة أو تغذية بيانات في الوقت الفعلي تقدم للظهور في الغالب معلومات عضوية ومتكاملة.

نأمل أن توضح لك هذه المقالة ما هو تخزين البيانات واستخراج البيانات وغير ذلك الكثير. في الختام ، تعتبر عملية جمع المعلومات وتخزينها وتنظيمها في قاعدة بيانات واحدة بمثابة تخزين البيانات مقابل التنقيب عن البيانات في الغالب لاستخراج معلومات ذات مغزى من البيانات باستخدام منظور مختلف. يمكن استخدام جميع المعلومات المفيدة التي يتم جمعها بعد ذلك لحل المشكلات المستقبلية التي قد تكون عقبة في نمو الشركة ويمكنها أيضًا خفض التكاليف. إذا كنت تبحث عن مستقبل مشرق ورائع وإذا كان الاستكشاف هو شغفك ، فإن البدء من تعلم ما هو تخزين البيانات واستخراج البيانات سيكون خيارًا ممتازًا بالنسبة لك.

نأمل أن يكون هذا المقال قد أوضح لك ما يعنيه هذان المصطلحان وأكثر من ذلك بكثير! إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

كيف تستخدم الشركات تخزين البيانات واستخراج البيانات؟

يعد كل من استخراج البيانات وتخزين البيانات تقنيات ذكاء الأعمال لتحويل المعلومات (أو البيانات) إلى معرفة قابلة للاستخدام.

التنقيب عن البيانات هو طريقة التحليل الإحصائي. يستخدم المحللون الأدوات الفنية للاستعلام عن البيانات وفرزها عبر غيغابايت من البيانات بحثًا عن الاتجاهات. ثم تستخدم الشركات هذه البيانات لاتخاذ قرارات تجارية أفضل بناءً على فهمهم لسلوكيات المستهلكين والموردين.

تخزين البيانات هو عملية تصميم كيفية تخزين البيانات من أجل تسهيل إعداد التقارير والتحليل. وفقًا لأخصائيي مستودعات البيانات ، فإن مخازن البيانات العديدة متكاملة من الناحية المفاهيمية والمادية وترتبط ببعضها البعض. عادة ما يتم حفظ بيانات الشركة في قواعد بيانات متعددة.

ما هو الفرق الأساسي بين تخزين البيانات واستخراج البيانات؟ أيهما أكثر عملية في عالم الأعمال؟

مستودع البيانات هو نظام تخزين البيانات. عادة ما يستلزم مجموعة متنوعة من أنواع البيانات المكتسبة من مصادر متعددة لمجموعة متنوعة من الأهداف. تُعرف عملية تخزين هذه البيانات مع الانضباط بحيث يمكن استرجاعها لاحقًا باسم تخزين البيانات.

تُعرف عملية استخراج البيانات بالتنقيب عن البيانات. يستلزم تحديد موقع المعلومات الأكثر صلة بهدف معين. قد يأتي من مستودع البيانات الخاص بك ، أو من مكان آخر تمامًا. تتوقع تنقية وتنظيف البيانات التي تنقب عنها ، تمامًا كما تفعل مع الخام الحقيقي.

كلما كانت أنظمة التخزين لديك أفضل ، كان من الأسهل تعدينها.

هل تعدين البيانات وعملية كي دي دي متشابهة؟

على الرغم من أن KDD و Data Mining هما المصطلحان اللذان يتم تبادلهما بشكل متكرر ، إلا أنهما يشيران إلى مفهومين مختلفين ولكن مرتبطين.

يعد تعدين البيانات مكونًا في عملية KDD يتعامل مع التعرف على الأنماط في البيانات ، في حين أن KDD هي العملية الكاملة لاستخراج المعرفة من البيانات. بعبارة أخرى ، يعد تعدين البيانات مجرد تطبيق لخوارزمية محددة لتحقيق الغرض النهائي لعملية كي دي دي.