7 وظائف للتنقيب عن البيانات يجب على كل علماء البيانات معرفتها

نشرت: 2020-11-17

جدول المحتويات

مقدمة

استخراج البيانات له تطبيق واسع في البيانات الضخمة للتنبؤ بالبيانات وتوصيفها. الوظيفة هي العثور على الاتجاهات في علم البيانات. بشكل عام ، يتم تصنيف التنقيب عن البيانات على النحو التالي:

  1. استخراج البيانات الوصفي: يوفر معرفة معينة حول البيانات ، على سبيل المثال ، العدد ، المتوسط. يعطي معلومات حول ما يحدث داخل البيانات دون أي فكرة سابقة. يعرض السمات المشتركة في البيانات. بكلمات بسيطة ، ستتعرف على الخصائص العامة للبيانات الموجودة في قاعدة البيانات.
  2. التنقيب عن البيانات التنبؤية: يساعد هذا المطورين في فهم الخصائص غير المتاحة بشكل صريح. على سبيل المثال ، توقع تحليل الأعمال في الربع التالي مع أداء الأرباع السابقة. بشكل عام ، يتنبأ التحليل التنبئي بالخصائص أو يستنتجها مع البيانات المتوفرة مسبقًا.

يتم سرد وظيفة استخراج البيانات أدناه

  1. وصف الفئة / المفهوم: التوصيف والتمييز
  2. تصنيف
  3. تنبؤ
  4. تحليل الارتباط
  5. التحليل العنقودي
  6. تحليل الخارجة
  7. التطور وتحليل الانحراف

1. فئة / وصف المفهوم: التوصيف والتمييز

ترتبط البيانات بالفئات أو المفاهيم بحيث يمكن ربطها بالنتائج. على سبيل المثال ، يتم إصدار طراز iPhone الجديد بثلاثة متغيرات لتلبية احتياجات العملاء المستهدفين بناءً على متطلباتهم مثل Pro و Pro max و Plus.

توصيف البيانات

عندما تلخص الميزات العامة للبيانات ، يطلق عليها توصيف البيانات. إنه ينتج القواعد المميزة للفئة المستهدفة ، مثل مشتري iPhone لدينا. يمكننا جمع البيانات باستخدام استعلامات SQL بسيطة وتنفيذ وظائف OLAP لتعميم البيانات.

تُستخدم تقنية الاستقراء الموجهة للسمات أيضًا لتعميم أو وصف البيانات بأقل قدر من تفاعل المستخدم. يتم تقديم البيانات المعممة في أشكال مختلفة مثل الجداول والمخططات الدائرية والمخططات الخطية والمخططات الشريطية والرسوم البيانية. يتم تقديم العلاقة متعددة الأبعاد بين البيانات في قاعدة تسمى قاعدة الخصائص للفئة المستهدفة.

تمييز البيانات

يقارن البيانات بين الفئتين. بشكل عام ، يقوم بتعيين الفئة المستهدفة بمجموعة أو فئة محددة مسبقًا. يقارن ويقابل خصائص الفصل مع الفئة المحددة مسبقًا باستخدام مجموعة من القواعد تسمى القواعد التمييزية. الأساليب المستخدمة في تمييز البيانات مشابهة لتوصيف البيانات.

2. التصنيف

يستخدم نماذج البيانات للتنبؤ بالاتجاهات في البيانات. على سبيل المثال ، يعرض مخطط الإنفاق الخدمات المصرفية عبر الإنترنت أو تطبيق الهاتف المحمول بناءً على أنماط الإنفاق لدينا. يستخدم هذا أحيانًا لتحديد مخاطر الحصول على قرض جديد.

يستخدم طرقًا مثل IF-THEN أو شجرة القرار أو الصيغ الرياضية أو الشبكة العصبية للتنبؤ بنموذج أو تحليله. يستخدم بيانات التدريب لإنتاج مثيلات جديدة للمقارنة مع تلك الموجودة.

قراءة: مهنة في علم البيانات

3. التنبؤ

يعثر التوقع على القيم الرقمية المفقودة في البيانات. يستخدم تحليل الانحدار للعثور على البيانات غير المتاحة. إذا كانت تسمية الفئة مفقودة ، فسيتم التنبؤ باستخدام التصنيف. يحظى التوقع بشعبية بسبب أهميته في ذكاء الأعمال. هناك طريقتان يمكن للمرء أن يتوقع البيانات:

  1. توقع البيانات غير المتوفرة أو المفقودة باستخدام تحليل التنبؤ
  2. توقع تسمية الفصل باستخدام نموذج الصنف المبني مسبقًا.

إنها تقنية تنبؤية تسمح لنا بإيجاد قيمة في عمق المستقبل. نحتاج إلى مجموعة بيانات ضخمة من القيم السابقة للتنبؤ بالاتجاهات المستقبلية.

4. تحليل الرابطة

يتعلق بخاصيتين أو أكثر من سمات البيانات. يكتشف العلاقة بين البيانات والقواعد التي تربطها. يجد تطبيقه على نطاق واسع في مبيعات التجزئة. الاقتراح الذي تظهره أمازون في الأسفل ، "العملاء الذين اشتروا هذا اشتروا أيضًا .." هو مثال في الوقت الفعلي لتحليل الارتباط.

يقوم بربط السمات التي يتم التعامل معها بشكل متكرر معًا. يكتشفون ما يسمى بقواعد الارتباط ويستخدمون على نطاق واسع في تحليل سلة السوق. هناك نوعان من العناصر لإقران السمات. أحدهما هو الثقة التي تشير إلى احتمال ارتباط كلاهما ببعضهما البعض ، والآخر هو الدعم ، الذي يخبرنا بالحدوث السابق للارتباطات.

على سبيل المثال ، هذا إذا تم شراء الهواتف المحمولة بسماعات: الدعم 2٪ والثقة 40٪. هذا يعني أن 2٪ من الوقت الذي اشترى فيه العملاء هواتف محمولة مزودة بسماعات رأس. 40٪ من الثقة هي احتمالية حدوث نفس الارتباط مرة أخرى.

قراءة: مشاريع التنقيب عن البيانات في الهند

5. تحليل الكتلة

يسمى التصنيف غير الخاضع للإشراف التحليل العنقودي. إنه مشابه للتصنيف حيث يتم تجميع البيانات. على عكس التصنيف ، في تحليل الكتلة ، تسمية الفئة غير معروفة. يتم تجميع البيانات على أساس خوارزميات التجميع.

الكائنات التي تم تجميعها بالمثل ضمن مجموعة واحدة. سيكون هناك فرق كبير بين مجموعة وأخرى. يتم التجميع لتعظيم التشابه داخل الطبقة وتقليل التشابه داخل الطبقة. يتم تطبيق التجميع في العديد من المجالات مثل التعلم الآلي ومعالجة الصور والتعرف على الأنماط والمعلوماتية الحيوية.

6. التحليل الخارجى

عندما تظهر البيانات التي لا يمكن تجميعها في أي فئة ، فإننا نستخدم التحليل الخارجي. سيكون هناك تكرارات للبيانات التي سيكون لها سمات مختلفة لأي من الفئات الأخرى أو النماذج العامة. تسمى هذه البيانات المعلقة القيم المتطرفة. عادة ما يتم اعتبارهم ضوضاء أو استثناءات ، ويسمى تحليل هذه القيم المتطرفة التعدين الخارجي.

قد تكون هذه القيم المتطرفة ارتباطات قيمة في العديد من التطبيقات ، على الرغم من تجاهلها عادةً كضوضاء. وتسمى أيضًا استثناءات أو مفاجآت ، وهي مهمة في تحديدها. يتم تحديد القيم المتطرفة باستخدام الاختبارات الإحصائية التي تجد الاحتمال. الأسماء الأخرى للقيم المتطرفة هي:

  1. المنحرفون
  2. شذوذ
  3. متباين
  4. الشذوذ

7. تحليل التطور والانحراف

مع تحليل التطور ، نحصل على مجموعات البيانات المرتبطة بالوقت. يمكننا أن نجد الاتجاهات والتغيرات في السلوك على مدى فترة. يمكننا العثور على ميزات مثل بيانات السلاسل الزمنية والتواتر والتشابه في الاتجاهات مع مثل هذا التحليل المتميز.

اقرأ أيضًا: راتب عالم البيانات في الهند

خاتمة

يجد التنقيب عن البيانات والوظائف الشاملة العديد من التطبيقات من علوم الفضاء إلى تسويق التجزئة.

إذا كنت مهتمًا بتعلم علم البيانات ليكون في مقدمة التطورات التكنولوجية السريعة ، فراجع برنامج upGrad & IIIT-B التنفيذي في علوم البيانات.

ماذا تعني الوظيفة في التنقيب عن البيانات؟

التنقيب عن البيانات هو عملية جمع المعلومات من مجموعات البيانات الضخمة ، واكتشاف الأنماط ، وكشف الاتصالات. تُستخدم الوظائف في التنقيب عن البيانات لتحديد نوع الأنماط التي سيكتشفها علماء البيانات في أنشطة التنقيب عن البيانات. تنقسم عمليات التنقيب عن البيانات إلى نوعين ، وصفي وتوقعي. تصف مهام التعدين الوصفي الخصائص العامة لبيانات قاعدة البيانات. تنتج مهام التعدين التنبؤية تنبؤات من خلال إجراء استنتاجات على البيانات الحالية. يتم اختيار الوظائف وفقًا لعمليات التنقيب في البيانات.

ماذا تعني نماذج البيانات؟

نماذج البيانات هي تمثيل للعلاقات المتبادلة المنطقية وتدفق البيانات بين مكونات البيانات المختلفة في مجال المعلومات. كما يصف عملية كيفية تخزين البيانات والوصول إليها. تعمل نماذج البيانات على تعزيز الاتصالات والأعمال والتطور التكنولوجي من خلال التعبير عن متطلبات نظام المعلومات بشكل مناسب وإنشاء إجابات لتلك المتطلبات. تساعد نماذج البيانات في وصف البيانات المطلوبة وبأي تنسيق يجب أن يستخدمه علماء البيانات في أنشطة الأعمال المختلفة.

ماذا يحدث في التحليل الخارجى؟

التحليل الخارجى هو نوع من مهام التنقيب عن البيانات يعرف باسم "التعدين الخارجى". قد يستخدمه علماء البيانات لاكتشاف الاحتيال في مجموعة متنوعة من المواقف ، بما في ذلك استخدام بطاقة الائتمان أو الاتصالات غير المتوقعة ، وتحليل الرعاية الصحية لاكتشاف الاستجابات الفردية للعلاجات الطبية ، والتسويق لاكتشاف عادات الشراء لدى العميل. يمكن لمتخصصي علوم البيانات العثور على القيم المتطرفة في مجموعة متنوعة من الأساليب. تستخدم كل هذه الاستراتيجيات طرقًا مختلفة لاكتشاف القيم الخارجة عن المألوف على عكس باقي مجموعة البيانات.