عملية كي دي دي في تعدين البيانات: ما الذي تحتاج إلى معرفته؟
نشرت: 2020-11-23بصفتك محترفًا عاملاً ، فأنت على دراية بمصطلحات مثل البيانات وقاعدة البيانات والمعلومات والمعالجة وما إلى ذلك. يجب أن تكون قد صادفت أيضًا مصطلحات مثل التنقيب عن البيانات ومستودع البيانات. سنتحدث عن هذين المصطلحين بالتفصيل لاحقًا ، ولكن هناك منهجية أكثر تفصيلاً تشمل المصطلحين المذكورين أعلاه: KDD.
جدول المحتويات
ما هو كي دي دي؟
يشار إلى KDD باسم اكتشاف المعرفة في قاعدة البيانات ويتم تعريفه على أنه طريقة لإيجاد وتحويل وتنقيح البيانات والأنماط ذات المعنى من قاعدة بيانات أولية من أجل استخدامها في مجالات أو تطبيقات مختلفة.
البيان أعلاه هو نظرة عامة أو خلاصة من KDD ، لكنها عملية طويلة ومعقدة تتضمن العديد من الخطوات والتكرارات. الآن قبل الخوض في التفاصيل الدقيقة لـ KDD ، دعنا نحاول ضبط النغمة من خلال مثال.
لنفترض أن هناك نهرًا صغيرًا يتدفق في مكان قريب وأنت إما أحد عشاق الحرف أو جامع أحجار أو مستكشف عشوائي. الآن ، لديك معرفة مسبقة بأن قاع النهر مليء بالحجارة والأصداف والأشياء العشوائية الأخرى. هذه الفرضية ذات أهمية قصوى والتي بدونها لا يستطيع المرء الوصول إلى المصدر.
بعد ذلك ، بناءً على من تكون ، قد تختلف الاحتياجات والمتطلبات. هذا هو ثاني أهم شيء يجب فهمه. لذلك ، يمكنك المضي قدمًا وجمع الأحجار أو الأصداف أو العملات المعدنية أو أي قطع أثرية قد تكون ملقاة على قاع النهر. لكن هذا يجلب أيضًا الأوساخ والأشياء الأخرى غير المرغوب فيها ، والتي ستحتاج إلى التخلص منها حتى تكون الأشياء جاهزة للاستخدام مرة أخرى.
في هذه المرحلة ، قد تحتاج إلى العودة وجمع المزيد من العناصر وفقًا لاحتياجاتك ، وستتكرر هذه العملية عدة مرات أو يتم تخطيها تمامًا وفقًا للشروط.
تحتاج الكائنات المجمعة إلى فصل إلى أنواع مختلفة لتناسب تطبيقك بشكل أفضل ، كما يلزم قصها أو تلميعها أو طلاءها. هذه المرحلة تسمى مرحلة التحول.
خلال هذه العملية ، تكتسب فهمًا ، على سبيل المثال ، للمكان الذي من المرجح أن تجد فيه أحجارًا أكبر ذات ألوان معينة - سواء بالقرب من الضفة أو في عمق النهر ، وما إذا كان من المحتمل العثور على القطع الأثرية في أعلى النهر أو في اتجاه مجرى النهر وما إلى ذلك. . يعد التنقيب عن البيانات جزءًا مهمًا عندما تتعلم علوم البيانات.
هذا يساعد في فك الأنماط التي يمكن أن تساعد في إنجاز المهام بشكل أكثر كفاءة وأسرع. ما ستنتهي إليه في النهاية هو اكتشاف المعرفة المصقولة والموثوقة والمتخصصة للغاية في تطبيقك.
الآن ، دعنا نتعمق في KDD في استخراج البيانات بالتفصيل.
قراءة: راتب تعدين البيانات في الهند
ما هو كي دي دي في التنقيب عن البيانات؟
KDD في استخراج البيانات هو نهج مبرمج وتحليلي لنمذجة البيانات من قاعدة بيانات لاستخراج "المعرفة" المفيدة والقابلة للتطبيق. يشكل التنقيب عن البيانات العمود الفقري لـ KDD وبالتالي فهو أمر بالغ الأهمية للطريقة بأكملها.
يستخدم العديد من الخوارزميات ذاتية التعلم بطبيعتها لاستنتاج أنماط مفيدة من البيانات المعالجة. العملية عبارة عن ردود فعل ثابتة ذات حلقة مغلقة تحدث فيها الكثير من التكرارات بين الخطوات المختلفة حسب طلب الخوارزميات وتفسيرات الأنماط.
الخطوات المتضمنة في عملية نموذجية لـ KDD
1. تحديد الأهداف وفهم التطبيق
هذه هي الخطوة الأولى في العملية وتتطلب فهمًا مسبقًا ومعرفة بالمجال المطلوب تطبيقها فيه. هذا هو المكان الذي نقرر فيه كيفية استخدام البيانات المحولة والأنماط التي تم التوصل إليها من خلال استخراج البيانات لاستخراج المعرفة. هذه الفرضية مهمة للغاية والتي ، إذا تم ضبطها بشكل خاطئ ، يمكن أن تؤدي إلى تفسيرات خاطئة وتأثيرات سلبية على المستخدم النهائي.

2. اختيار البيانات وتكاملها
بعد تحديد الأهداف والغايات ، يجب اختيار البيانات التي تم جمعها وفصلها إلى مجموعات ذات مغزى بناءً على التوافر وأهمية الوصول والجودة. تعد هذه المعلمات ضرورية لاستخراج البيانات لأنها تشكل الأساس لها وستؤثر على أنواع نماذج البيانات التي يتم تشكيلها.
3. تنظيف البيانات والمعالجة المسبقة
تتضمن هذه الخطوة البحث عن البيانات المفقودة وإزالة البيانات الصاخبة والمتكررة ومنخفضة الجودة من مجموعة البيانات من أجل تحسين موثوقية البيانات وفعاليتها. يتم استخدام خوارزميات معينة للبحث عن البيانات غير المرغوب فيها والقضاء عليها بناءً على السمات الخاصة بالتطبيق.
4. تحويل البيانات
تقوم هذه الخطوة بإعداد البيانات التي سيتم تغذيتها لخوارزميات التنقيب عن البيانات. ومن ثم ، يجب أن تكون البيانات في أشكال موحدة ومجمعة. يتم دمج البيانات على أساس الوظائف والسمات والميزات وما إلى ذلك.
5. التنقيب في البيانات
هذه هي عملية الجذر أو العمود الفقري لـ KDD بأكمله. هذا هو المكان الذي تستخدم فيه الخوارزميات لاستخراج أنماط ذات مغزى من البيانات المحولة ، والتي تساعد في نماذج التنبؤ. إنها أداة تحليلية تساعد في اكتشاف الاتجاهات من مجموعة البيانات باستخدام تقنيات مثل الذكاء الاصطناعي والأساليب العددية والإحصائية المتقدمة والخوارزميات المتخصصة.
6. تقييم النمط / التفسير
بمجرد الحصول على الاتجاه والأنماط من مختلف طرق استخراج البيانات والتكرارات ، يجب تمثيل هذه الأنماط في أشكال منفصلة مثل الرسوم البيانية الشريطية والمخططات الدائرية والرسوم البيانية وما إلى ذلك لدراسة تأثير البيانات التي تم جمعها وتحويلها خلال الخطوات السابقة. يساعد هذا أيضًا في تقييم فعالية نموذج بيانات معين في ضوء المجال.
7. اكتشاف المعرفة واستخدامها
هذه هي الخطوة الأخيرة في عملية KDD وتتطلب "المعرفة" المستخرجة من الخطوة السابقة ليتم تطبيقها على التطبيق أو المجال المحدد بتنسيق مرئي مثل الجداول والتقارير وما إلى ذلك. تقود هذه الخطوة عملية صنع القرار لـ قال التطبيق.
اقرأ عن: تقنيات التنقيب في البيانات التي يجب أن تعرفها
خاتمة
في عالم اليوم ، يتم إنشاء البيانات من مصادر عديدة من أنواع مختلفة وبتنسيقات مختلفة ، على سبيل المثال ، المعاملات الاقتصادية والقياسات الحيوية والعلمية والصور ومقاطع الفيديو وما إلى ذلك مع تداول كميات هائلة من المعلومات في كل لحظة ، تكون التقنية في غاية الأهمية أهمية استخراج العصير وتوفير بيانات موثوقة وعالية الجودة وفعالة لاستخدامها في مختلف المجالات لاتخاذ القرار. هذا هو المكان الذي يكون فيه KDD مفيدًا جدًا.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فتحقق من برنامج upGrad & IIIT-B التنفيذي في علوم البيانات. تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية ، وإرشاد مع خبراء الصناعة ، وجهاً لوجه مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
لماذا تعتبر كي دي دي مهمة؟
الهدف الأساسي من طريقة KDD هو استخراج المعلومات من قواعد البيانات الضخمة. يحقق ذلك من خلال استخدام تقنيات التنقيب في البيانات لتحديد ما يعتبر معرفة. يتم تعريف KDD على أنه تحقيق مخطط واستكشافي ونمذجة مصادر البيانات الهامة. KDD هي العملية المنهجية لتحديد الأنماط الصحيحة والعملية والمفهومة في مجموعات البيانات الضخمة والمعقدة. أساس طريقة KDD هو استخراج البيانات ، والذي يتضمن استنتاج الخوارزميات التي تحلل البيانات ، وتبني النموذج ، وتكتشف الأنماط غير المعروفة سابقًا. يستخدم النموذج لاستخراج المعلومات من البيانات ، ثم تحليلها والتنبؤ بها.
هل تعلم كي دي دي صعب؟
KDD مفيد للغاية في العالم التكنولوجي الحالي. تعلم كي دي دي معقد إلى حد ما. يحتاج المتعلمون الذين يرغبون في تعلم KDD إلى تعلم علوم الكمبيوتر والإحصاء والتعلم الآلي وعلوم البيانات. ويشمل جوانب إدارة قاعدة البيانات والبيانات ، والمعالجة المسبقة للبيانات ، وعوامل التصميم والاستدلال ، ومقاييس الصلة ، وعوامل التعقيد ، والمعالجة اللاحقة للهياكل المكتشفة ، والتصور ، والتحديث عبر الإنترنت ، بالإضافة إلى خطوة التحليل الأولية.