ما هو التطبيع في التنقيب عن البيانات وكيف يتم ذلك؟
نشرت: 2020-11-23تعتمد الشركات بشكل متزايد على البيانات لمعرفة المزيد عن عملائها. وبالتالي ، فإن محللي البيانات يتحملون مسؤولية أكبر لاستكشاف وتحليل مجموعات كبيرة من البيانات الخام واستخلاص اتجاهات وأنماط العملاء ذات المغزى منها. يُعرف هذا باسم التنقيب عن البيانات. يستخدم محللو البيانات تقنيات استخراج البيانات والتحليل الإحصائي المتقدم وتقنيات تصور البيانات لاكتساب رؤى جديدة.
يمكن أن تساعد هذه الأعمال على تطوير استراتيجيات تسويقية فعالة لتحسين أداء الأعمال وزيادة المبيعات وتقليل التكاليف العامة. على الرغم من وجود أدوات وخوارزميات لاستخراج البيانات ، إلا أنها ليست نزهة ، حيث أن بيانات العالم الحقيقي غير متجانسة. وبالتالي ، هناك عدد غير قليل من التحديات عندما يتعلق الأمر بالتنقيب في البيانات. تعلم علم البيانات إذا كنت ترغب في اكتساب الخبرة في استخراج البيانات.
يتمثل أحد التحديات الشائعة في أن قواعد البيانات تحتوي عادةً على سمات وحدات ونطاق ومقاييس مختلفة. قد لا يؤدي تطبيق الخوارزميات على مثل هذه البيانات ذات النطاق الكبير إلى نتائج دقيقة. هذا يستدعي تطبيع البيانات في التنقيب عن البيانات .
إنها عملية ضرورية مطلوبة لتطبيع البيانات غير المتجانسة. يمكن وضع البيانات في نطاق أصغر ، مثل 0.0 إلى 1.0 أو -1.0 إلى 1.0. بكلمات بسيطة ، يجعل تطبيع البيانات تصنيف البيانات وفهمها أسهل.
جدول المحتويات
لماذا هناك حاجة إلى التطبيع في التنقيب عن البيانات؟
هناك حاجة إلى تسوية البيانات بشكل أساسي لتقليل البيانات المكررة أو استبعادها. الازدواجية في البيانات هي قضية حاسمة. هذا لأنه من الصعب بشكل متزايد تخزين البيانات في قواعد البيانات العلائقية ، والاحتفاظ بالبيانات المتطابقة في أكثر من مكان. يعد التطبيع في استخراج البيانات إجراء مفيد لأنه يتيح تحقيق مزايا معينة كما هو مذكور أدناه:
- من الأسهل كثيرًا تطبيق خوارزميات التنقيب عن البيانات على مجموعة من البيانات المعيارية.
- نتائج خوارزميات استخراج البيانات المطبقة على مجموعة من البيانات الموحدة تكون أكثر دقة وفعالية.
- بمجرد تطبيع البيانات ، يصبح استخراج البيانات من قواعد البيانات أسرع كثيرًا.
- يمكن تطبيق طرق أكثر تحديدًا لتحليل البيانات على البيانات المعيارية.
قراءة: تقنيات التنقيب في البيانات
3 تقنيات شائعة لمطابقة البيانات في التنقيب عن البيانات
هناك ثلاث طرق شائعة لإجراء التطبيع في التنقيب عن البيانات . يشملوا:
الحد الأدنى للتطبيع
ما هو أسهل للفهم - الفرق بين 200 و 1000000 أو الفرق بين 0.2 و 1. في الواقع ، عندما يكون الفرق بين القيم الدنيا والقصوى أقل ، تصبح البيانات أكثر قابلية للقراءة. يعمل الحد الأدنى للتطبيع عن طريق تحويل نطاق من البيانات إلى مقياس يتراوح من 0 إلى 1.
صيغة التطبيع Min-Max
لفهم الصيغة ، هذا مثال. لنفترض أن شركة ما تريد اتخاذ قرار بشأن ترقية بناءً على سنوات الخبرة العملية لموظفيها. لذلك ، يحتاج إلى تحليل قاعدة بيانات تبدو كالتالي:
اسم الموظف | سنوات من الخبرة |
ABC | 8 |
س ص ع | 20 |
PQR | 10 |
MNO | 15 |
- الحد الأدنى للقيمة هو 8
- القيمة القصوى هي 20
نظرًا لأن هذه الصيغة تقيس البيانات بين 0 و 1 ،
- الحد الأدنى الجديد هو 0
- الحد الأقصى الجديد هو 1
هنا ، يرمز V إلى القيمة الخاصة بالسمة ، أي 8 ، 10 ، 15 ، 20
بعد تطبيق صيغة التسوية min-max ، فيما يلي قيم V للسمات:
- لمدة 8 سنوات من الخبرة: v '= 0
- لمدة 10 سنوات من الخبرة: v '= 0.16
- لمدة 15 عامًا من الخبرة: v '= 0.58
- لمدة 20 عامًا من الخبرة: v '= 1
لذلك ، يمكن أن يؤدي التطبيع الأدنى إلى الحد الأقصى إلى تقليل الأرقام الكبيرة إلى قيم أصغر بكثير. هذا يجعل من السهل للغاية قراءة الفرق بين أرقام المدى.
تطبيع القياس العشري
القياس العشري هو أسلوب آخر للتطبيع في استخراج البيانات . وهي تعمل عن طريق تحويل رقم إلى فاصلة عشرية.

صيغة القياس العشري
هنا:
- V 'هي القيمة الجديدة بعد تطبيق القياس العشري
- V هي القيمة الخاصة بالسمة
الآن ، يعرّف العدد الصحيح J حركة الفاصلة العشرية. لذا ، كيف تحدد ذلك؟ إنه يساوي عدد الأرقام الموجودة في القيمة القصوى في جدول البيانات. هنا مثال:
لنفترض أن شركة ما تريد مقارنة رواتب المنضمين الجدد. فيما يلي قيم البيانات:
اسم الموظف | مرتب |
ABC | 10000 |
س ص ع | 25000 |
PQR | 8000 |
MNO | 15000 |
الآن ، ابحث عن القيمة القصوى في البيانات. في هذه الحالة ، يكون 25000. الآن احسب عدد الأرقام في هذه القيمة. في هذه الحالة ، تكون "5". إذن هنا 'j' تساوي 5 ، أي 100،000. هذا يعني أن V (قيمة السمة) يجب قسمة 100000 هنا.
بعد تطبيق صيغة القياس العشري الصفري ، ها هي القيم الجديدة:
اسم | مرتب | الراتب بعد المقياس العشري |
ABC | 10000 | 0.1 |
س ص ع | 25 ، 000 | 0.25 |
PQR | 8 ، 000 | 0.08 |
MNO | 15000 | 0.15 |
وبالتالي ، فإن القياس العشري يمكن أن يخفف من حدة الأرقام الكبيرة في صورة سهلة لفهم القيم العشرية الأصغر. أيضًا ، يصبح من السهل قراءة البيانات المنسوبة إلى وحدات مختلفة وفهمها بمجرد تحويلها إلى قيم عشرية أصغر.
يجب أن تقرأ: أفكار وموضوعات مشاريع استخراج البيانات
تطبيع Z- النتيجة
قيمة Z-Score هي فهم مدى بُعد نقطة البيانات عن المتوسط. تقنيًا ، يقيس الانحرافات المعيارية أسفل أو أعلى من المتوسط. يتراوح من -3 انحراف معياري حتى +3 انحراف معياري. يعد تطبيع درجة Z في استخراج البيانات مفيدًا لتلك الأنواع من تحليل البيانات حيث توجد حاجة لمقارنة قيمة فيما يتعلق بمتوسط قيمة (متوسط) ، مثل نتائج الاختبارات أو الاستطلاعات.
على سبيل المثال ، وزن الشخص 150 رطلاً. الآن ، إذا كانت هناك حاجة لمقارنة هذه القيمة بمتوسط وزن السكان المدرجين في جدول واسع من البيانات ، فإن تسوية درجة Z ضرورية لدراسة هذه القيم ، خاصةً إذا تم تسجيل وزن شخص ما بالكيلوجرام.
خاتمة
نظرًا لأن البيانات تأتي من مصادر مختلفة ، فمن الشائع جدًا وجود سمات مختلفة في أي مجموعة من البيانات. وبالتالي ، فإن التطبيع في استخراج البيانات يشبه المعالجة المسبقة وإعداد البيانات للتحليل.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ما المقصود بالتطبيع في التنقيب عن البيانات؟
التطبيع هو عملية قياس بيانات السمة بحيث تقع ضمن نطاق أضيق ، مثل -1.0 إلى 1.0 أو من 0.0 إلى 1.0. إنه مفيد لخوارزميات التصنيف بشكل عام. عادة ما يكون التطبيع ضروريًا عند التعامل مع خصائص على مستويات مختلفة ؛ خلاف ذلك ، قد يخفف من فعالية سمة مهمة بنفس القدر على نطاق أقل بسبب السمات الأخرى التي لها قيم على نطاق أكبر. بمعنى آخر ، عند وجود العديد من الخصائص ولكن قيمها على مستويات مختلفة ، فقد يؤدي ذلك إلى عدم كفاية نماذج البيانات عند القيام بأنشطة التنقيب عن البيانات. نتيجة لذلك ، يتم تطبيعهم لوضع جميع الخصائص على نفس المقياس.
ما هي أنواع التطبيع المختلفة؟
التسوية إجراء يجب اتباعه لكل قاعدة بيانات تقوم بإنشائها. تشير النماذج العادية إلى فعل أخذ بنية قاعدة البيانات وتطبيق مجموعة من المعايير والقواعد الرسمية عليها. يتم تصنيف عملية التطبيع على النحو التالي: النموذج العادي الأول (1 NF) ، النموذج العادي الثاني (2 NF) ، النموذج العادي الثالث (3 NF) ، النموذج العادي لـ Boyce Codd أو النموذج العادي الرابع (BCNF أو 4 NF) ، النموذج العادي الخامس (5 NF) ، والنموذج العادي السادس (6 NF) (6 NF).
ما هو التطبيع Min-Max؟
تعد min-max Normalization واحدة من أكثر الطرق شيوعًا لتطبيع البيانات. بالنسبة لكل ميزة ، يتم تحويل الحد الأدنى للقيمة إلى 0 ، ويتم تحويل أعلى قيمة إلى 1 ، ويتم تحويل جميع القيم الأخرى إلى رقم عشري بين 0 و 1. على سبيل المثال ، إذا كان الحد الأدنى لقيمة الميزة هو 20 و أعلى قيمة كانت 40 ، سيتم تحويل 30 إلى حوالي 0.5 نظرًا لأنها تقع في منتصف المسافة بين 20 و 40. أحد العوائق المهمة للتطبيع الأدنى-الأقصى هو أنه لا يتعامل مع القيم المتطرفة بشكل جيد. على سبيل المثال ، إذا كان لديك 99 قيمة تتراوح من 0 إلى 40 ، وواحدة منها 100 ، فسيتم تحويل جميع القيم الـ 99 إلى قيم تتراوح من 0 إلى 0.4.