خطوات المعالجة المسبقة للبيانات: ما الذي تحتاج إلى معرفته؟

نشرت: 2020-12-22

يستلزم التنقيب عن البيانات تحويل البيانات الخام إلى معلومات مفيدة يمكنها إجراء مزيد من التحليل واستخلاص رؤى نقدية. غالبًا ما تكون البيانات الأولية التي تحصل عليها من مصدرك في حالة تشوش وغير قابلة للاستخدام تمامًا. تحتاج هذه البيانات إلى المعالجة المسبقة لتحليلها ، والخطوات الخاصة بها مذكورة أدناه.

جدول المحتويات

تنظيف البيانات

يعد تنظيف البيانات الخطوة الأولى في المعالجة المسبقة للبيانات في استخراج البيانات . من المرجح عمومًا أن تحتوي البيانات التي يتم الحصول عليها مباشرة من المصدر على صفوف معينة غير ذات صلة ، أو معلومات غير كاملة ، أو حتى خلايا فارغة مارقة.

تسبب هذه العناصر الكثير من المشكلات لأي محلل بيانات. على سبيل المثال ، قد تفشل منصة المحلل في التعرف على العناصر وإرجاع الخطأ. عندما تواجه بيانات مفقودة ، يمكنك إما تجاهل صفوف البيانات أو محاولة ملء القيم المفقودة بناءً على اتجاه أو تقييمك الخاص. السابق هو ما يتم القيام به بشكل عام.

ولكن قد تنشأ مشكلة أكبر عندما تواجه بيانات "صاخبة". للتعامل مع البيانات المزعجة ، المزدحمة للغاية بحيث لا يمكن فهمها من خلال منصات تحليل البيانات أو أي منصة ترميز ، يتم استخدام العديد من التقنيات.

إذا كان من الممكن فرز بياناتك ، فإن الطريقة الشائعة لتقليل ضوضاءها هي طريقة "binning". في هذا ، يتم تقسيم البيانات إلى صناديق متساوية الحجم. بعد ذلك ، يمكن استبدال كل حاوية بقيمها المتوسطة أو قيم الحدود لإجراء مزيد من التحليل.

هناك طريقة أخرى وهي "تجانس" البيانات باستخدام الانحدار. قد يكون الانحدار خطيًا أو متعددًا ، ولكن الدافع هو جعل البيانات سلسة بدرجة كافية حتى يكون الاتجاه مرئيًا. يُعرف النهج الثالث ، وهو نهج سائد آخر ، باسم "التجميع".

في طريقة المعالجة المسبقة للبيانات هذه في استخراج البيانات ، يتم تجميع نقاط البيانات المحيطة في مجموعة واحدة من البيانات ، والتي يتم استخدامها بعد ذلك لمزيد من التحليل.

قراءة: المعالجة المسبقة للبيانات في التعلم الآلي

تحويل البيانات

تتطلب عملية التنقيب عن البيانات عمومًا أن تكون البيانات بتنسيق أو بناء جملة خاص جدًا. على الأقل ، يجب أن تكون البيانات في مثل هذا الشكل بحيث يمكن تحليلها على منصة تحليل البيانات وفهمها. لهذا الغرض ، يتم استخدام خطوة التحويل لاستخراج البيانات. هناك عدة طرق يمكن من خلالها تحويل البيانات.

الطريقة الشعبية هي التطبيع. في هذا النهج ، يتم طرح كل نقطة من البيانات من أعلى قيمة للبيانات في هذا الحقل ثم يتم تقسيمها على نطاق البيانات في هذا الحقل. يؤدي ذلك إلى تقليل البيانات من الأرقام العشوائية إلى نطاق بين -1 و 1.

يمكن أيضًا إجراء اختيار السمة ، حيث يتم تحويل البيانات في شكلها الحالي إلى مجموعة من السمات الأبسط بواسطة محلل البيانات. يعد تقدير البيانات أسلوبًا أقل استخدامًا ومخصصًا للسياق ، حيث تحل مستويات الفاصل الزمني محل القيم الأولية للحقل لتسهيل فهم البيانات.

في "إنشاء التسلسل الهرمي للمفهوم" ، يتم تحويل كل نقطة بيانات لسمة معينة إلى مستوى تسلسل هرمي أعلى. اقرأ المزيد عن تحويل البيانات في التنقيب عن البيانات.

تقليل المعلومات

نحن نعيش في عالم يتم فيه إنشاء تريليونات من البايت وصفوف من البيانات كل يوم. كمية البيانات التي يتم إنشاؤها تتزايد يومًا بعد يوم ، وبالمقارنة ، لا تتحسن البنية التحتية لمعالجة البيانات بنفس المعدل. وبالتالي ، غالبًا ما يكون التعامل مع كميات كبيرة من البيانات أمرًا صعبًا للغاية ، بل ومستحيلًا ، للأنظمة والخوادم على حد سواء.

بسبب هذه المشكلات ، غالبًا ما يستخدم محللو البيانات تقليل البيانات كجزء من المعالجة المسبقة للبيانات في استخراج البيانات . هذا يقلل من كمية البيانات من خلال الأساليب التالية ويسهل تحليلها.

في تجميع مكعب البيانات ، يُعرف العنصر باسم "مكعب البيانات" الذي يتم إنشاؤه بكمية هائلة من البيانات ، ثم يتم استخدام كل طبقة من المكعب حسب المتطلبات. يمكن تخزين المكعب في نظام أو خادم واحد ثم استخدامه من قبل الآخرين.

في "تحديد مجموعة السمات الفرعية" ، يتم تحديد السمات ذات الأهمية الفورية للتحليل فقط وتخزينها في مجموعة بيانات منفصلة أصغر.

يتشابه تقليل العددي إلى حد بعيد مع خطوة الانحدار الموضحة أعلاه. يتم تقليل عدد نقاط البيانات عن طريق إنشاء اتجاه من خلال الانحدار أو بعض الطرق الرياضية الأخرى.

في "تقليل الأبعاد" ، يتم استخدام التشفير لتقليل حجم البيانات التي يتم التعامل معها أثناء استرداد جميع البيانات.

من الضروري تحسين استخراج البيانات ، مع الأخذ في الاعتبار أن البيانات ستصبح أكثر أهمية فقط. لا بد أن تكون خطوات المعالجة المسبقة للبيانات في استخراج البيانات مفيدة لأي محلل بيانات.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. تعلم برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

ما هي معالجة البيانات؟

عندما يتوفر الكثير من البيانات في كل مكان ، قد يؤدي الفحص غير المناسب لتحليل البيانات إلى استنتاجات مضللة. وبالتالي ، قبل إجراء أي تحليل ، يجب أن يأتي تمثيل البيانات وجودتها أولاً. المعالجة المسبقة للبيانات هي عملية تغيير البيانات أو إزالتها قبل استخدامها لغرض ما. تضمن هذه العملية الأداء أو تحسنه ، وهي مرحلة حاسمة في عملية التنقيب عن البيانات. عادةً ما تكون المعالجة المسبقة للبيانات هي الجانب الأكثر أهمية في مشروع التعلم الآلي ، لا سيما في علم الأحياء الحسابي.

لماذا المعالجة المسبقة للبيانات مطلوبة؟

تعد المعالجة المسبقة للبيانات ضرورية لأن بيانات العالم الحقيقي غير مكتملة في معظم الحالات ، أي أن بعض الخصائص أو القيم ، أو كليهما ، غائبة ، أو أن المعلومات المجمعة فقط يمكن الوصول إليها ، أو صاخبة بسبب الأخطاء أو القيم المتطرفة ، ولها العديد من التناقضات بسبب الاختلافات في الرموز والأسماء وما إلى ذلك ، لذلك ، إذا كانت البيانات تفتقر إلى السمات أو قيم السمات ، وتحتوي على ضوضاء أو قيم متطرفة ، وتحتوي على بيانات مكررة أو غير صحيحة ، فإنها تعتبر غير نظيفة. أي من هذه سوف يقلل من جودة النتائج. وبالتالي ، فإن المعالجة المسبقة للبيانات مطلوبة لأنها تزيل التناقضات والضوضاء وعدم اكتمال البيانات ، مما يسمح بتحليلها واستخدامها بشكل صحيح.

ما هي أهمية معالجة البيانات في التنقيب عن البيانات؟

يمكننا إيجاد جذور المعالجة المسبقة للبيانات في التنقيب عن البيانات. تهدف المعالجة المسبقة للبيانات إلى إضافة قيم غائبة ، ودمج المعلومات ، وتصنيف البيانات ، وتسهيل المسارات. من خلال المعالجة المسبقة للبيانات ، من الممكن إزالة المعلومات غير المرغوب فيها من مجموعة البيانات. تتيح هذه العملية للمستخدم الحصول على مجموعة بيانات تحتوي على بيانات أكثر أهمية للتعامل معها لاحقًا في مرحلة التعدين. يساعد استخدام المعالجة المسبقة للبيانات جنبًا إلى جنب مع التنقيب عن البيانات المستخدمين في تحرير مجموعات البيانات لتصحيح تلف البيانات أو الأخطاء البشرية وهو أمر ضروري للحصول على محددات كمية دقيقة موجودة في مصفوفة الارتباك. لتحسين الدقة ، يمكن للمستخدمين دمج ملفات البيانات والاستفادة من المعالجة المسبقة لإزالة أي ضوضاء غير مرغوب فيها من البيانات. تستخدم الأساليب الأكثر تعقيدًا ، مثل تحليل المكونات الرئيسية واختيار الميزات ، الصيغ الإحصائية للمعالجة المسبقة للبيانات لتحليل مجموعات البيانات الكبيرة التي تم التقاطها بواسطة أجهزة تعقب GPS وأجهزة التقاط الحركة.