المعالجة المسبقة للبيانات في استخراج البيانات: الخطوات ، احتساب القيمة المفقودة ، توحيد البيانات
نشرت: 2020-12-30يتمثل الجزء الأكثر استهلاكا للوقت في وظيفة عالم البيانات في إعداد البيانات الموجودة ومعالجتها مسبقًا. البيانات التي نحصل عليها في سيناريوهات الحياة الواقعية ليست نظيفة ومناسبة للنمذجة. يجب تنظيف البيانات وإحضارها إلى تنسيق معين وتحويلها قبل إدخالها في نماذج التعلم الآلي.
في نهاية هذا البرنامج التعليمي ، ستعرف ما يلي
- لماذا المعالجة المسبقة للبيانات
- تنظيف البيانات
- احتساب القيمة المفقودة
- توحيد البيانات
- التكتم
جدول المحتويات
لماذا المعالجة المسبقة للبيانات؟
عندما يتم استرداد البيانات عن طريق إلغاء مواقع الويب وتجميعها من مصادر البيانات الأخرى ، فإنها بشكل عام مليئة بالتناقضات. يمكن أن تكون مشكلات التنسيق ، والقيم المفقودة ، والقيم غير المرغوب فيها والنصوص وحتى الأخطاء في البيانات. يجب القيام بالعديد من خطوات المعالجة المسبقة للتأكد من أن البيانات التي يتم تغذيتها للنموذج تصل إلى العلامة بحيث يمكن للنموذج التعلم والتعميم عليها.
تنظيف البيانات
الخطوة الأولى والأكثر أهمية هي تنظيف المخالفات في البيانات. بدون القيام بهذه الخطوة ، لا يمكننا الاستفادة من إحصائيات البيانات. يمكن أن تكون هذه مشكلات في التنسيق وقيم غير صحيحة وقيم متطرفة.
قضايا التنسيق
نحتاج إلى أن تكون البيانات بتنسيق جدولي في معظم الأوقات ولكن هذا ليس هو الحال. قد تحتوي البيانات على أسماء أعمدة مفقودة أو غير صحيحة وأعمدة فارغة. علاوة على ذلك ، عند التعامل مع البيانات غير المهيكلة مثل الصور والنص ، يصبح من الضروري للغاية تحميل البيانات ثنائية أو ثلاثية الأبعاد في Dataframes للنمذجة.
قيم القمامة
قد تحتوي العديد من الأمثلة أو الأعمدة الكاملة على قيم غير معلومة مُلحقة بالقيمة الفعلية المطلوبة. على سبيل المثال ، ضع في اعتبارك العمود "الترتيب" الذي يحتوي على قيم مثل: "# 1" ، "# 3" ، "# 12" ، "# 2" إلخ. الآن ، من المهم إزالة جميع "#" السابقة حتى تتمكن من تغذية القيمة الرقمية للنموذج.
القيم المتطرفة
في كثير من الأحيان تكون بعض القيم الرقمية إما كبيرة جدًا أو منخفضة جدًا عن متوسط قيمة العمود المحدد. تعتبر هذه القيم المتطرفة. القيم المتطرفة تحتاج إلى معاملة خاصة وهي عامل حساس للعلاج. قد تكون هذه القيم المتطرفة أخطاء قياس أو قد تكون قيمًا حقيقية أيضًا. إما أنها تحتاج إلى إزالتها بالكامل أو التعامل معها بشكل منفصل لأنها قد تحتوي على الكثير من المعلومات المهمة.
قيم مفقودة
نادرًا ما تحتوي بياناتك على جميع القيم لكل مثيل. العديد من القيم مفقودة أو مليئة بإدخال غير موجود. يجب معالجة هذه القيم المفقودة. يمكن أن يكون لهذه القيم أسباب متعددة قد تكون مفقودة. قد تكون مفقودة لسبب ما مثل خطأ في المستشعر أو عوامل أخرى ، أو يمكن أن تكون مفقودة تمامًا بشكل عشوائي.
قراءة: مشاريع التنقيب عن البيانات في الهند
اسقاط
الطريقة الأسهل والأكثر وضوحًا هي إسقاط الصفوف التي تفتقد فيها القيم. القيام بذلك له عيوب كثيرة مثل فقدان المعلومات الهامة. قد تكون خطوة جيدة لإسقاط القيم المفقودة عندما تكون كمية البيانات التي لديك ضخمة. ولكن إذا كانت البيانات أقل وكان هناك الكثير من القيم المفقودة ، فأنت بحاجة إلى طرق أفضل لمعالجة هذه المشكلة.
متوسط / متوسط / وضع التضمين
إن أسرع طريقة لحساب القيم المفقودة هي ببساطة احتساب القيمة المتوسطة للعمود. ومع ذلك ، فإن لها عيوبًا لأنها تزعج التوزيع الأصلي للبيانات. يمكنك أيضًا احتساب القيمة المتوسطة أو قيمة الوضع التي تكون أفضل بشكل عام من المتوسط البسيط.
الاستيفاء الخطي و KNN
يمكن أيضًا استخدام طرق أكثر ذكاءً لنسب القيم المفقودة. 2 منها عبارة عن عمليات إقحام خطية باستخدام نماذج متعددة عن طريق معالجة العمود بقيم فارغة كميزة يجب توقعها. هناك طريقة أخرى وهي استخدام التجميع بواسطة KNN. يقوم KNN بإنشاء مجموعات من القيم في ميزة معينة ثم يقوم بتعيين القيمة الأقرب إلى الكتلة.
توحيد البيانات
في مجموعة بيانات ذات ميزات رقمية متعددة ، قد لا تكون جميع الميزات على نفس المقياس. على سبيل المثال ، ميزة "المسافة" لها مسافات بالأمتار مثل 1300 ، 800 ، 560 ، إلخ. وميزة أخرى "الوقت" لها أوقات بالساعات مثل 1 ، 2.5 ، 3.2 ، 0.8 ، إلخ. لذلك ، عند هاتين الميزتين إلى النموذج ، فهي تعتبر الميزة ذات المسافات بمثابة وزن أكبر نظرًا لأن قيمها كبيرة. لتجنب هذا السيناريو والحصول على تقارب أسرع ، من الضروري إحضار جميع الميزات على نفس المقياس.

تطبيع
الطريقة الشائعة لتوسيع نطاق الميزات هي تطبيعها. يمكن تنفيذه باستخدام Normalizer Scikit-Learn. إنه لا يعمل على الأعمدة ، بل على الصفوف. يتم تطبيق تسوية L2 على كل ملاحظة بحيث يكون للقيم في صف معيار وحدة بعد القياس.
الحد الأدنى للقياس
يمكن تنفيذ مقياس Min Max باستخدام فئة Min MaxScaler من Scikit-Learn. يطرح الحد الأدنى لقيمة المعالم ثم يقسم على النطاق ، حيث يكون النطاق هو الفرق بين الحد الأقصى الأصلي والحد الأدنى الأصلي. إنه يحافظ على شكل التوزيع الأصلي ، مع النطاق الافتراضي في 0-1.
تحجيم قياسي
يمكن أيضًا تطبيق Scaler القياسي باستخدام فئة Scikit-Learn. يقوم بتوحيد الميزة عن طريق طرح المتوسط ثم القياس إلى تباين الوحدة ، حيث يعني تباين الوحدة قسمة جميع القيم على الانحراف المعياري. يجعل متوسط التوزيع 0 والانحراف المعياري 1.
التكتم
في كثير من الأحيان لا تكون البيانات في شكل رقمي بدلاً من شكل فئوي. على سبيل المثال ، ضع في اعتبارك ميزة "درجة الحرارة" بقيم مثل "مرتفع" ، "منخفض" ، "متوسط". يجب ترميز هذه القيم النصية في شكل رقمي حتى يتمكن النموذج من التدرب عليها.
بيانات تسلسلية
البيانات الفئوية عبارة عن ملصق مشفر لإحضاره في شكل رقمي. لذلك يمكن ترميز التسمية "عالية" و "متوسطة" و "منخفضة" إلى 3،2 و 1. يمكن أن تكون السمات الفئوية إما اسمية أو ترتيبية. السمات الفئوية الترتيبية هي تلك التي لها ترتيب معين. على سبيل المثال ، في الحالة المذكورة أعلاه ، يمكننا القول أن 3> 2> 1 حيث يمكن قياس درجات الحرارة / قياسها كمياً.
ومع ذلك ، في مثال حيث لا يمكن قياس ميزة "المدينة" التي لها قيم مثل "دلهي" و "جامو" و "أجرا". بعبارة أخرى ، عندما نصنفها على أنها 3 ، 2 ، 1 ، لا يمكننا أن نقول أن 3> 2> 1 لأن "دلهي"> "جامو" لن يكون لها معنى كبير. في مثل هذه الحالات ، نستخدم One Hot Encoding.
بيانات مستمرة
يمكن أيضًا تحديد المعالم ذات القيم المستمرة عن طريق تجميع القيم في سلال من نطاقات محددة. يعني Binning تحويل ميزة رقمية أو مستمرة إلى مجموعة منفصلة من القيم ، بناءً على نطاقات القيم المستمرة. يكون هذا مفيدًا عندما تريد رؤية الاتجاهات بناءً على النطاق الذي تقع فيه نقطة البيانات.
على سبيل المثال ، لنفترض أن لدينا علامات لـ 7 أطفال تتراوح أعمارهم بين 0-100. الآن ، يمكننا تخصيص علامات كل طفل إلى "سلة مهملات" معينة. الآن يمكننا أن نقسم إلى 3 صناديق ذات نطاقات من 0 إلى 50 ، و 51-70 ، و 71-100 تنتمي إلى الصناديق 1 ، 2 ، و 3 على التوالي. لذلك ، ستحتوي الميزة الآن على واحدة فقط من هذه القيم الثلاث. تقدم Pandas وظيفتين لتحقيق التجميع السريع: qcut and cut.
يأخذ Pandas qcut عدد الكميات ويقسم نقاط البيانات إلى كل سلة بناءً على توزيع البيانات.
من ناحية أخرى ، تأخذ قطع الباندا النطاقات المخصصة التي حددناها وتقسم نقاط البيانات في تلك النطاقات.
قراءة ذات صلة: المعالجة المسبقة للبيانات في التعلم الآلي
تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
خاتمة
تعد المعالجة المسبقة للبيانات خطوة أساسية في أي مهمة للتنقيب عن البيانات وتعلم الآلة. من المؤكد أن جميع الخطوات التي ناقشناها ليست كلها ولكنها تغطي معظم الجزء الأساسي من العملية. تختلف تقنيات المعالجة المسبقة للبيانات بالنسبة لبيانات البرمجة اللغوية العصبية وبيانات الصورة أيضًا. تأكد من تجربة أمثلة من الخطوات المذكورة أعلاه وتنفيذها في خط أنابيب التنقيب في البيانات.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ما هي معالجة البيانات وما هي أهميتها؟
هذه تقنية لتقديم البيانات الخام غير المهيكلة والتي تكون في شكل صور ونصوص ومقاطع فيديو. تتم معالجة هذه البيانات أولاً لإزالة التناقضات والأخطاء والتكرار بحيث يمكن تحليلها لاحقًا.
يتم تحويل البيانات الأولية إلى بيانات ذات صلة يمكن للآلات فهمها. تعد المعالجة المسبقة للبيانات خطوة مهمة لتحويل البيانات من أجل النمذجة. بدون معالجة ، هو عمليا عديم الفائدة.
ما هي الخطوات المتبعة في المعالجة المسبقة للبيانات؟
تتضمن المعالجة المسبقة للبيانات خطوات مختلفة لإكمال العملية برمتها. يتم تنظيف البيانات أولاً لإزالة الضوضاء وملء القيم المفقودة. بعد ذلك ، يتم دمج البيانات من مصادر متعددة لدمجها في مجموعة بيانات واحدة. ثم يتم اتباع هذه الخطوات من خلال التحول والتخفيض والتمييز.
يتضمن تحويل البيانات الأولية تطبيع البيانات. يتعامل الاختزال والتقدير بشكل أساسي مع تقليل سمات وأبعاد البيانات. ويتبع ذلك ضغط هذه المجموعة الكبيرة من البيانات.
ما هو الفرق بين الأساليب أحادية المتغير ومتعددة المتغيرات؟
الطريقة أحادية المتغير هي أبسط طريقة للتعامل مع الخارج. لا يستعرض أي علاقة لأنها متغير واحد والغرض الرئيسي منه هو تحليل البيانات وتحديد النمط المرتبط بها. المتوسط والوسيط والوضع هي أمثلة على الأنماط الموجودة في البيانات أحادية المتغير.
من ناحية أخرى ، فإن الطريقة متعددة المتغيرات هي لتحليل ثلاثة متغيرات أو أكثر. إنها أكثر دقة من الطريقة السابقة نظرًا لأن الطريقة متعددة المتغيرات ، بخلاف الطريقة أحادية المتغير ، تتعامل مع العلاقات والأنماط. تعد الشجرة المضافة ، وتحليل الارتباط الكنسي ، وتحليل الكتلة بعضًا من طرق إجراء التحليل متعدد المتغيرات.
