تقنيات تنظيف البيانات: تعلم طرق بسيطة وفعالة لتنظيف البيانات

نشرت: 2020-01-26

يعد تنظيف البيانات جزءًا أساسيًا من علم البيانات. يمكن أن يؤدي العمل مع البيانات غير النقية إلى العديد من الصعوبات. واليوم ، سنناقش نفس الشيء.

سوف تكتشف سبب أهمية تنظيف البيانات ، والعوامل التي تؤثر على جودة بياناتك ، وكيف يمكنك تنظيف البيانات الموجودة لديك. إنه دليل مفصل ، لذا تأكد من وضع إشارة مرجعية عليه للرجوع إليه في المستقبل.

هيا بنا نبدأ.

جدول المحتويات

لماذا يعد تنظيف البيانات ضروريًا

قد يبدو تنظيف البيانات مملاً وغير مثير للاهتمام ، ولكنه أحد أهم المهام التي يجب عليك القيام بها كمحترف في علم البيانات. قد يكون وجود بيانات خاطئة أو سيئة الجودة ضارًا بعملياتك وتحليلك. يمكن أن تتسبب البيانات الضعيفة في فشل الخوارزمية النجمية.

من ناحية أخرى ، يمكن أن تتسبب البيانات عالية الجودة في خوارزمية بسيطة تمنحك نتائج رائعة. هناك العديد من تقنيات تنظيف البيانات ، ويجب أن تتعرف عليها لتحسين جودة بياناتك. ليست كل البيانات مفيدة. هذا عامل رئيسي آخر يؤثر على جودة بياناتك.

قراءة: تحليل الكتلة في R

على سبيل المثال ، افترض أن شركتك لديها قائمة بعناوين الموظفين. الآن ، إذا كانت بياناتك تتضمن أيضًا بعض عناوين عملائك ، ألن تلحق الضرر بالقائمة؟ ألن تذهب جهودك لتحليل القائمة سدى؟ في هذا السوق المدعوم بالبيانات ، يعد تعلم علوم البيانات لتحسين قرارات عملك أمرًا حيويًا.

هناك العديد من الأسباب التي تجعل تنظيف البيانات أمرًا ضروريًا. بعضها مذكور أدناه:

كفاءة

يمكن أن يساعدك الحصول على بيانات نظيفة (خالية من القيم الخاطئة وغير المتسقة) في أداء تحليلك بشكل أسرع. يمكنك توفير قدر كبير من الوقت عن طريق القيام بهذه المهمة مسبقًا. عندما تقوم بتنظيف بياناتك قبل استخدامها ، ستكون قادرًا على تجنب العديد من الأخطاء. إذا كنت تستخدم بيانات تحتوي على قيم خاطئة ، فلن تكون نتائجك دقيقة.

وهناك احتمالات ، سوف تضطر إلى إعادة المهمة بأكملها مرة أخرى ، مما قد يتسبب في إضاعة الكثير من الوقت. إذا اخترت تنظيف بياناتك قبل استخدامها ، يمكنك إنشاء نتائج بشكل أسرع وتجنب إعادة المهمة بأكملها مرة أخرى.

هامش الخطأ

عندما لا تستخدم بيانات دقيقة للتحليل ، فمن المؤكد أنك سترتكب أخطاء. لنفترض أنك بذلت الكثير من الجهد والوقت لتحليل مجموعة معينة من مجموعات البيانات. أنت حريص جدًا على إظهار النتائج لرئيسك ، ولكن في الاجتماع ، يشير رئيسك إلى بعض الأخطاء التي يصبح الموقف محرجًا ومؤلماً نوعًا ما.

ألا تريد تجنب حدوث مثل هذه الأخطاء؟ فهي لا تسبب الإحراج فحسب ، بل إنها تهدر الموارد أيضًا. يساعدك تطهير البيانات في هذا الصدد ، فهو ممارسة منتشرة على نطاق واسع ، ويجب أن تتعلم الطرق المستخدمة لتنظيف البيانات.

يعد استخدام خوارزمية بسيطة مع بيانات نظيفة طريقة أفضل من استخدام بيانات متقدمة مع بيانات غير نظيفة.

تحديد جودة البيانات

هل البيانات صحيحة؟ (صلاحية)

صحة بياناتك هي الدرجة التي تتبعها لقواعد متطلباتك الخاصة. على سبيل المثال ، يمكنك استيراد أرقام هواتف عملاء مختلفين ، ولكن في بعض الأماكن ، أضفت عناوين بريد إلكتروني في البيانات. الآن لأن احتياجاتك كانت صريحة لأرقام الهواتف ، ستكون عناوين البريد الإلكتروني غير صالحة.

تحدث أخطاء الصلاحية عندما لا يتم فحص طريقة الإدخال بشكل صحيح. ربما تستخدم جداول البيانات لتجميع البيانات الخاصة بك. وقد تقوم بإدخال معلومات خاطئة في خلايا جدول البيانات.

هناك أنواع متعددة من القيود التي يجب أن تتوافق بياناتك معها حتى تكون صالحة. ها هم:

نطاق:

يجب أن تكون بعض أنواع الأرقام في نطاق معين. على سبيل المثال ، يجب أن يكون لعدد المنتجات التي يمكنك نقلها في يوم حد أدنى وأقصى قيمة. سيكون هناك بالتأكيد نطاق معين للبيانات. ستكون هناك نقطة بداية ونقطة نهاية.

نوع البيانات:

قد تتطلب بعض خلايا البيانات نوعًا معينًا من البيانات ، مثل البيانات الرقمية والمنطقية وما إلى ذلك. على سبيل المثال ، في القسم المنطقي ، لن تضيف قيمة عددية.

القيود الإجبارية:

في كل سيناريو ، هناك بعض القيود الإلزامية التي يجب أن تتبعها بياناتك. تعتمد القيود الإجبارية على احتياجاتك الخاصة. بالتأكيد ، يجب ألا تكون أعمدة بياناتك فارغة. على سبيل المثال ، في قائمة أسماء عملائك ، لا يمكن ترك عمود "الاسم" فارغًا.

الفحص الشامل:

هناك شروط معينة تؤثر على العديد من حقول البيانات في نموذج معين. افترض أن وقت مغادرة الرحلة لا يمكن أن يكون قبل موعد وصولها. في الميزانية العمومية ، يجب أن يكون مجموع الخصم والائتمان للعميل هو نفسه. لا يمكن أن تكون مختلفة.

ترتبط هذه القيم ببعضها البعض ، ولهذا السبب قد تحتاج إلى إجراء فحص متعدد المجالات.

المتطلبات الفريدة:

أنواع البيانات الخاصة لها قيود فريدة. لا يمكن لعميلين الحصول على نفس تذكرة دعم العملاء. يجب أن يكون هذا النوع من البيانات فريدًا بالنسبة لحقل معين ولا يمكن مشاركته بواسطة عدة حقول.

تعيين قيود العضوية:

بعض القيم مقصورة على مجموعة معينة. مثل ، يمكن أن يكون الجنس إما ذكر أو أنثى أو غير معروف.

الأنماط العادية:

تتبع بعض أجزاء البيانات تنسيقًا محددًا. على سبيل المثال ، عناوين البريد الإلكتروني لها التنسيق "[email protected]". وبالمثل ، تتكون أرقام الهواتف من عشرة أرقام.

إذا لم تكن البيانات بالتنسيق المطلوب ، فستكون أيضًا غير صالحة.

إذا حذف أحد الأشخاص العلامة "@" أثناء إدخاله لعنوان بريد إلكتروني ، فسيكون عنوان البريد الإلكتروني غير صالح ، أليس كذلك؟ التحقق من صحة البيانات الخاصة بك هو الخطوة الأولى لتحديد جودتها. في معظم الأحيان ، يكون سبب إدخال المعلومات غير الصالحة هو الخطأ البشري.

سيساعدك التخلص منه في تبسيط عمليتك وتجنب قيم البيانات غير المفيدة مسبقًا.

صحة

الآن بعد أن عرفت أن معظم البيانات التي لديك صحيحة ، سيتعين عليك التركيز على إثبات دقتها. على الرغم من صحة البيانات ، فهذا لا يعني أن البيانات دقيقة. ويساعدك تحديد الدقة في معرفة ما إذا كانت البيانات التي أدخلتها دقيقة أم لا.

يمكن أن يكون عنوان العميل بالتنسيق الصحيح ، ولكن لا يلزم أن يكون العنوان الصحيح. ربما يحتوي البريد الإلكتروني على رقم أو حرف إضافي يجعله خاطئًا. مثال آخر هو رقم هاتف العميل.

قراءة: أهم واجهات برمجة تطبيقات التعلم الآلي لعلوم البيانات

إذا كان رقم الهاتف يحتوي على جميع الأرقام ، فهذه قيمة صالحة. لكن هذا لا يعني أنه صحيح. عندما يكون لديك تعريفات للقيم الصالحة ، يكون اكتشاف القيم غير الصالحة أمرًا سهلاً. لكن هذا لا يساعد في التحقق من دقة نفس الشيء. يتطلب التحقق من دقة قيم البيانات الخاصة بك استخدام مصادر خارجية.

هذا يعني أنه سيتعين عليك الاعتماد على مصادر بيانات مختلفة عن تلك التي تستخدمها حاليًا. سيتعين عليك مراجعة بياناتك لمعرفة ما إذا كانت دقيقة أم لا. لا تحتوي تقنيات تنظيف البيانات على العديد من الحلول للتحقق من دقة قيم البيانات.

ومع ذلك ، بناءً على نوع البيانات التي تستخدمها ، قد تتمكن من العثور على الموارد التي يمكن أن تساعدك في هذا الصدد. يجب ألا تخلط بين الدقة والدقة .

الدقة مقابل الدقة

بينما تعتمد الدقة على تحديد ما إذا كانت بياناتك المدخلة صحيحة أم لا ، تتطلب الدقة منك تقديم مزيد من التفاصيل حولها. قد يقوم العميل بإدخال الاسم الأول في حقل البيانات الخاص بك. ولكن إذا لم يكن هناك اسم أخير ، فسيكون من الصعب أن تكون أكثر دقة.

مثال آخر يمكن أن يكون العنوان. افترض أنك سألت شخصًا عن مكان إقامته. قد يقولون إنهم يعيشون في لندن. يمكن أن يكون ذلك صحيحا. ومع ذلك ، هذه ليست إجابة دقيقة لأنك لا تعرف أين يعيشون في لندن.

الإجابة الدقيقة هي إعطائك عنوان شارع.

الاكتمال

يكاد يكون من المستحيل الحصول على كل المعلومات التي تحتاجها. الاكتمال هو الدرجة التي تعرف بها كل القيم المطلوبة. يعد الاكتمال أكثر صعوبة في تحقيقه من الدقة أو الصلاحية. هذا لأنه لا يمكنك تحمل قيمة. ما عليك سوى إدخال الحقائق المعروفة.

يمكنك محاولة إكمال بياناتك عن طريق إعادة أنشطة جمع البيانات (الاقتراب من العملاء مرة أخرى ، وإعادة إجراء المقابلات مع الأشخاص ، وما إلى ذلك). لكن هذا لا يعني أنك ستكون قادرًا على إكمال بياناتك تمامًا.

لنفترض أنك أعدت مقابلة الأشخاص للحصول على البيانات التي احتجتها سابقًا. الآن ، هذا السيناريو لديه مشكلة الاسترجاع. إذا سألتهم نفس الأسئلة مرة أخرى ، فمن المحتمل أنهم قد لا يتذكرون ما أجابوا عليه من قبل. هذا يمكن أن يؤدي إلى إعطائك إجابة خاطئة.

قد تسأله عن الكتب التي كان يقرأها قبل خمسة أشهر. وقد لا يتذكرون. وبالمثل ، قد تحتاج إلى إدخال معلومات الاتصال الخاصة بكل عميل. لكن البعض منهم قد لا يكون لديه عناوين بريد إلكتروني. في هذه الحالة ، سيتعين عليك ترك هذه الأعمدة فارغة.

إذا كان لديك نظام يتطلب منك ملء جميع الأعمدة ، يمكنك محاولة إدخال "مفقود" أو "غير معروف" هناك. لكن إدخال مثل هذه القيم لا يعني أن البيانات كاملة. سيظل يشار إليه على أنه غير مكتمل.

التناسق

بعد الاكتمال يأتي الاتساق. يمكنك قياس التناسق من خلال مقارنة نظامين متشابهين. أو يمكنك التحقق من قيم البيانات ضمن نفس مجموعة البيانات لمعرفة ما إذا كانت متسقة أم لا. يمكن أن يكون الاتساق علائقية. على سبيل المثال ، قد يكون عمر العميل 15 عامًا ، وهي قيمة صالحة ويمكن أن تكون دقيقة ، ولكن قد يتم ذكرها أيضًا من كبار السن في نفس النظام.

في مثل هذه الحالات ، ستحتاج إلى التحقق من البيانات ، على غرار دقة القياس ، ومعرفة القيمة الصحيحة. هل العميل عمره 15 سنة؟ أم أن العميل من كبار السن؟ يمكن أن تكون واحدة فقط من هذه القيم صحيحة.

هناك طرق متعددة لجعل بياناتك متسقة.

تحقق من الأنظمة المختلفة:

يمكنك إلقاء نظرة على نظام مشابه آخر لمعرفة ما إذا كانت القيمة التي لديك حقيقية أم لا. إذا كان هناك نظامان يتعارضان مع بعضهما البعض ، فقد يساعدك التحقق من النظام الثالث.

في مثالنا السابق ، لنفترض أنك تحققت من النظام الثالث ووجدت أن عمر العميل هو 65 عامًا. وهذا يوضح أن النظام الثاني ، الذي قال إن العميل هو مواطن كبير السن ، سيصمد.

تحقق من أحدث البيانات:

هناك طريقة أخرى لتحسين تناسق بياناتك وهي التحقق من القيمة الأحدث. يمكن أن يكون أكثر فائدة لك في سيناريوهات محددة. قد يكون لديك رقمان مختلفان للاتصال بعميل في سجلك. من المحتمل أن يكون أحدثها أكثر موثوقية لأنه من المحتمل أن يكون العميل قد قام بتبديل الأرقام.

تحقق من المصدر:

الطريقة الأكثر موثوقية للتحقق من موثوقية البيانات هي الاتصال بالمصدر ببساطة. في مثالنا عن عمر العميل ، يمكنك اختيار الاتصال بالعميل مباشرة والسؤال عن عمره. ومع ذلك ، لا يمكن ذلك في كل سيناريو ويمكن أن يكون الاتصال المباشر بالمصدر معقدًا للغاية. ربما لا يستجيب العميل ، أو أن معلومات الاتصال الخاصة به غير متاحة.

التوحيد

يجب عليك التأكد من أن جميع القيم التي أدخلتها في مجموعة البيانات الخاصة بك في نفس الوحدات. إذا كنت تدخل وحدات النظام الدولي للقياسات ، فلا يمكنك استخدام النظام الإمبراطوري في بعض الأماكن. من ناحية أخرى ، إذا كنت قد أدخلت الوقت في مكان ما بالثواني ، فيجب عليك إدخاله بهذا التنسيق عبر مجموعة البيانات.

قراءة: SQL لعلوم البيانات

التحقق من توحيد سجلاتك أمر سهل للغاية. يمكن أن يكشف الفحص البسيط عما إذا كانت هناك قيمة معينة في الوحدة المطلوبة أم لا. تعتمد الوحدات التي تستخدمها لإدخال بياناتك على متطلباتك المحددة.

تقنيات تطهير البيانات

يعتمد اختيارك لتقنيات تنظيف البيانات على العديد من العوامل. أولاً ، ما نوع البيانات التي تتعامل معها؟ هل هي قيم رقمية أم سلاسل؟ ما لم يكن لديك قيم قليلة جدًا للتعامل معها ، لا يجب أن تتوقع تنظيف بياناتك باستخدام أسلوب واحد فقط أيضًا.

قد تحتاج إلى استخدام تقنيات متعددة للحصول على نتيجة أفضل. كلما زاد عدد أنواع البيانات التي يتعين عليك التعامل معها ، زادت تقنيات التطهير التي سيتعين عليك استخدامها. سيساعدك التعرف على كل هذه الأساليب في تصحيح الأخطاء والتخلص من البيانات غير المفيدة.

1. إزالة القيم غير ذات الصلة

أول شيء يجب عليك فعله هو إزالة البيانات غير المفيدة من نظامك. أي بيانات غير مفيدة أو غير ذات صلة هي تلك التي لا تحتاج إليها. قد لا يتناسب مع سياق مشكلتك.

قد تحتاج فقط إلى قياس متوسط ​​عمر موظفي المبيعات لديك. ثم لن يكون عنوان بريدهم الإلكتروني مطلوبًا. مثال آخر هو أنك قد تتحقق لمعرفة عدد العملاء الذين اتصلت بهم في الشهر. في هذه الحالة ، لن تحتاج إلى بيانات الأشخاص الذين وصلت إليهم في الشهر السابق.

ومع ذلك ، قبل إزالة جزء معين من البيانات ، تأكد من أنه غير ذي صلة لأنك قد تحتاج إليه للتحقق من قيمه المرتبطة لاحقًا (للتحقق من التناسق). وإذا كان بإمكانك الحصول على رأي ثانٍ من خبير أكثر خبرة قبل إزالة البيانات ، فلا تتردد في القيام بذلك.

لن ترغب في حذف بعض القيم وتندم على القرار لاحقًا. ولكن بمجرد أن تتأكد من أن البيانات ليست ذات صلة ، تخلص منها.

2. التخلص من القيم المكررة

التكرارات مشابهة للقيم عديمة الفائدة - لست بحاجة إليها. هم فقط يزيدون من كمية البيانات التي لديك ويضيعون وقتك. يمكنك التخلص منها بعمليات بحث بسيطة. قد تكون القيم المكررة موجودة في نظامك لعدة أسباب.

ربما قمت بدمج بيانات مصادر متعددة. أو ربما كرر الشخص الذي قدم البيانات قيمة عن طريق الخطأ. نقر بعض المستخدمين مرتين على "إدخال" عندما كانوا يملئون نموذجًا عبر الإنترنت. يجب عليك إزالة التكرارات بمجرد العثور عليها.

3. تجنب الأخطاء المطبعية (والأخطاء المشابهة)

الأخطاء المطبعية هي نتيجة لخطأ بشري ويمكن أن تكون موجودة في أي مكان. يمكنك إصلاح الأخطاء المطبعية من خلال خوارزميات وتقنيات متعددة. يمكنك تعيين القيم وتحويلها إلى التهجئة الصحيحة. الأخطاء المطبعية ضرورية لإصلاحها لأن النماذج تتعامل مع القيم المختلفة بشكل مختلف. تعتمد الأوتار كثيرًا على تهجئاتها وحالاتها.

يختلف "George" عن "george" على الرغم من أنهما يستخدمان نفس التهجئة. وبالمثل ، يختلف كل من "Mike" و "Mice" عن بعضهما البعض ، على الرغم من أن لهما نفس عدد الأحرف أيضًا. ستحتاج إلى البحث عن مثل هذه الأخطاء الإملائية وإصلاحها بشكل مناسب.

خطأ آخر مشابه للأخطاء المطبعية هو حجم السلاسل. قد تحتاج إلى حشوها للاحتفاظ بها بنفس التنسيق. على سبيل المثال ، قد تتطلب منك مجموعة البيانات أن يكون لديك أرقام مكونة من 5 أرقام فقط. لذلك إذا كان لديك أي قيمة تتكون من أربعة أرقام فقط مثل "3994" يمكنك إضافة صفر في البداية لزيادة عدد أرقامها.

ستظل قيمتها كما هي مثل "03994" ، لكنها ستحافظ على بياناتك موحدة. خطأ إضافي في السلاسل هو المسافات البيضاء. تأكد من إزالتها من خيوطك للحفاظ على اتساقها.

4. تحويل أنواع البيانات

يجب أن تكون أنواع البيانات موحدة عبر مجموعة البيانات الخاصة بك. لا يمكن أن تكون السلسلة رقمية ولا يمكن أن تكون قيمة رقمية منطقية. هناك العديد من الأشياء التي يجب أن تضعها في اعتبارك عندما يتعلق الأمر بتحويل أنواع البيانات:

  • احتفظ بالقيم الرقمية كأرقام
  • تحقق مما إذا كان الرقم هو سلسلة أم لا. إذا أدخلته كسلسلة ، فسيكون غير صحيح.
  • إذا لم تتمكن من تحويل قيمة بيانات محددة ، فيجب عليك إدخال "قيمة NA" أو شيء من هذا النوع. تأكد من إضافة تحذير أيضًا لتوضيح أن هذه القيمة المعينة خاطئة.

5. اعتن بالقيم المفقودة

سيكون هناك دائمًا جزء من البيانات المفقودة. لا يمكنك تجنب ذلك. لذلك يجب أن تعرف كيفية التعامل معها للحفاظ على بياناتك نظيفة وخالية من الأخطاء. قد يحتوي عمود معين في مجموعة البيانات على عدد كبير جدًا من القيم المفقودة. في هذه الحالة ، سيكون من الحكمة التخلص من العمود بأكمله لأنه لا يحتوي على بيانات كافية للعمل بها.

أشر إلى الملاحظة: لا يجب أن تتجاهل القيم المفقودة.

يمكن أن يكون تجاهل القيم المفقودة خطأً فادحًا لأنه سيلوث بياناتك ولن تحصل على نتائج دقيقة. هناك طرق متعددة للتعامل مع القيم المفقودة.

فرض القيم المفقودة:

يمكنك أن تنسب القيم المفقودة ، مما يعني ، بافتراض القيمة التقريبية. يمكنك استخدام الانحدار الخطي أو الوسيط لحساب القيمة المفقودة. ومع ذلك ، فإن هذه الطريقة لها آثارها لأنه لا يمكنك التأكد مما إذا كانت هذه هي القيمة الحقيقية.

هناك طريقة أخرى لحساب القيم المفقودة وهي نسخ البيانات من مجموعة بيانات مماثلة. تسمى هذه الطريقة "التضمين الساخن". أنت تضيف قيمة إلى سجلك الحالي مع مراعاة بعض القيود مثل نوع البيانات والنطاق.

إبراز القيم المفقودة:

لا يعتبر الاقتباس دائمًا أفضل إجراء لرعاية القيم المفقودة. يرى العديد من الخبراء أنه لا يؤدي إلا إلى نتائج مختلطة أكثر لأنها ليست "حقيقية". لذلك ، يمكنك اتباع نهج آخر وإبلاغ النموذج بأن البيانات مفقودة. يمكن أن يكون إخبار النموذج (أو الخوارزمية) بأن القيمة المحددة غير متوفرة جزءًا من المعلومات أيضًا.

إذا لم تكن الأسباب العشوائية مسؤولة عن القيم المفقودة ، فقد يكون من المفيد تمييزها أو وضع علامة عليها. على سبيل المثال ، قد لا تحتوي سجلاتك على العديد من الإجابات على سؤال محدد في الاستبيان الخاص بك لأن عميلك لم يرغب في الإجابة عليه في المقام الأول.

إذا كانت القيمة المفقودة رقمية ، يمكنك استخدام 0. فقط تأكد من تجاهل هذه القيم أثناء التحليل الإحصائي. من ناحية أخرى ، إذا كانت القيمة المفقودة قيمة فئوية ، يمكنك ملء "مفقود".

ملخص

نأمل أن تكون قد استمتعت بالاطلاع على تقنيات تنظيف البيانات التفصيلية. كان هناك الكثير لنتعلمه بلا شك.

تعرف على المزيد حول الجدل حول البيانات من فيديو ندوة الويب أدناه.

إذا كانت لديك أي أسئلة بخصوص تنقية البيانات ، فلا تتردد في طرحها على خبرائنا.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

لماذا يعتبر التناقض في البيانات مشكلة؟

عندما تظهر نفس قطعة البيانات في عدة أماكن ، يحدث تكرار في البيانات ، بينما يحدث عدم تناسق البيانات عندما تظهر نفس البيانات في عدة جداول بأشكال مختلفة. لسوء الحظ ، يمكن أن يؤدي تكرار البيانات إلى عدم اتساق البيانات ، مما يؤدي إلى بيانات غير دقيقة و / أو غير مفيدة للشركة. لا يمكنهم توقع المبيعات بشكل صحيح لتحسين إجراءات إدارة المخزون والتوزيع ؛ لا يمكنهم اكتشاف مشاكل التصنيع أو سلسلة التوريد لتقليل تجاوز التكاليف والتأخيرات ؛ ولا يمكنهم تقييم اهتمام العملاء بمنتج جديد لتغيير التصميمات أو الحملات التسويقية.

كم مرة يجب تنظيف بياناتك؟

التكرار الذي يجب أن تنظف به بياناتك يعتمد كليًا على متطلبات عملك. ستحصل شركة كبيرة على الكثير من البيانات بسرعة ، وبالتالي قد تكون هناك حاجة لتنقية البيانات كل ثلاثة إلى ستة أشهر. يُقترح أن تقوم الشركات الأصغر التي لديها بيانات أقل بتنظيف بياناتها مرة واحدة على الأقل في السنة. يُنصح بالتخطيط لتنظيف البيانات إذا كنت تشك في أن البيانات القذرة تكلفك أموالًا أو تؤثر سلبًا على إنتاجيتك أو كفاءتك أو رؤيتك.

هل Tableau مناسب لتطهير البيانات؟

يأتي Tableau Prep مع عدد من إجراءات التنظيف التي يمكنك استخدامها لتنظيف وتشكيل بياناتك على الفور. يجعل تنظيف البيانات القذرة من الأسهل دمج وتحليل بياناتك ، بالإضافة إلى فهم الآخرين لبياناتك عند مشاركتها.