تحليل البيانات الاستكشافية وأهميتها لعملك
نشرت: 2018-02-22تتناول معظم المناقشات حول تحليل البيانات الجانب "العلمي" منه. بالتأكيد ، هناك الكثير من العلم وراء العملية برمتها - الخوارزميات والصيغ والحسابات ، لكن لا يمكنك إبعاد "الفن" عنها. إن هيكلة العملية الكاملة - من التخطيط للتحليل ، إلى فهم النتيجة النهائية - ليس عملاً فذًا ، ولا يقل عن كونه شكلًا فنيًا. هذا هو بالضبط ما يأتي تحت موضوعنا لهذا اليوم - تحليل البيانات الاستكشافية. في هذه المقالة ، سنلقي نظرة على ما هو تحليل البيانات الاستكشافية ، وما هي الأدوات والتقنيات الشائعة له ، وكيف يساعد المؤسسة.
جدول المحتويات
ما هو تحليل البيانات الاستكشافية؟
يعد تحليل البيانات الاستكشافية إحدى الخطوات المهمة في عملية تحليل البيانات. هنا ، ينصب التركيز على فهم البيانات الموجودة - أشياء مثل صياغة الأسئلة الصحيحة لطرحها على مجموعة البيانات الخاصة بك ، وكيفية التعامل مع مصادر البيانات للحصول على الإجابات المطلوبة ، وغيرها. يتم ذلك من خلال إلقاء نظرة تفصيلية على الاتجاهات والأنماط والقيم المتطرفة باستخدام طريقة بصرية. 
يعد تحليل البيانات الاستكشافية خطوة مهمة قبل الانتقال إلى التعلم الآلي أو نمذجة بياناتك. يوفر السياق اللازم لتطوير نموذج مناسب - وتفسير النتائج بشكل صحيح.
معالجة البيانات: كيف يمكنك تحديد أكاذيب البيانات؟
على مر السنين ، كان التعلم الآلي في ارتفاع - وقد أدى ذلك إلى ظهور عدد من خوارزميات التعلم الآلي القوية. قوية جدًا لدرجة أنها تدفعك تقريبًا لتخطي مرحلة تحليل البيانات الاستكشافية. في حين أنه من المفهوم سبب رغبتك في الاستفادة من هذه الخوارزميات وتخطي EDA - ليس من الجيد جدًا إدخال البيانات في الصندوق الأسود وانتظار النتائج. لقد لوحظ مرارًا وتكرارًا أن تحليل البيانات الاستكشافية يوفر الكثير من المعلومات الهامة التي من السهل جدًا تفويتها - وهي معلومات تساعد في التحليل على المدى الطويل ، من صياغة الأسئلة إلى عرض النتائج. إذا كنت مبتدئًا ومهتمًا بمعرفة المزيد عن علم البيانات ، فراجع تدريبنا في علم البيانات من أفضل الجامعات.
في حين أن جوانب EDA موجودة طالما كانت لدينا بيانات لتحليلها ، فقد تم تطوير تحليل البيانات الاستكشافية رسميًا في السبعينيات من قبل John Turkey - نفس العالم الذي صاغ كلمة "Bit" (اختصار لـ Binary Digit). غالبًا ما يُنظر إلى أكاديمية الإمارات الدبلوماسية ووصفها على أنها فلسفة أكثر من كونها علمًا لأنه لا توجد قواعد صارمة وسريعة للتعامل معها. الغرض من تحليل البيانات الاستكشافية ضروري لمعالجة مهام محددة مثل:
- اكتشاف البيانات المفقودة والخاطئة ؛
- رسم الخرائط وفهم البنية الأساسية لبياناتك ؛
- تحديد أهم المتغيرات في مجموعة البيانات الخاصة بك ؛
- اختبار فرضية أو التحقق من الافتراضات المتعلقة بنموذج معين ؛
- إنشاء نموذج شحيح (نموذج يمكنه شرح بياناتك باستخدام الحد الأدنى من المتغيرات) ؛
- تقدير المعلمات ومعرفة هوامش الخطأ.
الأدوات والأساليب المستخدمة في تحليل البيانات الاستكشافية
S-Plus و R هما أهم لغات البرمجة الإحصائية المستخدمة لإجراء تحليل البيانات الاستكشافية. تأتي هذه اللغات مجمعة مع عدد كبير من الأدوات التي تساعدك على أداء وظائف إحصائية محددة مثل:
تقنيات التصنيف وتقليل الأبعاد

يستخدم التصنيف بشكل أساسي لتجميع مجموعات البيانات المختلفة معًا بناءً على معلمة / متغير مشترك. البيانات التي نتحدث عنها متعددة الأبعاد ، وليس من السهل إجراء التصنيف أو التجميع على مجموعة بيانات متعددة الأبعاد. ومن ثم ، للمساعدة في ذلك ، يتم تنفيذ تقنيات تقليل الأبعاد مثل PCA و LDA - وهي تقلل من أبعاد مجموعة البيانات دون فقدان أي معلومات قيمة من بياناتك.
كيف تؤثر مفارقة سيمبسون على البيانات؟
التصور أحادي المتغير

المرئيات أحادية المتغير هي في الأساس توزيعات احتمالية لكل حقل في مجموعة البيانات الأولية - مع إحصائيات موجزة. تستخدم المرئيات أحادية المتغير جداول توزيع التردد أو المخططات الشريطية أو الرسوم البيانية أو المخططات الدائرية للتمثيل الرسومي.
تصورات ثنائية المتغير

يسمح ذلك لعلماء البيانات بتقييم العلاقة بين المتغيرات في مجموعة البيانات الخاصة بك - ويساعدك على استهداف المتغير الذي تبحث عنه. تعتمد الرسوم البيانية المناسبة للتحليل ثنائي المتغير على نوع المتغير المعني. على سبيل المثال ، إذا كنت تتعامل مع متغيرين مستمرين ، فيجب أن يكون مخطط التبعثر هو الرسم البياني الذي تختاره. إذا كان أحدهما قاطعًا والآخر مستمرًا ، يُفضل مخطط المربع وعندما يكون كلا المتغيرين قاطعين ، يتم اختيار مخطط الفسيفساء.
عمل أمن البيانات في ازدهار!
تصورات متعددة المتغيرات

تساعد التصورات متعددة المتغيرات في فهم التفاعلات بين حقول البيانات المختلفة. يتضمن مراقبة وتحليل أكثر من متغير نتيجة إحصائي واحد في أي وقت.

K- يعني التجميع

يتم استخدام التجميع K- يعني أساسًا لإنشاء "مراكز" لكل عنقود بناءً على أقرب متوسط. إنها تقنية تكرارية تستمر في إنشاء المجموعات وإعادة إنشائها - حتى تتوقف المجموعات المتكونة عن التغيير مع التكرارات. يمكن استخدامه للعثور على القيم المتطرفة في مجموعة البيانات (النقاط التي لن تكون شكلًا من أي مجموعات ستكون مثالية بشكل مثالي).
النماذج التنبؤية

كما يوحي الاسم ، فإن النمذجة التنبؤية هي طريقة تستخدم الإحصائيات للتنبؤ بالنتائج. على الرغم من أن معظم التنبؤات تهدف إلى التنبؤ بما سيحدث في المستقبل ، يمكن أيضًا تطبيق النمذجة التنبؤية على أي حدث غير معروف ، بغض النظر عن الوقت المحتمل حدوثه. على سبيل المثال ، يمكن استخدام هذه التقنية لكشف الجريمة والتعرف على المشتبه بهم حتى بعد وقوع الجريمة. الطريقة الأكثر شيوعًا لأداء النمذجة التنبؤية هي استخدام الانحدار الخطي (انظر الصورة).
ماذا عن تخزين البيانات واستخراج البيانات
كيف يساعد تحليل البيانات الاستكشافية عملك وأين يتناسب معه؟
يوفر تحليل البيانات الاستكشافية قيمة قصوى لأي عمل من خلال مساعدة العلماء على فهم ما إذا كانت النتائج التي توصلوا إليها قد تم تفسيرها بشكل صحيح وما إذا كانت تنطبق على سياقات العمل المطلوبة. بخلاف ضمان النتائج السليمة من الناحية الفنية ، يفيد تحليل البيانات الاستكشافية أيضًا أصحاب المصلحة من خلال تأكيد ما إذا كانت الأسئلة التي يطرحونها صحيحة أم لا. غالبًا ما يظهر علم البيانات الاستكشافية برؤى غير متوقعة - تلك التي لا يهتم أصحاب المصلحة أو علماء البيانات بالتحقيق فيها بشكل عام ، ولكن لا يزال من الممكن أن تثبت أنها غنية بالمعلومات حول الأعمال.
هناك عدد من موصلات البيانات التي تساعد المؤسسات على دمج تحليل البيانات الاستكشافية مباشرة في برامج ذكاء الأعمال الخاصة بهم. يمكنك أيضًا إعداد هذا للسماح للبيانات بالتدفق في الاتجاه الآخر أيضًا ، من خلال إنشاء نماذج إحصائية وتشغيلها في (على سبيل المثال) R التي تستخدم بيانات BI ويتم تحديثها تلقائيًا مع تدفق المعلومات الجديدة إلى النموذج.
حالات الاستخدام المحتملة لتحليل البيانات الاستكشافية واسعة النطاق ، ولكن في النهاية ، كل ذلك يتلخص في هذا - تحليل البيانات الاستكشافية يدور حول التعرف على بياناتك وفهمها قبل وضع أي افتراضات عنها ، أو اتخاذ أي خطوات في الاتجاه من التنقيب عن البيانات. يساعدك على تجنب إنشاء نماذج غير دقيقة أو بناء نماذج دقيقة على البيانات الخاطئة.
سيؤدي تنفيذ هذه الخطوة بشكل صحيح إلى منح أي مؤسسة الثقة اللازمة في بياناتها - مما سيسمح لها في النهاية بالبدء في نشر خوارزميات التعلم الآلي القوية. ومع ذلك ، فإن تجاهل هذه الخطوة الحاسمة يمكن أن يقودك إلى بناء نظام ذكاء الأعمال الخاص بك على أساس هش للغاية.
12 طريقة لربط تحليلات البيانات بنتائج الأعمال
ختاما…
من الواضح تمامًا أن تحليل البيانات الاستكشافية هو إحدى الخطوات المهمة خلال عملية استخراج المعرفة بأكملها. إذا كنت ترغب في إنشاء أساس قوي لعملية التحليل الشاملة الخاصة بك ، فيجب أن تركز بكل قوتك وقدرتك على مرحلة EDA. بكل صدق ، هناك حاجة إلى القليل من الإحصائيات لاتخاذ هذه الخطوة. إذا كنت تشعر أنك متخلف في هذا المجال ، فلا تنس قراءة مقالتنا حول أساسيات الإحصاء اللازمة لعلوم البيانات.
تعلم دورات علوم البيانات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
إذا كنت مهتمًا بتعلم Python وترغب في جعل يديك متسخًا في العديد من الأدوات والمكتبات ، فراجع برنامج Executive PG في علوم البيانات. أوه ، وما هو شعورك حيال موقفنا من اعتبار "تحليل البيانات الاستكشافية" فنًا أكثر من كونه علمًا؟ اسمحوا لنا أن نعرف في التعليقات أدناه!
لماذا يجب على عالم البيانات استخدام تحليل البيانات الاستكشافية لتحسين عملك؟
الهدف الأساسي من تحليل البيانات الاستكشافية هو المساعدة في تحليل البيانات قبل وضع أي افتراضات. يمكن أن يساعد في اكتشاف الأخطاء الواضحة ، وفهم أفضل لأنماط البيانات ، واكتشاف القيم المتطرفة أو الأحداث غير المتوقعة ، واكتشاف الارتباطات المثيرة للاهتمام بين المتغيرات.
يمكن لعلماء البيانات استخدام التحليل الاستكشافي للتأكد من أن النتائج التي ينتجونها دقيقة ومقبولة لأي نتائج تجارية وأهداف مرغوبة. كما تساعد أكاديمية الإمارات الدبلوماسية أصحاب المصلحة من خلال التأكد من أنهم يطرحون الأسئلة المناسبة. يمكن الإجابة على الانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة باستخدام EDA. بعد الانتهاء من EDA واستخراج الرؤى ، يمكن تطبيق ميزاته على تحليل البيانات أو النمذجة الأكثر تقدمًا ، بما في ذلك التعلم الآلي.
ما هي حالات الاستخدام الأكثر شيوعًا لـ EDA؟
ليس من غير المألوف أن يستخدم علماء البيانات EDA قبل ربط أنواع أخرى من النمذجة. غالبًا ما يستخدم في تحليل البيانات للنظر في مجموعات البيانات لتحديد القيم المتطرفة والاتجاهات والأنماط والأخطاء. على سبيل المثال ، يتم استخدام EDA بشكل شائع في البيع بالتجزئة حيث تقوم أدوات BI والخبراء بتحليل البيانات للكشف عن رؤى في اتجاهات البيع ، والفئات العليا ، وما إلى ذلك ، كما يتم استخدام EDA في أبحاث الرعاية الصحية لتحديد الاتجاهات الجديدة في السوق أو الصناعة ، وتحديد سلالات الأنفلونزا التي قد تكون أكثر انتشارًا في موسم الأنفلونزا الجديد ، والتحقق من تجانس السكان المرضى وما إلى ذلك.
ما هي أنواع تحليل البيانات الاستكشافية؟
أنواع تحليل البيانات الاستكشافية هي
1. أحادية المتغير غير رسومية: الغرض القياسي من EDA أحادي المتغير وغير الرسومية هو فهم توزيع العينة / البيانات وعمل ملاحظات السكان.
2. رسوم بيانية أحادية المتغير: الرسوم البيانية ، مخططات الجذعية والأوراق ، مخططات الصندوق ، إلخ.
3. متعدد المتغيرات غير رسومية: تستخدم تقنيات EDA هذه الجدولة المتقاطعة أو الإحصائيات لتوضيح العلاقة بين متغيرين أو أكثر من متغيرات البيانات.
4. الرسوم البيانية متعددة المتغيرات: تُستخدم التمثيلات الرسومية للعلاقات بين نوعين أو أكثر من البيانات في البيانات متعددة المتغيرات.
