أطر عمل علم البيانات: أهم 7 خطوات لقرارات أعمال أفضل
نشرت: 2019-12-26علم البيانات هو مجال واسع يشمل تقنيات وطرق مختلفة لاستخراج المعلومات وتساعد في فهم جبال البيانات. علاوة على ذلك ، يمكن للقرارات المستندة إلى البيانات أن تقدم قيمة تجارية هائلة. لذلك ، أصبحت أطر عمل علم البيانات الكأس المقدسة للأعمال التكنولوجية الحديثة ، حيث رسمت على نطاق واسع 7 خطوات لاستخلاص رؤى ذات مغزى. وتشمل هذه: السؤال ، والاستحواذ ، والاستيعاب ، والتحليل ، والإجابة ، وتقديم المشورة ، والعمل. فيما يلي نظرة عامة على كل خطوة من هذه الخطوات وبعض المفاهيم المهمة المتعلقة بعلوم البيانات.
جدول المحتويات
أطر عمل علم البيانات: الخطوات
1. طرح الأسئلة: نقطة البداية لأطر عمل علم البيانات
مثل أي دراسة علمية تقليدية ، يبدأ علم البيانات أيضًا بسلسلة من الأسئلة. علماء البيانات هم أفراد فضوليون يتمتعون بقدرات التفكير النقدي ويتشككون في الافتراضات والأنظمة الحالية. تمكنهم البيانات من التحقق من صحة مخاوفهم والعثور على إجابات جديدة. لذلك ، فإن هذا التفكير الفضولي هو الذي يبدأ عملية اتخاذ الإجراءات القائمة على الأدلة.
2. الاقتناء: جمع البيانات المطلوبة
بعد طرح الأسئلة ، يتعين على علماء البيانات جمع البيانات المطلوبة من مصادر مختلفة ، واستيعابها بشكل أكبر لجعلها مفيدة. ينشرون عمليات مثل هندسة الميزات لتحديد المدخلات التي ستدعم خوارزميات استخراج البيانات والتعلم الآلي والتعرف على الأنماط. بمجرد تحديد الميزات ، يمكن تنزيل البيانات من مصدر مفتوح أو الحصول عليها عن طريق إنشاء إطار عمل لتسجيل البيانات أو قياسها.
3. الاستيعاب: تحويل البيانات التي تم جمعها
بعد ذلك ، يجب تنظيف البيانات المجمعة للاستخدام العملي. عادةً ما يتضمن إدارة القيم المفقودة وغير الصحيحة والتعامل مع القيم المتطرفة المحتملة. لا يمكن أن تعطي البيانات الضعيفة نتائج جيدة ، بغض النظر عن مدى قوة نمذجة البيانات. من الأهمية بمكان تنظيف البيانات لأن أجهزة الكمبيوتر تتبع مفهومًا منطقيًا لـ "Garbage In، Garbage Out". إنهم يعالجون حتى المدخلات غير المقصودة وغير المنطقية لإنتاج مخرجات غير مرغوب فيها وعبثية.
أشكال مختلفة من البيانات
قد تأتي البيانات في تنسيقات منظمة أو غير منظمة. عادةً ما تكون البيانات المنظمة في شكل متغيرات منفصلة أو بيانات فئوية ، لها عدد محدود من الاحتمالات (على سبيل المثال ، الجنس) أو متغيرات مستمرة ، بما في ذلك البيانات الرقمية مثل الأعداد الصحيحة أو الأرقام الحقيقية (على سبيل المثال ، الراتب ودرجة الحرارة). هناك حالة خاصة أخرى يمكن أن تكون حالة المتغيرات الثنائية التي تمتلك قيمتين فقط ، مثل نعم / لا وصواب / خطأ.
تحويل البيانات
في بعض الأحيان ، قد يرغب علماء البيانات في إخفاء هوية البيانات الرقمية أو تحويلها إلى متغيرات منفصلة لمزامنتها مع الخوارزميات. على سبيل المثال ، يمكن تحويل درجات الحرارة الرقمية إلى متغيرات فئوية مثل الساخنة والمتوسطة والباردة. وهذا ما يسمى "binning". يمكن استخدام عملية أخرى تسمى "التشفير" لتحويل البيانات الفئوية إلى أرقام.
4. التحليل: إجراء التنقيب عن البيانات
بمجرد الحصول على البيانات المطلوبة واستيعابها ، تبدأ عملية اكتشاف المعرفة. يتضمن تحليل البيانات وظائف مثل التنقيب عن البيانات وتحليل البيانات الاستكشافية (EDA). يعد التحليل أحد أهم الخطوات الأساسية لأطر عمل علم البيانات .
بيانات التعدين
التنقيب في البيانات هو نقطة تقاطع بين الإحصائيات والذكاء الاصطناعي والتعلم الآلي وأنظمة قواعد البيانات. يتضمن العثور على أنماط في مجموعات البيانات الكبيرة وهيكلة وتلخيص البيانات الموجودة مسبقًا في معلومات مفيدة. التنقيب في البيانات ليس مثل استرجاع المعلومات (البحث في الويب أو البحث عن الأسماء في دليل الهاتف ، وما إلى ذلك) بدلاً من ذلك ، فهو عملية منهجية تغطي تقنيات مختلفة تربط النقاط بين نقاط البيانات.
تحليل البيانات الاستكشافية (EDA)
EDA هي عملية وصف البيانات وتمثيلها باستخدام الإحصائيات الموجزة وتقنيات التصور. قبل بناء أي نموذج ، من المهم إجراء مثل هذا التحليل لفهم البيانات بشكل كامل. تتضمن بعض الأنواع الأساسية للتحليل الاستكشافي الارتباط والتجميع والانحدار والتصنيف. دعونا نتعلم عنهم واحدا تلو الآخر.

منظمة
اقتران يعني تحديد العناصر ذات الصلة. على سبيل المثال ، في مجموعة بيانات معاملات السوبر ماركت ، يمكن أن تكون هناك منتجات معينة يتم شراؤها معًا. يمكن أن يكون الارتباط المشترك بين الخبز والزبدة. يمكن استخدام هذه المعلومات لاتخاذ قرارات الإنتاج ، وزيادة حجم المبيعات من خلال عروض "التحرير والسرد" ، وما إلى ذلك.
تجمع
يتضمن التجميع تقسيم البيانات إلى مجموعات طبيعية. تنظم الخوارزمية البيانات وتحدد مراكز المجموعات بناءً على معايير محددة ، مثل ساعات الدراسة ودرجات الفصل. على سبيل المثال ، يمكن تقسيم الفصل إلى مجموعات أو مجموعات طبيعية ، وهي Shirkers (الطلاب الذين لا يدرسون لفترة طويلة ويحصلون على درجات منخفضة) ، والمتعلمين الحريصين (أولئك الذين يكرسون ساعات طويلة للدراسة وتأمين درجات عالية) ، والعقول المدبرة (هؤلاء الذين حصلوا على درجات عالية رغم عدم دراستهم لساعات طويلة).
تراجع
يتم إجراء الانحدار لمعرفة قوة الارتباط بين المتغيرين ، المعروف أيضًا باسم تحليل السببية التنبؤية. وهي تشتمل على إجراء تنبؤ رقمي عن طريق ملاءمة خط (y = mx + b) أو منحنى لمجموعة البيانات. سيساعد خط الانحدار أيضًا في اكتشاف القيم المتطرفة - نقاط البيانات التي تنحرف عن جميع الملاحظات الأخرى. قد يكون السبب هو الإدخال غير الصحيح للبيانات أو آلية منفصلة تمامًا.
في مثال الفصل الدراسي ، قد يكون لدى بعض الطلاب في مجموعة "العقل المدبر" خلفية سابقة في الموضوع أو ربما أدخلوا ساعات ودرجات دراسية خاطئة في الاستطلاع. القيم المتطرفة مهمة لتحديد المشاكل مع البيانات ومجالات التحسين المحتملة.
تصنيف
التصنيف يعني تخصيص فئة أو تسمية للبيانات الجديدة لمجموعة معينة من الميزات والسمات. يتم إنشاء قواعد محددة من البيانات السابقة لتمكينها. شجرة القرار هي نوع شائع من أساليب التصنيف. يمكن أن يتنبأ ما إذا كان الطالب هو شيركر أو كين المتعلم أو العقل المدبر بناءً على درجات الامتحان وساعات الدراسة. على سبيل المثال ، يمكن تصنيف الطالب الذي درس أقل من 3 ساعات وسجل 75٪ على أنه شيركر.
5. الإجابة على الأسئلة: تصميم نماذج البيانات
أطر عمل علم البيانات غير مكتملة بدون بناء نماذج تعزز عملية صنع القرار. تساعد النمذجة في تمثيل العلاقات بين نقاط البيانات للتخزين في قاعدة البيانات. يمكن أن يكون التعامل مع البيانات في بيئة عمل حقيقية أكثر فوضوية من الحدس. لذا ، فإن إنشاء نموذج مناسب له أهمية قصوى. علاوة على ذلك ، يجب تقييم النموذج وضبطه وتحديثه من وقت لآخر لتحقيق المستوى المطلوب من الأداء.
6. النصيحة: اقتراح قرارات بديلة
تتمثل الخطوة التالية في استخدام الأفكار المكتسبة من نموذج البيانات لتقديم المشورة. هذا يعني أن دور عالم البيانات يتجاوز تحليل الأرقام وتحليل البيانات. يتمثل جزء كبير من الوظيفة في تقديم اقتراحات قابلة للتنفيذ للإدارة حول ما يمكن أن يكون لتحسين الربحية ومن ثم تقديم قيمة الأعمال. يشمل تقديم المشورة تطبيق تقنيات مثل التحسين والمحاكاة واتخاذ القرار في ظل عدم اليقين واقتصاديات المشروع وما إلى ذلك.
7. الإجراء: اختيار الخطوات المطلوبة
بعد تقييم الاقتراحات في ضوء حالة العمل والتفضيلات ، قد تختار الإدارة إجراءً معينًا أو مجموعة من الإجراءات ليتم تنفيذها. يمكن التقليل من مخاطر العمل إلى حد كبير من خلال القرارات التي يدعمها علم البيانات.
تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
خاتمة
علم البيانات له تطبيقات واسعة النطاق في عالم اليوم الذي تقوده التكنولوجيا. سيكون المخطط التفصيلي أعلاه لأطر عمل علوم البيانات بمثابة خريطة طريق لتطبيق علم البيانات على عملك!
إذا كنت مهتمًا بتعلم علوم البيانات لتكون في مقدمة التطورات التكنولوجية السريعة ، فراجع دبلوم PG في علوم البيانات من upGrad و IIIT-B.
هل NumPy يعتبر إطار عمل؟
حزمة NumPy في بايثون هي العمود الفقري للحوسبة العلمية. نعم ، NumPy هو إطار عمل Python ووحدة نمطية للحوسبة العلمية. يأتي مع كائن مصفوفة متعدد الأبعاد عالي الأداء وتسهيلات لمعالجته. NumPy عبارة عن كائن مصفوفة ذات أبعاد N قوية للبايثون والتي تنفذ الجبر الخطي.
في علم البيانات ، ما هو binning غير الخاضع للإشراف؟
يحول Binning أو discretization متغيرًا مستمرًا أو رقميًا إلى خاصية فئوية. يعتبر binning غير الخاضع للإشراف نوعًا من binning يتم فيه تحويل متغير رقمي أو مستمر إلى صناديق فئوية دون مراعاة تسمية الفئة المقصودة.
كيف تختلف خوارزميات التصنيف والانحدار في علم البيانات عن بعضها البعض؟
تقوم طريقة التعلم لدينا بتدريب وظيفة لترجمة المدخلات إلى مخرجات في مهام التصنيف ، مع كون قيمة المخرجات تسمية فئة منفصلة. من ناحية أخرى ، تتناول قضايا الانحدار تعيين المدخلات إلى المخرجات حيث يكون الناتج رقمًا حقيقيًا مستمرًا. تم تصميم بعض الخوارزميات خصيصًا لقضايا نمط الانحدار ، مثل نماذج الانحدار الخطي ، بينما تم تصميم أخرى ، مثل الانحدار اللوجستي ، لوظائف التصنيف. يمكن حل مشكلات التنبؤ بالطقس وأسعار المنزل وغير ذلك من مشكلات الانحدار باستخدام خوارزميات الانحدار. يمكن استخدام خوارزميات التصنيف لمعالجة مشاكل مثل تحديد رسائل البريد الإلكتروني العشوائية والتعرف على الكلام وتحديد الخلايا السرطانية ، من بين أمور أخرى.