دليل المبتدئين لعلوم البيانات وتطبيقاتها

نشرت: 2018-02-24

إن الكلمات "البيانات" أو "العلم" أو "علم البيانات" لا تكفي لإثارة الشعور بالخوف أو الرهبة بين القراء. لنكون صادقين ، إنهم لطيفون للغاية بحيث لا يمكن حتى أن يكونوا منفصلين ، ناهيك عن الفظاعة ، على عكس الكلمات - التغطية بالفسيفساء ، يعني k ، أقرب الجيران ، الإقليدية الدنيا الممتدة شجرة ، وأكثر من هذا النوع - الكلمات التي أنت ' سنلتقي في رحلتك في علوم البيانات.
في حين أن "علم البيانات" لا يثير الخوف ، فهو أيضًا لا يشرح أي شيء عن هذا المجال. الجميع يعرف ما هي البيانات. على الأقل بالمعنى العادي. البيانات هي في الأساس مجرد أجزاء خام من المعلومات. من ناحية أخرى ، يمكن استخدام العلم للإشارة إلى أي مجموعة من الأنشطة التي تتبع طريقة علمية.

لذلك ، وفقًا لهذا المنطق ، يمكننا أن نستنتج أن علم البيانات هو مجال يستخدم الأساليب العلمية على أجزاء كبيرة من البيانات. لكن من أجل ماذا؟ وما هو علم البيانات بالضبط ؟
هذا هو موضوعنا للمناقشة اليوم. بعد قراءة هذا المقال ، ستتمكن من الإجابة على الأسئلة التالية:

  • ما هو علم البيانات؟
  • ما هي المراحل المختلفة لخط أنابيب علوم البيانات؟
  • أين يمكنني رؤية علوم البيانات في العمل؟

جدول المحتويات

ما هو علم البيانات؟

تعرّف ويكيبيديا ، أم جميع الموسوعات ، علم البيانات بأنه مجال يركز على استخلاص المعرفة والرؤى من البيانات باستخدام الأساليب العلمية. ومع ذلك ، ما لا يخبرك به هو أننا نحن البشر ولدنا علماء بيانات. كيف؟ دعنا نرى.
أنت تراقب العالم من حولك بغض النظر عما تفعله. في كل لحظة استيقاظ ، أنت تأخذ التفاصيل من محيطك وتغذيها بعقلك. تقوم بعد ذلك بمعالجة هذه الملاحظات في بيانات واستخدامها لفهم الأشياء من حولك من خلال اكتشاف المعاني والتنبؤ بما قد يحدث بعد ذلك.

عندما تتأخر عن الذهاب إلى العمل لمدة ساعة ، تقوم بالاتصال لإخبارهم أنك ستعمل من المنزل. أنت تستخدم ملاحظاتك السابقة عن حركة المرور وحالات التوقف على الطريقة التي تجعلك تستنتج أنه من المحتمل أن تضيع وقتك عالقًا في حركة المرور أكثر مما تكسبه لو كنت في المكتب. عندما تأتي إلى غرفتك وترى أغلفة الشوكولاتة ملقاة حولك ، سيخبرك تحليل غير رسمي أن شخصًا ما كان يأكل الشوكولاتة الخاصة بك في غيابك.
أهم 4 أدوار لتحليل البيانات يجب البحث عنها

في أي من الحالتين المذكورتين ، إذا أجريت هذه الحسابات والتنبؤات في ذهنك ، دون تدوينها ، فأنت إنسان عادي. من ناحية أخرى ، إذا تقدمت وسجلت نقاط البيانات هذه (بالطبع بتنسيق يمكن قراءته آليًا) ثم حاولت ابتكار خوارزمية (أو إجراءات) وبرامج كمبيوتر لتشغيل التطبيق. إذا كان ناتج هذا النظام "الافتراضي" هو أن "حركة المرور ستمتص" ، أو "لقد أكل زملاؤك في السكن الشوكولاتة الخاصة بك" ، إذن لعبة البنغو! أنت عالم بيانات.

إنه أمر بسيط (من الناحية النظرية) مثلما يجعله القياس أعلاه يبدو. في نهاية اليوم ، لديك بيانات وإجراءات وخوارزميات وأدوات. تحتاج فقط إلى استخراج المعرفة منه. للقيام بذلك بكفاءة ، هناك مسار عمل / خط أنابيب يجب عليك اتباعه. دعونا نرى كل ما تم تضمينه في خط أنابيب علوم البيانات النموذجي.

خط أنابيب علوم البيانات

يتحدث خط أنابيب علوم البيانات عن تدفق العملية بأكملها - من الحصول على البيانات المطلوبة لإجراء حسابات وتوقعات دقيقة. دعنا نلقي نظرة على عناصر خط الأنابيب هذا:

خط أنابيب علوم البيانات

احصل على بياناتك

هذا افتراضيًا هو أول شيء عليك القيام به لممارسة علوم البيانات - الحصول على البيانات! مجرد تنبيه بسيط - هناك بعض الأشياء التي يجب أن تأخذها في الاعتبار أثناء الحصول على بياناتك. يجب عليك أولاً تحديد جميع مجموعات البيانات الخاصة بك (يمكن أن تكون من الإنترنت أو قواعد البيانات الداخلية / الخارجية). يجب عليك بعد ذلك استخراج البيانات إلى تنسيق قابل للاستخدام (CSV ، XML ، JSON ، إلخ.)
فيما يلي أهم المهارات والأدوات التي يجب إتقانها لتصبح محلل بيانات

المهارات المطلوبة

  • إدارة قواعد البيانات: إما SQL أو NoSQL ، حسب احتياجاتك ومتطلباتك.
  • الاستعلام عن قواعد البيانات هذه
  • استرجاع البيانات غير المهيكلة في شكل مقاطع فيديو وتسجيلات صوتية ونصوص ومستندات وما إلى ذلك.
  • التخزين الموزع: Hadoop أو Apache Spark أو Apache Flink.

تنقية / تنظيف البيانات الخاصة بك

يجب إعطاء أهمية قصوى لتنظيف البيانات لأن الناتج النهائي لنظامك جيد فقط مثل البيانات التي تضعها فيه. يشير التنظيف إلى إزالة الحالات الشاذة ، وملء القيم الفارغة / المفقودة ، ومعرفة ما إذا كانت البيانات متسقة ، وأشياء أخرى من هذا النوع.

المهارات المطلوبة

  • لغة البرمجة: Python، R، SAS
  • أدوات جدل البيانات: Python Pandas، R
  • المعالجة الموزعة: Hadoop ، MapReduce / Spark

استكشاف (تحليل البيانات الاستكشافية)

الآن بعد أن أصبحت البيانات نظيفة ، ستبدأ في فهم الأنماط الموجودة في بياناتك. يتم استخدام أنواع مختلفة من التصورات والنماذج الإحصائية في هذه المرحلة. تهدف هذه المرحلة بشكل أساسي إلى اشتقاق المعنى الخفي من بياناتنا.
هناك الكثير مما يدور في مجال تحليل البيانات الاستكشافية. إذا كنت تشعر أنه شيء تستمتع به ، فلا تنس قراءة مقالنا عن نفسه.
لأداء أفضل في هذه المرحلة ، تحتاج إلى وخز "حواسك الدخيلة". كن مجنونًا واكتشف أنماطًا أو اتجاهات غريبة - كن دائمًا على اطلاع على شيء خارج الصندوق. ومع ذلك ، أثناء القيام بذلك ، لا تنس المشكلة التي تهدف إلى حلها. لا تخرج كثيرا من الصندوق. يعد تحليل البيانات الاستكشافية فنًا ، ويجب على الفنان دائمًا وضع الجمهور في الاعتبار.

المهارات المطلوبة

  • مكتبات Python: Numpy و Matplotlib و Pandas و Scipy
  • مكتبات R: GGplot2 ، Dplyr
  • الإحصاء الاستدلالي
  • تصور البيانات
  • تصميم تجريبي
أهم الخطوات لإتقان علوم البيانات ، ثق بي لقد جربتها!

النمذجة (تعلم الآلة)

هذا هو الجزء الممتع. النماذج هي مجرد قواعد عامة بالمعنى الإحصائي. يعد نموذج التعلم الآلي مجرد أداة في مجموعة الأدوات الخاصة بك. لديك حق الوصول إلى العديد من الخوارزميات ذات حالات الاستخدام والأهداف المختلفة التي سيقودك البحث البسيط إلى خوارزمية تناسب احتياجات عملك.
بعد تنظيف البيانات واكتشاف الميزات الأساسية (في مرحلة EDA) ، فإن استخدام نموذج إحصائي كأداة تنبؤية سيعزز عملية اتخاذ القرار بشكل عام. بدلاً من النظر إلى الوراء لمعرفة "ماذا حدث؟" ، تهدف التحليلات التنبؤية إلى الإجابة على "ماذا بعد؟" و "كيف يجب أن نفعل ذلك؟".

المهارات المطلوبة

  • التعلم الآلي: خوارزميات التعلم الخاضعة للإشراف / غير الخاضعة للإشراف / المعزز
  • طرق التقييم
  • مكتبات التعلم الآلي: Python (Sci-kit Learn) / R (CARET)
  • الجبر الخطي وحساب التفاضل والتكامل متعدد المتغيرات

الترجمة الفورية (سرد البيانات)

هذه واحدة من أكثر المهام صعوبة في خط الأنابيب. هنا ، تهدف إلى شرح نتائجك من خلال التواصل. في نهاية اليوم ، الأمر كله يتعلق بالتواصل مع جمهورك - وهذا ما يجعل رواية القصص مفتاحًا.
بالكاد تكون نتائجك مفيدة إذا لم تكن قادرًا على نقل أهميتها إلى المجموعة غير التقنية في مكتبك ، أو حتى رئيسك في العمل ، في هذا الشأن. من الممارسات الجيدة للسيطرة على الأمور أن تتدرب كثيرًا. حاول تأطير قصة على نتائجك وإخبارها لشخص عادي (ويفضل أن يكون طفلًا). إذا فهموا ذلك ، فسيكون كذلك رئيسك في العمل. وإذا لم يفعلوا ، حسنًا ، فأنت تعلم ما قاله أينشتاين:

"إذا كنت لا تستطيع أن تشرحها لطفل يبلغ من العمر ست سنوات ، فأنت لا تفهمها بنفسك."

تهدف هذه المرحلة إلى استنباط رؤى تجارية حقيقية. التحدي الرئيسي هنا هو تصور النتائج الخاصة بك وعرضها بطريقة جميلة ومفهومة.

المهارات المطلوبة

  • معرفة مجال عملك
  • أدوات تصور البيانات: Tableau ، D3.JS ، Matplotlib ، GGplot ، Seaborn ، إلخ.
  • الاتصال: مهارات العرض - الشفهي والمكتوب.

هذه ليست نهاية خط الأنابيب لدينا. إذا كنت تريد حقًا تحقيق أفضل ما في نظامك ، فأنت بحاجة إلى التأكد من تحديث النموذج الخاص بك عند ظهور الاحتياجات. في Data Science ، لا يناسب الحجم الواحد الجميع ، وستحتاج إلى إعادة النظر في نموذجك وتحديثه.
معالجة البيانات: كيف يمكنك تحديد أكاذيب البيانات؟

تطبيقات علوم البيانات

كما هو واضح الآن ، يعد مصطلح "علم البيانات" مصطلحًا واسعًا ، وكذلك تطبيقاته. تقريبا كل تطبيق على هاتفك الذكي يزدهر بالبيانات. لذلك ، من العدل أن نقول إنه من المستحيل عمليًا إدراج جميع تطبيقات علم البيانات في القائمة بسبب تواجدها المطلق.
دعنا نلقي نظرة على المجالات الواسعة التي تستخدم سحر علوم البيانات:

1. البحث على الإنترنت

كيف يعرض محرك بحث Google نتائج البحث هذه * الدقيقة * خلال جزء من الثانية؟ علم البيانات!

2. أنظمة التوصية

من "الأشخاص الذين قد تعرفهم" على Facebook أو LinkedIn إلى "الأشخاص الذين اشتروا هذا المنتج أحبوا أيضًا ..." على Amazon إلى قوائم التشغيل اليومية المنسقة على Spotify وحتى "مقاطع الفيديو المقترحة" على YouTube ، كل شيء يغذيها Data Science.

3. الصورة / الكلام / التعرف على الأحرف

هذا إلى حد كبير يذهب دون أن يقول. ما رأيك بالدماغ وراء "Siri" ، إن لم يكن علم البيانات؟ أيضًا ، كيف تعتقد أن Facebook يتعرف على صديقك عند تحميل صورة معه؟ إنه ليس سحر. إنه علم - علم البيانات.

4. الألعاب

لقد أخذ كل من EA Sports و Sony و Nintendo و Zynga وغيرهم من العمالقة في هذا المجال على عاتقهم نقل تجربة الألعاب الخاصة بك إلى مستوى جديد تمامًا. تم الآن تطوير الألعاب وتحسينها باستخدام خوارزميات التعلم الآلي بحيث يمكن ترقيتها مع تقدمك إلى مستويات أعلى.

5. مواقع مقارنة الأسعار

هذه المواقع تغذيها البيانات. بالنسبة لهم ، كلما زاد عددهم كان أفضل. يتم جلب البيانات من المواقع ذات الصلة باستخدام واجهات برمجة التطبيقات. بعض المواقع مثل PriceGrabber و PriceRunner و Junglee و Shopzilla.

ابدأ في علوم البيانات مع بايثون

تغليف…

إذا كنت من خلفية تقنية ولديك القليل من البيانات ، فإن Data Science هي مكالمتك الحقيقية. أفضل جزء؟ هناك الكثير للقيام به واستكشافه في وحول علوم البيانات. إنه مصطلح شامل يغطي عددًا من الأدوات والتقنيات - إتقان أي منها سيجعلك أحد الأصول في سوق علوم البيانات المتزايد باستمرار. تقدم upGrad دورات مختلفة في علوم البيانات لإبقائك في الصدارة. لا تنسى التحقق منها!

ما هو نطاق علم البيانات عبر الصناعات في الهند؟

علم البيانات له تأثير كبير في العديد من الصناعات في الهند. تعتمد كل صناعة مدرجة أدناه بشكل كبير على علم البيانات وتوفر آفاقًا ممتازة لعالم البيانات.

1. الرعاية الصحية: هذه الكلمة الشاملة لأي شيء له علاقة بالطب والمرضى والأمراض. بدأ علم البيانات في لعب دور حاسم في هذه الصناعة ، بدءًا من التشخيص الأكثر كفاءة إلى البحث الطبي.
2. الخدمات المصرفية والتأمين - تقييم المخاطر واكتشاف الاحتيال: تقوم البنوك بجمع ملفات تعريف العملاء والتطبيقات والنفقات السابقة ، بالإضافة إلى مجموعة متنوعة من البيانات الشخصية الأخرى ، خاصة بالنسبة للقروض والتأمين. هذا هو المكان الذي يأتي فيه علم البيانات ، لأنه يبسط العملية ويميز بين أولئك الذين يعانون من مخاطر منخفضة وأولئك الذين يعانون من مخاطر عالية.
3. التسويق والإعلان - مع وجود جميع البيانات في متناول يدك ، يمكنك تحليل وتحديد من يجب أن يكون جمهورك المستهدف من أجل تسويق خدمتك أو منتجك بشكل فعال.
4. صناعة الخطوط الجوية - علم البيانات يستخدم في قطاع الطيران لتحليل مسارات ومسارات الطائرات.

كيف يمكن لعلماء البيانات استخدام مهاراتهم لحل مشاكل العمل؟

اعتمادًا على متطلبات شركتهم ، يجب على عالم البيانات اتخاذ إستراتيجية مختلفة لحل تحدي الأعمال. باستخدام نماذج مختلطة من الرياضيات وعلوم الكمبيوتر ، يجمع علماء البيانات رؤى قابلة للتنفيذ من البيانات ويساعدون في اتخاذ قرارات أفضل. تشمل تطبيقات علم البيانات لحل تحديات الأعمال في العالم الحقيقي تحسين جودة المنتج ، وأتمتة وضع الإعلانات الرقمية ، وزيادة توليد الإيرادات من خلال التنبؤ بفرص الطلب والنمو ، وأتمتة عمليات التوظيف ، وتحديد الأسعار في سوق ديناميكي من بين حالات الاستخدام الأخرى.

ما هو مستقبل علم البيانات؟

مستقبل علم البيانات مثير للغاية مع نطاق واسع للتنفيذ في كل مجال تقريبًا. استثمرت بعض أفضل الشركات الرقمية المحلية مثل Google و Amazon و Facebook وغيرها استثمارات كبيرة في البيانات. سيؤدي ظهور التكنولوجيا الناشئة جنبًا إلى جنب مع البحث المستمر إلى تطبيقات وحالات استخدام مبتكرة في المستقبل. من وجهة النظر المهنية ، يحمل علم البيانات الكثير من الأمل.