مهندسو البيانات: الأساطير مقابل الحقائق

نشرت: 2018-05-10

من السيارات ذاتية القيادة إلى وضع العلامات التلقائي على الصور ، قطع علم البيانات شوطًا طويلاً. أصبح علماء ومحللو البيانات جزءًا لا يتجزأ من أي مؤسسة بسبب القيمة التي يضيفونها. ولكن ، بكل صدق ، يكون عالم البيانات جيدًا بقدر جودة البيانات التي يتعاملون معها. يتم تخزين بيانات معظم المنظمات اليوم في مجموعة متنوعة من التنسيقات وعبر العديد من المنصات. هنا تأتي الحاجة لمهندسي البيانات!

مهندسو البيانات هم أشخاص يجعلون هذه البيانات قابلة للتطبيق لعلماء ومحللي البيانات. مهندسو البيانات مسؤولون عن بناء خطوط الأنابيب التي تحول أكوام البيانات إلى تنسيق يمكن استخدامه لعلماء البيانات. إنهم يعملون في الغالب خلف الكواليس ، وبالتالي يخلون من كل سحر عالم / محلل البيانات - لكن ضع في اعتبارك ، فهم ضروريون (إن لم يكن أكثر) لعمل أي منظمة.
إذا كان علماء البيانات هم سائقي سيارات السباق ، فإن مهندسي البيانات هم بناة سيارات السباق. الأول يحظى بإثارة السرعة على طول المضمار وإثارة الفوز أمام جمهور يصفق. من ناحية أخرى ، يتمتع الأخير بمتعة ضبط المحركات وإنشاء آلة قوية ومتينة. يجعل منشئ سيارات السباق مهمة السائق أسهل كثيرًا (أو أصعب ، اعتمادًا على جودة المنشئ).
كيف يمكنك الانتقال إلى تحليلات البيانات؟

في هذا الصدد ، يعتبر مهندسو البيانات إلى حد كبير الأبطال المجهولين لأي فريق لتحليل البيانات. بدون مهندس بيانات صوت ، سيكون عالم البيانات يخدش رأسه بحثًا عن أدلة في البيانات غير المنسقة.
دعونا نرى ما الذي يستلزمه كل ما يفعله مهندس البيانات.
من أجل فهم أفضل ، لنفترض أنك مهندس بيانات في منافس لـ Swiggy (دعنا نسميها Twiggy). لديك تطبيق يمكن للمستخدمين استخدامه على أي جهاز والوصول إلى خدماتك. إنهم يطلبون الطعام ، ويتم إعادة توجيه الطلب إلى المطعم المناسب ، ويتم التقاط الطعام من هناك ، ويصل إليك.
للحفاظ على مزامنة هذه الخدمة ، ستحتاج إلى:

  • تطبيق جوال للمستخدمين
  • تطبيق جوال لأصحاب المطاعم
  • خادم قوي للتعامل مع طلبات متعددة في وقت واحد.

كما فهمت الآن ، سينشئ هذا التطبيق كميات هائلة من البيانات. علاوة على ذلك ، ستحتاج إلى بعض مخازن البيانات:

  • قاعدة بيانات تحتوي على تفاصيل المستخدمين والمطاعم.
  • سجلات الوصول إلى الخادم. سيتضمن ذلك أي طلب يتم إجراؤه إلى الخادم من التطبيق.
  • سجلات أخطاء الخادم تحتوي على جميع الأخطاء من جانب الخادم.
  • سجلات أحداث التطبيق. ستحتوي على معلومات حول الإجراءات التي اتخذها المستخدمون أو أصحاب المطاعم في التطبيق.
  • سجلات أخطاء التطبيق التي تحتوي على أخطاء متعلقة بالتطبيق.
  • قاعدة بيانات خدمة العملاء. سيحتوي هذا على بيانات حول تفاعلك مع عملائك.

الآن ، لنفترض أن أحد علماء البيانات في فريقك يريد تحليل سلوك المستخدم في خدماتك ومعرفة الإجراءات التي ترتبط بالمستخدمين الذين ينفقون كثيرًا. لمساعدتهم في إنشاء هذا ، ستحتاج إلى دمج جميع المعلومات من سجلات الوصول إلى الخادم وسجلات أحداث التطبيق.
ستحتاج إلى:

  • اجمع سجلات تحليلات التطبيق بانتظام.
  • اجمع بين سجلات تحليلات التطبيق وإدخالات سجل الخادم للمستخدمين المعنيين.
  • تطوير واجهة برمجة التطبيقات (API) التي تعرض محفوظات الأحداث لأي مستخدم.

هذا كثير من العمل هناك!
للقيام بكل هذا ، ستحتاج إلى إنشاء مسار يمكنه استيعاب سجلات تطبيقات الجوال وسجلات الخادم بكفاءة في الوقت الفعلي ، وتحليلها ، وربطها بالمستخدم المناسب. علاوة على ذلك ، ستحتاج إلى تخزين السجلات التي تم تحليلها في قاعدة بيانات بحيث يمكن لواجهة برمجة التطبيقات الاستعلام عنها بسهولة. سيكون هناك الكثير من الخوادم التي ستحتاج إليها للدوران خلف موازن التحميل لتحليل السجلات الواردة.
ستكون معظم المشكلات التي ستواجهها حول الأنظمة الموزعة والموثوقية. إذا كان لديك الملايين من الأجهزة لتجميع السجلات من والطلبات الديناميكية (في فترة ما بعد الظهر ، تحصل على العديد من إدخالات السجل ، ولكن ليس هذا العدد أثناء منتصف الليل) ، فستحتاج إلى تطوير نظام يمكنه تلقائيًا توسيع نطاق العد للخوادم صعودًا ونزولًا حسب حركة المرور.
أهم الخطوات لإتقان علوم البيانات

تقريبًا ، تخضع العمليات في خط أنابيب هندسة البيانات العامة للمراحل التالية:

  • الابتلاع: جمع البيانات المطلوبة.
  • المعالجة: معالجة البيانات للحصول على النتيجة المرجوة.
  • التخزين: تخزين النتيجة لاسترجاع أسرع.
  • الوصول: تمكين أداة للوصول إلى نتائج خط أنابيب البيانات.

من المتوقع أن يمتلك مهندس البيانات المعرفة في المجالات التالية.

  • تخزين البيانات:
    • RDBMS مثل MySQL و MS SQL Server وما إلى ذلك.
    • قواعد بيانات NoSQL مثل HBase و MongoDB و CouchDB و Cassandra وما إلى ذلك.
  • جمع البيانات:
    • واجهات برمجة تطبيقات مريحة
    • معرفة نمذجة البيانات والخبرة في SQL.
  • تحويل البيانات:
    • أدوات ETL مثل Informatica و Datastage و Redpoint وما إلى ذلك.
    • أي لغة برمجة مثل Python و Ruby و Perl وما إلى ذلك.

دعونا نلقي نظرة على بعض الخرافات والمفاهيم الخاطئة التي تدور حول حياة ووظائف مهندسي البيانات هؤلاء.

جدول المحتويات

الخرافة الأولى: يستخلص مهندسو البيانات قيمة من البيانات التي تم جمعها.

هناك الكثير بين جمع البيانات واستخراج المعرفة. مهندسو البيانات مسؤولون بشكل أساسي عن تحويل البيانات إلى نموذج مناسب للعلماء لتحليلها والعمل عليها. في هذا الصدد ، لا يستخرجون أي قيمة من البيانات ، في الواقع ، يقدمون البيانات الموجودة على لوحة إلى علماء البيانات الذين يكتشفون قيمة منها.

الخرافة الثانية: يحتاج مهندسو البيانات إلى جعل جميع البيانات أصلية.

ستدرك سخافة هذا إذا قرأت الجملة أعلاه ببطء. يتعامل مهندس البيانات مع تدفقات البيانات الواردة على مدار اليوم. يجب تنظيف هذه البيانات والتصرف بناءً عليها على الفور خشية أن تصبح قديمة. بالشيء الذي لا معنى له ، فإننا نعني غير بصيرة وقديمة. لذلك ، لا يقوم مهندسو البيانات بجعل جميع البيانات أصلية. إنهم يعملون مع البيانات الموجودة جنبًا إلى جنب مع البيانات الأخرى الضرورية للمشكلة المطروحة. سيستغرق تنظيف مجموعات البيانات الكاملة شهورًا ، وبحلول ذلك الوقت لن يكون مفيدًا.
أساسيات الإحصاء الأساسية لعلوم البيانات

الخرافة الثالثة: يقوم مهندسو البيانات بتفريغ البيانات في أدوات جاهزة والاستمتاع بالبيانات النظيفة / القابلة للتطبيق كإخراج.

من فضلك لا تقل ذلك بصوت عالٍ أمام أي مهندس بيانات. أي وقت مضى. لن يتسامح أي مهندس بيانات يحترم نفسه مع مثل هذه الإهانة الصارخة. مثل أي مهندس آخر (برمجيات ، ميكانيكي ، كيميائي ، إلخ) ، يحتاج مهندسو البيانات إلى وضع حدود تفكيرهم طوال الوقت. لا يوجد نهج واحد يناسب الجميع في هندسة البيانات ، ويحتاج مهندسو البيانات إلى تشكيل خوارزميات لتناسب حالة الاستخدام الخاصة بهم باستمرار. يجب أن يكونوا على دراية بأحدث التقنيات والأساليب حول عملهم لضمان الكفاءة المثالية.

الخرافة الرابعة: مهندسو البيانات هم مجرد مهندسي برمجيات يعملون على البيانات الضخمة.

يعمل مهندسو البرمجيات على تطوير تطبيقات الجوال / الويب. وظيفتهم تنطوي على الكثير من المشاكل المتنوعة والصعوبة في إدارة المهام - التفكير والتواصل وتنظيم الكود. من ناحية أخرى ، يعاني مهندسو البيانات عمومًا من مشاكل أقل ، لكن المشكلات الفردية أكثر صعوبة من الناحية الفنية. من النظرة إلى مجموعة المهارات ، كل شيء يختلف تمامًا بالنسبة لمهندس البيانات عما هو عليه بالنسبة لمهندس البرمجيات.
من هو عالم البيانات ومحلل البيانات ومهندس البيانات؟

احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. تعلم برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

هل تشبه هندسة البيانات دور تقنية المعلومات الكلاسيكي؟

قد يبدو مصطلح "مهندس بيانات" و "مهندس برمجيات" قابلين للتبديل لمن هم خارج قطاع الكمبيوتر ، حيث يعتمد كلاهما إلى حد كبير على مهارات البرمجة. لكنهم في الواقع خبراء في مجالات مختلفة. الهدف الرئيسي لمهندسي البرمجيات هو إنشاء مواقع ويب سهلة الاستخدام. ينشئ مهندسو البيانات أنظمة لتخزين البيانات وتوحيدها واسترجاعها ، والتي يستخدمها مطورو البرامج بعد ذلك لبناء الأنظمة والتطبيقات. قد يقوم مهندسو البيانات أيضًا بإنشاء وصيانة خط أنابيب للتكامل والتسليم المستمر (CI / CD) لجميع البيانات التنظيمية ، بالإضافة إلى أنظمة التحكم في الإصدار لضمان جودة البيانات عبر البنية التحتية.

هل من الضروري أن يكون لديك تعليم جامعي أو درجة علمية متقدمة لتصبح مهندس بيانات؟

للعمل كمهندس بيانات ، لا تحتاج إلى شهادة ، على الرغم من أن بعض أصحاب العمل قد يفضلون المرشحين الحاصلين على درجة البكالوريوس على الأقل. لا يمكن لأي دورة أكاديمية أو منهج عبر الإنترنت إعدادك بالكامل لإنشاء أنظمة بيانات يمكنها نقل البيانات من مجموعة متنوعة من المصادر وتعديلها وتخزينها لتحليلها. الحقيقة هي أن مهندسي البيانات الأكثر نجاحًا يتعلمون الكثير أثناء العمل أثناء العمل في العالم الحقيقي مع عملاء حقيقيين. لكن نعم ، من المهم لمهندس البيانات أن يتمتع بمهارات جيدة للعمل مع أدوات معينة مثل Amazon Athena و Amazon Redshift و Apache Spark وما إلى ذلك والحصول على معرفة بأفضل ممارسات إدارة البيانات.

كيف تصبح مهندس بيانات ناجح؟

بالنسبة للشركات التي تعتمد على البيانات ، تعتبر هندسة البيانات أمرًا بالغ الأهمية ، ولكن ما الذي يفعله مهندسو البيانات بالضبط؟ إليك الطريق لتصبح مهندس بيانات ناجحًا

1. كن ماهرًا في البرمجة: إذا كنت تريد أن تصبح مهندس بيانات ناجحًا ، فابدأ أولاً بصقل أساسيات البرمجة لديك. تعد Python و Scala من أكثر التقنيات استخدامًا في هذا القطاع.
2. تعلم كيفية الأتمتة والبرمجة: التعلم الآلي أمر بالغ الأهمية لمهندسي البيانات. نظرًا لوجود العديد من المهام التي يتعين القيام بها على البيانات والتي قد تكون مملة أو قد تحدث بشكل منتظم. بعض الأدوات المهمة للأتمتة هي البرمجة النصية لـ Shell ومعالجة البيانات في Shell.
3. تعرف على كيفية استخدام قواعد البيانات الخاصة بك: يمكن القيام بذلك عن طريق تعلم SQL ونمذجة البيانات.
4. تقنيات معالجة البيانات الماهرة: لإتقان تقنيات معالجة البيانات ، من المهم معرفة كيفية معالجة البيانات على دفعات وتدفقات ، قبل تحميل النتائج في قواعد البيانات المستهدفة.