مهندسو البيانات الضخمة: الخرافات مقابل الحقائق
نشرت: 2018-05-07البيانات الموجودة مع المنظمات تتزايد مع كل دقيقة تمر. هذه البيانات بأشكال وأحجام وأنواع متنوعة ، وبالتالي يصعب للغاية دراستها ، ناهيك عن تحليلها بكفاءة. للمساعدة في ذلك ، هناك مهندسو بيانات ضخمة! هؤلاء هم الأشخاص المسؤولون عن تحويل البيانات الضخمة غير المفيدة إلى بيانات ضخمة مفيدة يمكن بعد ذلك دراستها وتحليلها من قبل علماء البيانات.
يمكن تسمية مهندسي البيانات الضخمة عن حق كمزيج بين عالم البيانات والمهندس. تحتاج أي مؤسسة تتعامل مع البيانات الضخمة افتراضيًا إلى مهندس بيانات كبير.

عادةً ما يتطلب دور مهندس البيانات الضخمة أداء واحد (أو أكثر) من المهارات التالية:
جدول المحتويات
تحليل البيانات
- Hadoop و MapReduce و IBM Biginsights و Hortonworks و MapR هي بعض الأدوات التي يتوقع أن يكون لدى Big Data Engineers أوامر لتنفيذ تحليل البيانات. يميل معظم المهندسين إلى اكتساب خبرة في MapReduce فقط (لأنه الأقدم ؛ والبعض الآخر جديد تمامًا) ، لكن الخوارزميات الأساسية تجعل من السهل تعلم التقنيات الجديدة بسرعة وكفاءة.
- يعد استخراج البيانات أحد الجوانب الأساسية لتحليل البيانات. يعمل مهندسو البيانات الضخمة على تقنيات مثل Mahout لتنفيذ الوظائف المتعلقة بتعدين البيانات. تتمثل المسؤولية الأولى لمهندس البيانات الضخمة في البحث عن البيانات - حتى قبل أن يتمكن من تنظيفها. لذلك ، يجب أن يكونوا بارعين في استخدام Mahout أو أدوات التنقيب عن البيانات الأخرى.
- يلعب التحليل الإحصائي أيضًا دورًا مهمًا ، ومن المتوقع أن يكون لمهندس البيانات الضخمة بعض القيادة على R و SPSS و SAS و MATLAB ، إلخ.
- مهندسو البيانات الضخمة هم في نهاية المطاف مهندسين. يجب أن يكونوا على دراية بأساسيات البرمجة. ستكون معظم مهارات البرمجة القوية مطلوبة فقط للتطبيقات المخصصة / المتخصصة للخوارزميات.
تخزين البيانات
- يشير تخزين البيانات إلى رفع البيانات إلى المستودع. لذلك ، من المتوقع أن يكون لدى مهندس البيانات الضخمة معرفة عملية بأيٍّ من MySQL أو MS SQL Server أو Oracle أو أي قواعد بيانات علائقية. تسمح هذه الأدوات لمهندسي البيانات الضخمة البارزين بمعالجة البيانات العلائقية الموجودة مع مؤسساتهم بسلاسة.
- اليوم ، ليست كل البيانات منظمة وعلائقية. معظم البيانات مع هذه المنظمات غير علائقية. ومن ثم ، فإن المعرفة بقواعد البيانات غير العلائقية مثل NoSQL و HBase و HDFS و Cassandra و CouchDB وما إلى ذلك تأتي أيضًا في متناول يدي مهندس البيانات الضخمة.
جمع البيانات
- يشكل جمع البيانات إحدى المهام الأساسية لمهندس البيانات الضخمة. إنهم بحاجة إلى العمل مع واجهات برمجة تطبيقات البيانات ، على سبيل المثال. واجهات RESTful لجلب البيانات من مستودع البيانات. لهذا ، يحتاجون إلى التدريب العملي على بعض لغات البرمجة النصية.
- علاوة على ذلك ، يحتاج مهندسو البيانات الضخمة إلى أن يكونوا خبراء في SQL ونمذجة البيانات. هذا مفيد للغاية أثناء جمع البيانات. تسمح نمذجة البيانات لمهندسي البيانات الضخمة بالحصول على رؤية واضحة للبيانات وترابطها.
تحويل البيانات وتنظيفها
- بمجرد جمع البيانات ، أصبحت الآن المسؤولية الأساسية لمهندس البيانات الضخمة هي تحويلها إلى تنسيق مناسب لعالم البيانات. لذلك تأتي أدوات ETL المتنوعة مثل Informatica و DataStage و Redpoint و SSIS. تتيح الكفاءة في أي من هذه الأدوات لمهندسي البيانات الضخمة تحويل البيانات التي جمعوها مسبقًا بكفاءة.
- بمجرد تحويل البيانات ، يتم تنظيفها من جميع الحالات الشاذة وعدم الاتساق. إنه أمر مهم لأن هذه البيانات سيتم تحليلها من قبل عالم البيانات وسيكون تحليله جيدًا مثل البيانات التي يحصل عليها.
تعد هندسة البيانات الضخمة مجالًا أحدث نسبيًا مع زيادة الفرص كل يوم يمر. مهندس البيانات الضخمة هو سيد المهارات التي ناقشناها سابقًا. ومع ذلك ، لا يعرف جميع مهندسي البيانات الضخمة كل هذه المهارات. يختلف كل دور عن الآخر ، لذلك قد يتطلب البعض معرفة أكثر تخصصًا في أحد هذه المجالات عن المجالات الأخرى. ومع ذلك ، بالنسبة للخبير في إحدى هذه المهارات ، فعادةً ما يكون من الصعب للغاية ترجمة تلك المهارات إلى المجالات الأخرى. نحن الآن في نفس الصفحة فيما يتعلق بمسؤوليات ومهام مهندس البيانات الضخمة.
علماء البيانات: الأساطير مقابل الحقائقدعونا نخطو خطوة إلى الأمام ونحطم بعض الأساطير السائدة حول حياتهم ووظائفهم ومؤهلاتهم:
الخرافة الأولى: لا يوجد فرق كبير بين يوم عادي لعلماء البيانات ومهندس البيانات الضخمة.
إذا كنت تتابع سلسلتنا ، فستعرف أفضل. عالم البيانات هو شخص يبحث عن الاتجاهات والمعاني والأنماط في البيانات ويحاول صياغة رؤى قابلة للتنفيذ تعمل على تحسين أداء المؤسسة. من ناحية أخرى ، من الواضح تمامًا أن مهندس البيانات الضخمة يعمل مع البيانات قبل تحليلها. إنه مسؤول عن تنظيف البيانات وتقديمها إلى عالم البيانات في شكل أصلي قدر الإمكان.

الخرافة الثانية: مهندسو البيانات الضخمة أكثر قيمة بكثير من علماء البيانات (أو العكس).
كل من هذه الأدوار الوظيفية لها أهميتها الخاصة لعمل المنظمة. بدون مهندس بيانات كبير فعال ، سيجد عالم البيانات صعوبة في تحقيق نتائج جيدة. وبالمثل ، بدون عالم بيانات خبير ، لن تعرف المنظمة أبدًا ما الذي يجب أن تفعله ببياناتها. لذلك ، لا يمكننا ترتيب هذه الأدوار الوظيفية على أساس أهميتها ، كما في نهاية اليوم ، يشكل كلا الملفين الشخصيين ركائز أي فريق علم بيانات ناجح.
تطبيقات البيانات الضخمة في الثقافة الشعبيةالخرافة الثالثة: مهندسو البيانات الضخمة مطلوبون فقط في الأعمال التجارية الكبيرة.
كما قلنا سابقًا ، إذا كانت مؤسستك تتعامل مع البيانات الضخمة ، فأنت بحاجة إلى مهندس بيانات كبير. اليوم ، أي مؤسسة ، مهما كانت كبيرة أو صغيرة ، لديها تيرابايت من بيانات العملاء. لا توجد شركة ، بغض النظر عن مجالها ، لا يمكنها تحسين وظائفها من خلال فهم بياناتها الضخمة. نظرًا لأن الأدوات والتقنيات المحيطة بالبيانات الضخمة أصبحت أرخص وأكثر سهولة في الوصول إليها ، فإن المزيد والمزيد من الشركات الصغيرة والمتوسطة تسلك طريق البيانات الضخمة وتعين مهندسي وعلماء البيانات الضخمة لمساعدتهم على البقاء في الصدارة.

الخرافة الرابعة: يحتاج مهندس البيانات الضخمة إلى أن يكون مبرمجًا خبيرًا.
أكثر من البرمجة الأساسية ، يحتاج مهندس البيانات الضخمة إلى أن يكون خبيرًا في إدارة البيانات. في أغلب الأحيان ، ستجد مهندسي البيانات الضخمة يعملون مع مكتبة أو إطار عمل يناسب حالتهم. هذه تأتي جاهزة وتقوم بمعظم برامج الرفع الثقيل. لا يزال من المستحسن أن يكون لدى مهندس البيانات الضخمة فهم واضح للأساسيات الأساسية للبرمجة. سيساعدهم ذلك على تعديل / تعديل أي خوارزمية / إطار عمل / مكتبة اعتمادًا على حالة الاستخدام الخاصة بهم. أيضًا ، يعد بعض المعرفة بلغة البرمجة أمرًا ضروريًا لأن مهندسي البيانات الضخمة مسؤولون عن جلب البيانات من المستودعات وتنظيفها مما يتطلب كتابة البرامج النصية.
الخرافة الخامسة: مهندسو البيانات الضخمة مطلوبون فقط في شركات التكنولوجيا
اليوم ، تستخدم المؤسسات البيانات لكل شيء بما في ذلك استهداف عملائها بشكل أفضل. تتيح الرؤية التفصيلية لبيانات العملاء لأي مؤسسة تخطيط حملة تسويقية ناجحة. مطلوب مهندسو البيانات الضخمة من قبل المنظمات سواء التقنية أو غير التقنية. يمكن لأي منظمة أن تصبح أفضل وأكثر كفاءة في عملها إذا كان لديها وصول إلى البيانات الصحيحة.
البيانات الضخمة: يجب أن تعرف الأدوات والتقنيات
تغليف
مع ذلك ، نصل إلى نهاية منتهكي أساطيرنا لهذا اليوم. ابق على اتصال ، وسنعود مع المزيد من Mythbusters. لا تخبرنا إذا صادفت المزيد من هذه الأساطير التي تحتاج إلى الخرق!
إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.
تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

