7 مشاريع بيانات ضخمة مثيرة للاهتمام تحتاج إلى الانتباه لها

نشرت: 2018-05-29

البيانات الضخمة هي الكلمة الطنانة اليوم. عندما يتم تسخيرها بحكمة ، فإن البيانات الضخمة تحمل القدرة على تحويل المؤسسات إلى الأفضل بشكل جذري. وقد بدأت موجة التغيير بالفعل - تعمل البيانات الضخمة على تغيير قطاع تكنولوجيا المعلومات والأعمال بشكل سريع ، وصناعة الرعاية الصحية ، فضلاً عن الأوساط الأكاديمية أيضًا. ومع ذلك ، فإن مفتاح الاستفادة من الإمكانات الكاملة للبيانات الضخمة هو البرمجيات مفتوحة المصدر (OSS). منذ أن ظهر Apache Hadoop ، أول مشروع واسع الحيلة للبيانات الضخمة في المقدمة ، فقد وضع الأساس لمشاريع البيانات الضخمة المبتكرة الأخرى.

التسويق الرقمي في قرارات الأعمال المنطقية

وفقًا لاستطلاع Black Duck Software و North Bridge ، أكد ما يقرب من 90٪ من المستجيبين أنهم يعتمدون على مشاريع البيانات الضخمة مفتوحة المصدر لتسهيل "تحسين الكفاءة والابتكار وقابلية التشغيل البيني". لكن الأهم من ذلك ، أن ذلك لأن هذه توفر لهم "الحرية من حبس البائعين ؛ الميزات التنافسية والقدرات التقنية ؛ القدرة على التخصيص ؛ والجودة الشاملة. "

دروس البيانات الضخمة للمبتدئين: كل ما تحتاج إلى معرفته

الآن ، دعنا نتفقد بعضًا من أفضل مشاريع البيانات الضخمة مفتوحة المصدر التي تسمح للمؤسسات ليس فقط بتحسين أدائها العام ولكن أيضًا تحسين جانب استجابة العملاء.

  1. جدول المحتويات

    أباتشي شعاع

اشتق مشروع البيانات الضخمة مفتوح المصدر هذا اسمه من عمليتي البيانات الضخمة - الدفعة والدفق. وبالتالي ، يتيح لك Apache Beam دمج كل من الدفعة وتدفق البيانات في وقت واحد داخل نظام أساسي واحد موحد.

عند العمل باستخدام Beam ، تحتاج إلى إنشاء خط بيانات واحد واختيار تشغيله على إطار عمل المعالجة المفضل لديك. يتسم خط أنابيب البيانات بالمرونة والقابلية للنقل ، مما يلغي الحاجة إلى تصميم خطوط أنابيب بيانات منفصلة في كل مرة ترغب فيها في اختيار إطار معالجة مختلف. سواء كان ذلك على شكل دفعة أو دفق للبيانات ، يمكن إعادة استخدام خط بيانات واحد مرارًا وتكرارًا.

  1. تدفق الهواء اباتشي

مشروع بيانات كبيرة مفتوح المصدر من Airbnb ، تم تصميم Airflow خصيصًا لأتمتة المشاريع والعمليات وتنظيمها وتحسينها من خلال الجدولة الذكية لخطوط أنابيب Beam. يسمح لك بجدولة خطوط أنابيب البيانات ومراقبتها كرسومات بيانية حلقية موجّهة (DAGs).
يقوم Airflow بجدولة المهام في مصفوفة وينفذها وفقًا لاعتمادها. ربما تكون أفضل ميزة لـ Airflow هي أدوات سطر الأوامر الغنية التي تجعل المهام المعقدة على DAGs أكثر ملاءمة. نظرًا لأن تكوين Airflow يعمل على أكواد Python ، فإنه يوفر تجربة مستخدم ديناميكية للغاية.

  1. اباتشي سبارك

يعد Spark أحد أكثر الخيارات شيوعًا للمنظمات حول العالم للحوسبة العنقودية. تم تجهيز مشروع البيانات الكبيرة هذا بأحدث برنامج جدولة DAG ، ومحرك تنفيذ ، ومحسن استعلام ، يسمح Spark بمعالجة البيانات بسرعة فائقة. يمكنك تشغيل Spark على Hadoop أو Apache Mesos أو Kubernetes أو في السحابة لجمع البيانات من مصادر متنوعة.
تم تحسينه بشكل أكبر لتسهيل تحليلات التدفق التفاعلي حيث يمكنك تحليل مجموعات البيانات التاريخية الضخمة المكملة بالبيانات الحية لاتخاذ قرارات في الوقت الفعلي. أصبح إنشاء تطبيقات متوازية الآن أسهل من أي وقت مضى مع 80 مشغلًا عالي المستوى من Spark يتيحون لك البرمجة بشكل تفاعلي في Java و Scala و Python و R و SQL. بصرف النظر عن هذا ، فإنه يتضمن أيضًا مجموعة رائعة من المكتبات مثل DataFrames و MLlib و GraphX ​​و Spark Streaming.

تطبيقات البيانات الضخمة في الثقافة الشعبية
  1. اباتشي زيبلين

مشروع آخر مبتكر للبيانات الضخمة ، Apache Zeppelin ، تم إنشاؤه في NFLabs في كوريا الجنوبية. تم تطوير Zeppelin بشكل أساسي لتوفير البنية التحتية للويب للواجهة الأمامية لـ Spark. بالتجذير على نهج قائم على الكمبيوتر المحمول ، يتيح Zeppelin للمستخدمين التفاعل بسلاسة مع تطبيقات Spark لاستيعاب البيانات واستكشاف البيانات وتصور البيانات. لذلك ، لا تحتاج إلى إنشاء وحدات أو مكونات إضافية منفصلة لتطبيقات Spark عند استخدام Zeppelin.

ربما يكون Apache Zeppelin Interpreter هو الميزة الأكثر إثارة للإعجاب في مشروع البيانات الضخمة هذا. يسمح لك بتوصيل أي واجهة خلفية لمعالجة البيانات إلى Zeppelin. يدعم مترجم Zeppelin Spark و Python و JDBC و Markdown و Shell.

  1. أباتشي كاساندرا

إذا كنت تبحث عن قاعدة بيانات قابلة للتطوير وعالية الأداء ، فإن Cassandra هي الخيار المثالي لك. ما يجعلها واحدة من أفضل OSS ، هي قابلية التوسع الخطي وميزات التسامح مع الخطأ التي تتيح لك نسخ البيانات عبر عقد متعددة مع استبدال العقد المعيبة في نفس الوقت ، دون إغلاق أي شيء!

في Cassandra ، جميع العقد في الكتلة متطابقة ومتسامحة مع الخطأ. لذلك ، لا داعي للقلق مطلقًا بشأن فقد البيانات ، حتى في حالة فشل مركز البيانات بالكامل. تم تحسينه أيضًا بوظائف إضافية مثل Hinted Handoff و Read Repair الذي يعزز إنتاجية القراءة والكتابة عند إضافة آلات جديدة إلى الهيكل الحالي.

البيانات الضخمة: يجب أن تعرف الأدوات والتقنيات
  1. TensorFlow

تم إنشاء TensorFlow بواسطة باحثين ومهندسين من Google Brain لدعم تعلم الآلة والتعلم العميق. لقد تم تصميمه كمكتبة OSS لتشغيل حساب رقمي مرن وعالي الأداء عبر مجموعة من الأنظمة الأساسية مثل CPU و GPU و TPU ، على سبيل المثال لا الحصر.
يتيح لك تنوع TensorFlow ومرونته أيضًا تجربة العديد من خوارزميات ML الجديدة ، وبالتالي فتح الباب أمام إمكانيات جديدة في التعلم الآلي. أقطاب الصناعة مثل Google و Intel و eBay و DeepMind و Uber و Airbnb يستخدمون TensorFlow بنجاح لابتكار تجربة العملاء وتحسينها باستمرار.

  1. كوبرنيتيس

إنه نظام دعم عمليات تم تطويره لتوسيع نطاق تطبيقات الحاويات ونشرها وإدارتها. تقوم بتقسيم الحاويات داخل تطبيق إلى وحدات صغيرة لتسهيل الاستكشاف والإدارة السلس.
يسمح لك Kubernetes بالاستفادة من البنى التحتية السحابية المختلطة أو العامة لمصدر البيانات ونقل أحمال العمل بسلاسة. يقوم تلقائيًا بترتيب الحاويات وفقًا لتبعياتها ، ويمزج بعناية أحمال العمل المحورية وأفضل جهد في ترتيب يعزز استخدام موارد البيانات الخاصة بك. بصرف النظر عن هذا ، فإن Kubernetes يقوم بالشفاء الذاتي - فهو يكتشف ويقتل العقد التي لا تستجيب ويستبدل الحاويات ويعيد جدولتها عند فشل العقدة.

مهندسو البيانات الضخمة: الخرافات مقابل الحقائق

تنطوي مشاريع البيانات الضخمة هذه على إمكانات هائلة لمساعدة الشركات على "إعادة اختراع العجلة" وتعزيز الابتكار. مع استمرارنا في إحراز مزيد من التقدم في البيانات الضخمة ، نأمل أن تظهر المزيد من مشاريع البيانات الضخمة الحكيمة في المستقبل ، مما يفتح آفاقًا جديدة للاستكشاف. ومع ذلك ، فإن مجرد استخدام مشاريع البيانات الضخمة هذه لا يكفي.

شاهد فيديو يوتيوب.
يجب أن تسعى جاهدة لتصبح عضوًا نشطًا في مجتمع OSS من خلال المساهمة باكتشافاتك التكنولوجية الخاصة والتقدم في النظام الأساسي حتى يتمكن الآخرون أيضًا من الاستفادة منك.
كما قال جان بابتيست أونوفر :

"إنه الفوز. أنت تساهم في المنبع في المشروع حتى يستفيد الآخرون من عملك ، لكن شركتك تستفيد أيضًا من عملهم. وهذا يعني المزيد من التعليقات ، والمزيد من الميزات الجديدة ، والمزيد من المشكلات التي من المحتمل أن يتم حلها ".

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

اصقل مهاراتك واستعد للمستقبل

يتعلم أكثر