نظرة عامة على عاصفة أباتشي: ما هو ، الهندسة المعمارية وأسباب الاستخدام

نشرت: 2020-03-23

البيانات موجودة في كل مكان ، ومع تزايد الرقمنة ، هناك تحديات جديدة تظهر كل يوم فيما يتعلق بإدارة البيانات ومعالجتها.

قد يبدو الوصول إلى البيانات في الوقت الفعلي مجرد ميزة "من الجيد امتلاكها" ، ولكن بالنسبة إلى مؤسسة ذات استثمارات كبيرة في المجال الرقمي ، فهي ضرورة تقريبًا.

جدول المحتويات

من هم قادة الصناعة الذين يستخدمون Apache Storm؟

غالبًا ، البيانات التي لم يتم تحليلها في وقت معين قد تصبح قريبًا زائدة عن الحاجة للشركات. يعد تحليل البيانات للعثور على الأنماط التي يمكن أن تكون مفيدة للشركة مطلبًا. لا يلزم استنتاج الأنماط على مدى فترة طويلة ؛ فقط البيانات ذات الصلة التي تملي في الوقت الحقيقي ، ينبغي استخراج الاتجاهات الحالية.

بالنظر إلى احتياجات وعائدات تحليل البيانات في الوقت الفعلي ، توصلت المؤسسات إلى أدوات تحليل متنوعة. إحدى هذه الأدوات هي Apache Storm.

ما هو اباتشي ستورم؟

تم إصدار Apache Storm بواسطة Twitter ، وهو عبارة عن شبكة موزعة ومفتوحة المصدر تعالج أجزاء كبيرة من البيانات من مصادر مختلفة. تقوم الأداة بتحليلها وتحديث النتائج إلى واجهة المستخدم أو أي وجهة أخرى محددة ، دون تخزين أي بيانات. اقرأ المزيد عن Apache Storm.

يقوم Apache Storm بمعالجة الوقت الفعلي لأجزاء غير محدودة من البيانات ، على غرار نمط معالجة Hadoop لمجموعات البيانات.

تم إنشاؤه في الأصل بواسطة Nathan Marz في Black Type ، وهي شركة تحليلات اجتماعية ، وتم الحصول عليها لاحقًا من قبل Twitter. مكتوبة بلغة Java و Clojure ، لا تزال هي المعيار لمعالجة البيانات في الوقت الفعلي في الصناعة.

اباتشي العاصفة العمارة

1. Nimbus (العقدة الرئيسية)

Nimbus هو برنامج خفي ، أي برنامج يعمل في الخلفية بدون تحكم مستخدم تفاعلي. إنه يعمل مع Apache Storm ، على غرار أعمال Job tracker في Hadoop. تتطلب وظيفتها تعيين الرموز والمهام للآلات وحتى مراقبة أدائها.

2. خدمة المشرف (العقدة العاملة)

تدير العقد العاملة في Storm خدمة تسمى المشرف. هذه العقد مسؤولة عن استلام العمل الذي يكلفه Nimbus لهذه الأجهزة. بصرف النظر عن التعامل مع جميع الأعمال المعينة من قبل Nimbus ، فإنه يبدأ أو يوقف العملية وفقًا للمتطلبات.

تساعد كل عملية من هذه العمليات بواسطة المشرفين في تنفيذ جزء من العملية لإكمال الهيكل.

3. الطوبولوجيا

Storm Topology عبارة عن شبكة تتكون من براغي ومسامير. كل عقدة في النظام موجودة لمعالجة المنطق والروابط ، ولإظهار المسارات من حيث ستمر البيانات.

عندما يتم تقديم الهيكل إلى العاصفة ، يقوم Nimbus باستشارة المشرفين حول العقد العاملة.

4. تيار

التدفقات عبارة عن سلسلة من المجموعات التي يتم إنشاؤها ومعالجتها بطريقة موزعة متوازية. لكن ما هي tuple؟ هم هياكل البيانات الرئيسية في العاصفة. يتم تسميتها بقوائم ذات قيم متنوعة مثل الأعداد الصحيحة ، والبايت ، والصفوف ، ومصفوفات البايت ، إلخ.

5. صنبور

يعتبر Spout مدخلًا لجميع البيانات الموجودة في المجموعات. وهي مسؤولة عن الاتصال بمصدر البيانات الفعلي ، واستلام البيانات بشكل مستمر ، وتحويلها إلى مجموعات ، وأخيرًا إرسالها إلى البراغي لتتم معالجتها.

6. البراغي

تقع البراغي في قلب كل عمليات المعالجة المنطقية في Storm. لذلك ، فإنهم يؤدون جميع عمليات المعالجة للطوبولوجيا. يمكن استخدام البراغي لمجموعة متنوعة من الوظائف ، بما في ذلك التصفية والوظائف والتجميعات وحتى الاتصال بقواعد البيانات.

تعرف على المزيد حول: Apache Spark Architecture

لماذا أباتشي ستورم؟

إن طريقة عمل Apache Storm تشبه إلى حد بعيد عمل Hadoop. كلاهما عبارة عن شبكات موزعة تستخدم لمعالجة البيانات الضخمة. أنها توفر قابلية التوسع وتستخدم على نطاق واسع لأغراض ذكاء الأعمال. إذن ، لماذا العاصفة ولماذا هي مختلفة جدًا؟

فيما يلي الأسباب الرئيسية لاختيار Storm:

  • يقوم Storm بمعالجة الدفق في الوقت الفعلي ، بينما يقوم Hadoop بمعالجة الدُفعات في الغالب.
  • تعمل طوبولوجيا العاصفة حتى يتم إغلاقها بواسطة المستخدم. تكتمل عمليات Hadoop في النهاية بترتيب تسلسلي.
  • يمكن لعمليات العاصفة الوصول إلى آلاف البيانات الموجودة على مجموعة ، في غضون ثوانٍ. يستخدم نظام Hadoop الموزع إطار عمل MapReduce لإنتاج كمية هائلة من الأطر التي ستستغرق دقائق أو ساعات.

المنظمات التي تستخدم Apache Storm

بمجرد نشرها ، لا يكون Storm سهل التشغيل فحسب ، بل إنه قادر أيضًا على معالجة البيانات في ثوانٍ. بالنظر إلى الفوائد العديدة لـ Storm ، استخدمته العديد من المنظمات.

1. تويتر

تعمل Apache Storm على تشغيل مجموعة من الوظائف على Twitter. تتكامل Storm بشكل جيد مع بقية البنية التحتية لتويتر ، والتي تحتوي على أنظمة قواعد بيانات مثل Cassandra و Memcached و Mesos والبنية التحتية للرسائل وأنظمة المراقبة والتنبيه.

2. Infochimps

تستخدم Infochimps Storm كمصدر لإحدى خدمات البيانات السحابية - خدمات توصيل البيانات. وهي تستخدم Storm لتوفير مجموعة بيانات قابلة للتوسيع خطيًا ونقلها ومعالجة تدفق معقدة للخدمات السحابية.

3. سبوتيفي

إنه بلا شك الرائد في منصات دفق الموسيقى. مع وجود 50 مليون مستخدم حول العالم و 10 ملايين مشترك ، فإنه يوفر مجموعة هائلة من المحتوى في الوقت الفعلي مثل التوصيات الموسيقية والتحليلات وإنشاءات الإعلانات وما إلى ذلك. تساعد Apache Storm Spotify في تقديم هذه الميزات بدقة.

كما أنه مكّن الشركة من تقديم أنظمة توزيع منخفضة زمن الوصول ومتسامحة مع الأخطاء بسهولة.

4. RocketFuel

RocketFuel هي شركة تسخر قوة الذكاء الاصطناعي لتوسيع عائد الاستثمار التسويقي في الوسائط الرقمية. إنهم يتطلعون إلى بناء نظام أساسي على Storm يمكنه تتبع مرات الظهور والنقرات وطلبات عروض الأسعار وما إلى ذلك في الوقت الفعلي. من المفترض أن تعمل هذه المنصة عن طريق استنساخ تدفقات العمل الهامة لخط أنابيب ETL القائم على Hadoop.

5. Flipboard

Flipboard هو متجر شامل لتصفح وحفظ جميع الأخبار التي تهمك. في Flipboard ، تم دمج Apache Storm مع أنظمة مثل Hadoop و ElasticSearch و HBase و HDFS لإنشاء منصات قابلة للتوسيع للغاية.

هنا ، يتم توفير جميع الخدمات مثل البحث عن المحتوى والتحليلات في الوقت الفعلي وخلاصة المجلات المخصصة وما إلى ذلك بمساعدة Apache Storm.

6. ويجو

ويجو هو محرك بحث عن بيانات السفر نشأ في سنغافورة. هنا ، تأتي البيانات من جميع أنحاء العالم ، في أوقات مختلفة. بمساعدة Storm ، يمكن لـ Wego البحث عن البيانات في الوقت الفعلي وحل أي مشاكل موجودة وتقديم أفضل النتائج للمستخدم النهائي.

اقرأ أيضًا: دور شرارة أباتشي في البيانات الضخمة.

خاتمة

قبل كتابة Storm ، تمت معالجة البيانات في الوقت الفعلي باستخدام قوائم الانتظار وأساليب مؤشر ترابط العاملين. ستعمل بعض قوائم الانتظار على كتابة البيانات بشكل مستمر ، بينما يقوم البعض الآخر بقراءتها ومعالجتها باستمرار. لم يكن هذا الإطار هشًا للغاية فحسب ، بل كان أيضًا ثقيلًا للوقت. سيتم إنفاق الكثير من الوقت في الاهتمام بفقدان البيانات ، والحفاظ على إطار العمل بأكمله ، وتسلسل / إلغاء تسلسل الرسائل بدلاً من أداء العمل الفعلي.

تعد Apache Storm طريقة ذكية لإرسال البيانات فقط كـ Spout و Bolt وبقية المعالجة باسم Topology.

Apache Storm هو إطار عمل حسابي واسع الانتشار ومفتوح المصدر ومعالجة الدفق لتحليل البيانات في الوقت الفعلي. العديد من المنظمات تستخدمه بالفعل ؛ في الواقع ، يقوم البعض بتطوير برامج أفضل ومفيدة معها.

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

قيادة الثورة التكنولوجية المدفوعة بالبيانات

400+ ساعة من التعلم. 14 لغة وأدوات. حالة خريجي IIIT-B.
برنامج الشهادة المتقدم في البيانات الضخمة من معهد IIIT بنغالور