نظام Hadoop البيئي ومكوناته: برنامج تعليمي شامل 2022

نشرت: 2021-01-04

Hadoop هو إطار عمل مفتوح المصدر يستخدم في عمليات البيانات الضخمة. إنه ضخم ويحتوي على العديد من المكونات. يؤدي كل مكون من هذه المكونات مجموعة محددة من وظائف البيانات الضخمة. جعلت مجموعة حلول Hadoop الواسعة منها عنصرًا أساسيًا في الصناعة. وإذا كنت تريد أن تصبح خبيرًا في البيانات الضخمة ، فيجب أن تتعرف على جميع مكوناتها.

ومع ذلك ، لا تقلق ، لأنه في هذه المقالة ، سنلقي نظرة على كل هذه المكونات:

جدول المحتويات

ما هي مكونات Hadoop الأساسية؟

تتحكم مكونات Hadoop الأساسية في أدائها وهل يجب أن تتعلم عنها قبل استخدام أقسام أخرى من نظامها البيئي. النظام البيئي لـ Hadoop واسع ومليء بالعديد من الأدوات. اسم آخر لمكوناته الأساسية هو الوحدات. هناك في المقام الأول ما يلي

مكونات Hadoop الأساسية:

1. HDFS

الشكل الكامل لـ HDFS هو نظام الملفات الموزعة Hadoop. إنه العنصر الأكثر أهمية في Hadoop لأنه يتعلق بتخزين البيانات. يتيح لك HDFS تخزين البيانات في شبكة من أجهزة التخزين الموزعة. لديها مجموعة من الأدوات التي تتيح لك قراءة هذه البيانات المخزنة وتحليلها وفقًا لذلك. يمكّنك HDFS من إجراء عمليات اقتناء لبياناتك بغض النظر عن نظام تشغيل أجهزة الكمبيوتر الخاصة بك. اقرأ المزيد عن HDFS وهيكلها.

نظرًا لأنه لا داعي للقلق بشأن نظام التشغيل ، يمكنك العمل بإنتاجية أعلى لأنك لن تضطر إلى تعديل نظامك في كل مرة تواجه فيها نظام تشغيل جديدًا. يتكون HDFS من المكونات التالية:

  • NameNode
  • داتاينود
  • الاسم الثانوي

يُطلق على "عقدة الاسم" أيضًا اسم "رئيسي" في HDFS. يقوم بتخزين البيانات الوصفية للعقد التابعة لتتبع تخزين البيانات. يخبرك بما يتم تخزينه فيه. تراقب العقدة الرئيسية أيضًا صحة العقد التابعة. يمكنه أيضًا تعيين المهام لعقد البيانات. عقد البيانات تخزن البيانات. تسمى عقد البيانات أيضًا "التابعة" في HDFS.

تستجيب العقد التابعة لطلب العقدة الرئيسية بالحالة الصحية وتبلغها بحالتها. في حالة عدم استجابة العقدة التابعة لطلب الحالة الصحية للعقدة الرئيسية ، ستقوم العقدة الرئيسية بالإبلاغ عن موتها وتعيين مهمتها إلى عقدة بيانات أخرى.

بصرف النظر عن عقدة الاسم والعقد التابعة ، هناك عقدة ثالثة ، عقدة الاسم الثانوية. إنه مخزن مؤقت للعقدة الرئيسية. يقوم بتحديث البيانات إلى صورة FinalFS عندما تكون العقدة الرئيسية غير نشطة.

2. MapReduce

MapReduce هو المكون الأساسي الثاني لـ Hadoop ، ويمكنه أداء مهمتين ، Map و Reduce. Mapreduce هي واحدة من أفضل أدوات Hadoop التي يمكن أن تجعل رحلة البيانات الضخمة الخاصة بك سهلة. يشير التعيين إلى قراءة البيانات الموجودة في قاعدة البيانات ونقلها إلى تنسيق وظيفي يسهل الوصول إليه. يُمكِّن التعيين النظام من استخدام البيانات للتحليل عن طريق تغيير شكلها. ثم يأتي الاختزال ، وهو دالة رياضية. إنه يقلل البيانات المعينة إلى مجموعة من البيانات المحددة لتحليل أفضل.

يقوم بتوزيع أزواج المفاتيح والقيمة وتقليلها إلى مجموعات للوظائف. يساعد MapReduce في العديد من المهام في Hadoop ، مثل فرز البيانات وتصفية البيانات. يعمل مكوناها معًا ويساعدان في إعداد البيانات. يعالج MapReduce أيضًا مراقبة وجدولة الوظائف.

إنه بمثابة عقدة الكمبيوتر لنظام Hadoop البيئي. بشكل أساسي ، يعتني MapReduce بتقسيم مهمة البيانات الضخمة إلى مجموعة من المهام الصغيرة. يمكنك تشغيل وظائف MapReduce بكفاءة حيث يمكنك استخدام مجموعة متنوعة من لغات البرمجة معها. يسمح لك باستخدام Python و C ++ وحتى Java لكتابة تطبيقاتها. إنه سريع وقابل للتطوير ، وهذا هو سبب كونه مكونًا حيويًا لنظام Hadoop البيئي.

3. غزل

YARN تعني مفاوض موارد آخر. يتعامل مع إدارة الموارد في Hadoop. إدارة الموارد هي أيضا مهمة حاسمة. هذا هو السبب في أن YARN هو أحد مكونات Hadoop الأساسية. يراقب ويدير أحمال العمل في Hadoop. YARN قابلة للتطوير بدرجة عالية ورشيقة. يقدم لك حلولاً متقدمة لاستخدام الكتلة ، وهي ميزة أخرى مهمة. تعرف على المزيد حول هندسة Hadoop YARN.

يتكون الغزل من مكونات متعددة ؛ والأهم من بينها هو مدير الموارد. يوفر مدير الموارد أطر عمل مرنة وعامة للتعامل مع الموارد في Hadoop Cluster. اسم آخر لمدير الموارد هو Master. يعد مدير العقدة مكونًا حيويًا آخر في YARN.

يراقب حالة مدير التطبيق والحاوية في YARN. تتم جميع عمليات معالجة البيانات في الحاوية ، ويدير مدير التطبيق هذه العملية إذا كانت الحاوية تتطلب المزيد من الموارد لأداء مهام معالجة البيانات ، يطلب مدير التطبيق ذلك من مدير الموارد.

4. Hadoop المشتركة

أضاف Apache العديد من المكتبات والأدوات المساعدة في نظام Hadoop البيئي الذي يمكنك استخدامه مع وحداته النمطية المختلفة. يمكّن Hadoop Common الكمبيوتر من الانضمام إلى شبكة Hadoop دون مواجهة أي مشاكل في توافق نظام التشغيل أو الأجهزة. يستخدم هذا المكون أدوات Java للسماح للنظام الأساسي بتخزين بياناته داخل النظام المطلوب.

يحصل على اسم Hadoop Common لأنه يوفر للنظام وظائف قياسية.

مكونات Hadoop حسب الدور

الآن بعد أن ألقينا نظرة على مكونات Hadoop الأساسية ، فلنبدأ في مناقشة أجزائه الأخرى. كما ذكرنا سابقًا ، لدى Hadoop مجموعة كبيرة من الأدوات ، لذلك قمنا بتقسيمها وفقًا لأدوارها في نظام Hadoop البيئي. هيا بنا نبدأ:

تخزين البيانات

حارس حديقة الحيوان

يساعدك Zookeeper في إدارة اصطلاحات التسمية والتكوين والمزامنة وغيرها من المعلومات الخاصة بمجموعات Hadoop. إنه خادم مركزي مفتوح المصدر للنظام البيئي.

كتالوج HC

يقوم HCatalog بتخزين البيانات بتنسيق ثنائي ويتعامل مع إدارة الجدول في Hadoop. إنها تمكن المستخدمين من استخدام البيانات المخزنة في HIVE حتى يتمكنوا من استخدام أدوات معالجة البيانات لمهامهم. يسمح لك بإجراء المصادقة بناءً على Kerberos ، ويساعد في ترجمة البيانات وتفسيرها.

HDFS

لقد ناقشنا بالفعل HDFS. يرمز HDFS إلى نظام الملفات الموزعة Hadoop ويتعامل مع تخزين البيانات في Hadoop. إنه يدعم قابلية التوسع الأفقي والعمودي. إنه متسامح مع الأخطاء وله عامل نسخ يحتفظ بنسخ من البيانات في حالة فقد أي منها بسبب بعض الأخطاء.

محرك التنفيذ

شرارة

ستستخدم Spark لمعالجة الدُفعات الصغيرة في Hadoop. يمكنه أداء ETL وتدفق البيانات في الوقت الفعلي. إنه سريع الحركة للغاية حيث يمكنه دعم 80 من المشغلين رفيعي المستوى. إنه إطار عمل للحوسبة العنقودية. تعرف على المزيد حول تطبيقات Apache Spark.

مابريديوس

تتيح لك هذه الوحدة النمطية المستقلة عن اللغة تحويل البيانات المعقدة إلى بيانات قابلة للاستخدام للتحليل. يقوم برسم الخرائط وتقليل البيانات حتى تتمكن من إجراء مجموعة متنوعة من العمليات عليها ، بما في ذلك الفرز والتصفية. يسمح لك أيضًا بإجراء معالجة البيانات المحلية.

تيز

يمكّنك Tez من أداء مهام MapReduce متعددة في نفس الوقت. إنه إطار عمل لمعالجة البيانات يساعدك على أداء معالجة البيانات ومعالجة الدُفعات. يمكن أن يخطط لإعادة التكوين ويمكن أن يساعدك في اتخاذ قرارات فعالة فيما يتعلق بتدفق البيانات. إنه مثالي لإدارة الموارد.

إدارة قاعدة البيانات

إمبالا

يمكنك استخدام إمبالا في مجموعات Hadoop. يمكنه الانضمام إلى مخزن التعريف الخاص بـ Hive ومشاركة المعلومات المطلوبة معه. من السهل تعلم واجهة SQL ويمكن الاستعلام عن البيانات الضخمة دون بذل الكثير من الجهد.

خلية نحل

مطور هذا المكون Hadoop هو Facebook. يستخدم HiveQL ، وهو مشابه تمامًا لـ SQL ويتيح لك إجراء تحليل البيانات والتلخيص والاستعلام. من خلال الفهرسة ، تجعل Hive مهمة الاستعلام عن البيانات أسرع.

HBase

يستخدم HBase HDFS لتخزين البيانات. إنها قاعدة بيانات تركز على العمود. يسمح لقواعد بيانات NoSQL بإنشاء جداول ضخمة يمكن أن تحتوي على مئات الآلاف (أو حتى الملايين) من الأعمدة والصفوف. يجب عليك استخدام HBase إذا كنت بحاجة إلى وصول للقراءة أو الكتابة إلى مجموعات البيانات. يستخدم Facebook HBase لتشغيل منصة الرسائل الخاصة به.

اباتشي حفر

يتيح لك Apache Drill الجمع بين مجموعات بيانات متعددة. يمكن أن تدعم مجموعة متنوعة من قواعد بيانات NoSQL ، وهذا هو سبب كونها مفيدة للغاية. لديها قابلية عالية للتوسع ، ويمكن أن تساعد بسهولة العديد من المستخدمين. يتيح لك أداء جميع مهام التحليلات المشابهة لـ SQL بسهولة. كما أن لديها حلول مصادقة للحفاظ على الأمن الشامل داخل نظامك.

التجريد

اباتشي سكووب

يمكنك استخدام Apache Sqoop لاستيراد البيانات من مصادر خارجية إلى تخزين بيانات Hadoop ، مثل HDFS أو HBase. يمكنك استخدامه لتصدير البيانات من تخزين بيانات Hadoop إلى مخازن البيانات الخارجية أيضًا. تعمل قدرة Sqoop على نقل البيانات بشكل متوازي على تقليل الأحمال الزائدة على الموارد وتتيح لك استيراد البيانات أو تصديرها بكفاءة عالية. يمكنك استخدام Sqoop لنسخ البيانات أيضًا.

اباتشي خنزير

تم تطويره بواسطة Yahoo ، يساعدك Apache pig في تحليل مجموعات البيانات الكبيرة. تستخدم لغتها ، Pig Latin ، لأداء المهام المطلوبة بسلاسة وكفاءة. يمكنك موازنة بنية برامج Pig إذا كنت بحاجة إلى التعامل مع مجموعات البيانات الضخمة ، مما يجعل Pig حلاً رائعًا لتحليل البيانات. استفد من برنامجنا التعليمي لخنزير أباتشي لفهم المزيد.

تدفق البيانات

فلوم

يتيح لك Flume جمع كميات هائلة من البيانات. إنه حل لجمع البيانات يرسل البيانات المجمعة إلى HDFS. يحتوي على ثلاثة أقسام ، وهي القنوات والمصادر وأخيرًا المصارف. لدى Flume وكلاء يقومون بتشغيل تدفق البيانات. البيانات الموجودة في هذا التدفق تسمى الأحداث. يستخدم Twitter Flume لتدفق تغريداته.

كافكا

Apache Kafka هو حل دائم وسريع وقابل للتطوير للرسائل العامة الموزعة. LinkedIn يقف وراء تطوير هذه الأداة القوية. يحافظ على موجزات كبيرة من الرسائل داخل الموضوع. تستخدم العديد من المؤسسات كافكا لتدفق البيانات. يعد MailChimp و Airbnb و Spotify و FourSquare من المستخدمين البارزين لهذه الأداة القوية.

تعرف على المزيد - مكونات Hadoop

في هذا الدليل ، حاولنا لمس كل مكون من مكونات Hadoop لفترة وجيزة لنجعلك على دراية به تمامًا. إذا كنت ترغب في معرفة المزيد حول مكونات Hadoop وبنيته ، فإننا نقترح التوجه إلى مدونتنا المليئة بمقالات علوم البيانات المفيدة.

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

إتقان تكنولوجيا المستقبل - البيانات الضخمة

7 دراسات الحالة والمشاريع. المساعدة في العمل مع أفضل الشركات. موجه طالب مخصص.
برنامج الشهادة المتقدم في البيانات الضخمة من معهد IIIT بنغالور