برنامج Apache Hive Ultimate التعليمي للمبتدئين: تعلم الخلية من الصفر

نشرت: 2020-03-20

Apache hive هو نظام مستودع بيانات مفتوح المصدر مبني على قمة Hadoop. يتم استخدامه للاستعلام عن مجموعات البيانات الكبيرة المخزنة في ملفات Hadoop وتحليلها. سيساعدك هذا البرنامج التعليمي Apache Hive على فهم أساسياته وخصائصه واستخداماته.

في العصر الرقمي ، يتم إنشاء حوالي 2.5 كوينتيليون بايت من البيانات كل يوم. نحن بحاجة إلى تقنيات مبتكرة لاحتواء هذا الانفجار في البيانات. و Hive هي إحدى هذه الأدوات التي تعالج البيانات المهيكلة وشبه المهيكلة في نظام Hadoop البيئي الرائد في الصناعة. نظرًا لأن المزيد والمزيد من أصحاب العمل يسعون إلى الاستفادة من إمكانات البيانات الضخمة ، فإنهم يبحثون عن أشخاص على دراية جيدة بأدوات Hadoop. لذلك ، يعد برنامج Hadoop Hive التعليمي مكونًا أساسيًا في أي دورة تدريبية حول البيانات الضخمة للمبتدئين.

جدول المحتويات

ما هي الخلية؟ اشرح بعبارات بسيطة.

تسمح Apache Hive للمطورين بتلخيص البيانات وتشغيل الاستعلامات وتحليل مجموعات البيانات الكبيرة. مبني على أعلى نظام الملفات الموزعة Hadoop (HDFS) ، فإنه يجلب المزيد من الهيكل إلى البيانات من خلال تنظيمها في جداول. أيضًا ، تستخدم Hive لغة HiveQL أو HQL لإجراء استعلامات تشبه SQL على البيانات.

أثناء تنفيذ SQL على قواعد البيانات التقليدية ، يمكن لـ HQL ترجمة الاستعلامات تلقائيًا إلى وظائف MapReduce. تستخلص Hive تعقيد Hadoop عن طريق تحويل استعلامات SQL إلى سلسلة من المهام ليتم تنفيذها على مجموعة Hadoop. لذلك ، لإتقان Apache Hive ، فأنت بحاجة إلى معرفة أساسية بـ SQL. ولكن ليست هناك حاجة لتعلم جافا.

بالانتقال إلى البرنامج التعليمي Apache Hive الخاص بنا ، دعنا نناقش استخداماته في بيئات مكان العمل الحديثة.

لماذا تحتاج إلى استخدام Hive؟

أنظمة قواعد البيانات التقليدية ليست مجهزة للتعامل مع الكمية الكبيرة من البيانات التي تم إنشاؤها بواسطة تطبيقات البيانات الضخمة اليوم. و Hadoop هو إطار عمل يحل هذه المشكلة. أدوات مختلفة تساعد وحدات Hadoop ، خلية واحدة منها. باستخدام Apache Hive ، يمكنك تنفيذ المهام التالية:

  • يمكن تجزئة الجداول وتجميعها ، مما يجعل من الممكن معالجة البيانات المخزنة في نظام الملفات الموزعة Hadoop (HDFS). يتم تعريف الجداول مباشرة في HDFS
  • تتوفر برامج تشغيل JDBC / ODBC للتكامل مع التقنيات التقليدية
  • يوفر مرونة في المخطط وتطورًا جنبًا إلى جنب مع تلخيص البيانات ، مما يسهل عمليات التحليل
  • يحميك من كتابة وظائف Hadoop MapReduce المعقدة
  • يتيح مفهوم القسم والجرافة استرداد البيانات بسرعة
  • من السهل جدًا تعلم وتنفيذ لمطوري SQL
  • نظام سريع وقابل للتطوير
  • يدعم Hive أنواعًا مختلفة من الملفات ، مثل ملف نصي وملف تسلسل وملف RC وملف ORF وملف باركيه وملف AVRO

ما هي المكونات الرئيسية لمعمارية الخلية؟

1. واجهة المستخدم: تتيح لك إرسال استعلام ومعالجة التعليمات وإدارتها. تسمح واجهة سطر الأوامر (CLI) وواجهة مستخدم الويب للمستخدمين الخارجيين بالاتصال بـ Hive.

2. Metastore: كما يوحي الاسم ، يحتفظ Metastore بالبيانات الوصفية لقاعدة البيانات. يحتوي على معلومات حول مخطط وموقع الجداول. يقوم أيضًا بتخزين البيانات الوصفية للقسم. موجود في قاعدة البيانات العلائقية التقليدية ، فهو يسمح لك بمراقبة البيانات الموزعة في المجموعة. يتتبع البيانات ويكررها ويوفر النسخ الاحتياطي.

3. المحرك: هو ذلك الجزء من محرك العملية الذي يتلقى عبارات HiveQL. يُنشئ السائق جلسات لتنفيذ البيان ويراقب دورة حياته. كما أنه يخزن البيانات الوصفية التي تم إنشاؤها أثناء تنفيذ البيان.

4. المترجم: يحول هذا الجزء من محرك عملية HiveQL الاستعلام إلى مدخلات MapReduce ، مثل شجرة التركيب المجردة (AST) والرسم البياني غير الدوري الموجه (DAG)

5. المُحسِّن: يقوم هذا المكون من بنية الخلية بإجراء تحويلات في خطة التنفيذ لتوفير DAG مُحسَّن. يقسم المهام لأداء أفضل.

6. المنفذ: يقوم بجدولة أو توجيه المهام لإكمال عملية التنفيذ. لهذا ، فإنه يتفاعل مع متعقب وظيفة Hadoop.

قراءة: برنامج Hadoop التعليمي للمبتدئين

لا يمكن إكمال البرنامج التعليمي Apache Hive هذا بدون مناقشة كيفية تفاعل مكونات الخلية هذه مع بعضها البعض لتنفيذ الاستعلامات. لذلك ، قمنا بإدراج الخطوات أدناه.

الخطوة 1: يُدخل المستخدم استعلامًا في CLI أو Web UI ، والذي يعيد توجيه الاستعلام إلى برنامج التشغيل.

الخطوة 2: يقوم برنامج التشغيل بتمرير الاستعلام إلى المترجم لفحصه. يضمن المترجم دقة بناء الجملة.

الخطوة 3: يطلب المترجم Metastore البيانات الوصفية المطلوبة من أجل المضي قدمًا.

الخطوة 4: بعد استلام البيانات الوصفية ، يقوم المترجم بإعادة إرسال خطة التنفيذ إلى السائق.

الخطوة 5: يقوم السائق بإعادة توجيه هذه الخطة إلى محرك التنفيذ.

الخطوة 6: ينفذ محرك التنفيذ المراحل النهائية. يرسل المهمة إلى JobTracker (عقدة الاسم) داخل وحدة MapReduce Hadoop.

الخطوة 7: يقوم JobTracker بتعيين المهمة إلى TaskTracker (عقدة البيانات).

الخطوة 8: يتم تنفيذ الاستعلام وإعادته إلى المنفذ.

الخطوة 9: يقوم المنفذ بإرسال النتائج إلى السائق.

الخطوة 10: يقوم برنامج التشغيل بإعادة توجيه النتائج إلى واجهة مستخدم Hive.

قراءة: راتب Hadoop Developer في الهند

ماذا تعرف عن Hive Shell؟

يسمح Hive Shell للمستخدمين بتشغيل استعلامات HQL. إنها واجهة سطر أوامر Hive. يمكنك تشغيل Hive Shell في وضعين:

  • غير تفاعلي: حدد موقع الملف الذي يحتوي على استعلامات HQL باستخدام الخيار -f. على سبيل المثال ، hive -f my-script.q
  • تفاعلي: انتقل إلى Hive Shell مباشرة وأرسل الاستعلامات يدويًا للحصول على النتيجة. على سبيل المثال ، $ bin / hive ، انتقل إلى hive shell

ضع قائمة ببعض قيود الخلية

  • يقدم دعمًا محدودًا للاستعلام الفرعي
  • استعلامات الخلية لها زمن انتقال مرتفع
  • لا يُسمح بالعروض المحسوسة في Apache Hive
  • لا يوفر استعلامات في الوقت الفعلي وتحديثات على مستوى الصف وعمليات التحديث والحذف
  • Apache Hive غير مناسب للعملية الانتقالية عبر الإنترنت أو OLTP

تلخيص لما سبق

في هذا البرنامج التعليمي Hadoop Hive ، قمنا بتغطية جوانب مختلفة من الخلية واستخدامها والهندسة المعمارية. لقد تعمقنا أيضًا في عملها وناقشنا حدودها. ستساعدك كل هذه المعلومات على بدء رحلة تعلم Hive الخاصة بك. بعد كل شيء ، إنه أحد أكثر أطر عمل البيانات الضخمة استخدامًا وموثوقية!

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

قيادة الثورة التكنولوجية المدفوعة بالبيانات

7 دراسات الحالة والمشاريع. المساعدة في العمل مع أفضل الشركات. موجه طالب مخصص.
برنامج الشهادة المتقدم في البيانات الضخمة من معهد IIIT بنغالور