Tutorial Apache Hive Ultimate Untuk Pemula: Belajar Hive dari Awal

Diterbitkan: 2020-03-20

Apache Hive adalah sistem gudang data sumber terbuka yang dibangun di atas Hadoop. Ini digunakan untuk menanyakan dan menganalisis kumpulan data besar yang disimpan dalam file Hadoop. Tutorial Apache Hive ini akan membantu Anda memahami dasar-dasar, karakteristik, dan penggunaannya.

Di era digital, sekitar 2,5 triliun byte data dihasilkan setiap hari. Kami membutuhkan teknologi inovatif untuk menahan ledakan data ini. Dan Hive adalah salah satu alat yang memproses data terstruktur dan semi-terstruktur dalam ekosistem Hadoop yang terdepan di industri. Karena semakin banyak perusahaan berusaha untuk memanfaatkan kemampuan data besar, mereka mencari orang-orang yang berpengalaman dengan alat Hadoop. Oleh karena itu, tutorial Hadoop Hive adalah komponen penting dari kursus big data untuk pemula.

Daftar isi

Apa itu Hive? Jelaskan secara sederhana.

Apache Hive memungkinkan pengembang untuk meringkas data, menjalankan kueri, dan menganalisis kumpulan data besar. Dibangun di atas Hadoop Distributed File System (HDFS), ini membawa lebih banyak struktur ke data dengan mengaturnya ke dalam tabel. Juga, Hive menggunakan bahasa HiveQL atau HQL untuk melakukan kueri seperti SQL pada data.

Sementara SQL dijalankan pada database tradisional, HQL dapat secara otomatis menerjemahkan kueri ke dalam pekerjaan MapReduce. Hive mengabstraksi kompleksitas Hadoop dengan mengonversi kueri SQL menjadi serangkaian tugas yang akan dieksekusi di klaster Hadoop. Jadi, untuk menguasai Apache Hive, Anda memerlukan pengetahuan dasar tentang SQL. Tapi tidak perlu belajar Java.

Melanjutkan tutorial Apache Hive kami , mari kita bahas penggunaannya di lingkungan tempat kerja modern.

Mengapa Anda perlu menggunakan Hive?

Sistem database tradisional tidak dilengkapi untuk menangani sejumlah besar data yang dihasilkan oleh aplikasi big data saat ini. Dan Hadoop adalah kerangka kerja yang memecahkan masalah ini. Berbagai alat membantu modul Hadoop, Hive menjadi salah satunya. Dengan Apache Hive, Anda dapat melakukan tugas-tugas berikut:

  • Tabel dapat dibagi dan dikelompokkan, sehingga memungkinkan untuk memproses data yang disimpan di Hadoop Distributed File System (HDFS). Tabel didefinisikan langsung di HDFS
  • Driver JDBC/ODBC tersedia untuk integrasi dengan teknologi tradisional
  • Memberikan fleksibilitas dan evolusi skema bersama dengan ringkasan data, memfasilitasi analisis yang lebih mudah
  • Menyelamatkan Anda dari menulis pekerjaan Hadoop MapReduce yang rumit
  • Konsep partisi dan ember memungkinkan pengambilan data yang cepat
  • Sangat mudah dipelajari dan diterapkan untuk pengembang SQL
  • Sistem yang cepat dan terukur
  • Hive mendukung berbagai jenis file, seperti file Teks, file Urutan, file RC, file ORF, file Parket, dan file AVRO

Apa saja komponen utama dari arsitektur Hive?

1. Antarmuka pengguna: Memungkinkan Anda mengirimkan kueri, memproses instruksi, dan mengelolanya. Antarmuka Baris Perintah (CLI) dan UI web memungkinkan pengguna eksternal untuk terhubung dengan Hive.

2. Metastore: Seperti namanya, metastore menyimpan metadata dari database. Ini berisi informasi tentang skema dan lokasi tabel. Ini juga menyimpan metadata partisi. Hadir di database relasional tradisional, ini memungkinkan Anda untuk memantau data terdistribusi di cluster. Ini melacak data, mereplikasi, dan menyediakan cadangan.

3. Driver: Ini adalah bagian dari mesin proses yang menerima pernyataan HiveQL. Pengemudi membuat sesi untuk mengeksekusi pernyataan dan memantau siklus hidupnya. Itu juga menyimpan metadata yang dihasilkan selama eksekusi pernyataan.

4. Compiler: Bagian dari mesin proses HiveQL ini mengubah query menjadi input MapReduce, seperti Abstract Syntax Tree (AST) dan Directed Acyclic Graph (DAG)

5. Pengoptimal: Komponen arsitektur Hive ini melakukan transformasi dalam rencana eksekusi untuk menyediakan DAG yang dioptimalkan. Ini membagi tugas untuk kinerja yang lebih baik.

6. Pelaksana: Ini menjadwalkan atau menyalurkan tugas untuk menyelesaikan proses eksekusi. Untuk ini, ia berinteraksi dengan pelacak pekerjaan Hadoop.

Baca: Tutorial Hadoop untuk Pemula

Tutorial Apache Hive ini tidak lengkap tanpa membahas bagaimana komponen Hive ini berinteraksi satu sama lain untuk melakukan query. Jadi, kami telah mendaftarkan langkah-langkah di bawah ini.

Langkah 1: Pengguna memasukkan kueri ke CLI atau UI Web, yang meneruskan kueri ke driver.

Langkah 2: Pengemudi meneruskan kueri ke kompiler untuk diperiksa. Kompiler memastikan keakuratan sintaks.

Langkah 3: Kompilator meminta Metastore untuk metadata yang diperlukan untuk melanjutkan lebih jauh.

Langkah 4: Setelah menerima metadata, kompiler mengirim ulang rencana eksekusi ke driver.

Langkah 5: Pengemudi meneruskan rencana ini ke mesin eksekusi.

Langkah 6: Mesin eksekusi melakukan tahap akhir. Ini mengirimkan tugas ke JobTracker (Nama node) dalam modul MapReduce Hadoop.

Langkah 7: JobTracker selanjutnya menetapkan tugas ke TaskTracker (Node data).

Langkah 8: Kueri dieksekusi dan dikirim kembali ke pelaksana.

Langkah 9: Pelaksana mengirimkan hasilnya ke driver.

Langkah 10: Pengemudi meneruskan hasil ke antarmuka pengguna Hive.

Baca: Gaji Pengembang Hadoop di India

Apa yang kamu ketahui tentang Hive Shell?

Hive Shell memungkinkan pengguna untuk menjalankan kueri HQL. Ini adalah antarmuka baris perintah Hive. Anda dapat menjalankan Hive Shell dalam dua mode:

  • Non-interaktif: Tentukan lokasi file yang berisi kueri HQL dengan opsi -f. Misalnya, hive -f my-script.q
  • Interaktif: Buka Hive Shell secara langsung dan kirimkan kueri secara manual untuk mendapatkan hasilnya. Misalnya, $bin/hive, buka shell sarang

Buat daftar beberapa batasan Hive

  • Ini menawarkan dukungan subquery terbatas
  • Kueri sarang memiliki latensi tinggi
  • Tampilan terwujud tidak diizinkan di Apache Hive
  • Itu tidak menyediakan kueri waktu nyata, pembaruan tingkat baris, pembaruan, dan operasi penghapusan
  • Apache Hive tidak cocok untuk proses transisi online atau OLTP

Menyimpulkan

Dalam tutorial Hadoop Hive ini , kami membahas berbagai aspek Hive, penggunaannya, dan arsitekturnya. Kami juga mempelajari cara kerjanya dan mendiskusikan keterbatasannya. Semua informasi ini akan membantu Anda memulai perjalanan belajar Hive Anda. Bagaimanapun, ini adalah salah satu kerangka kerja data besar yang paling banyak digunakan dan tepercaya!

Jika Anda tertarik untuk mengetahui lebih banyak tentang Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, praktik langsung lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Pelajari Kursus Pengembangan Perangkat Lunak online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Pimpin Revolusi Teknologi Berbasis Data

7 Studi Kasus & Proyek. Bantuan Pekerjaan dengan Perusahaan Top. Mentor Mahasiswa Berdedikasi.
Program Sertifikat Tingkat Lanjut dalam Data Besar dari IIIT Bangalore