Arsitektur HBase: Semua yang Perlu Anda Ketahui [2022]

Diterbitkan: 2021-01-06

Data terstruktur dan tidak terstruktur tumbuh secara eksponensial, dan Apache Hadoop telah membuktikan keunggulannya dalam menangani data yang begitu besar. Oleh karena itu, Apache Hadoop telah memperoleh banyak daya tarik di dunia data besar. Namun, ada batasan tertentu pada arsitektur HDFS Hadoop.

HDFS menghasilkan operasi latensi tinggi dan tidak dapat menangani permintaan baca dan tulis dalam jumlah besar secara bersamaan. Keterbatasan lain adalah bahwa HDFS adalah arsitektur tulis-sekali baca berkali-kali, yang berarti bahwa ia harus menulis ulang file sepenuhnya untuk mengubah kumpulan data. Keterbatasan arsitektur HDFS ini meningkatkan kebutuhan akan arsitektur HBase .

Daftar isi

Apa itu HBase?

HBase adalah arsitektur penyimpanan data berorientasi kolom yang dibentuk di atas HDFS untuk mengatasi keterbatasannya. Ini memanfaatkan fitur dasar HDFS dan membangunnya untuk memberikan skalabilitas dengan menangani sejumlah besar permintaan baca dan tulis secara real-time. Meskipun arsitektur HBase adalah database NoSQL, ini memudahkan proses pemeliharaan data dengan mendistribusikannya secara merata di seluruh cluster. Ini membuat pengaksesan dan pengubahan data dalam model data HBase menjadi cepat. Pelajari lebih lanjut tentang HBase.

Apa saja Komponen Model Data HBase?

Karena model data HBase adalah database NoSQL, pengembang dapat dengan mudah membaca dan menulis data saat dan saat diperlukan, membuatnya lebih cepat daripada arsitektur HDFS. Ini terdiri dari komponen-komponen berikut:

1. Tabel HBase : Arsitektur HBase berorientasi kolom; maka data disimpan dalam tabel yang dalam format berbasis tabel.

2. RowKey : RowKey diberikan ke setiap set data yang direkam. Ini memudahkan pencarian data spesifik dalam tabel HBase.

3. Kolom : Kolom adalah atribut yang berbeda dari kumpulan data. Setiap RowKey dapat memiliki kolom tak terbatas.

4. Keluarga Kolom : Keluarga kolom merupakan gabungan dari beberapa kolom. Satu permintaan untuk membaca rumpun kolom memberikan akses ke semua kolom dalam rumpun tersebut, membuatnya lebih cepat dan lebih mudah untuk membaca data.

5. Kualifikasi Kolom : Kualifikasi kolom seperti judul kolom atau nama atribut dalam tabel biasa.

6. Sel : Ini adalah tupel baris-kolom yang diidentifikasi menggunakan RowKey dan kualifikasi kolom.

7. Timestamp : Setiap kali data disimpan dalam model data HBase, data tersebut disimpan dengan timestamp.

Baca: Komponen Ekosistem Hadoop

Apa saja Komponen Arsitektur HBase?

Arsitektur HBase terdiri dari tiga komponen utama, HMaster, Region Server, dan ZooKeeper.

1. HMaster

HMaster beroperasi mirip dengan namanya. Ini adalah master yang menetapkan wilayah ke Server Wilayah (budak). Arsitektur HBase menggunakan proses Auto Sharding untuk memelihara data. Dalam proses ini, setiap kali tabel HBase menjadi terlalu panjang, tabel tersebut didistribusikan oleh sistem dengan bantuan HMaster. Beberapa tanggung jawab khas HMaster meliputi:

Kontrol kegagalan
Kelola Server Wilayah dan cluster Hadoop
Menangani operasi DDL seperti membuat dan menghapus tabel
Kelola perubahan dalam operasi metadata
Kelola dan tetapkan wilayah ke Server Wilayah
Terima permintaan dan kirimkan ke Server Wilayah yang relevan

2. Server Wilayah

Server Wilayah adalah node akhir yang menangani semua permintaan pengguna. Beberapa wilayah digabungkan dalam satu Server Wilayah. Wilayah ini berisi semua baris di antara kunci yang ditentukan. Menangani permintaan pengguna adalah tugas yang kompleks untuk dijalankan, dan karenanya Server Wilayah dibagi lagi menjadi empat komponen berbeda untuk membuat pengelolaan permintaan menjadi mulus.

Write-Ahead Log (WAL) : WAL dilampirkan ke setiap Server Wilayah dan menyimpan semacam data sementara yang belum dikomit ke drive.
Block Cache : Ini adalah cache permintaan baca; semua data yang baru dibaca disimpan dalam cache blok. Data yang tidak sering digunakan secara otomatis dihapus dari stok jika sudah penuh.
MemStore : Ini adalah cache tulis yang bertanggung jawab untuk menyimpan data yang belum ditulis ke disk.
HFile : HFile menyimpan semua data aktual setelah komitmen.

3. Penjaga Kebun Binatang

ZooKeeper bertindak sebagai jembatan melintasi komunikasi arsitektur HBase . Ini bertanggung jawab untuk melacak semua Server Wilayah dan wilayah yang ada di dalamnya. Memantau Server Wilayah dan HMaster mana yang aktif dan mana yang gagal juga merupakan bagian dari tugas ZooKeeper. Ketika menemukan bahwa Wilayah Server telah gagal, itu memicu HMaster untuk mengambil tindakan yang diperlukan. Di sisi lain, jika HMaster itu sendiri gagal, itu memicu HMaster yang tidak aktif yang menjadi aktif setelah peringatan. Setiap pengguna dan bahkan HMaster harus melalui ZooKeeper untuk mengakses Server Wilayah dan data di dalamnya. ZooKeeper menyimpan file .Meta , yang berisi daftar semua Server Wilayah. Tanggung jawab ZooKeeper meliputi:

Membangun komunikasi di seluruh cluster Hadoop
Mempertahankan informasi konfigurasi
Pelacakan Server Wilayah dan kegagalan HMaster
Memelihara informasi Server Wilayah

Bagaimana Permintaan Ditangani dalam arsitektur HBase?

Sekarang karena kita mengetahui komponen utama arsitektur HBase dan fungsinya, mari kita pelajari lebih dalam bagaimana permintaan ditangani di seluruh arsitektur.

1. Memulai Pencarian di Arsitektur HBase

Langkah-langkah untuk menginisialisasi pencarian adalah:

Pengguna mengambil tabel Meta dari ZooKeeper dan kemudian meminta lokasi Server Wilayah yang relevan.
Kemudian pengguna akan meminta data yang tepat dari Server Wilayah dengan bantuan RowKey.

2. Mekanisme Penulisan dalam Arsitektur HBase

Langkah-langkah menulis dalam arsitektur HBase adalah:

Klien pertama-tama harus menemukan Server Wilayah dan kemudian lokasi data untuk mengubahnya. (Langkah ini hanya terlibat untuk mengonversi data dan bukan untuk menulis informasi baru)
Permintaan tulis yang sebenarnya dimulai di WAL, tempat klien menulis data.
WAL mentransfer data ke MemStore dan mengirimkan pengakuan kepada pengguna.
Ketika MemStore diisi dengan data, data tersebut dikomit ke HFile, di mana ia disimpan.

3. Baca Mekanisme dalam Arsitektur HBase

Untuk membaca data apa pun, pengguna harus mengakses Server Wilayah yang relevan terlebih dahulu. Setelah Server Wilayah diketahui, proses lainnya meliputi:

Pemindaian pertama dilakukan di cache baca, yang merupakan cache Blokir.
Lokasi scan selanjutnya adalah MemStore yang merupakan write cache.
Jika data tidak ditemukan di cache blok atau MemStore, pemindai akan mengambil data dari HFile.

Bagaimana Pemulihan Data Beroperasi dalam Arsitektur HBase?

Arsitektur Hbase memecah data melalui pemadatan dan pemisahan wilayah untuk mengurangi beban data dalam cluster. Namun jika terjadi crash dan diperlukan recovery, begini caranya:

ZooKeeper memicu HMaster ketika terjadi kegagalan server.
HMaster mendistribusikan wilayah yang rusak dan WAL ke Server Wilayah yang aktif.
Server Wilayah ini menjalankan ulang WAL dan membangun MemStore.
Ketika semua Server Wilayah menjalankan ulang WAL, semua data bersama dengan keluarga kolom akan dipulihkan.

Lihat: Ekosistem & Komponen Hadoop

Intinya

Data telah menjadi minyak baru di berbagai industri. Karenanya ada banyak peluang karir di Hadoop. Anda dapat mempelajari semua tentang Hadoop dan Big Data di upGrad .

Jika Anda tertarik untuk mengetahui lebih banyak tentang Hbase, Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, tangan praktis -di lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Pelajari Kursus Pengembangan Perangkat Lunak online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Lanjutan, atau Program Magister untuk mempercepat karier Anda.

Kuasai Teknologi Masa Depan - Big Data

400+ JAM BELAJAR. 14 BAHASA & ALAT. STATUS ALUMNI IIIT-B.

Program Sertifikat Tingkat Lanjut dalam Data Besar dari IIIT Bangalore