Pertanyaan & Jawaban Wawancara HBase Paling Umum [Panduan Utama]

Diterbitkan: 2020-09-21

Apache HBase adalah solusi data besar yang sangat baik ketika Anda ingin aplikasi Anda mendorong atau menarik data secara real-time. Ini terutama dikenal karena skemanya yang fleksibel dan kecepatan tinggi. Artikel ini bertujuan untuk memberi Anda jawaban atas beberapa pertanyaan wawancara HBase teratas . Pewawancara ingin menguji pengetahuan teknis dan umum kandidat. Jadi, upaya Anda harus mengkomunikasikan konsep secara tepat dan menyeluruh.

Banyak perusahaan terkemuka menggunakan teknologi Hbase di seluruh dunia, termasuk Adobe, HubSpot, Facebook, Twitter, Yahoo!, dan OpenLogic, dan StumbleUpon. Untuk calon pengembang web yang ingin membangun situs web yang skalabel, menguasai alat seperti Hadoop dan HBase terbukti sangat berguna.

Pelajari ilmu data dari Universitas top Dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Baca: Ide Proyek Hadoop

Daftar isi

Pertanyaan & Jawaban Wawancara HBase Teratas

1. Apa itu HBase?

Ini adalah database berorientasi kolom yang dikembangkan oleh Apache Software Foundation. Berjalan di atas cluster Hadoop, HBase digunakan untuk menyimpan data semi-terstruktur dan tidak terstruktur. Jadi, ia tidak memiliki skema kaku seperti database relasional tradisional. Juga, itu tidak mendukung struktur sintaks SQL. HBase menyimpan dan mengoperasikan data melalui node master yang mengatur server cluster dan wilayah.

2. Apa alasan menggunakan Hbase?

HBase menawarkan sistem penyimpanan berkapasitas tinggi dan operasi baca dan tulis acak. Itu dapat menangani kumpulan data besar, melakukan beberapa operasi per detik. Desain terdistribusi dan dapat diskalakan secara horizontal menjadikan HBase pilihan populer untuk aplikasi waktu nyata.

3. Jelaskan komponen kunci dari HBase.

Bagian kerja HBase termasuk Zookeeper, HBase Master, RegionServer, Region, dan Tabel Katalog. Tujuan dari masing-masing elemen tersebut dapat dijelaskan sebagai berikut:

  • Zookeeper berkoordinasi antara klien dan Master HBase
  • HBase Master memonitor RegionServer dan menangani fungsi admin
  • RegionServer mengawasi Region
  • Wilayah berisi MemStore dan HFile
  • Tabel Katalog terdiri dari ROOT dan META

Pada dasarnya, Hbase terdiri dari sekumpulan tabel dengan setiap tabel memiliki baris, kolom, dan kunci utama. Ini adalah kolom HBase yang menunjukkan atribut objek.

4. Apa saja jenis-jenis perintah operasional di HBase?

Ada lima perintah operasional penting di HBase: Get, Delete, Put, Increment, dan Scan.

Get digunakan untuk membaca tabel. Dieksekusi melalui HTable.get, ini mengembalikan data atau atribut dari baris tertentu dari tabel. Hapus menghapus baris dari tabel, sedangkan Put menambahkan atau memperbarui baris. Increment memungkinkan operasi increment pada satu baris. Terakhir, Scan digunakan untuk mengulangi beberapa baris untuk atribut tertentu.

5. Apa yang anda pahami tentang WAL dan Hlog?

  • WAL adalah singkatan dari Write Ahead Log dan sangat mirip dengan log BIN di MySQL. Ini mencatat semua perubahan dalam data.
  • HLog adalah file urutan dalam memori standar Hadoop yang memelihara penyimpanan HLogkey.

WAL dan HLog berfungsi sebagai penyelamat jika terjadi kegagalan server dan kehilangan data. Jika RegionServer lumpuh atau menjadi tidak tersedia, file WAL memastikan bahwa perubahan data dapat diputar ulang.

6. Jelaskan beberapa situasi di mana Anda akan menggunakan Hbase.

Sangat cocok untuk menggunakan HBase ketika:

  • Ukuran data Anda sangat besar, mengharuskan Anda untuk mengoperasikan jutaan catatan.
  • Anda menerapkan desain ulang lengkap dan merombak RDBMS konvensional.
  • Anda memiliki sumber daya untuk melakukan investasi infrastruktur dalam klaster.
  • Ada perintah tanpa SQL tertentu, seperti transaksi, kolom yang diketik, baris dalam, dll.

7. Apa yang Anda maksud dengan keluarga kolom dan kunci baris?

Keluarga kolom merupakan unit penyimpanan dasar di HBase. Ini ditentukan selama pembuatan tabel dan disimpan bersama di disk, yang kemudian memungkinkan penerapan fitur seperti kompresi.

Kunci baris memungkinkan pengelompokan sel secara logis. Itu diawali dengan kunci gabungan, membiarkan aplikasi menentukan urutan pengurutan. Dengan cara ini, semua sel dengan kunci baris yang sama dapat disimpan di server yang sama.

8. Bagaimana HBase berbeda dari database relasional?

HBase berbeda dari database relasional karena merupakan penyimpanan data berorientasi kolom tanpa skema yang berisi tabel yang jarang penduduknya. Database relasional berbasis skema, berorientasi baris, dan menyimpan data yang dinormalisasi dalam tabel tipis. Selain itu, HBase memiliki keuntungan dari partisi otomatis, sedangkan tidak ada dukungan built-in seperti itu di RDBMS.

Baca: DBMS vs. RDBMS: Perbedaan Antara DBMS & RDBMS

9. Apa yang dimaksud dengan sel dalam HBase?

Sel adalah unit terkecil dari tabel HBase, menyimpan data dalam bentuk tupel. Tuple adalah struktur data yang memiliki banyak bagian. Di HBase, ini terdiri dari {baris, kolom, versi}.

10. Tentukan pemadatan di HBase.

Pemadatan adalah proses yang digunakan untuk menggabungkan HFiles menjadi satu file sebelum file lama dihapus dari database.

11. Bisakah Anda mengakses HFile secara langsung tanpa menggunakan HBase?

Ya, ada teknik unik untuk mengakses HFile secara langsung tanpa bantuan HBase. Metode HFile.main dapat digunakan untuk tujuan ini.

12. Diskusikan penghapusan dan penanda batu nisan di HBase.

Dalam HBase, proses penghapusan normal menghasilkan penanda batu nisan. Sel yang dihapus menjadi tidak terlihat, tetapi data yang diwakilinya sebenarnya dihapus selama pemadatan. HBase memiliki tiga jenis penanda batu nisan:

  • Penanda penghapusan versi: Ini menandai satu versi kolom untuk dihapus
  • Penanda penghapusan kolom: Ini menandai semua versi kolom
  • Penanda penghapusan keluarga: Ini mengatur semua kolom dari keluarga kolom untuk dihapus

Di sini, perlu dicatat bahwa baris di HBase akan dihapus seluruhnya setelah pemadatan besar-besaran. Oleh karena itu, saat Anda menghapus dan menambahkan lebih banyak data, Gets mungkin ditutupi oleh penanda batu nisan, dan Anda mungkin tidak melihat nilai yang disisipkan hingga setelah pemadatan.

13. Apa yang terjadi ketika Anda mengubah ukuran blok dari keluarga kolom?

Jika database Anda sudah terisi dan Anda ingin mengubah ukuran blok keluarga kolom Anda di HBase, data lama mungkin tetap dalam ukuran blok lama. Selama pemadatan, data lama dan baru akan berperilaku seperti ini:

  • Data yang ada akan mengambil ukuran blok baru dan terus dibaca dengan benar.
  • File baru akan memiliki ukuran blok baru.

Dengan cara ini, semua data berubah menjadi ukuran blok yang diinginkan sebelum pemadatan besar berikutnya.

14. Tentukan mode berbeda yang dapat dijalankan oleh HBase.

HBase dapat berjalan dalam mode mandiri atau mode terdistribusi. Standalone adalah mode default HBase yang menggunakan sistem file lokal alih-alih HDFS. Adapun mode terdistribusi, dapat dibagi lagi menjadi:

  • Mode terdistribusi semu: Semua daemon berjalan pada satu node
  • Mode terdistribusi penuh: Daemon berjalan di semua node dalam cluster

15. Bagaimana Anda menerapkan join di HBase?

HBase menggunakan pekerjaan MapReduce untuk memproses terabyte data dengan cara yang skalabel. Itu tidak secara langsung mendukung bergabung, tetapi kueri bergabung diimplementasikan dengan mengambil data dari tabel HBase.

Checkout: Pertanyaan Wawancara Hadoop

16. Diskusikan tujuan filter di HBase.

Filter diperkenalkan di Apache HBase 0.92 untuk membantu pengguna mengakses HBase melalui Shell atau Thrift. Jadi, mereka menangani kebutuhan penyaringan sisi server Anda. Ada juga filter dekorasi yang memperluas penggunaan filter untuk mendapatkan kontrol tambahan atas data yang dikembalikan. Berikut adalah beberapa contoh filter di HBase:

  • Filter Bloom: Biasanya digunakan untuk kueri waktu nyata, ini adalah cara hemat ruang untuk mengetahui apakah HFile menyertakan baris atau sel tertentu
  • Filter Halaman: Menerima ukuran halaman sebagai parameter, Filter Halaman dapat mengoptimalkan pemindaian masing-masing HRegions

17. Bandingkan HBase dengan (i) Cassandra (ii) Hive.

(i) HBase dan Cassandra: Baik Cassandra maupun HBase adalah database NoSQL yang dirancang untuk mengelola kumpulan data besar. Namun, sintaks Cassandra Query Language (CQL ) dimodelkan setelah SQL. Di kedua penyimpanan data, kunci baris membentuk indeks utama. Cassandra dapat membuat indeks sekunder pada nilai kolom. Sehingga dapat meningkatkan akses data pada kolom dengan tingkat pengulangan yang tinggi. HBase tidak memiliki ketentuan ini tetapi memiliki mekanisme lain untuk membawa fungsionalitas indeks sekunder. Metode ini dapat dengan mudah ditemukan di panduan referensi online.

(ii) HBase dan Hive: Keduanya adalah teknologi berbasis Hadoop. Seperti dibahas di atas, HBase adalah basis data kunci/nilai NoSQL. Di sisi lain, Hive adalah mesin seperti SQL yang mampu menjalankan pekerjaan MapReduce yang canggih. Anda dapat melakukan operasi baca dan tulis data dari Hive ke HBase dan sebaliknya. Sementara Hive lebih cocok untuk tugas analitis, HBase adalah solusi yang sangat baik untuk kueri waktu nyata.

Baca Juga: Arsitektur HBase: Semua yang Perlu Anda Ketahui

Kesimpulan

Pertanyaan wawancara dan kasus penggunaan HBase ini membawa kita ke akhir artikel ini. Kami mencoba untuk membahas topik yang berbeda untuk memenuhi tingkat dasar, menengah, dan lanjutan. Jadi, teruslah merevisi untuk membuat kesan yang luar biasa pada perekrut Anda!

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Kuasai Teknologi Masa Depan

DAFTAR UNTUK PROGRAM SERTIFIKAT LANJUTAN DALAM ILMU DATA