35 Pertanyaan dan Jawaban Wawancara Big Data yang Wajib Diketahui 2022: Untuk Freshers & Berpengalaman
Diterbitkan: 2021-01-05Menghadiri wawancara big data dan bertanya-tanya apa saja pertanyaan dan diskusi yang akan Anda lalui? Sebelum menghadiri wawancara big data, ada baiknya Anda memiliki gambaran tentang jenis pertanyaan wawancara big data agar Anda bisa mempersiapkan mental jawabannya.
Untuk membantu Anda, saya telah membuat panduan pertanyaan dan jawaban wawancara big data teratas untuk memahami kedalaman dan maksud sebenarnya dari pertanyaan wawancara big data.
Anda tidak akan percaya bagaimana Program ini Mengubah Karir Siswa
Kita berada di era Big Data dan analitik. Dengan data yang mendukung segala sesuatu di sekitar kita, tiba-tiba ada lonjakan permintaan untuk profesional data yang terampil. Organisasi selalu mencari individu yang memiliki keterampilan tinggi yang dapat membantu mereka memahami tumpukan data mereka.
Kata kuncinya di sini adalah 'keterampilan tinggi' dan karenanya wawancara Big Data tidak benar-benar cakewalk. Ada beberapa pertanyaan wawancara Big Data penting yang harus Anda ketahui sebelum menghadirinya. Ini akan membantu Anda menemukan jalan Anda.
Pertanyaan-pertanyaan telah disusun dalam urutan yang akan membantu Anda mengambil dari dasar-dasar dan mencapai tingkat yang agak maju.
Pertanyaan & Jawaban Wawancara Big Data
1. Definisikan Big Data dan jelaskan Vs dari Big Data.

Ini adalah salah satu pertanyaan wawancara Big Data yang paling pengantar namun penting. Jawaban untuk ini cukup mudah:
Big Data dapat didefinisikan sebagai kumpulan kumpulan data kompleks yang tidak terstruktur atau semi-terstruktur yang memiliki potensi untuk memberikan wawasan yang dapat ditindaklanjuti.
Empat Vs Big Data adalah –
Volume – Berbicara tentang jumlah data
Ragam – Berbicara tentang berbagai format data
Velocity – Berbicara tentang kecepatan pertumbuhan data yang semakin meningkat
Veracity – Berbicara tentang tingkat akurasi data yang tersedia
Tutorial Big Data untuk Pemula: Semua yang Perlu Anda Ketahui
2. Bagaimana Hadoop terkait dengan Big Data?
Ketika kita berbicara tentang Big Data, kita berbicara tentang Hadoop. Jadi, ini adalah pertanyaan wawancara Big Data lain yang pasti akan Anda hadapi dalam sebuah wawancara.
Hadoop adalah kerangka kerja sumber terbuka untuk menyimpan, memproses, dan menganalisis kumpulan data kompleks yang tidak terstruktur untuk memperoleh wawasan dan kecerdasan.
3. Definisikan HDFS dan YARN, dan bicarakan komponennya masing-masing.
Sekarang kita berada di zona Hadoop, pertanyaan wawancara Big Data berikutnya yang mungkin Anda hadapi akan berkisar pada hal yang sama.
HDFS adalah unit penyimpanan default Hadoop dan bertanggung jawab untuk menyimpan berbagai jenis data dalam lingkungan terdistribusi.
HDFS memiliki dua komponen berikut:
NameNode – Ini adalah master node yang memiliki informasi metadata untuk semua blok data di HDFS.
DataNode – Ini adalah node yang bertindak sebagai node budak dan bertanggung jawab untuk menyimpan data.
YARN, kependekan dari Yet Another Resource Negotiator , bertanggung jawab untuk mengelola sumber daya dan menyediakan lingkungan eksekusi untuk proses tersebut.
Dua komponen utama BENANG adalah –
ResourceManager – Bertanggung jawab untuk mengalokasikan sumber daya ke masing-masing NodeManager berdasarkan kebutuhan.
NodeManager – Menjalankan tugas di setiap DataNode.
7 Proyek Big Data Menarik yang Perlu Anda Waspadai
4. Apa yang Anda maksud dengan perangkat keras komoditas?
Ini adalah pertanyaan wawancara Big Data lainnya yang kemungkinan besar akan Anda temui dalam wawancara apa pun yang Anda ikuti.
Perangkat Keras Komoditas mengacu pada sumber daya perangkat keras minimal yang diperlukan untuk menjalankan kerangka kerja Apache Hadoop. Perangkat keras apa pun yang mendukung persyaratan minimum Hadoop dikenal sebagai 'Perangkat Keras Komoditas.'
5. Definisikan dan jelaskan istilah FSCK.
FSCK adalah singkatan dari Filesystem Check. Ini adalah perintah yang digunakan untuk menjalankan laporan ringkasan Hadoop yang menjelaskan status HDFS. Itu hanya memeriksa kesalahan dan tidak memperbaikinya. Perintah ini dapat dijalankan di seluruh sistem atau subset file.
6. Apa tujuan dari perintah JPS di Hadoop?
Perintah JPS digunakan untuk menguji kerja semua daemon Hadoop. Ini secara khusus menguji daemon seperti NameNode, DataNode, ResourceManager, NodeManager dan banyak lagi.
(Dalam wawancara Big Data, Anda mungkin menemukan satu pertanyaan tentang JPS dan pentingnya hal itu.)
Big Data: Alat dan Teknologi yang Harus Diketahui
7. Sebutkan perintah yang berbeda untuk memulai dan mematikan Hadoop Daemons.
Ini adalah salah satu pertanyaan wawancara Big Data yang paling penting untuk membantu pewawancara mengukur pengetahuan Anda tentang perintah.
Untuk memulai semua daemon:
./sbin/start-all.sh
Untuk mematikan semua daemon:
./sbin/stop-all.sh
8. Mengapa kita membutuhkan Hadoop untuk Big Data Analytics?
Pertanyaan wawancara Hadoop ini menguji kesadaran Anda tentang aspek praktis Big Data dan Analytics.
Dalam kebanyakan kasus, Hadoop membantu dalam mengeksplorasi dan menganalisis kumpulan data yang besar dan tidak terstruktur. Hadoop menawarkan kemampuan penyimpanan, pemrosesan, dan pengumpulan data yang membantu dalam analitik.
9. Jelaskan perbedaan fitur Hadoop.
Terdaftar di banyak Pertanyaan dan Jawaban Wawancara Big Data, jawaban terbaik untuk ini adalah –
Sumber Terbuka – Hadoop adalah platform sumber terbuka. Ini memungkinkan kode untuk ditulis ulang atau dimodifikasi sesuai dengan kebutuhan pengguna dan analitik.
Skalabilitas – Hadoop mendukung penambahan sumber daya perangkat keras ke node baru.
Pemulihan Data – Hadoop mengikuti replikasi yang memungkinkan pemulihan data jika terjadi kegagalan.
Lokalitas Data – Ini berarti Hadoop memindahkan komputasi ke data dan bukan sebaliknya. Dengan cara ini, seluruh proses dipercepat.
10. Tentukan Nomor Port untuk NameNode, Task Tracker dan Job Tracker.
NameNode – Port 50070
Pelacak Tugas – Port 50060
Pelacak Pekerjaan – Port 50030
11. Apa yang Anda maksud dengan pengindeksan di HDFS?
HDFS mengindeks blok data berdasarkan ukurannya. Ujung blok data menunjuk ke alamat tempat potongan blok data berikutnya disimpan. DataNodes menyimpan blok data sementara NameNode menyimpan blok data ini.
Aplikasi Big Data dalam Budaya Pop
12. Apa itu Edge Node di Hadoop?
Node tepi mengacu pada node gateway yang bertindak sebagai antarmuka antara cluster Hadoop dan jaringan eksternal. Node ini menjalankan aplikasi klien dan alat manajemen klaster dan juga digunakan sebagai area pementasan. Kemampuan penyimpanan kelas perusahaan diperlukan untuk Edge Node, dan satu edge node biasanya cukup untuk beberapa cluster Hadoop.
13. Apa saja alat manajemen data yang digunakan dengan Edge Nodes di Hadoop?
Pertanyaan wawancara Big Data ini bertujuan untuk menguji kesadaran Anda tentang berbagai alat dan kerangka kerja.
Oozie, Ambari, Pig dan Flume adalah alat manajemen data paling umum yang bekerja dengan Edge Nodes di Hadoop.
14. Jelaskan metode inti dari Peredam.
Ada tiga metode inti peredam. Mereka-
setup() – Ini digunakan untuk mengonfigurasi parameter yang berbeda seperti ukuran heap, cache terdistribusi, dan data input.
reduce() – Parameter yang dipanggil sekali per kunci dengan tugas pengurangan yang bersangkutan
cleanup() – Menghapus semua file sementara dan dipanggil hanya di akhir tugas peredam.
15. Bicara tentang penanda batu nisan yang berbeda yang digunakan untuk tujuan penghapusan di HBase.
Pertanyaan wawancara Big Data ini menyelami pengetahuan Anda tentang HBase dan cara kerjanya.
Ada tiga penanda batu nisan utama yang digunakan untuk penghapusan di HBase. Mereka-
Family Delete Marker – Untuk menandai semua kolom dari keluarga kolom.
Version Delete Marker – Untuk menandai satu versi dari satu kolom.
Column Delete Marker – Untuk menandai semua versi dari satu kolom.
Insinyur Data Besar: Mitos vs. Realitas
16. Bagaimana Big Data dapat menambah nilai bisnis?
Salah satu pertanyaan wawancara big data yang paling umum. Dalam skenario saat ini, Big Data adalah segalanya. Jika Anda memiliki data, Anda memiliki alat yang paling kuat yang Anda inginkan. Big Data Analytics membantu bisnis mengubah data mentah menjadi wawasan yang bermakna dan dapat ditindaklanjuti yang dapat membentuk strategi bisnis mereka. Kontribusi paling penting dari Big Data untuk bisnis adalah keputusan bisnis berbasis data. Big Data memungkinkan organisasi untuk mendasarkan keputusan mereka pada informasi dan wawasan yang nyata.
Selanjutnya, Predictive Analytics memungkinkan perusahaan untuk membuat rekomendasi dan strategi pemasaran yang disesuaikan untuk persona pembeli yang berbeda. Bersama-sama, alat dan teknologi Big Data membantu meningkatkan pendapatan, merampingkan operasi bisnis, meningkatkan produktivitas, dan meningkatkan kepuasan pelanggan. Faktanya, siapa pun yang tidak memanfaatkan Big Data saat ini kehilangan banyak peluang.
17. Bagaimana Anda menerapkan solusi Big Data?
Anda dapat menerapkan solusi Big Data dalam tiga langkah:
- Penyerapan Data – Ini adalah langkah pertama dalam penerapan solusi Big Data. Anda mulai dengan mengumpulkan data dari berbagai sumber, baik itu platform media sosial, file log, dokumen bisnis, apa pun yang relevan dengan bisnis Anda. Data dapat diekstraksi melalui streaming waktu nyata atau dalam pekerjaan batch.
- Penyimpanan Data – Setelah data diekstraksi, Anda harus menyimpan data dalam database. Ini bisa berupa HDFS atau HBase. Sementara penyimpanan HDFS sempurna untuk akses sekuensial, HBase sangat ideal untuk akses baca/tulis acak.
- Pemrosesan Data – Langkah terakhir dalam penerapan solusi adalah pemrosesan data. Biasanya, pemrosesan data dilakukan melalui kerangka kerja seperti Hadoop, Spark, MapReduce, Flink, dan Pig, untuk beberapa nama.
18. Apa perbedaan NFS dengan HDFS?
Network File System (NFS) adalah salah satu sistem penyimpanan file terdistribusi tertua, sementara Hadoop Distributed File System (HDFS) menjadi sorotan baru-baru ini setelah kebangkitan Big Data.
Tabel di bawah ini menyoroti beberapa perbedaan paling mencolok antara NFS dan HDFS:
NFS | HDFS |
Ini dapat menyimpan dan memproses volume data yang kecil. | Ini secara eksplisit dirancang untuk menyimpan dan memproses Big Data. |
Data disimpan dalam perangkat keras khusus. | Data dibagi menjadi blok data yang didistribusikan pada drive lokal perangkat keras. |
Dalam kasus kegagalan sistem, Anda tidak dapat mengakses data. | Data dapat diakses bahkan dalam kasus kegagalan sistem. |
Karena NFS berjalan pada satu mesin, tidak ada kemungkinan redundansi data. | HDFS berjalan pada sekelompok mesin, dan karenanya, protokol replikasi dapat menyebabkan data yang berlebihan. |
19. Buat daftar hak akses file yang berbeda dalam HDFS untuk file atau tingkat direktori.
Salah satu pertanyaan wawancara big data yang umum. Sistem file terdistribusi Hadoop (HDFS) memiliki izin khusus untuk file dan direktori. Ada tiga level pengguna di HDFS – Pemilik, Grup, dan Lainnya. Untuk setiap level pengguna, ada tiga izin yang tersedia:
- baca (r)
- tulis (w)
- jalankan (x).
Ketiga izin ini bekerja secara unik untuk file dan direktori.
Untuk file-
- Izin r adalah untuk membaca file
- Izin w adalah untuk menulis file.
Meskipun ada izin eksekusi(x), Anda tidak dapat menjalankan file HDFS.

Untuk direktori –
- Izin r mencantumkan konten direktori tertentu.
- Izin w membuat atau menghapus direktori.
- Izin X adalah untuk mengakses direktori anak.
20. Uraikan proses yang menimpa faktor replikasi di HDFS.
Di HDFS, ada dua cara untuk menimpa faktor replikasi – berdasarkan file dan direktori.
Berdasarkan File
Dalam metode ini, faktor replikasi berubah sesuai dengan file menggunakan shell Hadoop FS. Perintah berikut digunakan untuk ini:
$hadoop fs – setrep –w2/my/test_file
Di sini, test_file mengacu pada nama file yang faktor replikasinya akan disetel ke 2.
Berdasarkan Direktori
Metode ini mengubah faktor replikasi menurut direktori, dengan demikian, faktor replikasi untuk semua file di bawah direktori tertentu, berubah. Perintah berikut digunakan untuk ini:
$hadoop fs –setrep –w5/my/test_dir
Di sini, test_dir mengacu pada nama direktori yang faktor replikasi dan semua file yang ada di dalamnya akan disetel ke 5.
21. Sebutkan tiga mode di mana Anda dapat menjalankan Hadoop.
Salah satu pertanyaan paling umum dalam wawancara data besar. Ketiga mode tersebut adalah:
- Mode mandiri – Ini adalah mode default Hadoop yang menggunakan sistem file lokal untuk operasi input dan output. Tujuan utama dari mode mandiri adalah debugging. Itu tidak mendukung HDFS dan juga tidak memiliki konfigurasi khusus yang diperlukan untuk file mapred-site.xml, core-site.xml, dan hdfs-site.xml.
- Mode terdistribusi semu – Juga dikenal sebagai kluster simpul tunggal, mode terdistribusi semu mencakup NameNode dan DataNode dalam mesin yang sama. Dalam mode ini, semua daemon Hadoop akan berjalan pada satu node, dan karenanya, node Master dan Slave adalah sama.
- Mode terdistribusi penuh – Mode ini dikenal sebagai cluster multi-node di mana beberapa node berfungsi secara bersamaan untuk menjalankan pekerjaan Hadoop . Di sini, semua daemon Hadoop berjalan di node yang berbeda. Jadi, node Master dan Slave berjalan secara terpisah.
22. Jelaskan “Overfitting.”
Overfitting mengacu pada kesalahan pemodelan yang terjadi ketika suatu fungsi sangat cocok (dipengaruhi) oleh sekumpulan titik data yang terbatas. Overfitting menghasilkan model yang terlalu kompleks yang membuatnya semakin sulit untuk menjelaskan kekhasan atau keanehan dalam data yang ada. Karena mempengaruhi kemampuan generalisasi model, menjadi menantang untuk menentukan hasil bagi prediktif model overfitted. Model ini gagal berfungsi saat diterapkan ke data eksternal (data yang bukan bagian dari data sampel) atau kumpulan data baru.
Overfitting adalah salah satu masalah paling umum dalam Machine Learning. Sebuah model dianggap overfitted ketika berkinerja lebih baik pada set pelatihan tetapi gagal total pada set pengujian. Namun, ada banyak metode untuk mencegah masalah overfitting, seperti validasi silang, pemangkasan, penghentian dini, regularisasi, dan perakitan.
23. Apa itu Seleksi Fitur?
Pemilihan fitur mengacu pada proses mengekstraksi hanya fitur yang diperlukan dari kumpulan data tertentu. Ketika data diekstraksi dari sumber yang berbeda, tidak semua data berguna setiap saat – kebutuhan bisnis yang berbeda memerlukan wawasan data yang berbeda. Di sinilah pemilihan fitur masuk untuk mengidentifikasi dan memilih hanya fitur-fitur yang relevan untuk kebutuhan bisnis tertentu atau tahap pemrosesan data.
Tujuan utama pemilihan fitur adalah untuk menyederhanakan model ML agar analisis dan interpretasinya lebih mudah. Seleksi fitur meningkatkan kemampuan generalisasi model dan menghilangkan masalah dimensi, dengan demikian, mencegah kemungkinan overfitting. Dengan demikian, pemilihan fitur memberikan pemahaman yang lebih baik tentang data yang diteliti, meningkatkan kinerja prediksi model, dan mengurangi waktu komputasi secara signifikan.
Seleksi fitur dapat dilakukan melalui tiga teknik:
- Metode filter
Dalam metode ini, fitur yang dipilih tidak bergantung pada pengklasifikasi yang ditunjuk. Teknik peringkat variabel digunakan untuk memilih variabel untuk tujuan pemesanan. Selama proses klasifikasi, teknik peringkat variabel mempertimbangkan kepentingan dan kegunaan fitur. Uji Chi-Square, Variance Threshold, dan Information Gain adalah beberapa contoh metode filter.
- Metode pembungkus
Dalam metode ini, algoritma yang digunakan untuk seleksi subset fitur ada sebagai 'pembungkus' di sekitar algoritma induksi. Algoritma induksi berfungsi seperti 'Black Box' yang menghasilkan classifier yang selanjutnya digunakan dalam klasifikasi fitur. Kelemahan atau batasan utama dari metode wrapper adalah bahwa untuk mendapatkan subset fitur, Anda perlu melakukan pekerjaan komputasi yang berat. Algoritma Genetika, Sequential Feature Selection, dan Recursive Feature Elimination adalah contoh dari metode wrapper.
- Metode tertanam
Metode yang disematkan menggabungkan yang terbaik dari kedua dunia – termasuk fitur terbaik dari metode filter dan pembungkus. Dalam metode ini, pemilihan variabel dilakukan selama proses pelatihan, sehingga memungkinkan Anda untuk mengidentifikasi fitur yang paling akurat untuk model tertentu. Teknik Regularisasi L1 dan Regresi Ridge adalah dua contoh populer dari metode tertanam.
24. Tentukan "Pencilan."
Pencilan mengacu pada titik data atau pengamatan yang terletak pada jarak abnormal dari nilai lain dalam sampel acak. Dengan kata lain, outlier adalah nilai yang jauh dari kelompok; mereka bukan milik cluster atau grup tertentu dalam kumpulan data. Kehadiran outlier biasanya memengaruhi perilaku model – mereka dapat menyesatkan proses pelatihan algoritme ML. Beberapa dampak merugikan dari outlier termasuk waktu pelatihan yang lebih lama, model yang tidak akurat, dan hasil yang buruk.
Namun, outlier terkadang mengandung informasi yang berharga. Inilah sebabnya mengapa mereka harus diselidiki secara menyeluruh dan diperlakukan sesuai.
25. Sebutkan beberapa teknik deteksi outlier.
Sekali lagi, salah satu pertanyaan wawancara data besar yang paling penting. Berikut adalah enam metode deteksi outlier:
- Analisis Nilai Ekstrim – Metode ini menentukan ekor statistik dari distribusi data. Metode statistik seperti 'skor-z' pada data univariat adalah contoh sempurna dari analisis nilai ekstrem.
- Model Probabilistik dan Statistik – Metode ini menentukan 'contoh yang tidak mungkin' dari 'model probabilistik' data. Contoh yang baik adalah optimasi model campuran Gaussian menggunakan 'ekspektasi-maksimalisasi'.
- Model Linier – Metode ini memodelkan data ke dalam dimensi yang lebih rendah. Model Berbasis Kedekatan – Dalam pendekatan ini, contoh data yang diisolasi dari grup data ditentukan oleh Cluster, Density, atau oleh Nearest Neighbor Analysis.
- Model Teori Informasi – Pendekatan ini berusaha mendeteksi outlier sebagai contoh data buruk yang meningkatkan kompleksitas kumpulan data.
- Deteksi Outlier Dimensi Tinggi – Metode ini mengidentifikasi subruang untuk outlier sesuai dengan ukuran jarak dalam dimensi yang lebih tinggi.
26. Jelaskan Kesadaran Rak di Hadoop.
Rack Awareness adalah salah satu pertanyaan wawancara big data yang populer. Kesadaran Rach adalah algoritme yang mengidentifikasi dan memilih DataNodes lebih dekat ke NameNode berdasarkan informasi rak mereka. Ini diterapkan pada NameNode untuk menentukan bagaimana blok data dan replikanya akan ditempatkan. Selama proses instalasi, asumsi default adalah bahwa semua node milik rak yang sama.
Kesadaran rak membantu untuk:
- Meningkatkan keandalan dan aksesibilitas data.
- Meningkatkan kinerja klaster.
- Meningkatkan bandwidth jaringan.
- Pertahankan aliran curah di rak jika memungkinkan.
- Cegah kehilangan data jika terjadi kegagalan rak total.
27. Bisakah Anda memulihkan NameNode saat sedang down? Jika demikian, bagaimana?
Ya, adalah mungkin untuk memulihkan NameNode saat sedang down. Inilah cara Anda dapat melakukannya:
- Gunakan FsImage (replika metadata sistem file) untuk meluncurkan NameNode baru.
- Konfigurasikan DataNodes bersama dengan klien sehingga mereka dapat mengakui dan merujuk ke NameNode yang baru dimulai.
- Ketika NameNode yang baru dibuat selesai memuat checkpoint terakhir dari FsImage (yang sekarang telah menerima laporan blokir yang cukup dari proses pemuatan DataNodes), ia akan siap untuk mulai melayani klien.
Namun, proses pemulihan NameNode hanya dapat dilakukan untuk cluster yang lebih kecil. Untuk kluster Hadoop yang besar, proses pemulihan biasanya memakan banyak waktu, sehingga menjadikannya tugas yang cukup menantang.
28. Beri nama parameter konfigurasi kerangka kerja MapReduce.
Parameter konfigurasi dalam kerangka MapReduce meliputi:
- Format masukan data.
- Format keluaran data.
- Lokasi input pekerjaan dalam sistem file terdistribusi.
- Lokasi keluaran pekerjaan dalam sistem file terdistribusi.
- Kelas yang berisi fungsi peta
- Kelas yang berisi fungsi pengurangan
- File JAR yang berisi kelas mapper, peredam, dan driver.
29. Apa itu Cache Terdistribusi? Apa manfaatnya?
Panduan Pertanyaan dan Jawaban Wawancara Big Data tidak akan lengkap tanpa pertanyaan ini. Cache terdistribusi di Hadoop adalah layanan yang ditawarkan oleh kerangka kerja MapReduce yang digunakan untuk menyimpan file. Jika file di-cache untuk pekerjaan tertentu, Hadoop membuatnya tersedia di DataNodes individual baik di memori maupun di sistem tempat tugas peta dan pengurangan dieksekusi secara bersamaan. Ini memungkinkan Anda mengakses dan membaca file cache dengan cepat untuk mengisi koleksi apa pun (seperti array, hashmap, dll.) dalam sebuah kode.
Cache terdistribusi menawarkan manfaat berikut:
- Ini mendistribusikan file teks/data sederhana dan hanya-baca dan jenis kompleks lainnya seperti toples, arsip, dll.
- Ini melacak cap waktu modifikasi file cache yang menyoroti file yang tidak boleh dimodifikasi sampai pekerjaan berhasil dijalankan.
30. Apa itu SequenceFile di Hadoop?
Di Hadoop, SequenceFile adalah file datar yang berisi pasangan nilai kunci biner. Ini paling sering digunakan dalam format I/O MapReduce. Keluaran peta disimpan secara internal sebagai SequenceFile yang menyediakan kelas pembaca, penulis, dan penyortir.
Ada tiga format SequenceFile:
- Catatan nilai kunci yang tidak terkompresi
- Rekam catatan nilai kunci terkompresi (hanya 'nilai' yang dikompresi).
- Memblokir rekaman nilai kunci terkompresi (di sini, kunci dan nilai dikumpulkan dalam 'blok' secara terpisah dan kemudian dikompresi).
31. Jelaskan peran JobTracker.
Salah satu pertanyaan wawancara big data yang umum. Fungsi utama JobTracker adalah manajemen sumber daya, yang pada dasarnya berarti mengelola TaskTracker. Selain itu, JobTracker juga melacak ketersediaan sumber daya dan menangani manajemen siklus hidup tugas (melacak kemajuan tugas dan toleransi kesalahannya).
Beberapa fitur penting dari JobTracker adalah:
- Ini adalah proses yang berjalan pada node yang terpisah (bukan pada DataNode).
- Ini berkomunikasi dengan NameNode untuk mengidentifikasi lokasi data.
- Ini melacak eksekusi beban kerja MapReduce.
- Ini mengalokasikan node TaskTracker berdasarkan slot yang tersedia.
- Ini memonitor setiap TaskTracker dan mengirimkan laporan pekerjaan secara keseluruhan ke klien.
- Ia menemukan node TaskTracker terbaik untuk menjalankan tugas-tugas tertentu pada node tertentu.
32. Sebutkan format input umum di Hadoop.
Hadoop memiliki tiga format input umum:
- Format Input Teks – Ini adalah format input default di Hadoop.
- Format Input File Urutan – Format input ini digunakan untuk membaca file secara berurutan.
- Format Input Nilai Kunci – Format input ini digunakan untuk file teks biasa (file dipecah menjadi beberapa baris).
33. Apa perlunya Lokalitas Data di Hadoop?
Salah satu pertanyaan wawancara big data yang penting. Di HDFS, kumpulan data disimpan sebagai blok di DataNodes di cluster Hadoop. Saat pekerjaan MapReduce dijalankan, masing-masing Mapper memproses blok data (Pemisahan Input). Jika data tidak ada di node yang sama tempat Mapper menjalankan pekerjaan, data harus disalin dari DataNode tempat ia berada melalui jaringan ke Mapper DataNode.
Ketika pekerjaan MapReduce memiliki lebih dari seratus Pemeta dan setiap Pemeta DataNode mencoba untuk menyalin data dari DataNode lain di cluster secara bersamaan, itu akan menyebabkan kemacetan jaringan, sehingga berdampak negatif pada kinerja sistem secara keseluruhan. Di sinilah Data Locality memasuki skenario. Alih-alih memindahkan sebagian besar data ke komputasi, Lokalitas Data memindahkan komputasi data mendekati tempat data sebenarnya berada di DataNode. Ini membantu meningkatkan kinerja sistem secara keseluruhan, tanpa menyebabkan penundaan yang tidak perlu.
34. Apa saja langkah-langkah untuk mencapai keamanan di Hadoop?
Di Hadoop, Kerberos – protokol otentikasi jaringan – digunakan untuk mencapai keamanan. Kerberos dirancang untuk menawarkan otentikasi yang kuat untuk aplikasi klien/server melalui kriptografi kunci rahasia.
Saat Anda menggunakan Kerberos untuk mengakses layanan, Anda harus menjalani tiga langkah, yang masing-masing melibatkan pertukaran pesan dengan server. Langkah-langkahnya adalah sebagai berikut:
- Otentikasi – Ini adalah langkah pertama di mana klien diautentikasi melalui server otentikasi, setelah itu TGT (Tiket Pemberian Tiket) yang diberi cap waktu diberikan kepada klien.
- Otorisasi – Pada langkah kedua, klien menggunakan TGT untuk meminta tiket layanan dari TGS (Server Pemberian Tiket).
- Permintaan Layanan – Pada langkah terakhir, klien menggunakan tiket layanan untuk mengotentikasi diri ke server.
35. Bagaimana Anda bisa menangani nilai yang hilang di Big Data?
Pertanyaan terakhir dalam panduan pertanyaan dan jawaban wawancara data besar kami. Nilai yang hilang mengacu pada nilai yang tidak ada dalam kolom. Itu terjadi ketika tidak ada nilai data untuk suatu variabel dalam suatu pengamatan. Jika nilai yang hilang tidak ditangani dengan benar, itu pasti mengarah pada data yang salah yang pada gilirannya akan menghasilkan hasil yang salah. Oleh karena itu, sangat disarankan untuk memperlakukan nilai yang hilang dengan benar sebelum memproses kumpulan data. Biasanya, jika jumlah nilai yang hilang kecil, data akan dihapus, tetapi jika ada banyak nilai yang hilang, imputasi data adalah tindakan yang lebih disukai.
Dalam Statistik, ada berbagai cara untuk memperkirakan nilai yang hilang. Ini termasuk regresi, beberapa data imputasi, penghapusan listwise/pairwise, estimasi kemungkinan maksimum, dan bootstrap Bayesian perkiraan.
Kesimpulan
Kami harap panduan Pertanyaan dan Jawaban Big Data kami bermanfaat. Kami akan memperbarui panduan secara teratur untuk membuat Anda tetap diperbarui.
Jika Anda tertarik untuk mengetahui lebih banyak tentang Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, praktik langsung lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.
Pelajari Kursus Pengembangan Perangkat Lunak online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Lanjutan, atau Program Magister untuk mempercepat karier Anda.
