28 Pertanyaan & Jawaban Wawancara Insinyur Data Teratas untuk Pemula dan Berpengalaman

Diterbitkan: 2020-03-11

Mempersiapkan wawancara tetapi tidak tahu bagaimana melakukannya? Anda dapat mulai dengan daftar pertanyaan dan jawaban wawancara insinyur data kami.

Wawancara insinyur data adalah salah satu yang paling sulit untuk dipecahkan. Ada begitu banyak yang harus Anda ketahui. Tapi jangan khawatir, karena daftar pertanyaan wawancara kami akan membantu Anda dalam hal ini. Setelah Anda menelusuri daftar ini, Anda akan tahu jawaban atas banyak pertanyaan penting yang mungkin diajukan perekrut. Juga, daftar ini akan memberi Anda gambaran tentang apa yang harus Anda pelajari dan pelajari saat mempersiapkan wawancara.

Mari kita mulai.

Pertanyaan & Jawaban Wawancara Insinyur Data Teratas

Q.1 – Apa itu Rekayasa Data?

Rekayasa data adalah pendekatan rekayasa perangkat lunak untuk mengembangkan dan merancang sistem informasi. Ini berfokus pada pengumpulan dan analisis data. Sementara ilmuwan data melakukan berbagai tugas dengan data besar, seseorang harus mengumpulkan semua data ini sebelumnya, dan insinyur data melakukan tugas itu. Insinyur data bertanggung jawab untuk pengembangan dan pemeliharaan database juga. Insinyur data mengubah data mentah menjadi data yang dapat digunakan.

Q.2 – Apa yang Anda pahami tentang Pemodelan Data?

Saat Anda membuat model data untuk sistem informasi sehingga Anda dapat melacak datanya, ini disebut pemodelan data. Model data ini menjadi tabel dalam DB (database). Misalnya, jika Anda ingin menganalisis perilaku pelanggan Anda, setiap pelanggan di database Anda akan menjadi model data. Ini adalah representasi konseptual dari nilai data yang terkait dengan aturan.

Q.3 – Apa itu Hadoop?

Hadoop adalah kumpulan utilitas perangkat lunak sumber terbuka yang memungkinkan Anda menggunakan jaringan beberapa komputer untuk memecahkan masalah yang terkait dengan data besar. Ini memiliki berbagai komponen yang memungkinkan Anda memproses sejumlah besar data. Pengembang Hadoop adalah yayasan Apache. Koleksi utilitas dan komponennya yang luas memungkinkan Anda menjalankan banyak aplikasi data besar yang kuat secara efisien.

Q.4 – Apa saja komponen Hadoop yang berbeda?

Hadoop terutama terdiri dari 4 komponen, dan mereka adalah HDFS, MapReduce, YARN, dan Hadoop Common.

HDFS adalah sistem file yang menyimpan semua data Hadoop. Ini memiliki bandwidth tinggi sebagai sistem penyimpanan terdistribusi.

MapReduce memproses data dalam jumlah besar; YARN adalah manajemen sumber daya Hadoop dan mengalokasikan sumber daya yang diperlukan sesuai dengan itu. Hadoop Common adalah sekelompok perpustakaan dan utilitas yang dapat Anda gunakan di Hadoop.

Q.5 – Apa kepanjangan dari HDFS?

HDFS adalah komponen Hadoop. HDFS adalah singkatan dari Hadoop Distributed File System.

Q.6 – Apa itu NameNode?

NameNode adalah bagian dari penyimpanan data di HDFS dan melacak berbagai file yang ada dalam cluster. NameNodes tidak menyimpan data. Mereka menyimpan metadata DataNodes, tempat HDFS menyimpan data aktualnya.

Q.7 – Apa perbedaan antara data tidak terstruktur dan data terstruktur?

Sistem menyimpan data tidak terstruktur dalam struktur file yang tidak dikelola sedangkan penyimpanan untuk data terstruktur adalah DBMS. Penskalaan skema data terstruktur itu menantang, tetapi cukup mudah dilakukan dengan data tidak terstruktur. Anda akan menggunakan ELT (Ekstrak, Transformasi, dan Muat) untuk data terstruktur. Di sisi lain, Anda harus melakukan pemrosesan batch atau entri data.

Q.8 – Berapa banyak jenis skema desain yang ada dalam Pemodelan Data? Apakah mereka?

Ada dua jenis skema desain dalam pemodelan data, yaitu: skema Snowflake dan skema Bintang.

Q.9 – Apa yang terjadi ketika Block Scanner menemukan blok data yang rusak? Menjelaskan.

Ini adalah salah satu pertanyaan wawancara insinyur data yang populer. Jadi pastikan untuk mempersiapkannya sebelum Ketika Block Scanner menemukan blok data yang rusak, DataNode melaporkannya ke NameNode. Kemudian, NameNode mulai membuat replika blok yang rusak dengan menggunakan salah satu model yang ada. Jika sistem tidak menghapus blok data yang rusak, sistem akan membuat replika sebanyak faktor replikasi. Jumlah replikasi harus sama.

Q.10 – Beri nama semua file konfigurasi XML yang ada di Hadoop.

File konfigurasi XML yang ada di Hadoop adalah situs HDFS, situs Mapred, situs Benang, dan situs Inti.

Q.11 – Apa itu Block di HDFS? Apa itu Pemindai Blok?

Di Hadoop, blok adalah unit data terkecil. Pemindai Blok adalah komponen yang memeriksa dan memverifikasi blok yang ada pada DataNode. Hadoop membagi file data besar menjadi blok data kecil untuk kemudahan penyimpanan.

Q.12- Pesan apa yang dikirim oleh DataNode ke NameNode?

DataNodes mengirim sinyal ke NameNodes untuk memberi tahu mereka bahwa mereka berfungsi. Nama sinyal ini adalah Detak Jantung. Dan jika DataNodes gagal mengirim detak jantung, NameNode menentukan bahwa ia telah mati dan telah berhenti beroperasi.

Q.13 – Nyatakan V pusat dari Big Data.

Empat V pusat data besar adalah Velocity, Variety, Volume, dan Veracity.

Q.14 – Apa yang dimaksud dengan COSHH?

COSHH adalah singkatan dari Classification and Optimization-based Schedule for Heterogeneous Hadoop systems.

Q.15 – Dapatkah Anda menjelaskan Skema Bintang?

Skema bintang memiliki struktur yang mirip dengan bintang; itu sebabnya ia memiliki namanya. Pusat bintang dapat memiliki tabel fakta dengan berbagai tabel dimensi yang terkait dengannya. Insinyur data menggunakannya untuk menanyakan kumpulan data substansial.

Q.16 – Apa itu Skema Kepingan Salju?

Skema kepingan salju adalah bentuk skema Bintang. Satu-satunya perbedaan adalah, ia memiliki dimensi tambahan, dan namanya berasal dari strukturnya yang seperti kepingan salju. Ini memiliki tabel dimensi yang dinormalisasi, karena itu memiliki tabel lain.

Q.17- Apa saja metode inti Peredam di Hadoop?

Ada beberapa metode inti di Reducer. Yang pertama adalah setup () yang mengonfigurasi parameter, pembersihan () membersihkan kumpulan data sementara, dan metode Reducer menjalankan reduce () dengan setiap tugas yang dikurangi.

Q.18 – Apa itu FSCK?

FSCK adalah singkatan dari File System Check. Ini adalah perintah HDFS, dan menggunakan perintah ini untuk mendeteksi masalah dan inkonsistensi dalam file.

Q.19 – Apakah Hadoop memiliki beberapa mode? Jika demikian, apa mereka?

Ya, Hadoop memiliki tiga mode berbeda. Mereka adalah: Mode mandiri, Mode terdistribusi penuh, dan mode terdistribusi Pseudo.

Q.20 – Apa kepanjangan dari YARN?

YARN adalah singkatan dari Yet Another Resource Negotiator.

Q.21 – Bagaimana Anda mengamankan Hadoop?

Untuk tujuan ini, pertama-tama Anda akan mengaktifkan enkripsi saat istirahat dan dalam perjalanan. Anda harus menggunakan versi aman dari protokol yang Anda gunakan di Hadoop. Anda akan mengizinkan SASL untuk melindungi data RPC. Anda dapat mengaktifkan SASL melalui properti hadoop.rpc.protection.

Anda juga akan mengamankan saluran otentikasi. Klien dapat menggunakan stempel waktu saluran otentikasi untuk mendapatkan tiket layanan, yang kemudian dapat Anda gunakan untuk otentikasi diri.

Q.22 – Bisakah Anda menjelaskan tentang HDFS (Hadoop Distributed File System)?

Hadoop mampu bekerja dengan sistem file terdistribusi seperti FS, HFTP, dan S3. Sistem File Google adalah dasar untuk HDFS, dan dapat berjalan pada sekelompok besar sistem kecil.

Q.23 – Apa perbedaan antara Snowflake dan Star Schema?

Dalam skema Bintang, Anda memiliki peluang redundansi data yang lebih tinggi, yang tidak terjadi pada skema Snowflake. Desain DB skema Star lebih mudah daripada Snowflake. Gabungan kompleks skema Snowflake memperlambat pemrosesan kubusnya, yang tidak terjadi dengan skema Bintang.

Q.24 – Apa itu Detak Jantung di Hadoop?

Di Hadoop, ada dua jenis node, NameNode dan DataNode. NameNode memiliki tanggung jawab untuk menyimpan metadata DataNodes dan melacak statusnya. DataNodes mengirim sinyal ke NameNode untuk memberitahu mereka bahwa mereka hidup dan bekerja. Sinyal ini adalah Detak Jantung.

Q.25 – Apa yang Anda pahami tentang Big Data?

Ketika Anda memiliki sejumlah besar data terstruktur dan tidak terstruktur yang tidak dapat Anda proses dengan metode konvensional, itu disebut data besar. Data besar adalah bidang analisis dan penggunaan kumpulan data yang sangat kompleks untuk mengumpulkan informasi. Metode tradisional analisis data tidak bekerja dengan baik dengan jumlah data yang begitu kompleks. Dalam data besar, insinyur data memiliki tugas menganalisis data mentah dan mengubahnya menjadi data yang dapat digunakan.

Q.26 – Mata pelajaran dan bahasa pemrograman apa yang harus diketahui oleh seorang data engineer?

Seorang insinyur data harus mengetahui analisis tren, pembelajaran mesin, SQL, Hive QL, probabilitas, regresi, dan aljabar linier. Seorang insinyur data dapat mengetahui banyak mata pelajaran lain, tetapi ini adalah suatu keharusan.

Q.27 – Apa perbedaan antara DAS dan NAS di Hadoop?

Ini adalah salah satu pertanyaan wawancara insinyur data paling populer, jadi berikan perhatian khusus pada jawabannya. DAS adalah singkatan dari Direct Attached Storage, dan NAS adalah singkatan dari Network Attached Storage. Kapasitas penyimpanan NAS adalah 10^9 hingga 10^12 dalam byte. Di sisi lain, DAS memiliki kapasitas penyimpanan 10^9 byte. Biaya pengelolaan NAS juga jauh lebih murah daripada DAS.

Q.28 – Apa yang dimaksud dengan jarak antar node di Hadoop? Bagaimana Anda menghitungnya?

Di Hadoop, jarak antara dua node sama dengan jumlah panjang ke node terdekat mereka. Anda dapat menggunakan getDistance() untuk menemukan jarak antara dua node di Hadoop.

Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Kesimpulan

Dengan bantuan pertanyaan wawancara ini, kami yakin Anda akan mempersiapkan diri dengan cukup mudah. Wawancara rekayasa data tidak harus membuat stres. Pastikan Anda cukup tidur sebelum rapat, banyak orang menjadi terlalu cemas.

Dan jika Anda memiliki pertanyaan terkait rekayasa data atau wawancara, jangan ragu untuk bertanya kepada kami. Kami akan senang untuk membantu Anda.

Apa tugas dan tanggung jawab insinyur data?

Untuk insinyur data, tanggung jawab utama mereka adalah menyiapkan data untuk tujuan analitis atau operasional. Sebagai bagian dari industri TI, para insinyur ini membuat jalur pipa data yang menghubungkan data dari beberapa sistem sumber. Mereka menggabungkan, mengkonsolidasikan, dan memurnikan data sebelum menyusunnya untuk digunakan dalam aplikasi analitik. Sebagian besar tim analitik perusahaan terdiri dari insinyur data dan ilmuwan data yang membuat data lebih mudah diakses dan memaksimalkan lingkungan data besar perusahaan mereka. Insinyur memberikan data dalam format yang dapat digunakan kepada ilmuwan data, yang menggunakan informasi tersebut untuk melakukan kueri dan algoritme untuk analitik prediktif, pembelajaran mesin, dan aplikasi penambangan data.

Keterampilan apa yang dibutuhkan untuk bekerja sebagai insinyur data?

Pengetahuan tentang pengembangan dan pengelolaan sistem basis data adalah suatu keharusan bagi para insinyur data. Mereka harus fasih dalam bahasa pemrograman seperti SQL, Python, R, dll., dan harus memiliki pemahaman dasar tentang pembelajaran mesin dan algoritma. Insinyur data juga harus tahu tentang solusi pergudangan dan alat ETL (Ekstrak, Transfer, Muat). Ilmu data adalah disiplin yang sangat kolaboratif, dan insinyur data berkolaborasi dengan berbagai pemangku kepentingan, mulai dari analis data hingga Chief Technological Officers. Oleh karena itu, soft skill, seperti keterampilan komunikasi yang baik dan keterampilan kerjasama yang tinggi, harus menjadi bagian dari keahlian setiap insinyur data.

Apakah rekayasa data merupakan jalur karir yang baik? Berapa penghasilan rata-rata seorang insinyur data?

Menurut Laporan Pekerjaan Teknologi Dice 2020, rekayasa data adalah pilihan karir dengan pertumbuhan tercepat di bidang teknologi pada tahun 2019, dengan peningkatan 50% dari tahun ke tahun dalam jumlah peluang yang tersedia. Hal ini mendapatkan signifikansi di dunia teknologi dan telah menjadi pilihan karir yang menguntungkan sebagai permintaan untuk manajemen informasi tumbuh. Dengan gaji tingkat pemula sebesar ₹4.57.532, gaji para insinyur data meningkat seiring dengan bertambahnya tahun pengalaman. Insinyur data dengan pengalaman 1-4 tahun memperoleh gaji rata-rata 7,20,395, sedangkan insinyur data karir menengah dengan pengalaman 5-9 tahun dan insinyur data berpengalaman dengan pengalaman 10-19 tahun memperoleh total pendapatan rata-rata 12.94.336 dan 18.67.992, masing-masing.