20 Pertanyaan Wawancara Data Mining
Diterbitkan: 2020-02-10Ini berarti akan ada banyak ruang lingkup pekerjaan di AI dan ML, dan karena Data Mining merupakan bagian integral dari keduanya, Anda harus membangun fondasi yang kuat dalam Data Mining. Data Mining mengacu pada teknik yang digunakan untuk mengubah data mentah menjadi wawasan yang bermakna yang dapat digunakan oleh bisnis dan organisasi. Beberapa aspek mendasar dari Data Mining meliputi manajemen data & database, pra-pemrosesan data, validasi data, pembaruan online, dan penemuan pola berharga yang tersembunyi di dalam kumpulan data yang kompleks. Pada dasarnya, Data Mining berfokus pada analisis otomatis dari sejumlah besar data untuk mengekstrak tren dan wawasan tersembunyi darinya. Inilah tepatnya mengapa Anda harus siap menjawab pertanyaan Data Mining apa pun yang diajukan pewawancara kepada Anda jika Anda ingin mendapatkan pekerjaan impian Anda di AI/ML.
Pelajari kursus sertifikasi ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Dalam posting ini, kami telah menyusun daftar pertanyaan wawancara Data Mining yang paling sering ditanyakan. Ini mencakup semua tingkat pertanyaan dan konsep wawancara Data Mining (baik tingkat dasar dan lanjutan) yang harus diketahui oleh setiap calon AI/ML.
Jadi, tanpa penundaan lebih lanjut, mari kita langsung ke dalamnya!
- Sebutkan perbedaan teknik Data Mining dan jelaskan ruang lingkup Data Mining.
Teknik Data Mining yang berbeda adalah:
- Prediksi – Ini menemukan hubungan antara instance independen dan dependen. Misalnya, ketika mempertimbangkan data penjualan, jika Anda ingin memprediksi laba masa depan, penjualan bertindak sebagai instance independen, sedangkan laba adalah instance dependen. Dengan demikian, berdasarkan data historis penjualan dan laba, laba terkait adalah nilai prediksi.
- Pohon keputusan – Akar dari pohon keputusan berfungsi sebagai kondisi/pertanyaan yang memiliki banyak jawaban. Setiap jawaban mengarah ke data spesifik yang membantu dalam menentukan keputusan akhir berdasarkan data.
- Pola berurutan – Ini mengacu pada analisis pola yang digunakan untuk menemukan pola yang identik dalam data transaksi atau peristiwa reguler. Misalnya, data historis pelanggan membantu merek untuk mengidentifikasi pola dalam transaksi yang terjadi dalam satu tahun terakhir.
- Analisis Clustering – Dalam teknik ini, secara otomatis sekelompok objek yang memiliki karakteristik serupa terbentuk. Metode clustering mendefinisikan kelas dan kemudian menempatkan objek yang sesuai di setiap kelas.
- Analisis klasifikasi – Dalam metode berbasis ML ini, setiap item dalam kumpulan tertentu diklasifikasikan ke dalam grup yang telah ditentukan sebelumnya. Ini menggunakan teknik canggih seperti pemrograman linier, jaringan saraf, pohon keputusan, dll.
- Pembelajaran aturan asosiasi – Metode ini membuat pola berdasarkan hubungan item dalam satu transaksi.
Ruang lingkup Data Mining adalah untuk:
- Memprediksi tren dan perilaku – Data Mining mengotomatiskan proses mengidentifikasi informasi prediktif dalam kumpulan data/basis data yang besar.
- Temukan pola yang sebelumnya tidak diketahui – Alat Data Mining menyapu dan mengikis berbagai basis data yang luas dan beragam untuk mengidentifikasi tren yang sebelumnya tersembunyi. Ini tidak lain adalah proses penemuan pola.
- Apa saja jenis Data Mining?
Data Mining dapat diklasifikasikan ke dalam jenis berikut:
- Integrasi
- Pilihan
- Pembersihan data
- Evaluasi pola
- Transformasi data
- Representasi pengetahuan
- Apa itu Pembersihan Data?
Pembersihan Data adalah prosedur penting dalam sistem manajemen basis data. Ini membantu untuk menjaga data yang relevan dalam database. Ini mengacu pada proses pembersihan data sampah dengan menghilangkan atau menghapus nilai NULL baris dan kolom yang tidak perlu. Kapan pun Anda perlu memuat data baru dalam database, pertama-tama, penting untuk membersihkan data yang tidak relevan.
Dengan seringnya Pembersihan Data basis data, Anda dapat membuang data sampah yang menghabiskan banyak memori basis data, sehingga memperlambat kinerja basis data.
- Apa perbedaan mendasar antara Data Warehousing dan Data Mining?
Data Warehousing adalah teknik yang digunakan untuk mengekstrak data dari sumber yang berbeda. Kemudian dibersihkan dan disimpan untuk digunakan di masa mendatang. Di sisi lain, Data Mining adalah proses mengeksplorasi data yang diekstraksi menggunakan kueri dan kemudian menganalisis hasil atau hasil. Hal ini penting dalam pelaporan, perencanaan strategi, dan visualisasi wawasan berharga dalam data.
- Jelaskan tahapan-tahapan Data Mining.
Ada tiga tahap utama Data Mining:
Eksplorasi – Tahap ini terutama difokuskan pada pengumpulan data dari berbagai sumber dan mempersiapkannya untuk kegiatan lebih lanjut seperti pembersihan dan transformasi. Setelah data dibersihkan dan diubah, dapat dianalisis untuk wawasan.
Pembuatan Model dan validasi – Tahap ini melibatkan validasi data dengan menerapkan model yang berbeda dan membandingkan hasilnya untuk kinerja terbaik. Langkah ini juga disebut sebagai identifikasi pola. Ini adalah proses yang memakan waktu karena pengguna harus secara manual mengidentifikasi pola mana yang paling cocok untuk prediksi yang mudah.
Deployment – Setelah pola yang paling cocok untuk prediksi diidentifikasi, pola tersebut diterapkan ke kumpulan data untuk memperoleh perkiraan prediksi atau hasil.
- Apa gunanya kueri Data Mining?
Kueri Data Mining membantu memfasilitasi penerapan model ke data baru, baik untuk membuat hasil tunggal atau ganda. Kueri dapat mengambil kasus yang sesuai dengan pola tertentu secara lebih efektif. Mereka mengekstrak memori statistik dari data pelatihan dan membantu dalam mendapatkan pola yang tepat bersama dengan aturan kasus khas yang mewakili pola dalam model. Selanjutnya, kueri dapat mengekstrak rumus regresi dan perhitungan lain untuk menjelaskan pola. Mereka juga dapat mengambil detail tentang kasus individu yang digunakan dalam model.
- Apa yang dimaksud dengan data "Diskrit" dan "Berkelanjutan" di Data Mining?
Dalam Data Mining, data diskrit adalah data yang terbatas dan memiliki arti yang melekat padanya. Gender adalah contoh klasik dari data diskrit. Data berkelanjutan, di sisi lain, adalah data yang terus berubah secara terstruktur dengan baik. Usia adalah contoh sempurna dari data berkelanjutan.
- Apa itu OLAP? Apa bedanya dengan OLTP?
OLAP (Online Analytical Processing) adalah teknologi yang digunakan di banyak aplikasi Business Intelligence yang melibatkan perhitungan analitik yang kompleks. Terlepas dari komputasi yang kompleks, OLAP digunakan untuk analisis tren dan pemodelan data tingkat lanjut. Tujuan utama penggunaan sistem OLAP adalah meminimalkan waktu respons kueri sekaligus meningkatkan efektivitas pelaporan. Database OLAP menyimpan data historis teragregasi dalam skema multidimensi. Menjadi database multidimensi, OLAP memungkinkan pengguna untuk memahami bagaimana data datang melalui sumber yang berbeda.
OLTP adalah singkatan dari Transaksi dan Pemrosesan Online. Ini secara inheren berbeda dari OLAP karena digunakan dalam aplikasi yang melibatkan transaksi massal dan volume data yang besar. Aplikasi ini terutama ditemukan di sektor BFSI. Arsitektur OLTP merupakan arsitektur client-server yang dapat mendukung transaksi lintas jaringan.
- Sebutkan berbagai model penyimpanan yang tersedia di OLAP?
Berbagai model penyimpanan yang tersedia di OLAP adalah:
- MOLAP (Multidimensional Online Analytical Processing) – Ini adalah jenis penyimpanan data di mana data disimpan dalam kubus multidimensi, bukan database relasional standar. Fitur inilah yang membuat kinerja kueri menjadi luar biasa.
- ROLAP (Relational Online Analytical Processing) – Dalam penyimpanan data ini, data disimpan dalam basis data relasional, dan karenanya, ia mampu menangani volume data yang sangat besar.
- HOLAP (Hybrid Online Analytical Processing) – Ini adalah kombinasi dari MOLAP dan ROLAP. HOLAP menggunakan model MOLAP untuk mengekstrak informasi yang diringkas dari kubus, sedangkan untuk kemampuan menelusuri, menggunakan model ROLAP.
- Apa itu "Kubus?"
Dalam Data Mining, istilah "kubus" mengacu pada ruang penyimpanan data tempat data disimpan. Menyimpan data dalam kubus membantu mempercepat proses analisis data. Pada dasarnya, kubus adalah representasi logis dari data multidimensi. Sementara tepi kubus memiliki anggota dimensi, badan kubus berisi nilai data.

Mari kita asumsikan bahwa sebuah perusahaan menyimpan data karyawannya (catatan) dalam sebuah kubus. Ketika ingin mengevaluasi kinerja karyawan berdasarkan mingguan atau bulanan, maka minggu/bulan menjadi dimensi kubus.
- Apa itu Agregasi dan Generalisasi Data?
Agregasi Data adalah proses di mana data digabungkan atau digabungkan bersama untuk membuat kubus untuk analisis data. Generalisasi adalah proses penggantian data tingkat rendah dengan konsep tingkat tinggi sehingga data dapat digeneralisasikan dan menghasilkan wawasan yang bermakna.
- Jelaskan algoritma Decision Tree dan Time Series.
Dalam algoritma Pohon Keputusan, setiap simpul adalah simpul daun atau simpul keputusan. Setiap kali Anda memasukkan objek ke dalam algoritma, itu menghasilkan keputusan. Sebuah Pohon Keputusan dibuat menggunakan keteraturan data. Semua jalur yang menghubungkan simpul akar ke simpul daun dicapai dengan menggunakan 'AND' atau 'ATAU' atau 'BOTH.' Penting untuk dicatat bahwa Pohon Keputusan tetap tidak terpengaruh oleh Persiapan Data Otomatis.
Algoritma Time-Series digunakan untuk tipe data yang nilainya terus berubah berdasarkan waktu (misalnya, usia seseorang). Saat Anda melatih algoritme dan menyetelnya untuk memprediksi kumpulan data, algoritme dapat berhasil melacak data berkelanjutan dan membuat prediksi yang akurat. Algoritme Time-Series membuat model spesifik yang dapat memprediksi tren data di masa mendatang berdasarkan kumpulan data asli.
- Apa itu pengelompokan?
Dalam Data Mining, clustering adalah proses yang digunakan untuk mengelompokkan objek abstrak ke dalam kelas-kelas yang berisi objek serupa. Di sini, sekelompok objek data diperlakukan sebagai satu grup. Dengan demikian, selama proses analisis, partisi data terjadi dalam kelompok-kelompok yang kemudian diberi label berdasarkan data yang identik. Analisis klaster sangat penting untuk Data Mining karena sangat skalabel dan berdimensi, dan juga dapat menangani berbagai atribut, kemampuan interpretasi, dan data yang berantakan.
Pengelompokan data digunakan dalam beberapa aplikasi, termasuk pemrosesan gambar, pengenalan pola, deteksi penipuan, dan riset pasar.
- Apa masalah umum yang dihadapi selama Data Mining?
Selama proses Data Mining, Anda dapat mengalami masalah berikut:
- Penanganan ketidakpastian
- Berurusan dengan nilai-nilai yang hilang
- Berurusan dengan data yang bising
- Efisiensi algoritma
- Menggabungkan pengetahuan domain
- Ukuran dan kompleksitas data
- Pemilihan data
- Inkonsistensi antara data dan pengetahuan yang ditemukan.
- Tentukan sintaks untuk – Spesifikasi Ukuran Ketertarikan, Penyajian Pola dan Spesifikasi Visualisasi, dan Spesifikasi Data yang Relevan dengan Tugas.
Sintaks untuk Spesifikasi Interestingness Measures adalah:
dengan <interest_measure_name> threshold = threshold_value
Sintaks untuk Pattern Presentation dan Visualization Specification adalah:
tampilkan sebagai <result_form>
Sintaks untuk Spesifikasi Data yang Relevan dengan Tugas adalah:
gunakan database database_name
atau
gunakan data warehouse data_warehouse_name
relevan dengan att_or_dim_list
dari relasi/kubus [di mana kondisi] diurutkan berdasarkan order_list
kelompokkan menurut grouping_list
- Sebutkan perbedaan tingkat analisis dalam Data Mining?
Berbagai level analisis dalam Data Mining adalah:
- Induksi aturan
- Visualisasi data
- Algoritme genetika
- Jaringan saraf tiruan
- Metode tetangga terdekat
- Apa itu STING?
STING adalah singkatan dari Statistical Information Grid. Ini adalah metode pengelompokan multi-resolusi berbasis grid di mana semua objek dimasukkan ke dalam sel persegi panjang. Sementara sel disimpan dalam berbagai tingkat resolusi, tingkat ini selanjutnya diatur dalam struktur hierarkis.
- Apa itu ETL? Sebutkan beberapa alat ETL terbaik.
ETL adalah singkatan dari Extract, Transform, dan Load. Ini adalah perangkat lunak yang dapat membaca data dari sumber data yang ditentukan dan mengekstrak subset data yang diinginkan. Setelah ini, itu mengubah data menggunakan aturan dan tabel pencarian dan mengubahnya menjadi bentuk yang diinginkan. Akhirnya, ia menggunakan fungsi load untuk memuat data yang dihasilkan ke dalam database target.
Alat ETL terbaik adalah:
- Peramal
- Ab Initio
- Tahap Data
- Informatika
- Persimpangan Data
- pembangun gudang
- Apa itu Metadata?
Dengan kata sederhana, metadata adalah data yang diringkas yang mengarah ke kumpulan data yang lebih besar. Metadata berisi informasi penting seperti jumlah kolom yang digunakan, urutan bidang, tipe data bidang, lebar tetap dan lebar terbatas, dan sebagainya.
- Apa keuntungan dari Data Mining?
Data Mining memiliki empat keunggulan inti:
- Ini membantu memahami data mentah dan mengeksplorasi, mengidentifikasi, dan memahami pola yang tersembunyi di dalam data.
- Ini membantu mengotomatiskan proses menemukan informasi prediktif dalam database besar, sehingga membantu untuk segera mengidentifikasi pola yang sebelumnya tersembunyi.
- Ini membantu untuk menyaring dan memvalidasi data dan memahami dari mana asalnya.
- Ini mempromosikan pengambilan keputusan yang lebih cepat dan lebih baik, sehingga membantu bisnis untuk mengambil tindakan yang diperlukan untuk meningkatkan pendapatan dan menurunkan biaya operasional.
Inilah alasan mengapa Data Mining telah menjadi bagian integral dari banyak industri, termasuk pemasaran, periklanan, IT/ITES, intelijen bisnis, dan bahkan intelijen pemerintah.
Kami berharap pertanyaan wawancara Data Mining ini dan jawabannya membantu Anda memecahkan kebekuan dengan Data Mining. Meskipun ini hanya beberapa pertanyaan tingkat dasar yang harus Anda ketahui, itu akan membantu Anda masuk ke arus dan menggali lebih dalam materi pelajaran.
Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
Apa kelemahan menggunakan algoritma pohon keputusan?
Bahkan perubahan kecil pada data dapat menyebabkan perubahan signifikan dalam struktur pohon keputusan, yang mengakibatkan ketidakstabilan. Jika dibandingkan dengan algoritme lain, kalkulasi pohon keputusan terkadang agak rumit. Pelatihan pohon keputusan relatif mahal karena kompleksitas dan waktu yang dibutuhkan. Teknik Pohon Keputusan gagal saat menerapkan regresi dan memprediksi nilai kontinu.
Apa perbedaan antara pengelompokan dan klasifikasi penambangan data?
Pengelompokan adalah teknik pembelajaran tanpa pengawasan, sedangkan klasifikasi adalah cara pembelajaran yang diawasi. Clustering adalah proses pengelompokan titik-titik data ke dalam cluster-cluster berdasarkan kesamaannya. Klasifikasi memerlukan pelabelan data input dengan salah satu label kelas variabel output. Clustering membagi dataset menjadi subkelompok, memungkinkan contoh dengan fungsi serupa untuk dikelompokkan bersama. Itu tidak bergantung pada data berlabel atau set pelatihan untuk bekerja. Klasifikasi, di sisi lain, mengklasifikasikan data baru berdasarkan pengamatan dari set pelatihan.
Apakah ada kelemahan dari data mining?
Banyak masalah privasi muncul ketika data mining digunakan. Terlepas dari kenyataan bahwa penambangan data telah membuka jalan untuk pengumpulan data sederhana dengan caranya sendiri. Ketika datang ke presisi, itu masih memiliki batas-batas tertentu. Data yang diperoleh mungkin salah, menghasilkan masalah dengan pengambilan keputusan. Prosedur pengumpulan data untuk data mining menggunakan banyak teknologi. Setiap bagian data yang dibuat memerlukan penyimpanan dan pemeliharaannya sendiri. Biaya implementasi mungkin meroket sebagai akibat dari ini.