Pengarahan: Gudang Data
Diterbitkan: 2022-03-11Perusahaan dan konsumen menghasilkan lebih banyak data daripada sebelumnya. Proliferasi perangkat dan produk digital mendorong ekspansi eksponensial alam semesta digital. Meskipun secara gagasan merupakan aset, skala data ini menghadirkan tantangan: bagaimana perusahaan dapat secara praktis mengatur informasi mereka untuk mengungkapkan wawasan yang dapat ditindaklanjuti?
Sementara penambangan data dan intelijen bisnis memberikan ekstraksi dan penyajian yang berharga dari wawasan semacam itu, gudang data (DWH) adalah agregasi persiapan dan reorganisasi data dasar yang luas, yang sering berada di banyak lokasi. Memahami peran DWH dalam ekosistem yang lebih luas dari ilmu data, penambangan data, dan intelijen bisnis sangat penting bagi manajer modern.
Apa itu gudang data?
DWH adalah gudang informasi digital terpusat, dikumpulkan dari berbagai sumber yang berbeda, dan diatur dalam struktur yang dioptimalkan untuk pelaporan. Yang terpenting, DWH memberikan informasi yang dapat ditindaklanjuti ke seluruh perusahaan, memungkinkan karyawan untuk melakukan analisis yang disesuaikan dan membuat keputusan yang lebih baik.
Konsep gudang data penting
Model relasional versus dimensional
Untuk menghargai fungsionalitas gudang data, penting untuk memahami perbedaan antara model relasional dan dimensional. Meskipun terdengar teknis, mereka mudah dibedakan.
Dari perspektif penggunaan praktis, database relasional dan dimensional berbeda dalam satu kriteria penting: aliran informasi. Sementara database relasional dioptimalkan untuk input data, database dimensional dibangun untuk output, terutama dalam bentuk pelaporan dan analitik yang dikenal sebagai intelijen bisnis.
Model relasional mengatur informasi di sekitar satu titik informasi, misalnya nama pelanggan. Dalam model seperti itu, nama pelanggan ada di satu lokasi, dengan semua informasi terkait - seperti detail kontak dan tanggal transaksi - tercantum dalam tabel terkait atau terkait.
Sebaliknya, database dimensional pada dasarnya “membongkar” database relasional, memungkinkan pengguna untuk dengan mudah “mengiris dan memotong” data dalam permutasi yang diperlukan untuk memenuhi kebutuhan pelaporan mereka. Misalnya, dalam entri basis data relasional di atas, detail kontak pelanggan akan dipecah menjadi bidang-bidang terpisah, seperti nomor telepon, alamat jalan, kota, negara bagian, dan kode pos.
Basis data dimensi pada dasarnya "membongkar" basis data relasional, memungkinkan pengguna untuk dengan mudah "mengiris dan memotong" data
Perbedaan antara database relasional dan dimensional mungkin tampak abstrak. Namun, bagi mereka yang bertanggung jawab untuk memberikan analisis dan pelaporan yang semakin kompleks, menghargai perbedaan memberikan pemahaman dasar yang berharga untuk bekerja dengan tim teknis yang mengelola sumber daya ini.
Gudang Data - “Sudah Aktif”
Seperti yang dijelaskan oleh Bill Inmon, salah satu pencipta gudang data, beberapa karakteristik khusus mengatur desain gudang data. Menurut Inmon, gudang data adalah kumpulan data yang berorientasi pada subjek, tidak mudah berubah, terintegrasi, varian waktu untuk mendukung keputusan manajemen.
Itu seteguk, tapi setelah dipecah menjadi beberapa bagian, definisi ini melukiskan gambaran yang jelas tentang struktur dasar DWH. Untuk membuat kriteria ini mudah diingat, kami mengatur ulang kriteria Inmon menurut anagram “It's On”
Terintegrasi: Data harus memiliki format yang konsisten. Seringkali diambil dari sumber yang berbeda, bidang data harus memiliki konvensi penamaan yang konsisten.
Varian waktu: DWH mengungkapkan tren, yang bergantung pada perubahan dari waktu ke waktu. Merekam titik data dari waktu ke waktu sangat penting untuk mengungkapkan hubungan antar data.
Berorientasi Subjek: DWH memungkinkan analisis dan pelaporan yang berfokus pada subjek. Misalnya, perusahaan mungkin ingin mengevaluasi penjualan produk dari waktu ke waktu, dan kemudian menelusuri tren spesifik segmen regional atau pelanggan.
Nonvolatile: Setelah data memasuki gudang, itu tidak berubah.
Data Warehouse berbeda dari database transaksional
DWH dan sistem database transaksional melakukan fungsi yang berbeda secara fundamental, dan melayani pengguna yang berbeda. Sementara DWH dioptimalkan untuk pelaporan dan analisis, sistem transaksi - sering disebut sebagai Pemrosesan Transaksi OnLine (OLTP) - dioptimalkan untuk ketersediaan dan kecepatan pemrosesan.

Pengguna OLTP biasanya adalah karyawan front-end, dan mereka biasanya mengakses beberapa catatan sekaligus. Pengguna DWH sering kali adalah analis dan manajer, yang laporannya dapat secara bersamaan memanggil hingga beberapa juta catatan.
Sistem transaksi dan DWH juga berbeda dalam granularitas dan permanensi data. Di OLTP, data berisi nilai saat ini, yang terperinci dan sangat bervariasi (setiap beberapa detik, ribuan transaksi mengubah nilai catatan ini). Sebaliknya, DWH berisi data yang direstrukturisasi yang tidak dapat diubah setelah dimuat.
Proses pinjaman konsumen secara ringkas menggambarkan perbedaan utama antara sistem ini. Ketika seorang pelanggan mengamankan pinjaman mobil, misalnya, database transaksi menangkap rincian seperti jenis mobil, warna, tahun pembelian, harga pembelian, dan rincian pribadi pembeli. Setelah diubah menjadi model DWH, informasi transaksional (di sekitar transaksi pelanggan tunggal) dipilah menjadi bagian-bagian komponen. Bagian-bagian ini, pada gilirannya, digabungkan dengan bagian-bagian yang sebanding dari transaksi lain.
Menanyakan DWH, seorang karyawan di pemberi pinjaman mungkin mengakses laporan yang terdiri dari kumpulan data pelanggan. Misalnya, mencoba mengoptimalkan pengeluaran iklan, manajer pemasaran mungkin mencari mobil dengan jenis atau kisaran harga tertentu dengan tingkat persetujuan pinjaman tertinggi, atau usia rata-rata dan tingkat pendapatan pemohon pinjaman dari waktu ke waktu. Informasi tersebut mungkin mengarahkan kembali pembelanjaan iklan ke saluran yang lebih relevan dengan pesan yang lebih bertarget.
Gudang Data vs. Data Mart dan Data Lake
DWH dapat disertai dengan database terkait - data mart dan data lake - yang nama deskriptifnya menunjukkan fungsi yang berbeda. Sebuah subset dari DWH, data mart melayani kelompok pengguna tertentu, misalnya divisi atau unit bisnis tertentu. Sementara DWH memegang banyak subjek yang relevan dengan beberapa departemen - seperti penjualan, pelanggan, produk, inventaris, pemasok - data mart biasanya memegang satu area subjek untuk satu departemen, seperti penjualan atau keuangan.
Ada dua jenis data mart - dependen dan independen - dan masing-masing memberikan manfaat yang unik. Data mart dependen diambil dari DWH, dan memiliki keunggulan konsistensi. Karena semua data terpusat dan konsisten dalam DWH, data mart yang dihasilkan juga konsisten. Meskipun lebih kuat, data mart dependen memerlukan DWH, dan karenanya lebih mahal untuk dikembangkan.
Data mart independen, di sisi lain, menarik data langsung dari database sumber yang sama, seperti mini DWH. Meskipun lebih cepat dan lebih murah untuk dikembangkan, data mart independen membawa peningkatan risiko, karena definisi data dapat menjadi tidak konsisten di seluruh data mart yang dikembangkan secara independen. Namun, jika dikembangkan dengan disiplin, data mart independen pada akhirnya dapat dirakit menjadi DWH.
Data lake biasanya dikonfigurasi pada sekelompok perangkat keras komoditas yang murah dan dapat diskalakan. Hal ini memungkinkan data untuk dibuang di danau tanpa harus khawatir tentang kapasitas penyimpanan. Sementara DWH biasanya terbatas pada teks dan data numerik, danau juga dapat menyimpan variasi yang lebih luas, termasuk media sosial, data sensor, dan gambar.
Gudang Data dan Penambangan Data
DWH memungkinkan penambangan data, yang melengkapi perusahaan dengan kekuatan untuk memprediksi masa depan. Tujuan utama dari data mining adalah untuk mengungkapkan pola dalam kumpulan data yang besar. Pola seperti itu, pada gilirannya, mengungkapkan hubungan antara berbagai kategori data dan fungsi bisnis yang mendasarinya.
Hubungan semacam itu memberi manajer informasi yang dapat ditindaklanjuti, pada dasarnya pengungkit baru untuk mendorong hasil bisnis yang diinginkan seperti pertumbuhan pelanggan, atau peningkatan penjualan per pelanggan. Misalnya, meninjau data penjualan historis menurut segmen geografis atau industri dapat menyoroti pertumbuhan anomali, yang sumbernya dapat memberikan pembelajaran kepada manajer penjualan untuk diterapkan ke segmen lain.