Tiga Prinsip Pengembangan Data Warehouse
Diterbitkan: 2022-03-11Gartner memperkirakan bahwa hampir 70 hingga 80 persen proyek intelijen bisnis yang baru dimulai gagal. Ini karena berbagai alasan, mulai dari pilihan alat yang buruk hingga kurangnya komunikasi antara TI dan pemangku kepentingan bisnis. Setelah berhasil mengimplementasikan proyek BI di seluruh industri, saya berharap dapat membagikan pengalaman saya di posting blog ini dan menyoroti alasan utama mengapa proyek intelijen bisnis gagal. Artikel ini akan menyajikan tindakan balasan terhadap kegagalan berdasarkan tiga prinsip yang harus mengatur bagaimana gudang data dibangun. Mengikuti konsep gudang data ini akan membantu Anda sebagai pengembang gudang data untuk menavigasi perjalanan pengembangan menghindari lubang umum atau bahkan lubang pembuangan implementasi BI.
Implementasi Gudang Data Intelijen Bisnis
Sementara kriteria untuk gudang data intelijen bisnis yang sukses akan bervariasi menurut proyek, minimum tertentu diharapkan dan diperlukan di semua proyek. Berikut daftar atribut utama yang biasanya ditemukan di gudang data intelijen bisnis yang sukses:
- Nilai: Proyek intelijen bisnis dapat berlangsung selama berbulan-bulan atau bahkan bertahun-tahun. Namun, penting untuk menunjukkan manfaat gudang data kepada pemangku kepentingan bisnis Anda sejak awal proyek untuk memastikan pendanaan dan minat yang berkelanjutan. Idealnya, pemangku kepentingan harus ditunjukkan beberapa nilai bisnis yang berarti dari sistem baru dalam tiga minggu pertama proyek.
- BI swalayan: Hari-hari menunggu TI untuk memenuhi permintaan data atau melakukan analisis data telah berakhir. Keberhasilan setiap proyek BI sekarang diukur dengan seberapa baik itu memberdayakan pengguna bisnis untuk mengekstrak nilai dari sistem itu sendiri.
- Biaya: Proyek BI umumnya memiliki biaya implementasi di muka yang relatif tinggi. Untuk mengimbangi dan mengimbangi biaya awal yang tinggi, penting untuk merancang gudang dengan biaya perawatan yang rendah. Jika klien memerlukan tim penuh pengembang BI untuk memastikan/mendiagnosis masalah kualitas data, membuat perubahan rutin pada model data, atau menangani kegagalan ETL, sistem akan mahal untuk dianggarkan dan berisiko dimatikan setelah beberapa waktu .
- Kemampuan beradaptasi: Kemampuan untuk beradaptasi dengan tuntutan bisnis yang berkembang sangat penting. Penting untuk mengingat banyaknya alat BI yang tersedia di pasar dan kecepatan perkembangannya untuk menyertakan fungsionalitas dan fitur tambahan. Ditambah dengan fakta bahwa bisnis terus berkembang, persyaratan gudang akan berubah; kemampuan beradaptasi membutuhkan gudang data yang dirancang untuk memungkinkan penggunaan alat BI alternatif seperti back-end atau alat visualisasi yang berbeda di masa depan dan dapat beradaptasi dengan perubahan persyaratan yang sering tidak terduga.
Melalui pengalaman saya membangun solusi yang sukses, dan mungkin yang lebih penting lagi, terlibat dalam proyek yang gagal, saya sampai pada kesimpulan bahwa tiga prinsip utama sangat penting dalam meningkatkan kemungkinan implementasi sistem intelijen bisnis yang sukses. Namun, sebelum membahasnya secara rinci, mari kita mulai dengan beberapa konteks.
Apa Itu Gudang Data?
Sebelum mempelajari konsep gudang data yang berbeda, penting untuk memahami apa itu gudang data sebenarnya.
Gudang data sering dianggap sebagai sistem intelijen bisnis yang dibuat untuk membantu kebutuhan pelaporan sehari-hari dari entitas bisnis. Mereka tidak memiliki persyaratan kinerja real-time yang sama (dalam implementasi standar) sebagai sistem data OLTP, dan sementara sistem OLTP hanya akan berisi data yang berkaitan dengan satu subset kecil dari bisnis, gudang data terlihat mencakup semua data yang berkaitan dengan bisnis .
Model gudang data menawarkan manfaat bagi bisnis hanya jika gudang dianggap sebagai pusat "semua data" dan bukan hanya alat yang digunakan untuk menghasilkan laporan operasional Anda. Semua sistem operasional harus memiliki komunikasi dua arah dengan gudang data untuk memasukkan data dan menerima umpan balik tentang cara meningkatkan efisiensi operasional. Setiap perubahan bisnis, seperti kenaikan harga atau pengurangan pasokan/persediaan pertama-tama harus dibuat prototipe dan diperkirakan dalam lingkungan gudang data Anda sehingga bisnis Anda dapat memprediksi dan mengukur hasilnya dengan andal. Dalam konteks ini, semua ilmu data dan fungsi analitik data akan dipusatkan di sekitar gudang data.
Ada banyak komponen dari gudang data, dan itu bukan hanya database:
- Database adalah media di mana Anda menyimpan data Anda.
- Gudang data lebih dari itu untuk menyertakan alat dan komponen yang diperlukan untuk mengekstrak nilai bisnis dari data Anda dan dapat menyertakan komponen seperti jalur integrasi, kerangka kerja kualitas data, alat visualisasi, dan bahkan plugin pembelajaran mesin.
Berikut adalah representasi yang lebih visual dari perbedaan antara database dan struktur gudang database. Basis data atau penyimpanan meta data logis baru seperti Hive membentuk bintang pusat ke sistem bintang gudang data, dengan semua komponen lain sebagai planet yang berputar. Namun, tidak seperti sistem bintang, gudang data dapat memiliki satu atau lebih basis data dan basis data ini harus dapat dipertukarkan dengan teknologi baru, seperti yang akan kita bahas nanti di artikel.
Prinsip Gudang Data Pertama: Kualitas Data Berkuasa Tertinggi
Gudang data hanya berguna dan berharga sejauh data di dalamnya dipercaya oleh pemangku kepentingan bisnis. Untuk memastikan hal ini, kerangka kerja yang secara otomatis menangkap dan memperbaiki (jika mungkin) masalah kualitas data harus dibangun. Pembersihan data harus menjadi bagian dari proses integrasi data dengan audit data reguler atau pembuatan profil data dilakukan untuk mengidentifikasi masalah data apa pun. Sementara tindakan proaktif ini diterapkan, Anda juga perlu mempertimbangkan tindakan reaktif ketika data buruk lolos dari gerbang ini dan dilaporkan oleh pengguna.
Untuk memastikan kepercayaan pengguna dalam sistem gudang data, setiap data buruk yang disorot oleh pengguna bisnis harus diselidiki sebagai prioritas. Untuk membantu upaya ini, silsilah data dan kerangka kontrol data harus dibangun ke dalam platform untuk memastikan bahwa masalah data apa pun dapat diidentifikasi dan diperbaiki dengan cepat oleh staf pendukung. Sebagian besar platform integrasi data mengintegrasikan beberapa tingkat solusi kualitas data, seperti DQS di MS SQL Server atau IDQ di Informatica.
Manfaatkan platform bawaan ini jika Anda menggunakan alat komersial di jalur integrasi data Anda, tetapi selain itu, pastikan Anda membangun mekanisme yang akan membantu Anda menjaga kualitas data Anda. Misalnya, sebagian besar alat integrasi data tidak memiliki fungsionalitas yang baik untuk melacak garis keturunan data. Untuk mengatasi keterbatasan ini, kerangka kontrol batch kustom dapat dibangun menggunakan serangkaian tabel kontrol untuk melacak setiap aliran data yang terjadi dalam sistem.
Sangat sulit untuk mendapatkan kembali kepercayaan dari pemangku kepentingan bisnis Anda jika mereka menemukan kualitas yang buruk dalam platform Anda, jadi investasi awal dalam kerangka kerja kualitas data harus sepadan dengan biayanya.
Prinsip Gudang Data Kedua: Balik Segitiga
Gambar ini menggambarkan pembagian usaha dalam implementasi dan penggunaan sebagian besar gudang data.

Sebagian besar upaya diinvestasikan dalam membangun dan memelihara gudang sementara nilai tambah memiliki gudang untuk analisis bisnis adalah bagian yang jauh lebih kecil dari upaya tersebut. Ini adalah alasan lain mengapa proyek intelijen bisnis sering gagal. Terkadang, dibutuhkan waktu terlalu lama dalam siklus proyek untuk menunjukkan nilai yang berarti kepada klien, dan ketika sistem akhirnya diterapkan, masih memerlukan banyak upaya TI untuk mendapatkan nilai bisnis apa pun darinya. Seperti yang kami katakan di pendahuluan, merancang dan menerapkan sistem intelijen bisnis bisa menjadi proses yang mahal dan panjang. Oleh karena itu, para pemangku kepentingan berhak berharap untuk segera mulai menuai nilai tambah dari intelijen bisnis dan upaya penyimpanan data mereka. Jika tidak ada nilai tambah yang terwujud, atau jika hasilnya terlalu terlambat untuk menjadi nilai yang sebenarnya, tidak banyak yang dapat menghentikan mereka untuk menarik steker.
Prinsip kedua dari pengembangan data warehouse adalah membalik segitiga seperti yang diilustrasikan di sini.
Pilihan alat intelijen bisnis dan kerangka kerja yang Anda terapkan perlu memastikan bahwa sebagian besar upaya yang dilakukan ke gudang adalah untuk mengekstrak nilai bisnis daripada membangun dan memeliharanya. Ini akan memastikan tingkat keterlibatan yang tinggi dari pemangku kepentingan bisnis Anda karena mereka akan segera melihat nilai investasi dalam proyek tersebut. Lebih penting lagi, Anda memungkinkan bisnis untuk mandiri dalam mengekstraksi nilai tanpa ketergantungan yang kuat pada TI.
Anda dapat mematuhi prinsip ini dengan mengikuti metodologi pengembangan tambahan saat membangun gudang untuk memastikan Anda memberikan fungsionalitas produksi secepat mungkin. Mengikuti strategi data mart Kimball atau metodologi desain gudang data Data Vault Linstedt akan membantu Anda mengembangkan sistem yang dibangun secara bertahap sambil memperhitungkan perubahan dengan lancar. Gunakan lapisan semantik di platform Anda seperti kubus MS SSAS atau bahkan Business Objects Universe untuk menyediakan antarmuka bisnis yang mudah dipahami untuk data Anda. Dalam kasus yang pertama, Anda juga akan menyediakan mekanisme yang mudah bagi pengguna untuk meminta data dari Excel—masih merupakan alat analisis data paling populer.
Menggabungkan alat BI yang mendukung BI swalayan seperti Tableau atau PowerBI hanya akan membantu meningkatkan keterlibatan pengguna, karena antarmuka untuk meminta data kini disederhanakan secara drastis dibandingkan dengan menulis SQL.
Menyimpan data sumber di data lake sebelum mengisi database akan membantu memaparkan data sumber kepada pengguna di awal proses orientasi. Setidaknya pengguna tingkat lanjut seperti jumlah bisnis sekarang dapat mencerna data sumber (melalui file mentah) dengan menghubungkan alat seperti Hive/Impala di atas file. Ini akan membantu mengurangi waktu yang dibutuhkan bisnis untuk menganalisis titik data baru dari minggu ke hari atau bahkan jam.
Prinsip Gudang Basis Data Ketiga: Pasang dan Mainkan
Data di ambang menjadi setara digital minyak. Dalam beberapa tahun terakhir, kami telah menyaksikan ledakan dalam jumlah alat yang dapat digunakan sebagai bagian dari platform gudang data dan tingkat inovasi. Memimpin biaya adalah alat visualisasi segudang yang tersedia saat ini, dengan opsi lanjutan untuk back-end di belakang. Mengingat lingkungan ini dan kecenderungan persyaratan bisnis untuk terus berubah, penting untuk diingat bahwa Anda perlu menukar komponen tumpukan teknologi Anda atau bahkan memperkenalkan/menghapus yang lain seiring waktu, karena perubahan bisnis dan teknologi mendikte.
Berdasarkan pengalaman pribadi, akan sangat beruntung jika sebuah platform dapat bertahan 12 bulan tanpa perubahan yang signifikan. Upaya yang wajar tidak dapat dihindari dalam situasi ini; namun, selalu memungkinkan untuk mengubah teknologi atau desain, dan platform Anda harus dirancang untuk memenuhi kebutuhan akhir ini. Jika biaya migrasi gudang terlalu tinggi, bisnis dapat dengan mudah memutuskan bahwa biaya tidak dapat dibenarkan dan mengabaikan apa yang Anda bangun alih-alih mencari solusi yang ada untuk dimigrasikan ke alat baru.
Membangun sistem yang akan memenuhi semua kebutuhan masa depan yang bisa dibayangkan adalah mustahil. Oleh karena itu, tingkat apresiasi tertentu bahwa apa pun yang Anda rancang dan bangun sekarang dapat diganti dengan waktu diperlukan saat membangun gudang data. Untuk tujuan ini, saya akan menganjurkan penggunaan alat dan desain generik jika memungkinkan daripada menggabungkan platform Anda dengan alat yang sedang berjalan. Tentu saja, ini perlu dilakukan setelah perencanaan dan pertimbangan yang matang karena kekuatan di banyak alat, terutama basis data, terletak pada individualitasnya dan saling melengkapi.
Misalnya, kinerja ETL meningkat secara dramatis saat menggunakan prosedur tersimpan dalam database untuk membuat data analitik bisnis baru sebagai lawan mengekstraksi dan memproses data di luar database menggunakan Python atau SSIS. Berkenaan dengan lapisan pelaporan, alat visualisasi akan menawarkan fungsionalitas tertentu yang tidak tersedia di yang lain—misalnya, Power BI mendukung kueri MDX khusus, tetapi Tableau tidak. Maksud saya bukan untuk menganjurkan desersi prosedur tersimpan atau menghindari kubus SSAS atau Tableau di sistem Anda. Niat saya hanyalah untuk mempromosikan pentingnya berhati-hati dalam membenarkan keputusan apa pun untuk memasangkan platform Anda dengan alat-alatnya dengan erat.
Sinkhole potensial lainnya ada di lapisan integrasi. Sangat mudah menggunakan alat seperti SSIS untuk integrasi data Anda karena kemampuan debugnya atau kemudahan penggunaan dengan platform SQL Server. Namun, memindahkan ratusan paket SSIS ke alat lain akan menjadi proyek yang sangat mahal. Dalam kasus di mana Anda kebanyakan melakukan "EL", lihat untuk menggunakan alat generik untuk melakukan pemrosesan Anda. Menggunakan bahasa pemrograman seperti Python atau Java untuk menulis satu pemuat umum untuk memuat lapisan pementasan Anda akan membantu mengurangi paket SSIS individual yang Anda perlukan sebaliknya. Pendekatan ini tidak hanya membantu mengurangi biaya pemeliharaan dan migrasi di masa mendatang, tetapi juga membantu mengotomatiskan lebih banyak aspek proses orientasi data tanpa harus menulis paket individual baru (mengikat dengan Prinsip 2).
Dalam semua kasus ini, Anda perlu memutuskan kompromi praktis antara manfaat langsung dan biaya migrasi di masa mendatang untuk memastikan gudang tidak dihapus karena tidak dapat menangani perubahan, atau karena perubahan akan memerlukan terlalu banyak waktu, usaha, atau investasi.
Membungkus
Ada banyak alasan mengapa sistem intelijen bisnis tertentu mungkin gagal, dan ada juga beberapa kesalahan umum yang dapat menyebabkan kegagalan pada akhirnya. Lanskap teknologi yang selalu berubah, anggaran yang terbatas untuk sistem data karena prioritas sekunder yang salah dipahami untuk sistem operasional, dan kompleksitas dan kesulitan bekerja dengan data berarti bahwa pertimbangan yang cermat tidak hanya tujuan langsung tetapi juga rencana masa depan perlu terjadi saat merancang dan membangun komponen gudang data.
Dasar-dasar pergudangan data yang diuraikan dalam artikel ini dimaksudkan untuk membantu memandu Anda saat membuat pertimbangan penting ini. Tentu saja, dengan mempertimbangkan prinsip-prinsip ini tidak menjamin kesuksesan, tetapi mereka pasti akan membantu Anda menghindari kegagalan.