Arsitektur Data Warehouse: Semua yang Perlu Anda Ketahui

Diterbitkan: 2020-04-30

Di dunia yang berpusat pada data ini, tidak mengherankan bahwa cepat atau lambat, masing-masing dari kita akan menghasilkan 1,7 MB data per detik . Tapi kemana semua data ini akan pergi? Bukankah seharusnya ada unit penyimpanan untuk menyimpan semua informasi ini dengan aman, sehingga dapat dihidupkan kembali saat dibutuhkan?

Bagaimana jika kami memberi tahu Anda bahwa ada unit penyimpanan seperti itu? Tidak mengherankan, itu disebut Gudang Data. Ini adalah alat analisis yang berisi data dan informasi dari sumber operasional, dibangun untuk membantu pengambilan keputusan dan pelaporan.

Saat ini, pasar pergudangan data global telah meningkat ke tingkat yang diperkirakan akan tumbuh pada CAGR 16% di tahun-tahun berikutnya.

Jadi, mari pelajari lebih dalam tentang gudang data dan arsitekturnya.

Pelajari lebih lanjut: Apa Itu Data Warehousing dan Data Mining

Daftar isi

Apa itu Gudang Data?

Tempat penyimpanan semua data masa lalu dan data komutatif yang berasal dari satu atau lebih sumber disebut gudang data. Tujuan utama memiliki gudang data adalah untuk memperlancar intelijen bisnis dan proses pelaporan bisnis. Ini pada dasarnya melakukan kueri dan analisis pada data yang disimpannya.

Karena gudang data memiliki data transaksional dari berbagai sumber, ini membantu bisnis untuk:

  • Pertahankan catatan lama
  • Mengevaluasi data yang ada dan mengidentifikasi celah dalam operasi

Kerangka Analisis Bisnis untuk Merancang Data Warehouse

Biasanya, seorang analis data mengumpulkan data yang relevan dari gudang dan menganalisisnya untuk membantu bisnis meningkatkan operasi mereka. Menggunakan gudang data sangat berguna karena membantu mendapatkan akses ke data dengan cepat dan efisien, sehingga meningkatkan produktivitas secara keseluruhan.

Selain itu, Anda bisa mendapatkan gambaran menyeluruh tentang pelanggan dan semua produk. Dengan cara ini, Anda dapat memastikan hubungan pelanggan yang lancar.

Tetapi agar semua ini terjadi, analis data harus terlebih dahulu memahami kebutuhan bisnis. Dan untuk ini, mereka perlu membuat kerangka kerja analisis bisnis.

Hanya setelah kerangka analisis bisnis dibangun, kita dapat melanjutkan ke perancangan gudang data. Ada tiga pandangan tentang ini:

  • Tampilan atas-bawah : Dalam tampilan ini, Anda dapat melihat informasi relevan yang diperlukan untuk mendesain gudang.
  • Tampilan sumber data : Menampilkan data yang ditangkap, disimpan, dan dikelola.
  • Tampilan gudang data : Ini mencantumkan tabel fakta dan tabel dimensi dan data di gudang.
  • Tampilan kueri bisnis : Dalam hal ini, Anda dapat melihat data dari perspektif pengguna akhir.

Setelah Anda melihat data dari semua sudut pandang ini, saatnya untuk beralih ke belajar tentang tiga jenis arsitektur gudang data.

Tiga Jenis Arsitektur Data Warehouse

Setiap kali Anda berencana merancang gudang data untuk perusahaan, Anda dapat mempertimbangkan peta jalan untuk membangun gudang data Anda dan juga tiga tingkatan arsitektur berikut.

  1. Single Tier : Ini sangat bertanggung jawab untuk menghasilkan kumpulan data yang dekat dan mengurangi volume keseluruhannya. Namun, jenis ini tidak disarankan untuk bisnis yang memiliki data kompleks dan banyak aliran data.
  2. Two Tier : Dalam jenis arsitektur ini, sumber data dibagi dan dengan demikian, membuat organisasi data dan proses penyimpanan lebih efisien.
  3. Three Tier : Jenis arsitektur gudang ini adalah jenis yang paling disukai, karena memberikan wawasan yang sangat berharga dari data mentah, sehingga menghasilkan aliran data yang terorganisir.

Ini terdiri dari tiga tingkatan berikut:

  • Tingkat bawah , yang berisi server gudang. Di sini, data dibersihkan dan dimuat menggunakan alat back-end.
  • Tingkat menengah terdiri dari server OLAP. Lapisan ini menyediakan pengguna dengan tampilan abstrak database, bertindak sebagai koneksi antara pengguna akhir dan database.
  • Tingkat teratas memiliki API dan alat (Kueri, penambangan data, analisis, dan alat pelaporan) untuk mengekstrak data dari gudang.

Komponen Arsitektur Data Warehouse

Untuk membuat fungsi arsitektur dapat dikelola, gudang berisi server RDBMS, dikelilingi oleh lima komponen utama.

Berikut adalah lima komponen utama dari arsitektur data warehouse.

Database Gudang Data

Bagian utama dari arsitektur gudang adalah bank data yang berisi semua informasi bisnis yang membuatnya dapat dipahami untuk pelaporan. Jelas, ini berarti Anda harus memilih jenis database yang akan Anda gunakan untuk menyimpan data di gudang Anda.

Berikutnya adalah empat tipe database yang dapat Anda manfaatkan:

  • Database relasional adalah database berbasis baris yang biasanya Anda temui atau gunakan setiap hari. Ini termasuk Microsoft SQL Server, SAP, Oracle, dan IBM DB2.
  • Basis data analitik dibuat dengan pasti untuk penimbunan informasi guna mendukung dan mengawasi analisis. Misalnya, Teradata dan Greenplum.
  • Aplikasi gudang data sebenarnya bukan semacam database kapasitas. Mereka adalah aplikasi yang menawarkan perangkat lunak untuk pengelolaan data, seperti SAP Hana, Oracle Exadata, dan IBM Netezza.
  • Basis data berbasis cloud adalah yang dapat difasilitasi dan dipulihkan di cloud dengan tujuan agar Anda tidak perlu memperoleh perangkat keras apa pun untuk menyiapkan gudang data Anda. Misalnya, Amazon Redshift, Microsoft Azure SQL, dan Google BigQuery.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang ilmu data, lihat pelatihan ilmu data kami dari universitas terkemuka.

Alat Ekstraksi, Transformasi, dan Pemuatan (ETL)

Aparat ETL sangat penting untuk arsitektur gudang data. Ini membantu memisahkan informasi dari berbagai sumber, mengubahnya menjadi pengaturan yang wajar, dan menumpuknya ke dalam gudang.

Alat ETL yang Anda pilih akan memutuskan:

  • Waktu yang digunakan dalam ekstraksi informasi
  • Cara mengekstrak data
  • Jenis perubahan yang diterapkan dan upaya yang diperlukan untuk melakukannya
  • Definisi aturan bisnis untuk validasi dan pembersihan informasi untuk meningkatkan analitik produk akhir
  • Mengisi informasi yang hilang
  • Merencanakan sirkulasi data dari brankas kunci ke aplikasi BI Anda

Metadata

Metadata menggambarkan gudang data dan menawarkan sistem informasi. Ini membantu dalam mengembangkan, menjaga, menangani, dan memanfaatkan gudang. Ini terdiri dari dua jenis:

  • Metadata Teknis : Ini mencakup data yang dapat digunakan oleh para insinyur dan manajer saat menjalankan tugas pengembangan dan organisasi gudang.
  • Metadata Bisnis : Ini mencakup data yang menawarkan posisi data yang dapat dibenarkan secara efektif di gudang.

Metadata mengambil peran penting bagi organisasi untuk memahami data yang ada di gudang dan mengubahnya menjadi informasi yang dapat digunakan.

Alat Akses Gudang Data

Sebuah gudang data menggunakan database atau kelompok database sebagai pendirian. Perusahaan, sebagian besar, tidak dapat bekerja dengan database secara sah. Inilah alasan mereka menggunakan beberapa alat, termasuk:

  • Alat kueri dan pelaporan : Alat ini membantu pengguna dalam membuat laporan perusahaan dalam spreadsheet, komputasi, atau visual cerdas untuk melakukan analisis mendalam.
  • Perangkat OLAP : Ini membantu mengembangkan gudang data multi-dimensi dan melakukan analisis data besar dari berbagai perspektif.
  • Alat penambangan data : Ini mensistematisasikan metodologi untuk mengenali cluster dan koneksi dalam jumlah besar data, memanfaatkan strategi pemodelan statistik. Pelajari lebih lanjut tentang teknik penambangan data.
  • Alat pengembangan aplikasi : Ini membantu membuat laporan yang disesuaikan dan menyajikannya dalam terjemahan, yang diharapkan untuk tujuan pelaporan tertentu.

Bus Gudang Data

Ini membantu memutuskan perkembangan data di gudang. Aliran ini dapat diatur sebagai Aliran Masuk, Aliran Atas, Aliran Bawah, Aliran Keluar, dan Aliran Meta.

Saat merancang Bus Data, Anda perlu memikirkan pengukuran umum, fakta di seluruh data mart.

Data Mart

Ini adalah lapisan pintu masuk yang digunakan untuk menyampaikan informasi kepada pengguna. Ini diperkenalkan sebagai kemungkinan untuk gudang data ukuran besar, karena hanya membutuhkan sedikit waktu dan uang untuk membuatnya. Bagaimanapun, tidak ada arti standar dari data mart, karena bervariasi dari individu ke individu.

Sederhananya, data mart adalah tambahan dari gudang data dan digunakan untuk mengelompokkan informasi, yang dibuat untuk kelompok pengguna tertentu.

Lapisan Arsitektur Data Warehouse

Membangun gudang data terutama tergantung pada bisnis tertentu. Jadi, setiap arsitektur memiliki empat lapisan. Mari kita pelajari secara detail di bawah ini.

Lapisan sumber data

Lapisan sumber data adalah tempat di mana informasi unik, yang dikumpulkan dari berbagai sumber dalam dan luar, berada di basis data sosial. Berikut adalah contoh lapisan sumber data:

  • Data Operasional — Informasi produk, informasi stok, informasi pemasaran, atau informasi SDM
  • Data Media Sosial — Hit situs web, ketenaran konten, penyelesaian halaman kontak
  • Data Orang Luar — Informasi demografis, informasi studi, informasi statistik

Sementara sebagian besar gudang data mengelola data terorganisir, pemikiran harus diberikan untuk pemanfaatan masa depan sumber data tidak terstruktur, misalnya, akun suara, gambar yang dipindai, dan teks tidak terstruktur. Banjir data ini adalah gudang informasi yang penting dan harus dilihat saat membangun gudang Anda.

Lapisan Pementasan Data

Lapisan ini berdiam di antara sumber informasi dan gudang data. Pada lapisan ini, informasi dipisahkan dari berbagai sumber data dalam dan luar. Karena data sumber datang di berbagai organisasi, lapisan ekstraksi data akan menggunakan banyak teknologi dan perangkat untuk mengeluarkan informasi yang diperlukan.

Setelah data yang diekstraksi telah ditumpuk, itu akan diekspos ke pemeriksaan kualitas tingkat tinggi. Hasil konklusifnya adalah data yang sempurna dan terorganisir yang akan Anda susun ke dalam gudang data Anda. Lapisan pementasan berisi bagian-bagian yang diberikan:

  • Basis Data Pendaratan dan Area Pementasan

Basis data pendaratan menyimpan informasi yang dipulihkan dari sumber data. Sebelum data masuk ke gudang, proses pementasan melakukan pemeriksaan kualitas yang ketat. Mengatur adalah langkah dasar dalam arsitektur. Informasi yang buruk akan menambah data yang tidak memadai, dan hasilnya adalah dinamika bisnis yang buruk. Lapisan penataan adalah tempat Anda perlu melakukan perubahan sesuai dengan proses bisnis untuk menangani sumber informasi yang tidak terstruktur.

  • Alat Integrasi Data

Extract, Transform and Load tools (ETL) adalah alat data yang digunakan untuk mengekstrak informasi dari kerangka kerja sumber, mengubah, dan menyiapkan informasi dan memuatnya ke dalam gudang.

Baca: Gaji Data Scientist di India

Lapisan Penyimpanan Data

Lapisan ini adalah tempat di mana data yang tersapu di zona penataan disimpan sebagai arsip pusat soliter. Bergantung pada bisnis Anda dan kebutuhan arsitektur gudang Anda, penyimpanan data Anda mungkin berupa pusat gudang data, data mart (gudang data agak dibuat ulang untuk departemen tertentu), atau Operational Data Store (ODS).

Lapisan Presentasi Data

Di sinilah pengguna berkomunikasi dengan data yang digosok dan disortir. Lapisan arsitektur data ini memberi pengguna kemampuan untuk menanyakan data untuk wawasan item atau layanan, memecah data untuk melakukan situasi bisnis teoretis, dan membuat laporan terkomputerisasi atau yang ditunjuk secara khusus.

Anda dapat menggunakan OLAP atau instrumen pelaporan dengan Graphical User Interface (GUI) yang mudah dipahami untuk membantu pengguna membuat kueri, melakukan analisis, atau merencanakan laporan mereka.

Karakteristik Data Warehouse

Data warehouse berorientasi pada subjek, non-volatile, time-variant, dan kumpulan data yang terintegrasi untuk memungkinkan proses pengambilan keputusan yang cepat dan efisien untuk suatu organisasi.

  • Berorientasi Subjek : Gudang data dapat digunakan untuk memeriksa cabang pengetahuan tertentu. Misalnya, "penjualan" bisa menjadi subjek tertentu.
  • Terintegrasi : Sebuah gudang data menggabungkan informasi dari sumber yang berbeda. Misalnya, sumber A dan sumber B mungkin memiliki berbagai metode untuk membedakan suatu barang, namun, di gudang, hanya akan ada metode tersendiri untuk mengenali suatu barang.
  • Time-Variant : Sebuah gudang berisi data historis. Misalnya, seseorang dapat memulihkan informasi dari 3 bulan, setengah tahun, satu tahun, atau informasi yang jauh lebih tua dari gudang data. Ini tampak berbeda dalam kaitannya dengan kerangka transaksi, di mana hanya informasi terbaru yang disimpan. Misalnya, kerangka transaksi dapat menampung lokasi terbaru klien, sedangkan gudang data dapat menampung semua lokasi yang terkait dengan klien.
  • Non-Volatile : Salah satu karakteristik terbaik dari data warehouse adalah bahwa sekali data disimpan di dalamnya, tidak mungkin data tersebut akan berubah. Dengan demikian, informasi yang direkam di gudang tidak akan pernah diubah.

Bagaimana Menggunakan Arsitektur Data Warehouse?

Membangun jenis database yang dibutuhkan bisnis atau perusahaan Anda dan bagaimana Anda ingin berkolaborasi dengannya sangat penting saat mencari wawasan. Penting juga untuk menilai siapa yang akan memeriksa informasi dan sumber apa yang mereka butuhkan sambil mempertimbangkan desain gudang data Anda.

Terlepas dari kenyataan bahwa gudang data versus olok-olok data mart tidak selalu relevan untuk organisasi yang lebih kecil, mereka yang memiliki lebih banyak kelompok, divisi, dan kebutuhan eksplisit dapat diuntungkan oleh data mart. Sifat data mart yang terletak pada subjek tertentu menjadikannya bagian penting dari arsitektur gudang data Anda.

Selain itu, bergantung pada ukuran organisasi Anda, berbagai jenis desain gudang mungkin semakin praktis. Memahami mana yang terbaik bergantung pada data Anda, ukuran set Anda, dan kebutuhan bisnis Anda.

Kesimpulan

Sebuah gudang data adalah kerangka ilmu data yang berisi informasi otentik dan komutatif dari satu atau berbagai sumber. Ini adalah cara terbaik untuk mengakses data lama dan baru, mendapatkan wawasan darinya, dan meningkatkan proses bisnis dengan menganalisis data saat ini.

Selain itu, konsep pergudangan data berorientasi pada subjek, karena menawarkan data sehubungan dengan subjek daripada aktivitas kemajuan asosiasi. Di gudang, penggabungan menyiratkan dasar dari unit ukuran khas untuk setiap datum yang sebanding dari berbagai database. Seperti disebutkan sebelumnya, ini juga non-volatile, artinya informasi masa lalu tidak dihapus ketika informasi baru dimasukkan ke dalamnya.

Karakteristik variasi waktu dari gudang data memungkinkan kerangka waktu yang tinggi dari kegunaan yang realistis.

Ada lima bagian mendasar dari data warehouse. 1) Basis Data 2) Alat ETL 3) Meta Data 4) Alat Kueri 5) DataMarts

Empat kelas dasar alat kueri adalah alat kueri dan pelaporan, alat pengembangan aplikasi, peralatan penambangan data, dan alat OLAP.

Sumber informasi, perubahan, dan alat relokasi digunakan untuk memainkan semua transformasi dan garis besar.

Dalam arsitektur gudang data, meta-tag mengasumsikan pekerjaan yang signifikan karena menunjukkan sumber, penggunaan, kualitas, dan sorotan data di gudang data.

Kami berharap informasi dalam artikel ini membantu Anda memahami dasar-dasar arsitektur gudang data. Untuk informasi lebih lanjut, hubungi para ahli di upGrad. Cukup kirimkan email kepada kami, dan kami akan menghubungi Anda kembali untuk membantu Anda dengan pertanyaan Anda.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa arsitektur dari gudang data?

Metode untuk mendefinisikan seluruh arsitektur pemrosesan komunikasi data serta presentasi yang ada untuk klien akhir adalah arsitektur gudang data. Setiap gudang data berbeda, dan masing-masing dicirikan berdasarkan komponen vital standar.

Dengan kata sederhana, gudang data adalah sistem informasi yang terdiri dari data komutatif dan historis dari satu atau beberapa sumber. Proses pelaporan dan analisis data dalam organisasi disederhanakan dengan bantuan konsep pergudangan data yang berbeda. Ada berbagai pendekatan untuk membangun arsitektur gudang data. Pendekatan apa pun digunakan berdasarkan persyaratan organisasi.

Berapa penghasilan rata-rata arsitek gudang data?

Arsitek Gudang Data adalah peran pekerjaan yang sangat diminati di mana Anda dapat mengharapkan paket gaji yang sangat baik. Rata-rata, gaji seorang Arsitek Gudang Data adalah Rs. 13.00.000 per tahun. Bahkan jika Anda memulai karir Anda di bidang ini, Anda dapat mengharapkan gaji tingkat awal Rs. 10.000.000 per tahun. Ketika Anda mendapatkan lebih banyak pengalaman dan naik tangga, gaji bisa berkisar hingga Rs. 22.000.000 per tahun.

Tidak diragukan lagi, paket gaji akan bergantung bahkan pada perusahaan tempat Anda bergabung, tingkat pengalaman, dan yang terpenting, lokasi geografis.

Apa aliran yang benar dari arsitektur gudang data?

Pada setiap database operasional, ada sejumlah operasi tertentu yang harus diterapkan. Ada berbagai teknik yang terdefinisi dengan baik untuk memberikan solusi yang sesuai. Data warehousing ditemukan lebih efektif ketika aliran yang benar dari arsitektur data warehouse diikuti sepenuhnya.

Empat proses berbeda yang berkontribusi pada gudang data adalah mengekstrak dan memuat data, membersihkan dan mengubah data, mencadangkan dan mengarsipkan data, dan menjalankan proses manajemen kueri dengan mengarahkannya ke sumber data yang sesuai.