Apa Itu Data Warehousing dan Data Mining

Diterbitkan: 2018-02-22

Data perusahaan disimpan dalam silo informasi yang secara fisik terpisah dari repositori data lainnya, dan setiap silo memiliki fungsi khusus – tetapi itu sebelum Big Data melanda dunia (dengan badai, jika kita boleh mengatakannya). Sekarang, praktis tidak mungkin untuk mempraktikkan metode yang sama pada kumpulan data yang begitu besar. Bayangkan saja jumlah ekstrak data yang diperlukan dari begitu banyak silo informasi yang terpisah secara fisik – hanya untuk menjalankan kueri sederhana. Semua berkat tumpukan data yang sangat besar yang terletak pada organisasi & metode rekayasa data besar.

Mari kita perhatikan dengan seksama bagaimana Data Warehousing dan Data mining memasuki tempat kejadian. Gudang Data dikembangkan untuk mengatasi masalah penyimpanan data ini. Pada dasarnya, Data Warehouse dapat dianggap sebagai tempat penyimpanan data terpadu yang berasal dari berbagai sumber dan dalam berbagai format. Data Mining, di sisi lain, adalah proses penggalian pengetahuan dari Data Warehouse tersebut.

Pada artikel ini, kita akan melihat secara detail Data Warehouse dan Data Mining. Untuk pemahaman yang lebih baik, kami telah menyusun artikel sebagai berikut:

  • Apa itu Data Warehousing?
  • Proses Gudang Data
  • Apa itu Penambangan Data?
  • Proses KDD
  • Kasus Penggunaan Data Mining di Kehidupan Nyata

Daftar isi

Apa itu Data Warehousing?

Jika kita mendefinisikan Data Warehouse, itu dapat dijelaskan sebagai kumpulan data yang berorientasi subjek, varian waktu, non-volatil, dan terintegrasi. Pengenalan Data Warehousing juga terdiri dari data yang dikompilasi dari sumber eksternal. Tujuan merancang Gudang adalah untuk menganalisis dan mendorong keputusan bisnis dengan melaporkan data pada tingkat agregat yang berbeda. Sebelum melangkah lebih jauh dari sini, mari kita lihat dulu apa arti istilah-istilah ini dalam konteks Data Warehouse:

  • Berorientasi Subjek

    Organisasi dapat menggunakan Data Warehouse untuk menganalisis area subjek tertentu. Misalkan Anda ingin melihat seberapa baik kinerja tim penjualan Anda dalam 5 tahun terakhir – Anda dapat menanyakan Gudang Anda, dan itu akan memberi tahu Anda semua yang perlu Anda ketahui. Dalam hal ini, "penjualan" dapat diperlakukan sebagai subjek.

  • Variasi Waktu

    Data Warehouse bertanggung jawab untuk menyimpan data historis untuk organisasi. Misalnya, sistem transaksi dapat menyimpan alamat terbaru dari pelanggan, tetapi Gudang Data akan menyimpan semua alamat sebelumnya juga. Itu terus menambahkan data dari berbagai sumber, selain menyimpan data historis – itulah yang membuatnya menjadi model varian waktu. Data yang disimpan akan selalu berbeda dengan waktu.

  • Non-Volatile

    Setelah data disimpan di Data Warehouse, data tidak dapat diubah atau dimodifikasi. Kami hanya dapat menambahkan salinan yang dimodifikasi dari data yang ingin kami modifikasi.

  • Terintegrasi:

    Seperti yang kami katakan sebelumnya, Gudang Data menyimpan data dari berbagai sumber. Katakanlah kita memiliki dua sumber data – A dan B. Kedua sumber tersebut mungkin memiliki tipe data yang sama sekali berbeda yang disimpan di dalamnya, tetapi ketika dibawa ke Gudang, mereka dibuat untuk menjalani prapemrosesan. Begitulah cara Data Warehouse mengintegrasikan data dari sejumlah sumber.

Memulai Ilmu Data dengan Python

Proses Gudang Data

Pergudangan Data dan Penambangan Data
Perhatikan gambar di atas. Data yang dikumpulkan dari berbagai sumber (sistem operasional, ERP, CRM, Flat Files, dll) dibuat untuk menjalani proses ETL sebelum dimasukkan ke dalam data warehouse. Ini pada dasarnya dilakukan untuk menghilangkan anomali, jika ada, dari data – sehingga tidak ada kerusakan yang terjadi pada Data Warehouse. ETL adalah singkatan dari – Extraction, Transformation, dan Loading. Mari kita lihat masing-masing proses ini secara rinci. Untuk memahami lebih baik, kita akan menggunakan analogi – pikirkan demam emas dan baca terus!

  • Ekstraksi

    Ekstraksi pada dasarnya dilakukan untuk mengumpulkan semua data yang diperlukan dari sistem sumber menggunakan sumber daya sesedikit mungkin.

Anggap saja langkah ini seperti mengarungi sungai mencari bongkahan emas sebesar mungkin .

  • Transformasi

    Tujuan utamanya adalah untuk memasukkan data yang diekstraksi ke dalam database dalam format umum. Ini karena sumber yang berbeda akan memiliki format penyimpanan data yang berbeda – misalnya, satu sumber data mungkin memiliki data dalam format “dd/mm/yyyy”, dan sumber lainnya mungkin memiliki format “dd-mm-yy”. Pada langkah ini, kami akan mengonversinya ke dalam format umum – format yang akan digunakan untuk data dari semua sumber.

Sekarang Anda memiliki bongkahan emas. Apa pekerjaanmu? Lelehkan dan buang kotorannya.

  • Memuat

    Pada langkah ini, data yang diubah dimuat ke dalam database target.

Sekarang Anda memiliki emas murni – cetak menjadi cincin dan jual!
Proses membawa data dari berbagai sumber dan menyimpannya di Data Warehouse (setelah proses ETL tentunya) inilah yang disebut dengan Data Warehouse.
Sekarang, Anda memiliki data Anda – semuanya telah dibersihkan dan siap digunakan. Apa yang harus menjadi langkah selanjutnya? Menggali pengetahuan – ya!

Penambangan Data untuk menyelamatkan!

Bagaimana Anda Dapat Bertransisi ke Analisis Data?

Apa itu Penambangan Data?

Data Mining adalah, secara sederhana, proses mengekstraksi informasi yang sebelumnya tidak diketahui tetapi berpotensi berguna dari kumpulan data. Dengan "sebelumnya tidak diketahui", yang kami maksud adalah pengetahuan yang dapat diperoleh hanya setelah menambang gudang data secara mendalam – yaitu, tidak masuk akal di permukaan. Data Mining pada dasarnya mencari hubungan pola global yang ada antara elemen data.

Misalnya, bayangkan Anda menjalankan supermarket. Sekarang, riwayat pembelian pelanggan mungkin tidak terlihat banyak di permukaan, tetapi, jika dianalisis dengan cermat – mengenali pola yang mungkin, maka informasi ini saja sudah cukup untuk memberikan banyak hal. Jika Anda belum menebaknya, kita berbicara tentang Target – supermarket yang menemukan seorang gadis remaja (pelanggan) hamil hanya dengan mempelajari riwayat pembeliannya dengan cermat dan mencari tren dan pola. Jadi, informasi yang tampak begitu sepele di permukaan ternyata sangat berharga ketika ditambang dengan hati-hati – dan itulah yang kami maksud dengan “pengetahuan yang sebelumnya tidak diketahui”.

Kami merasa tidak adil bagi Anda jika kami memberi Anda cita rasa Data Warehousing dan Data Mining dan sama sekali mengabaikan gambaran besarnya – Knowledge Discovery in Databases (KDD). Data Mining merupakan salah satu langkah dari proses KDD. Mari kita bicara lebih banyak tentang KDD.

Dapatkan sertifikasi ilmu data dari Universitas top dunia. Bergabunglah dengan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister kami untuk mempercepat karir Anda.

Penemuan Pengetahuan Dalam Basis Data (KDD)

Data mining adalah salah satu langkah yang lebih penting dalam proses KDD. KDD pada dasarnya mencakup semuanya mulai dari pemilihan data hingga akhirnya mengevaluasi data yang ditambang. Siklus KDD lengkap ditunjukkan pada gambar di bawah ini:

Pergudangan Data dan Penambangan Data

Pilihan

Sangat penting untuk mengetahui data target yang tepat. Menganalisis subset Data Mining ke Data Warehousing adalah langkah yang sangat penting karena menghapus elemen data yang tidak terkait akan mengurangi ruang pencarian selama fase Data Mining .

Pra-pemrosesan

Pada langkah ini, data yang dipilih dibebaskan dari segala anomali dan outlier. Pada dasarnya, data benar-benar dibersihkan dalam fase ini. Seperti, jika ada beberapa bidang data yang hilang, bidang tersebut diisi dengan nilai yang sesuai. Misalnya, dalam tabel yang menyimpan detail karyawan organisasi Anda, misalkan ada kolom untuk "Nama Tengah". Kemungkinan, itu akan kosong untuk banyak karyawan. Dalam skenario seperti itu, nilai yang sesuai dipilih (T/A, misalnya).

Transformasi

Fase ini mencoba mengurangi variasi elemen data sambil menjaga kualitas informasi.

Penambangan data

Ini adalah fase utama dari proses KDD. Data yang diubah tunduk pada metode penambangan data seperti pengelompokan, pengelompokan, regresi, dll. Ini dilakukan secara berulang untuk memberikan hasil terbaik. Teknik yang berbeda dapat digunakan tergantung pada kebutuhan.

Evaluasi

Ini adalah langkah terakhir. Dalam hal ini, pengetahuan yang diperoleh didokumentasikan dan disajikan untuk analisis lebih lanjut. Berbagai alat Visualisasi Data digunakan dalam langkah ini untuk menggambarkan pengetahuan yang diperoleh dengan cara yang indah dan dapat dimengerti.
Bagaimana Paradoks Simpson Mempengaruhi Data?

Kasus Penggunaan Data Mining di Kehidupan Nyata

Setiap organisasi mulai dari Amazon, Flipkart, Netflix, hingga Facebook, Twitter, Instagram, bahkan Walmart, memanfaatkan Data Mining dengan baik. Di bagian ini, kita akan berbicara tentang empat kasus penggunaan Data Mining secara luas yang merupakan bagian integral dari kehidupan Anda sehari-hari.

  • Penyedia jasa

    Penyedia layanan telekomunikasi menggunakan Data Mining untuk memprediksi "churn" – istilah yang digunakan oleh mereka ketika pelanggan membuangnya ke penyedia lain. Selain itu, mereka menyusun informasi penagihan, kunjungan situs web, interaksi layanan pelanggan, dan hal-hal lain semacam itu untuk memberi setiap pelanggan skor probabilitas. Kemudian, pelanggan yang berisiko lebih tinggi "berputar" diberikan penawaran dan insentif.

  • Perdagangan elektronik

    E-commerce adalah kasus penggunaan yang paling dikenal dalam hal Data Mining. Salah satu yang paling terkenal tentu saja Amazon. Mereka menggunakan teknik penambangan yang sangat canggih. Lihat fungsionalitas "Orang yang melihat produk itu, juga menyukai ini" misalnya!

  • supermarket

    Supermarket juga merupakan kasus penggunaan Data Mining yang menarik. Menambang riwayat pembelian pelanggan memungkinkan mereka memahami pola pembelian mereka. Informasi ini kemudian digunakan oleh supermarket untuk memberikan penawaran yang dipersonalisasi kepada pelanggan. Oh, dan apakah kami memberi tahu Anda tentang apa yang dilakukan Target menggunakan Data Mining? (Ya, kami melakukannya!)

  • Eceran

    Pengecer mengelompokkan pelanggan mereka ke dalam kelompok Kekinian, Frekuensi, dan Moneter (RFM). Menggunakan Data Mining, mereka menargetkan pemasaran ke grup-grup ini. Pelanggan yang membelanjakan sedikit tetapi sering dan pembelian terakhirnya cukup baru akan ditangani secara berbeda dari pelanggan yang menghabiskan banyak tetapi hanya sekali.

Siapa Ilmuwan Data, Analis Data, dan Insinyur Data?

Membungkus…

Data Warehousing dan Data Mining merupakan dua proses terpenting yang secara harfiah menjalankan dunia saat ini. Hampir setiap hal besar saat ini adalah hasil dari penambangan data yang canggih. Karena data yang tidak ditambang sama bermanfaatnya (atau tidak berguna) seperti tidak ada data sama sekali.

Sekali lagi, untuk memahami perbedaan antara Data Mining dan Data Warehousing, Anda harus mempelajarinya, mulai dari pengenalan Data Mining hingga Data Warehousing- yang merupakan metode yang memusatkan semua data dari sumber yang berbeda dalam satu database. Kita dapat mendefinisikan Data warehousing sebagai data historis yang dikompilasi atau umpan data real-time yang memberikan sebagian besar informasi organik dan terintegrasi.

Kami harap artikel ini memberi Anda kejelasan tentang apa itu Data Warehousing dan Data Mining dan banyak lagi. Untuk menyimpulkan, proses pengumpulan, penyimpanan dan pengorganisasian informasi dalam satu database dianggap sebagai Data Warehousing vs Data Mining sebagian besar mengekstraksi informasi yang bermakna dari data menggunakan perspektif yang berbeda. Semua informasi berguna yang dikumpulkan kemudian dapat digunakan untuk memecahkan masalah masa depan yang mungkin menjadi penghambat pertumbuhan perusahaan dan bahkan dapat memangkas biaya juga. Jika Anda mencari masa depan yang cerah dan mempesona dan jika eksplorasi adalah hasrat Anda, maka mulai dari mempelajari Whats' What of Data Warehousing dan Data Mining akan menjadi pilihan yang sangat baik untuk Anda.

Kami harap artikel ini memberi Anda kejelasan tentang apa arti kedua istilah ini dan banyak lagi lainnya! Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Bagaimana bisnis menggunakan Data Warehousing dan Data Mining?

Baik penambangan data maupun pergudangan data adalah teknik intelijen bisnis untuk mengubah informasi (atau data) menjadi pengetahuan yang dapat digunakan.

Data mining adalah metode analisis statistik. Alat teknis digunakan oleh analis untuk menanyakan dan memilah-milah gigabyte data untuk mencari tren. Bisnis kemudian memanfaatkan data ini untuk membuat keputusan bisnis yang lebih baik berdasarkan pemahaman mereka tentang perilaku konsumen dan pemasok mereka.

Data Warehousing adalah proses merancang bagaimana data disimpan untuk memfasilitasi pelaporan dan analisis. Menurut spesialis gudang data, banyak penyimpanan data secara konseptual dan fisik terintegrasi dan terkait satu sama lain. Data perusahaan biasanya disimpan dalam beberapa database.

Apa perbedaan inti antara Data Warehousing dan Data Mining? Mana yang lebih praktis dalam dunia bisnis?

Sebuah gudang data adalah sistem penyimpanan data. Biasanya memerlukan berbagai jenis data yang diperoleh dari berbagai sumber untuk berbagai tujuan. Proses penyimpanan data ini dengan disiplin agar dapat diambil kembali di kemudian hari dikenal sebagai data warehousing.

Proses penggalian data dikenal sebagai data mining. Ini memerlukan menemukan informasi yang paling relevan untuk tujuan tertentu. Itu mungkin berasal dari gudang data Anda, atau dari tempat lain sama sekali. Anda mengantisipasi pemurnian dan pembersihan data yang Anda tambang, seperti yang Anda lakukan dengan bijih asli.

Semakin baik sistem pergudangan Anda, semakin mudah untuk menambang.

Apakah proses Data Mining dan KDD serupa?

Meskipun KDD dan Data Mining adalah istilah yang sering dipertukarkan, mereka merujuk pada dua konsep yang berbeda namun terkait.

Data Mining adalah komponen dalam proses KDD yang berhubungan dengan pengenalan pola dalam data, sedangkan KDD adalah keseluruhan proses penggalian pengetahuan dari data. Dengan kata lain, Data Mining hanyalah penerapan algoritma tertentu untuk mencapai tujuan akhir proses KDD.