Kerangka Kerja Ilmu Data: 7 Langkah Teratas Untuk Keputusan Bisnis yang Lebih Baik
Diterbitkan: 2019-12-26Ilmu data adalah bidang yang luas yang mencakup berbagai teknik dan metode yang mengekstrak informasi dan membantu memahami kumpulan data. Selain itu, keputusan berbasis data dapat memberikan nilai bisnis yang sangat besar. Oleh karena itu, kerangka kerja ilmu data telah menjadi cawan suci bisnis teknologi modern, yang secara luas memetakan 7 langkah untuk mendapatkan wawasan yang berarti. Ini termasuk: Bertanya, Memperoleh, Mengasimilasi, Menganalisis, Menjawab, Menyarankan, dan Bertindak. Berikut adalah ikhtisar dari masing-masing langkah ini dan beberapa konsep penting yang terkait dengan ilmu data.
Daftar isi
Kerangka Kerja Ilmu Data: Langkah-langkah
1. Mengajukan Pertanyaan: Titik awal kerangka kerja ilmu data
Seperti studi ilmiah konvensional lainnya, Ilmu data juga dimulai dengan serangkaian pertanyaan. Ilmuwan data adalah individu yang ingin tahu dengan kemampuan berpikir kritis yang mempertanyakan asumsi dan sistem yang ada. Data memungkinkan mereka untuk memvalidasi kekhawatiran mereka dan menemukan jawaban baru. Jadi, pemikiran ingin tahu inilah yang memulai proses pengambilan tindakan berbasis bukti.
2. Akuisisi: Mengumpulkan data yang diperlukan
Setelah mengajukan pertanyaan, ilmuwan data harus mengumpulkan data yang diperlukan dari berbagai sumber, dan selanjutnya mengasimilasinya agar bermanfaat. Mereka menerapkan proses seperti Rekayasa Fitur untuk menentukan input yang akan mendukung algoritme penambangan data, pembelajaran mesin, dan pengenalan pola. Setelah fitur diputuskan, data dapat diunduh dari sumber terbuka atau diperoleh dengan membuat kerangka kerja untuk merekam atau mengukur data.
3. Asimilasi: Mengubah data yang dikumpulkan
Kemudian, data yang dikumpulkan harus dibersihkan untuk penggunaan praktis. Biasanya, ini melibatkan pengelolaan nilai-nilai yang hilang dan salah dan berurusan dengan outlier potensial. Data yang buruk tidak dapat memberikan hasil yang baik, tidak peduli seberapa kuat pemodelan datanya. Sangat penting untuk membersihkan data karena komputer mengikuti konsep logis "Sampah Masuk, Sampah Keluar". Mereka memproses bahkan input yang tidak diinginkan dan tidak masuk akal untuk menghasilkan output yang tidak diinginkan dan tidak masuk akal.
Berbagai bentuk data
Data mungkin datang dalam format terstruktur atau tidak terstruktur. Data terstruktur biasanya berupa variabel-variabel diskrit atau data kategorikal, yang memiliki sejumlah kemungkinan berhingga (misalnya jenis kelamin) atau variabel-variabel kontinu, termasuk data numerik seperti bilangan bulat atau bilangan real (misalnya gaji dan suhu). Kasus khusus lainnya dapat berupa variabel biner yang hanya memiliki dua nilai, seperti Ya/Tidak dan Benar/Salah.
Mengonversi data
Terkadang, ilmuwan data mungkin ingin menganonimkan data numerik atau mengubahnya menjadi variabel diskrit untuk menyinkronkannya dengan algoritme. Misalnya, suhu numerik dapat diubah menjadi variabel kategoris seperti panas, sedang, dan dingin. Ini disebut 'bining'. Proses lain yang disebut 'encoding' dapat digunakan untuk mengubah data kategorikal menjadi numerik.
4. Analisis: Melakukan penambangan data
Setelah data yang diperlukan diperoleh dan diasimilasi, proses penemuan pengetahuan dimulai. Analisis data melibatkan fungsi seperti Data Mining dan Analisis Data Eksplorasi (EDA). Menganalisis adalah salah satu langkah paling penting dari kerangka kerja ilmu data .
Penambangan Data
Penambangan data adalah persimpangan statistik, kecerdasan buatan, pembelajaran mesin, dan sistem basis data. Ini melibatkan menemukan pola dalam kumpulan data besar dan menyusun dan meringkas data yang sudah ada sebelumnya menjadi informasi yang berguna. Data mining tidak sama dengan pencarian informasi (mencari web atau mencari nama di buku telepon, dll.) Sebaliknya, ini adalah proses sistematis yang mencakup berbagai teknik yang menghubungkan titik-titik di antara titik-titik data.
Analisis data eksplorasi (EDA)
EDA adalah proses menggambarkan dan mewakili data menggunakan statistik ringkasan dan teknik visualisasi. Sebelum membangun model apapun, penting untuk melakukan analisis tersebut untuk memahami data sepenuhnya. Beberapa tipe dasar analisis eksplorasi meliputi Asosiasi, Pengelompokan, Regresi, dan Klasifikasi. Mari kita pelajari tentang mereka satu per satu.
Asosiasi
Asosiasi berarti mengidentifikasi item mana yang terkait. Misalnya, dalam kumpulan data transaksi supermarket, mungkin ada produk tertentu yang dibeli bersamaan. Asosiasi umum bisa jadi roti dan mentega. Informasi ini dapat digunakan untuk membuat keputusan produksi, meningkatkan volume penjualan melalui penawaran 'kombo', dll.

Kekelompokan
Clustering melibatkan segmentasi data ke dalam kelompok alami. Algoritme mengatur data dan menentukan pusat cluster berdasarkan kriteria tertentu, seperti jam belajar dan nilai kelas. Sebagai contoh, sebuah kelas dapat dibagi menjadi pengelompokan atau kelompok alami, yaitu Shirkers (siswa yang tidak belajar lama dan mendapatkan nilai rendah), Keen Learners (mereka yang mencurahkan waktu berjam-jam untuk belajar dan mendapatkan nilai tinggi), dan Masterminds (mereka yang menghabiskan waktu berjam-jam untuk belajar dan mendapatkan nilai tinggi). yang mendapatkan nilai tinggi meskipun tidak belajar berjam-jam).
Regresi
Regresi dilakukan untuk mengetahui kekuatan korelasi antara kedua variabel yang disebut juga dengan analisis kausalitas prediktif. Ini terdiri dari melakukan prediksi numerik dengan memasang garis (y=mx+b) atau kurva ke kumpulan data. Garis regresi juga akan membantu dalam mendeteksi outlier – titik data yang menyimpang dari semua pengamatan lainnya. Alasannya bisa karena input data yang salah atau mekanisme yang terpisah sama sekali.
Dalam contoh kelas, beberapa siswa dalam kelompok 'Mastermind' mungkin memiliki latar belakang sebelumnya dalam mata pelajaran tersebut atau mungkin telah memasukkan jam belajar dan nilai yang salah dalam survei. Pencilan penting untuk mengidentifikasi masalah dengan data dan kemungkinan area perbaikan.
Klasifikasi
Klasifikasi berarti menetapkan kelas atau label ke data baru untuk sekumpulan fitur dan atribut tertentu. Aturan khusus dibuat dari data sebelumnya untuk mengaktifkannya. Sebuah Pohon Keputusan adalah jenis umum dari metode klasifikasi. Itu dapat memprediksi apakah siswa itu Shirker, Keen Learner atau Mastermind berdasarkan nilai ujian dan jam belajar. Misalnya, seorang siswa yang telah belajar kurang dari 3 jam dan mendapat skor 75% dapat dicap sebagai Shirker.
5. Menjawab Pertanyaan: Merancang model data
Kerangka kerja ilmu data tidak lengkap tanpa membangun model yang meningkatkan proses pengambilan keputusan. Pemodelan membantu dalam merepresentasikan hubungan antara titik data untuk disimpan dalam database. Berurusan dengan data dalam lingkungan bisnis nyata bisa lebih kacau daripada intuitif. Jadi, menciptakan model yang tepat adalah yang paling penting. Selain itu, model harus dievaluasi, disesuaikan, dan diperbarui dari waktu ke waktu untuk mencapai tingkat kinerja yang diinginkan.
6. Saran: Menyarankan keputusan alternatif
Langkah selanjutnya adalah menggunakan wawasan yang diperoleh dari model data untuk memberikan saran. Ini berarti bahwa peran ilmuwan data lebih dari sekadar menghitung angka dan menganalisis data. Sebagian besar pekerjaan adalah memberikan saran yang dapat ditindaklanjuti kepada manajemen tentang apa yang dapat meningkatkan profitabilitas dan kemudian memberikan nilai bisnis. Penasihat mencakup penerapan teknik seperti optimasi, simulasi, pengambilan keputusan di bawah ketidakpastian, ekonomi proyek, dll.
7. Tindakan: Memilih langkah yang diinginkan
Setelah mengevaluasi saran berdasarkan situasi dan preferensi bisnis, manajemen dapat memilih tindakan tertentu atau serangkaian tindakan yang akan diterapkan. Risiko bisnis dapat diminimalkan sebagian besar dengan keputusan yang didukung oleh ilmu data.
Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Kesimpulan
Ilmu data memiliki aplikasi yang luas di dunia yang dipimpin oleh teknologi saat ini. Garis besar kerangka kerja ilmu data di atas akan berfungsi sebagai peta jalan untuk menerapkan ilmu data ke bisnis Anda!
Jika Anda ingin tahu tentang belajar ilmu data untuk menjadi yang terdepan dalam kemajuan teknologi yang serba cepat, lihat Diploma PG di Ilmu Data upGrad & IIIT-B.
Apakah NumPy dianggap sebagai kerangka kerja?
Paket NumPy dalam Python adalah tulang punggung komputasi ilmiah. Ya, NumPy adalah kerangka kerja dan modul Python untuk komputasi ilmiah. Muncul dengan objek array multidimensi berkinerja tinggi dan fasilitas untuk memanipulasinya. NumPy adalah objek array N-dimensi yang kuat untuk Python yang mengimplementasikan aljabar linier.
Dalam ilmu data, apa itu binning tanpa pengawasan?
Binning atau diskritisasi mengubah variabel kontinu atau numerik menjadi karakteristik kategoris. Unsupervised binning adalah semacam binning di mana variabel numerik atau kontinu diubah menjadi bin kategoris tanpa mempertimbangkan label kelas yang dimaksud.
Bagaimana klasifikasi dan algoritma regresi dalam ilmu data berbeda satu sama lain?
Metode pembelajaran kami melatih fungsi untuk menerjemahkan input ke output dalam tugas klasifikasi, dengan nilai output menjadi label kelas diskrit. Masalah regresi, di sisi lain, membahas pemetaan input ke output di mana outputnya adalah bilangan real kontinu. Beberapa algoritme dirancang khusus untuk masalah gaya regresi, seperti model Regresi Linier, sementara yang lain, seperti Regresi Logistik, dirancang untuk pekerjaan klasifikasi. Prediksi cuaca, prediksi harga rumah, dan masalah regresi lainnya dapat diselesaikan dengan menggunakan algoritma regresi. Algoritma klasifikasi dapat digunakan untuk mengatasi masalah seperti mengidentifikasi email spam, pengenalan suara, dan identifikasi sel kanker, antara lain.