Panduan Pemula untuk Ilmu Data dan Aplikasinya
Diterbitkan: 2018-02-24Kata-kata Data, Science, atau Data Science saja tidak cukup untuk menimbulkan rasa takut atau gentar di kalangan pembaca. Sejujurnya, kata-kata itu terlalu manis untuk menjadi tidak menyenangkan, apalagi mengerikan, tidak seperti kata-kata – tessellation, k-mean, k-tetangga terdekat, Euclidean Minimum Spanning Tree, dan banyak lagi semacam ini – kata-kata yang Anda' akan Anda temui dalam perjalanan Ilmu Data Anda.
Sementara "Ilmu Data" tidak menimbulkan rasa takut, itu juga tidak menjelaskan apa pun tentang bidang tersebut. Semua orang tahu apa itu data; setidaknya dalam arti awam. Data pada dasarnya hanyalah informasi mentah. Sains, di sisi lain, dapat digunakan untuk mengartikan setiap kelompok kegiatan yang mengikuti metode ilmiah.
Jadi, dengan logika ini, kita dapat menyimpulkan bahwa Ilmu Data adalah bidang yang menggunakan metode ilmiah pada sejumlah besar data. Tapi untuk apa? Dan apa sebenarnya Ilmu Data itu?
Itulah topik pembahasan kita hari ini. Setelah membaca artikel ini, Anda akan dapat menjawab pertanyaan-pertanyaan berikut:
- Apa itu Ilmu Data?
- Apa saja fase berbeda dari pipeline Ilmu Data?
- Di mana saya bisa melihat Ilmu Data bekerja?
Daftar isi
Apa itu Ilmu Data?
Wikipedia, ibu dari semua ensiklopedia, mendefinisikan Ilmu Data sebagai bidang yang berfokus pada penggalian pengetahuan dan wawasan dari data dengan menggunakan metode ilmiah. Namun, apa yang tidak diberitahukan kepada Anda, adalah bahwa kita manusia terlahir sebagai ilmuwan data. Bagaimana? Ayo lihat.
Anda mengamati dunia di sekitar Anda tidak peduli apa yang Anda lakukan. Pada setiap saat terjaga, Anda mengambil detail dari lingkungan Anda dan memasukkannya ke otak Anda. Anda kemudian memproses pengamatan ini menjadi data dan menggunakannya untuk memahami hal-hal di sekitar Anda dengan mencari tahu makna dan membuat prediksi tentang apa yang mungkin terjadi selanjutnya.
Ketika Anda terlambat berangkat kerja satu jam, Anda menelepon untuk memberi tahu mereka bahwa Anda akan bekerja dari rumah. Anda menggunakan pengamatan lalu lintas dan penghentian di masa lalu yang membuat Anda menyimpulkan bahwa kemungkinan besar Anda akan kehilangan waktu terjebak macet daripada yang Anda peroleh dengan berada di kantor. Ketika Anda masuk ke kamar Anda dan melihat bungkus cokelat tergeletak di sekitar, analisis kasual akan memberi tahu Anda bahwa seseorang telah memakan cokelat Anda saat Anda tidak ada.
4 Peran Analisis Data Teratas yang Harus Diperhatikan
Dalam salah satu kasus yang disebutkan, jika Anda melakukan perhitungan dan prediksi ini dalam pikiran Anda, tanpa mencatatnya, Anda adalah manusia normal. Di sisi lain, jika Anda melanjutkan dan merekam titik data ini (tentu saja dalam format yang dapat dibaca mesin) dan kemudian mencoba merancang algoritma (atau, prosedur) dan program komputer untuk menjalankan aplikasi. Jika output dari sistem "hipotetis" ini adalah "lalu lintas akan menyedot", atau "teman sekamar Anda memakan cokelat Anda", maka bingo! Anda seorang ilmuwan data.
Ini sama sederhananya (dalam teori) seperti analogi di atas yang terdengar. Pada akhirnya, Anda memiliki data, prosedur, algoritme, dan alat. Anda hanya perlu mengekstrak pengetahuan darinya. Untuk melakukannya secara efisien, ada alur kerja/pipa yang harus Anda ikuti. Mari kita lihat apa saja yang termasuk dalam Data Science Pipeline yang khas.
Pipa Ilmu Data
Pipa ilmu data berbicara tentang aliran seluruh proses – mulai dari memperoleh data yang diinginkan hingga membuat perhitungan dan prediksi yang akurat. Mari kita lihat elemen-elemen dari pipeline ini:

Dapatkan Data Anda
Ini secara default hal pertama yang perlu Anda lakukan untuk berlatih Ilmu Data – dapatkan datanya! Sedikit peringatan – ada beberapa hal yang harus Anda pertimbangkan saat mendapatkan data Anda. Anda harus terlebih dahulu mengidentifikasi semua dataset Anda (bisa dari internet atau database internal/eksternal). Anda kemudian harus mengekstrak data ke dalam format yang dapat digunakan (CSV, XML, JSON, dll.)
Berikut adalah Keterampilan & Alat Teratas untuk Dikuasai untuk Menjadi Analis Data
Dibutuhkan keahlian
- Manajemen Basis Data: Baik SQL atau NoSQL, tergantung pada kebutuhan dan persyaratan Anda.
- Menanyakan database ini
- Mengambil data tidak terstruktur berupa video, audio, teks, dokumen, dll.
- Penyimpanan terdistribusi: Hadoop, Apache Spark, atau Apache Flink.
Menggosok / Membersihkan Data Anda
Pembersihan data harus diberikan sangat penting karena hasil akhir dari sistem Anda hanya sebaik data yang Anda masukkan ke dalamnya. Pembersihan mengacu pada penghapusan anomali, mengisi nilai yang kosong/hilang, melihat apakah datanya konsisten, dan hal-hal lain seperti ini.
Dibutuhkan keahlian
- Bahasa skrip: Python, R, SAS
- Alat perselisihan data: Python Pandas, R
- Pemrosesan terdistribusi: Hadoop, MapReduce/Spark
Eksplorasi (Analisis Data Eksplorasi)
Sekarang setelah datanya bersih, Anda akan mulai memahami pola apa yang dimiliki data Anda. Berbagai jenis visualisasi dan pemodelan statistik mulai digunakan dalam fase ini. Pada dasarnya, fase ini bertujuan untuk mendapatkan makna tersembunyi dari data kami.
Ada banyak hal yang terjadi di bidang Analisis Data Eksplorasi. Jika Anda merasa itu adalah sesuatu yang Anda sukai, jangan lupa untuk membaca artikel kami tentang hal yang sama.
Untuk tampil lebih baik dalam fase ini, Anda harus memiliki "indera laba-laba" Anda. Jadilah gila dan temukan pola atau tren aneh – selalu waspada terhadap sesuatu yang out of the box. Namun, saat melakukan itu, jangan lupakan masalah yang ingin Anda selesaikan. Jangan terlalu banyak keluar dari kotak. Analisis data eksplorasi adalah seni, dan seorang seniman harus selalu mengingat penonton.
Dibutuhkan keahlian
- Pustaka Python: Numpy, Matplotlib, Pandas, Scipy
- Pustaka R: GGplot2, Dplyr
- Statistik inferensial
- Visualisasi Data
- Desain eksperimental
Pemodelan (Pembelajaran Mesin)
Ini adalah bagian yang menyenangkan. Model hanyalah aturan umum dalam arti statistik. Model pembelajaran mesin hanyalah sebuah alat di toolkit Anda. Anda memiliki akses ke begitu banyak algoritme dengan kasus penggunaan dan tujuan yang berbeda sehingga penelitian sederhana akan mengarahkan Anda ke algoritme yang sesuai dengan kebutuhan bisnis Anda.
Setelah membersihkan data dan menemukan fitur penting (dalam fase EDA), menggunakan model statistik sebagai alat prediksi akan meningkatkan pengambilan keputusan Anda secara keseluruhan. Alih-alih melihat ke belakang untuk melihat “apa yang terjadi?”, analitik prediktif bertujuan untuk menjawab “apa selanjutnya?” dan “bagaimana kita harus melakukannya?”.

Dibutuhkan keahlian
- Pembelajaran Mesin: Algoritme pembelajaran dengan pengawasan/tanpa pengawasan/penguatan
- Metode evaluasi
- Perpustakaan Pembelajaran Mesin: Python (Belajar Sci-kit) / R (CARET)
- Aljabar Linier & Kalkulus Multivariat
Interpreting (Data Storytelling)
Ini adalah salah satu tugas yang lebih menantang dalam pipa. Di sini, Anda bertujuan untuk menjelaskan temuan Anda melalui komunikasi. Pada akhirnya, ini semua tentang berhubungan dengan audiens Anda – dan itulah yang membuat storytelling menjadi kuncinya.
Temuan Anda hampir tidak berguna jika Anda tidak dapat menyampaikan signifikansinya kepada kelompok non-teknologi di kantor Anda, atau bahkan atasan Anda, dalam hal ini. Praktik yang baik untuk mengendalikan segala sesuatunya adalah dengan banyak berlatih. Cobalah membingkai sebuah cerita tentang temuan Anda dan menceritakannya kepada orang awam (sebaiknya anak-anak). Jika mereka memahaminya, begitu juga bos Anda. Dan jika tidak, Anda tahu apa yang dikatakan Einstein:
"Jika Anda tidak bisa menjelaskannya kepada anak berusia enam tahun, Anda sendiri tidak memahaminya."
Fase ini bertujuan untuk mendapatkan wawasan bisnis yang sebenarnya. Tantangan utama Anda di sini adalah memvisualisasikan temuan Anda dan menampilkannya dengan cara yang indah dan dapat dimengerti.
Dibutuhkan keahlian
- Pengetahuan tentang domain bisnis Anda
- Alat Visualisasi Data: Tableau, D3.JS, Matplotlib, GGplot, Seaborn, dll.
- Komunikasi: Keterampilan presentasi – baik lisan maupun tulisan.
Ini bukan akhir dari jalur pipa kami. Jika Anda benar-benar ingin mengeluarkan yang terbaik dari sistem Anda, Anda perlu memastikan bahwa Anda memperbarui model Anda saat dan saat dibutuhkan. Dalam Ilmu Data, satu ukuran tidak cocok untuk semua, dan Anda harus terus meninjau kembali dan memperbarui model Anda.
Manipulasi Data: Bagaimana Anda Dapat Menemukan Kebohongan Data?
Aplikasi Ilmu Data
Seperti yang sudah jelas sekarang, Ilmu Data adalah istilah yang luas, dan begitu juga aplikasinya. Hampir setiap aplikasi di ponsel cerdas Anda menggunakan data. Jadi, adil untuk mengatakan bahwa hampir tidak mungkin untuk membuat daftar semua aplikasi ilmu data karena kemahahadirannya.
Mari kita lihat bidang luas yang menggunakan keajaiban Ilmu Data:
1. Pencarian Internet
Bagaimana cara Google mengembalikan hasil pencarian yang *akurat* dalam sepersekian detik? Ilmu Data!
2. Sistem Rekomendasi
Dari "orang yang mungkin Anda kenal" di Facebook atau LinkedIn hingga "orang yang telah membeli produk ini juga menyukai ..." di Amazon hingga daftar putar harian Anda di Spotify hingga "video yang disarankan" di YouTube, semuanya didorong oleh Ilmu Data.
3. Pengenalan Gambar/Ucapan/Karakter
Ini cukup banyak berjalan tanpa mengatakan. Menurut Anda apa otak di balik "Siri", jika bukan Ilmu Data? Juga, bagaimana menurut Anda Facebook mengenali teman Anda ketika Anda mengunggah foto dengan mereka? Ini bukan sihir; itu ilmu – Ilmu Data.
4. Permainan
EA Sports, Sony, Nintendo, Zynga, dan raksasa lainnya dalam domain ini telah mengambil sendiri untuk membawa pengalaman bermain game Anda ke tingkat yang sama sekali baru. Game sekarang dikembangkan dan ditingkatkan menggunakan algoritme Pembelajaran Mesin sehingga dapat ditingkatkan saat Anda naik ke level yang lebih tinggi.
5. Situs Perbandingan Harga
Situs web ini didorong oleh data. Bagi mereka, semakin banyak semakin menyenangkan. Data diambil dari situs web yang relevan menggunakan API. PriceGrabber, PriceRunner, Junglee, Shopzilla adalah beberapa situs web semacam itu.
Memulai Ilmu Data dengan PythonMembungkus…
Jika Anda berasal dari latar belakang teknologi dan memiliki sedikit sesuatu untuk data, maka Ilmu Data adalah panggilan Anda yang sebenarnya. Bagian terbaik? Ada banyak hal yang dapat dilakukan dan dijelajahi di dalam dan di sekitar Ilmu Data. Ini adalah istilah umum yang mencakup sejumlah alat dan teknologi – menguasai salah satunya akan menjadikan Anda aset di pasar Ilmu Data yang terus meningkat. upGrad menawarkan berbagai kursus tentang Ilmu Data agar Anda tetap terdepan. Jangan lupa untuk memeriksanya!
Apa ruang lingkup Ilmu Data di seluruh industri di India?
Ilmu data memiliki dampak besar di banyak industri di India. Setiap industri yang tercantum di bawah ini sangat bergantung pada ilmu data dan memberikan prospek yang sangat baik bagi seorang ilmuwan data.
1. Perawatan Kesehatan : Ini adalah kata umum untuk segala sesuatu yang berhubungan dengan obat, pasien, dan penyakit. Ilmu data mulai memainkan peran penting dalam industri ini, mulai dari diagnosis yang lebih efisien hingga penelitian medis.
2. Perbankan dan Asuransi - Penilaian Risiko dan Deteksi Penipuan: Bank mengumpulkan profil nasabah, permohonan dan pengeluaran sebelumnya, serta berbagai data pribadi lainnya, terutama untuk pinjaman dan asuransi. Di sinilah ilmu data masuk, karena menyederhanakan proses dan membedakan antara mereka yang berisiko rendah dan mereka yang berisiko tinggi.
3. Pemasaran dan Periklanan - Dengan semua data di ujung jari Anda, Anda dapat menganalisis dan menentukan siapa audiens target Anda untuk memasarkan layanan atau produk Anda secara efektif.
4. Industri Penerbangan - Ilmu data digunakan di sektor penerbangan untuk menganalisis jalur dan rute pesawat.
Bagaimana Ilmuwan Data dapat menggunakan keterampilan mereka untuk memecahkan masalah bisnis?
Bergantung pada tuntutan perusahaan mereka, seorang Data Scientist harus mengambil strategi berbeda untuk memecahkan tantangan bisnis. Menggunakan model hibrida matematika dan ilmu komputer, ilmuwan data mengumpulkan wawasan yang dapat ditindaklanjuti dari data dan membantu membuat keputusan yang lebih baik. Aplikasi ilmu data untuk memecahkan tantangan bisnis dunia nyata termasuk meningkatkan kualitas produk, mengotomatiskan penempatan iklan digital, meningkatkan pendapatan dengan memprediksi permintaan dan peluang pertumbuhan, mengotomatiskan proses rekrutmen, menetapkan harga di pasar yang dinamis di antara kasus penggunaan lainnya.
Apa masa depan ilmu data?
Masa depan ilmu data sangat menarik dengan cakupan implementasi yang luas di hampir setiap bidang. Beberapa perusahaan asli digital terbaik seperti Google, Amazon, Facebook dll, telah melakukan investasi yang signifikan dalam data. Munculnya teknologi baru yang dikombinasikan dengan penelitian yang sedang berlangsung akan mengarah pada aplikasi dan kasus penggunaan yang inovatif di masa depan. Dari sudut pandang karir, ilmu data menjanjikan banyak hal.
