Kumpulan Data Terbaik untuk Proyek Pembelajaran Mesin: Semua yang Perlu Anda Ketahui

Diterbitkan: 2020-03-20

Daftar isi

pengantar

Pembelajaran mesin adalah salah satu teknologi paling kuat yang digunakan saat ini. Ini adalah cabang yang sangat penting dari kecerdasan buatan yang digunakan untuk membuat komputer lebih pintar – memberi mereka kemampuan untuk belajar tanpa campur tangan manusia. Hal ini menjadikan pembelajaran mesin sebagai alat vital untuk menangani data. Karena data digunakan secara harfiah di mana-mana, mulai dari membuat keputusan bisnis hingga mengatur pengalaman pelanggan, pembelajaran mesin memudahkan untuk mengidentifikasi pola yang tersembunyi di dalam kumpulan data yang sangat besar ini.

Yang terpenting, kumpulan data ini adalah cara untuk mengatur potongan besar data mentah. Dengan menggunakan kumpulan data ini, program ditulis untuk membuat aplikasi yang membuat operasi bisnis lebih mudah. Dalam artikel ini, kita mempelajari tentang kumpulan data yang berbeda untuk pembelajaran mesin .

Namun sebelum membahasnya, mari kita pahami dulu dasar-dasar pembelajaran mesin.

Apa itu Pembelajaran Mesin?

Pembelajaran mesin bertanggung jawab untuk memberi daya pada platform paling favorit Anda seperti Netflix, Facebook, Twitter, YouTube, Spotify, Google, dan Baidu. Bahkan asisten suara seperti Alexa dan Siri memilih lagu favorit Anda untuk menggunakan pembelajaran mesin! Semua platform ini mencoba menggunakan data yang terkait dengan Anda. Ini termasuk pencarian Anda, klik, pandangan Anda, gambar yang Anda bagikan, komentar, reaksi, dan posting. Pelajari lebih lanjut tentang aplikasi pembelajaran mesin teratas.

Pembelajaran mesin menggunakan data ini untuk mendapatkan ide tentang preferensi Anda. Misalnya, Netflix menggunakannya untuk menyarankan serial TV yang mungkin Anda sukai, berdasarkan yang telah Anda tonton. Bahkan platform seperti Amazon menggunakan pembelajaran mesin untuk menyarankan produk Anda, berdasarkan riwayat pembelian Anda sebelumnya.

Segmen pasar pembelajaran mesin yang paling menonjol adalah pembelajaran mendalam yang dapat mencapai hingga 1 miliar pada tahun 2025.

Terlihat menarik? Mari kita masuk ke teknis subjek.

Kategori Pembelajaran Mesin

Pembelajaran mesin secara luas dibagi menjadi tiga – pembelajaran yang diawasi, pembelajaran tanpa pengawasan, dan pembelajaran penguatan .

Pembelajaran yang diawasi

Dalam proses ini, komputer akan belajar dari kumpulan data yang disebut data pelatihan . Ini akan mengambil keputusan dan memprediksi hasil di masa depan berdasarkan ini. Anda akan belajar tentang set data pelatihan untuk pembelajaran mesin nanti. Di sini, sistem memasukkan pasangan input-output, dan saat bekerja dengan pasangan ini, sistem mempelajari bagaimana mereka dipetakan bersama. Ini seperti memiliki satu set pertanyaan yang memiliki jawaban yang benar ditandai untuk mereka.

Ketika sistem atau algoritma mempelajari hubungan antara pasangan input-output, sistem dapat memprediksi output ketika input baru diberikan padanya. Pelajari lebih lanjut tentang jenis pembelajaran yang diawasi.

Pembelajaran tanpa pengawasan

Di sini, komputer melihat ke dalam kumpulan data untuk mengidentifikasi pola tersembunyi tanpa bantuan apa pun. Ia bekerja pada tugas-tugas yang rumit dan menemukan hasil sendiri. Pelajari lebih lanjut tentang pembelajaran tanpa pengawasan.

Pembelajaran penguatan

Proses pembelajaran mesin ini menggunakan metode coba-coba untuk menentukan solusi suatu masalah. Jadi output dari program akan tergantung pada input saat ini yang diberikan padanya.

Sekarang setelah Anda memiliki pemahaman dasar tentang pembelajaran mesin, mari beralih ke kumpulan data.

Apa itu set data untuk pembelajaran mesin?

Kumpulan data, seperti namanya, adalah kumpulan data . Ini bisa berupa data dari satu database, di mana variabel digunakan untuk mewakili kolom. Baris tabel ini dapat diwakili oleh anggota dari kumpulan data khusus ini.

Mempersiapkan set data untuk machine learning itu penting. Ini karena algoritme tidak dapat bekerja dengan baik pada data mentah atau tidak terstruktur. Kumpulan data yang tepat diperlukan untuk memecahkan masalah dan sampai pada keputusan. Misalnya, aplikasi cuaca mungkin tidak memiliki kumpulan data yang tepat yang berisi data iklim beberapa hari atau minggu terakhir. Jadi, itu tidak akan dapat memberikan prakiraan cuaca yang akurat untuk minggu mendatang.

Jadi, tanpa set data yang tepat untuk pembelajaran mesin , proyek pembelajaran mesin tidak akan berhasil bahkan dengan ilmuwan data terlatih.

Kumpulan data untuk pembelajaran mesin digunakan untuk membuat model pembelajaran mesin . Model-model ini mewakili masalah dunia nyata menggunakan ekspresi matematika. Untuk menghasilkan model seperti itu, Anda harus menyediakannya dengan kumpulan data untuk dipelajari dan bekerja.

Jenis-jenis dataset yang digunakan dalam machine learning adalah sebagai berikut:

1. Kumpulan data pelatihan

Ini mungkin yang paling penting di antara kumpulan data untuk pembelajaran mesin. Itu diumpankan ke algoritme pembelajaran mesin untuk membuat model. Algoritma mencari pola data untuk mengidentifikasi variabel input. Ini akan membantunya mencapai tujuan akhir atau hasil yang diinginkan. Keluaran dari kumpulan data ini adalah model pembelajaran mesin yang dapat Anda gunakan untuk memprediksi hasil.

Sekitar 60% dari kumpulan data diambil oleh kumpulan data pelatihan.

2. Kumpulan data validasi

Kumpulan data validasi digunakan pada tahap validasi, saat membuat proyek pembelajaran mesin. Tahap ini datang tepat setelah pelatihan. Kumpulan data ini penting untuk mengevaluasi model pembelajaran mesin. Insinyur pembelajaran mesin menggunakan set ini untuk mengubah dan menyesuaikan hyperparameter model. Hyperparameter ini adalah parameter yang memiliki nilai yang ditetapkan sebelum program mulai belajar.

Nilainya tidak dapat diperkirakan dari data. Misalnya, hyperparameter dapat mencakup kedalaman pohon atau sejumlah lapisan yang tidak terdeteksi dalam jaringan saraf.

Menurut penulis terkenal Max Kuhn dan Kjell Johnson , “model data harus dievaluasi menggunakan sampel yang tidak digunakan untuk membuat atau menyesuaikannya. Ini memberi Anda hasil yang tidak bias dari keefektifan model. Saat bekerja dengan sejumlah besar data, yang terbaik adalah menyisihkan beberapa sampel data untuk evaluasi. Set pelatihan adalah sampel yang digunakan untuk membangun model, sedangkan sampel validasi dan pengujian digunakan untuk menganalisis kinerjanya.”

3. Uji kumpulan data

Kumpulan data pengujian untuk pembelajaran mesin digunakan untuk memahami cara kerja model pembelajaran mesin di masa mendatang. Dengan menggunakan kumpulan data ini, Anda akan dapat memahami seberapa akurat model data Anda. Secara sederhana, kumpulan data ini akan memberi tahu Anda seberapa banyak model data Anda telah belajar dari kumpulan pelatihan.

Set ini mengambil 20% dari data. Set akan berisi variabel input bersama dengan output yang diverifikasi. Namun, dalam proyek pembelajaran mesin , kami biasanya tidak menggunakan kumpulan data pelatihan dalam tahap pengujian. Ini karena algoritme akan mengetahui keluaran yang diharapkan, seperti yang telah dipelajari dari kumpulan data ini sebelumnya.

Setelah tahap pengujian, model data biasanya tidak disesuaikan lagi. Ini karena penyesuaian lebih lanjut dapat menyebabkan overfitting . Overfitting terjadi ketika model data dilatih dengan terlalu banyak data. Dalam hal ini, model mulai belajar dari entri data yang tidak akurat dalam kumpulan data yang diberikan. Akibatnya, ini tidak berfungsi dengan baik pada kumpulan data baru. Ini seperti mencoba memasukkan jeans kebesaran saat Anda tidak bisa!

Tetapi agar model pembelajaran mesin berfungsi dengan sukses, Anda harus menyediakannya dengan kumpulan data yang baik. Tanpa set data untuk pembelajaran mesin , algoritme tidak akan dapat mempelajari dan menyelesaikan masalah. Misalnya, ketika Anda tidak memiliki buku dan sumber daya yang tepat, Anda tidak dapat menyelesaikan ujian yang Anda inginkan.

Mempersiapkan set data untuk pembelajaran mesin

Mari cari tahu langkah-langkah yang diperlukan untuk membuat set data untuk pembelajaran mesin .

Pengumpulan data

Langkah pertama adalah mengumpulkan semua data relevan yang mungkin Anda perlukan untuk model pembelajaran mesin Anda. Jumlah data akan bergantung pada kerumitan proyek pembelajaran mesin . Sebuah proyek sederhana akan membutuhkan lebih sedikit data daripada yang rumit. Jadi, Anda perlu menentukan semua yang benar-benar Anda butuhkan untuk menyelesaikan masalah yang dihadapi.

Data dapat dikumpulkan dengan mudah dengan menjawab pertanyaan-pertanyaan berikut:

  • Jenis data apa yang tersedia bagi Anda untuk proyek tersebut?
  • Data apa yang tidak tersedia yang Anda butuhkan untuk proyek? – Ini mungkin termasuk database atau data tertentu yang disimpan dalam sistem cloud. Anda mungkin perlu mengambil data ini.
  • Data apa yang dapat Anda hapus dari data yang ada? Ini berarti menghapus data yang tidak diinginkan yang tidak relevan dengan proyek Anda.

Ketika Anda memiliki jawaban atas semua pertanyaan ini, Anda dapat mulai mengumpulkan data dari berbagai sumber. Ini bisa berupa file teks, file .csv, melihat struktur data bersarang di file JSON dan XML serta repositori data.

Sekarang Anda dapat melanjutkan ke langkah berikutnya dalam membuat kumpulan data untuk pembelajaran mesin .

Pra-pemrosesan data

Sekarang setelah Anda memiliki semua data yang Anda butuhkan, Anda harus memprosesnya dengan benar untuk model Anda. Metode preprocessing adalah mengubah kumpulan data mentah menjadi kumpulan yang bermakna yang dapat digunakan. Prosesnya terdiri dari tiga langkah di bawah ini:

Memformat

Data mentah yang telah Anda kumpulkan banyak tidak dalam format yang cocok untuk model pembelajaran mesin Anda. Mungkin dalam file JSON atau database relasional. Anda perlu mengonversi data ini menjadi file teks atau file .csv sesuai kenyamanan Anda.

Pembersihan

Ini adalah proses di mana Anda memperbaiki dan menghapus data yang hilang dan tidak diinginkan dari kumpulan data Anda. Contoh data ini mungkin tidak membantu memecahkan masalah. Selain itu, mungkin ada informasi sensitif dalam beberapa atribut yang mungkin perlu Anda sembunyikan atau hapus sepenuhnya. Ini membuat set data Anda untuk machine learning lebih bermakna.

Contoh

Anda mungkin telah mengumpulkan lebih banyak data daripada yang sebenarnya Anda butuhkan untuk proyek tersebut. Kumpulan data besar menghabiskan banyak ruang memori. Mereka juga menyebabkan runtime lebih lama dan lebih banyak komputasi saat dimasukkan ke algoritme pembelajaran mesin. Untuk menghindari masalah ini, Anda harus membuat sampel yang lebih kecil dari data terpilih yang dapat digunakan dengan mudah oleh model Anda. Proses ini disebut sampling .

Rekayasa fitur

Di sini, kumpulan data dianalisis untuk menentukan fitur dan pola terbaik yang akan membantu dalam memecahkan masalah dan membuat prediksi. Jadi, dalam proses ini, beberapa data mungkin dihapus dari kumpulan data yang besar. Fokusnya adalah pada fitur terpenting yang sesuai dengan model.

Data dapat didekomposisi menjadi bagian-bagian kecil untuk mengidentifikasi fitur-fitur penting. Misalnya, data penjualan tahun tertentu dapat dipecah menjadi bulan dan hari dalam seminggu. Dengan cara ini analisis kinerja penjualan lebih mudah dan cepat. Ini juga membantu algoritma pembelajaran mesin menghitung lebih cepat.

Memisahkan data

Sekarang data harus dibagi menjadi tiga set – pelatihan, pengujian, dan validasi. Anda perlu membaginya menjadi 70%, 20%, dan 10% masing-masing untuk set. Untuk pengujian yang tepat, pastikan Anda hanya memilih subset data yang tidak tumpang tindih. Memisahkan set data dengan benar untuk memungkinkan model pembelajaran mesin mencapai output yang diinginkan lebih cepat. Anda dapat memperbaiki model data nanti.

Nah, sekarang Anda telah mempelajari cara membuat kumpulan data untuk algoritme pembelajaran mesin. Tetapi bagaimana jika Anda memiliki proyek yang akan datang dan tidak punya waktu untuk membangun kumpulan data Anda sendiri? Berkat internet, ada banyak kumpulan data siap pakai yang tersedia untuk Anda pilih.

Kumpulan data pembelajaran mesin online

Berikut adalah kumpulan data yang paling berguna untuk pembelajaran mesin di web:

  • Kumpulan Data Perumahan Boston

Pilihan populer di antara kumpulan data untuk pembelajaran mesin . Digunakan untuk pengenalan pola. Ini terdiri dari informasi tentang berbagai rumah Boston termasuk data seperti jumlah kamar, tarif pajak dan tingkat kejahatan di daerah tersebut. Terdiri dari 506 baris dan 14 variabel di kolom data, kumpulan data ini bagus untuk memprediksi harga rumah.

  • kumpulan data parkinson

Kumpulan data ini terdiri dari 195 catatan pasien, bersama dengan 23 atribut berbeda yang memiliki pengukuran biomedis. Anda dapat menggunakan kumpulan data untuk memisahkan pasien yang sehat dari yang memiliki penyakit Parkinson.

  • IMDB

Kumpulan data yang terdiri dari 25.000 ulasan film. Ini digunakan untuk klasifikasi sentimen biner.

  • MIMIC-III

Ini adalah kumpulan data yang tersedia secara terbuka yang dibuat oleh MIT Lab for Computational Physiology. Ini terdiri dari data kesehatan sekitar 40.000 pasien perawatan kritis. Informasi seperti obat-obatan, tes laboratorium, tanda-tanda vital, dan demografi disertakan di sini.

  • Berkeley DeepDrive BDD100k

Berkeley DeepDrive BDD100k saat ini merupakan kumpulan data terbesar yang digunakan untuk mengembangkan program pembelajaran mesin untuk mobil self-driving. Ini berisi lebih dari 100.000 video mengemudi di berbagai waktu dalam sehari dalam kondisi iklim yang berbeda. Data ini didasarkan pada kota-kota New York dan San Francisco.

  • Kumpulan Data Penjemputan Uber

Kumpulan data ini berisi informasi tentang penjemputan pelanggan Uber dari April hingga September 2014 di New York. Ada sekitar 4,5 juta data pelanggan jenis ini dan 14 juta lebih dari Januari hingga Juni 2015. Anda dapat melakukan analisis data menggunakan kumpulan data ini untuk mengumpulkan lebih banyak informasi tentang pelanggan. Ini dapat membantu perusahaan meningkatkan bisnis mereka secara signifikan.

  • Kumpulan Data Pelanggan Mall

Ini berisi informasi tentang orang-orang yang mengunjungi mal. Kumpulan data berisi detail seperti jenis kelamin, usia, ID pelanggan, skor pengeluaran, dan banyak lagi. Ini bisa sangat berguna dalam target pemasaran. Berdasarkan data seperti usia dan skor pengeluaran, bisnis dapat mengelompokkan pelanggan ke dalam kelompok. Mereka dapat menciptakan pengalaman pelanggan yang unik untuk grup ini.

Kesimpulan

Sama seperti kata dan frasa yang tepat yang membuat puisi bertahan lama, kumpulan data yang tepat diperlukan untuk proyek yang sukses. Inilah sebabnya mengapa banyak perusahaan terbaik merekrut insinyur data untuk tugas membuat kumpulan data terbaik untuk sistem pembelajaran mesin tertentu. Jadi, luangkan waktu Anda saat menyiapkan set data Anda untuk pembelajaran mesin .

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa yang dimaksud dengan kumpulan data untuk pembelajaran mesin?

Data adalah komponen terpenting untuk pembelajaran mesin. Dataset adalah kumpulan informasi yang digunakan untuk belajar. Dataset biasanya berasal dari sumber yang berbeda dengan data training. Data ini digunakan untuk mengevaluasi seberapa baik model bekerja. Misalnya, untuk melatih pengklasifikasi gambar, Anda akan menggunakan gambar dari koleksi ImageNet. Perlu dicatat bahwa sebuah gambar mungkin ada di set data pelatihan dan pengujian, tetapi harus dalam kategori yang berbeda. Penggunaan lain yang populer dari kumpulan data adalah untuk melatih algoritma pengenalan gambar. Untuk melatih algoritme, Anda harus memiliki sepuluh ribu gambar kucing dan sepuluh ribu gambar anjing. ImageNet adalah salah satu kumpulan data yang banyak digunakan di industri.

Apa yang dimaksud dengan dataset validasi dalam pembelajaran mesin?

Dalam pembelajaran mesin yang diawasi, kami memiliki set data pelatihan, yang terdiri dari sampel input dan output yang diinginkan. Dataset validasi adalah dataset kedua, di mana model/parameter model tidak dilatih. Parameter model/model diestimasi pada dataset pelatihan. Dataset validasi digunakan untuk memperkirakan akurasi yang diharapkan dari model pembelajaran terbimbing pada sampel yang tidak terlihat, yaitu sampel uji. Validasi dataset digunakan untuk mengukur atau memperkirakan kesalahan generalisasi model pembelajaran terbimbing.

Apa saja kumpulan data populer yang digunakan dalam pembelajaran mesin?

Ada beberapa kumpulan data yang dapat kita gunakan untuk menjadi lebih baik dalam pembelajaran mesin. Beberapa di antaranya adalah: Pendapatan rumah tangga dan data survei demografis, Survei Biro Sensus AS terhadap Pemilik Bisnis, Harga Pasar Saham, Usia dan jenis kelamin warga AS, Penggunaan energi negara bagian AS, Persentase rumah yang dibeli, dijual, dan disewa, tagar Twitter, Facebook suka dan aktivitas orang lain di Facebook, kumpulan data ImageNet Large Scale Visual Recognition Challenge (ILSVRC), volume pengiriman bulanan dari pelabuhan utama di AS, dll. Ada banyak lagi kumpulan data yang dapat kita gunakan untuk pembelajaran mesin.