10 Ide Proyek Kumpulan Data Pembelajaran Mesin Teratas Untuk Pemula [2022]
Diterbitkan: 2021-01-04Menemukan set data pembelajaran mesin memang sulit, tetapi tidak harus begitu! Dalam artikel ini, kami telah membagikan beberapa kumpulan data yang dapat Anda gunakan untuk proyek pembelajaran mesin. Kami juga telah membagikan detail tentang isi setiap kumpulan data beserta tautannya. Daftar kami mencakup kumpulan data dari berbagai bidang dan berbagai ukuran sehingga Anda dapat memilih satu sesuai dengan minat dan keahlian Anda.
Selain itu, kami juga telah membagikan ide proyek untuk kumpulan data yang berbeda sehingga Anda dapat segera mulai mengerjakan proyek. Mengerjakan proyek akan membantu Anda menguji pengetahuan Anda tentang algoritme pembelajaran mesin. Mari kita mulai:
Daftar isi
Ide Proyek Kumpulan Data Pembelajaran Mesin
1. Dataset Email Enron
Kumpulan data ini berisi sekitar 5.000.000 email dari lebih dari 150 pengguna. Semua email ini berasal dari perusahaan bernama Enron, dan sebagian besar email yang ada dalam kumpulan data ini adalah dari tim manajemen seniornya. Jika Anda ingin mengerjakan proyek pemrosesan bahasa alami, Anda harus mulai dari sini.
Dataset email Enron sangat populer untuk proyek NLP, dan Anda akan belajar banyak dari ini. Anda dapat membuat model pengelompokan K-means dan menggunakannya untuk mengidentifikasi aktivitas penipuan melalui teks email. K-means clustering adalah algoritma ML yang tidak diawasi dan memisahkan item menjadi k jumlah cluster sesuai dengan kesamaannya.
Tautan ke Kumpulan Data
2. Kumpulan Data Gambar dari Flickr
Flickr adalah layanan hosting gambar dengan jutaan pengguna di seluruh dunia. Dataset ini memiliki 30.000 gambar dengan keterangan yang berbeda. Anda dapat menggunakan kumpulan data ini untuk membuat generator teks untuk gambar. Dataset ini cukup terkenal untuk analisis gambar dan deskripsi gambar melalui teks.

Anda dapat membuat model CNN (Convolutional Neural Network) yang menganalisis gambar dan menghasilkan keterangan sesuai dengan fitur yang diidentifikasi dalam gambar tertentu. Anda dapat melatih model melalui ribuan teks yang tersedia di kumpulan data. Membangun generator teks akan memberi Anda banyak pengalaman dalam mempelajari cara kerja analisis gambar dan bagaimana Anda dapat menggunakannya dalam kasus dunia nyata.
Tautan ke Kumpulan Data
3. Kumpulan Data Iris (Level Pemula)
Jika Anda belum pernah mengerjakan proyek pembelajaran mesin sebelumnya, Anda harus mulai dari sini. Dataset Iris adalah pilihan populer di kalangan siswa ML karena kesederhanaan dan ukurannya. Ini berisi informasi tentang tiga spesies iris (bunga) seperti ukuran sepal dan kelopaknya.
Nama lain untuk dataset ini adalah dataset iris Fisher karena asalnya. Ronald Fisher telah menggunakan dataset ini dalam makalahnya tahun 1936.
Dataset Iris memiliki empat kolom dengan 150 baris. Anda dapat membuat model klasifikasi dengan dataset ini. Model klasifikasi memisahkan item ke dalam kelas yang berbeda sesuai dengan atributnya, dan membuatnya dapat membantu Anda mempelajari perbedaan antara pembelajaran tanpa pengawasan dan pembelajaran terawasi juga.
Tautan ke Kumpulan Data
4. Dataset Parkinson
Dataset Parkinson dapat diakses di antara siswa yang ingin menggunakan pembelajaran mesin di bidang medis. Ini adalah salah satu kumpulan data terbaik untuk proyek pembelajaran mesin dari sektor medis karena berisi 195 kasus bersama dengan 23 atribut.
Penyakit Parkinson adalah gangguan pada sistem saraf, dan mempengaruhi gerakan dasar. Gerakan lambat, kehilangan keseimbangan, dan kekakuan adalah beberapa gejala yang paling menonjol dari penyakit ini. Anda dapat menggunakan dataset ini untuk membuat model yang memisahkan pasien dari orang sehat dengan menganalisis gejala dan atribut mereka untuk menentukan apakah mereka menderita Parkinson atau tidak.
Penggunaan pembelajaran mesin di sektor kesehatan semakin populer setiap hari. Jadi, jika Anda tertarik untuk menggunakan keahlian pembelajaran mesin Anda di sektor itu, Anda harus mulai dari sini. Anda dapat mengambil inspirasi dari aplikasi pembelajaran mesin ini dalam perawatan kesehatan .
Tautan ke Kumpulan Data
5. Dataset Pelanggan Mall
Dataset ini memiliki informasi tentang orang-orang yang mengunjungi mal. Ini berisi beberapa variabel seperti ID pelanggan, pendapatan tahunan, usia, skor pengeluaran, dan jenis kelamin. Dataset telah membagi pelanggan ke dalam kategori yang berbeda sesuai dengan perilaku dan kecenderungan mereka.
Anda dapat menggunakan kumpulan data ini untuk membuat model klasifikasi yang memisahkan pelanggan menurut jenis kelamin, skor pengeluaran, atau pendapatan tahunan mereka. Kumpulan data ini sangat cocok untuk proyek segmentasi pelanggan, yang merupakan aplikasi AI dan ML yang populer dalam bisnis.
Perusahaan menggunakan segmentasi pelanggan untuk merancang strategi pemasaran dan meningkatkan iklan mereka. Mengerjakan proyek ini akan membantu Anda memahami cara menggunakan algoritme pembelajaran mesin untuk segmentasi pelanggan yang akurat.
Tautan ke Kumpulan Data
Baca : Ide Proyek Python
6. Kumpulan Data Uber Rides
Ini adalah salah satu set data pembelajaran mesin terbaik untuk proyek visualisasi. Dataset Uber Rides berisi informasi tentang perjalanan uber yang terjadi antara April 2014 dan September 2014. Sekitar 4,5 juta perjalanan uber terjadi pada waktu itu, sehingga datasetnya cukup besar. Dataset berisi informasi tentang lokasi yang terkait dengan wahana tersebut dan data relevan lainnya.

Anda dapat menggunakan data yang ada dalam kumpulan data ini untuk membuat visualisasi data yang indah. Visualisasi data membantu mendapatkan wawasan berharga dari kumpulan data yang besar. Selain itu, visualisasi data membantu membuat keputusan yang lebih baik sesuai dengan wawasan yang ditemukan. Anda dapat mengambil inspirasi dari proyek visualisasi data ini untuk memulai.
Tautan ke Kumpulan Data
7. Google Trends dan Datanya
Google Trends adalah alat yang memungkinkan Anda menganalisis penelusuran Google dan menemukan topik yang sedang tren yang orang-orang googling. Ini adalah alat gratis namun kuat dan dapat memberi Anda banyak data tentang pola dan tren pencarian orang.
Google Trends memungkinkan Anda menemukan berapa banyak pencarian yang diperoleh kata kunci tertentu dan istilah terkait untuk waktu tertentu. Anda juga dapat menggunakannya untuk mendapatkan data khusus untuk demografi.
Jika Anda berencana menggunakan pembelajaran mesin untuk analisis data, maka ini adalah kumpulan data yang sangat besar untuk memulai. Anda bisa mendapatkan data sebanyak yang Anda inginkan tentang topik apa pun yang Anda inginkan. Google Trends sangat cocok untuk pemula yang belum pernah mengerjakan banyak proyek pembelajaran mesin.
Tautan ke Kumpulan Data
8. Kumpulan Data Kinetika
Jika Anda tertarik menggunakan AI untuk mengenali interaksi manusia, maka ini adalah kumpulan data yang tepat untuk Anda. Menganalisis tindakan dan interaksi manusia, adalah bagian penting dari visi komputer, bidang kecerdasan buatan yang mempelajari gambar dan video. Menjadi mahir dalam visi komputer akan membantu Anda dalam mengerjakan identifikasi objek, pengenalan wajah, dan aplikasi lain yang relevan.
Dataset ini memiliki hampir 650k video yang memiliki interaksi manusia-manusia (seperti berpelukan dan berjabat tangan) serta interaksi manusia-objek (seperti bermain gitar). Ini memiliki 700 kelas aksi di mana setiap kelas memiliki setidaknya 600 klip. Setiap klip memiliki anotasi manusia bersama dengan satu kelas tindakan. Durasi setiap video dalam kumpulan data ini sekitar 10 detik.
Tautan ke Kumpulan Data
Baca: Ide Proyek Pembelajaran Mesin
9. Data GTSR
GTSRB adalah singkatan dari German Traffic Sign Recognition Benchmark, dan ini adalah proyek yang bagus untuk melakukan klasifikasi multikelas. Kumpulan data ini memiliki lebih dari 50 ribu gambar beserta informasinya. Dataset juga memiliki 40 kelas, dan kejadian rambu lalu lintas yang sebenarnya dalam dataset ini unik di dalamnya.
Ini adalah salah satu kumpulan data terbaik untuk proyek pembelajaran mesin jika Anda mempertimbangkan kasus penggunaannya. Anda dapat mempelajari klasifikasi gambar dan membuat kerangka kerja untuk mengklasifikasikan rambu lalu lintas yang berbeda.
Klasifikasi rambu lalu lintas dapat menjadi bagian penting dari kendaraan otonom (self-driving car), jadi jika Anda tertarik dengan aplikasi AI di sektor otomotif, Anda harus mengerjakan proyek ini.
Anda dapat memulai dengan sebagian kecil dari kumpulan data ini jika Anda tidak memiliki banyak pengalaman dalam mengerjakan proyek ML.
Tautan ke Kumpulan Data
10. Kumpulan Data Rumah Boston
Boston Housing Dataset adalah salah satu kumpulan data paling populer untuk proyek pembelajaran mesin. Ini cocok untuk proyek pengenalan pola dan merupakan cara yang bagus untuk melatih pengetahuan ML Anda. Kumpulan data ini berisi Layanan Sensus AS yang mengumpulkan informasi tentang perumahan di wilayah Massa Boston dan memiliki sekitar 500 kasus. Dalam dataset terdapat 14 variabel, antara lain tingkat kriminalitas per kapita, rata-rata jumlah kamar dalam satu rumah, dan lain-lain.

Karena memiliki kasus yang sangat sedikit (tepatnya 506), ini cocok untuk profesional dan siswa pembelajaran mesin baru. Anda dapat menggunakan kumpulan data ini untuk membuat model yang memprediksi harga rumah di wilayah tersebut sesuai dengan data yang Anda temukan.
Anda dapat melatih model dengan harga rumah yang ada di dataset ini dan kemudian menggunakannya untuk memprediksi harga masa depan sesuai dengan kondisi area tertentu. Dengan kumpulan data ini, Anda dapat mengerjakan banyak ide proyek serupa tentang regresi dan real estat.
Tautan ke Kumpulan Data
Saatnya Mengerjakan Proyek Pembelajaran Mesin
Sekarang setelah Anda memiliki daftar lengkap kumpulan data untuk proyek pembelajaran mesin, Anda sekarang dapat mulai mengerjakannya. Kami harap daftar ini bermanfaat bagi Anda.
Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.
Apa yang dimaksud dengan kumpulan data dalam pembelajaran mesin?
Dalam pembelajaran mesin dan penambangan data, kumpulan data adalah kumpulan contoh. Ini adalah kumpulan contoh berlabel yang digunakan untuk pembelajaran mesin atau untuk penerapan metode statistik. Contohnya dapat berupa pengamatan tunggal atau kumpulan pengamatan secara keseluruhan. Itu selalu lebih mudah untuk mengidentifikasi pola dalam kumpulan data. Data adalah kumpulan contoh. Ini adalah jantung dari pembelajaran mesin dan penambangan data. Itu selalu lebih mudah untuk menemukan pola dalam kumpulan data.
Apa saja jenis-jenis dataset?
Dataset memiliki tipe yang berbeda: a. Kumpulan Data Deret Waktu - Ini menjelaskan kumpulan data dari periode waktu tertentu yang dianggap sebagai kumpulan data deret waktu. B. Cross-section Datasets - Ini menjelaskan dataset yang merupakan kumpulan pengamatan dari elemen yang berbeda tetapi serupa dalam periode waktu yang sama. C. Mixed Datasets - Ini menjelaskan dataset yang merupakan kombinasi dari time series dan cross-sectional dataset. D. Components Datasets - Ini menjelaskan kumpulan kumpulan data yang digunakan untuk memecahkan masalah tertentu. e. Transaction Datasets Menggambarkan kumpulan dataset yang digunakan untuk menemukan pola, asosiasi, dan hubungan di antara berbagai entitas. F. Grafik Dataset - Ini menjelaskan kumpulan kumpulan data yang digunakan untuk menggambar grafik atau memetakan elemen dalam jaringan.
Apa yang dimaksud dengan set data pelatihan dan pengujian dalam pembelajaran mesin?
Dataset pelatihan adalah kumpulan contoh yang digunakan untuk melatih model. Dataset ini digunakan untuk membangun fungsi matematika, atau model, f(x) yang memetakan data input x ke output y. Dataset pengujian berbeda dari dataset pelatihan. Dataset pengujian adalah sekumpulan contoh yang tidak digunakan untuk melatih classifier yang digunakan untuk mengevaluasi kinerja classifier. Karena classifier dilatih pada contoh pelatihan, kinerja classifier pada dataset pengujian tidak sepenuhnya diketahui.