8 Proyek Ilmu Data yang Mengagumkan di R Untuk Pemula [2022]
Diterbitkan: 2021-01-05Apakah Anda ingin memasuki bidang Ilmu Data?
Apakah Anda ingin mengembangkan alat dan solusi Ilmu Data yang inovatif?
Jika ya, Anda telah menemukan artikel yang sempurna! Dalam posting ini, kami akan berbagi dengan Anda beberapa ide proyek Ilmu Data yang paling menarik untuk pemula.
Mengapa bekerja pada proyek Ilmu Data?
Karena semakin banyak perusahaan dan organisasi bergabung dalam kereta musik Ilmu Data, permintaan akan pakar Ilmu Data, AI, dan ML yang berkualitas dan terampil meningkat dengan cepat. Meskipun ini adalah peluang yang menjanjikan bagi jutaan calon dan profesional Ilmu Data, mengantongi peran pekerjaan Ilmu Data bukanlah hal yang mudah. Perusahaan hanya merekrut kandidat yang memiliki kualifikasi pendidikan yang tepat, keahlian, dan yang paling penting, pengalaman praktis.
Jadi, apakah pengalaman praktis berarti pengalaman kerja? Dan jika demikian, bagaimana dengan pemula yang baru saja menyelesaikan pelatihan Ilmu Data?
Ketika kami mengatakan "pengalaman praktis", yang kami maksud bukanlah pengalaman kerja profesional. Sebaliknya, kita berbicara tentang membangun dan membuat proyek Ilmu Data dunia nyata. Untuk setiap calon Ilmu Data, mengerjakan proyek langsung adalah batu loncatan penting untuk membangun karier Ilmu Data yang sukses.
Proyek menawarkan Anda kesempatan untuk menerapkan pengetahuan dan keterampilan teoretis Anda dalam skenario dunia nyata. Ini tidak hanya membantu memperkuat basis pengetahuan Anda dan mempertajam keterampilan Anda, tetapi juga membantu membangun kepercayaan diri Anda. Terlebih lagi, dalam pasar yang ditandai dengan persaingan ketat, pengusaha selalu lebih memilih kandidat yang memiliki faktor "X". Dengan demikian, proyek yang Anda bangun dapat membedakan Anda dari kerumunan calon yang memiliki kualifikasi yang sama.
Namun, tantangan sebenarnya datang saat menemukan proyek yang tepat sesuai dengan kualifikasi, keterampilan, dan minat Anda. Inilah sebabnya kami telah menyusun daftar ide proyek Ilmu Data yang sempurna di R untuk pemula!
Daftar isi
Proyek Ilmu Data di R
1. Proyek Analisis Sentimen
Kepuasan pelanggan adalah salah satu tujuan paling penting dari hampir setiap perusahaan dan merek sekarang. Cara terbaik untuk menciptakan basis penggemar pelanggan setia dan puas adalah dengan memahami jiwa mereka – memahami suka dan tidak suka mereka, mengidentifikasi pola preferensi mereka, dan yang terpenting, kebutuhan mereka. Analisis Sentimen adalah alat yang digunakan sebagian besar perusahaan untuk memahami sikap audiens target mereka terhadap produk/layanan mereka.
Seperti namanya, Analisis Sentimen menganalisis kata-kata untuk mengidentifikasi emosi yang mendasari orang-orang yang mengekspresikannya. Dengan menganalisis kata-kata, alat Analisis Sentimen mengkategorikannya di bawah dua biner – sebagai positif, negatif, dan netral. Dalam proyek ini, Anda akan menggunakan set/paket data 'janeaustenR'. Alat lain yang digunakan dalam proyek ini termasuk leksikon tujuan umum seperti AFINN, Bing, dan Loughran. Juga, Anda akan menggunakan cloud kata untuk menampilkan hasilnya.
2. Proyek Analisis Data Uber
Uber adalah merek berbasis data terus menerus. Perusahaan menambang dan memanfaatkan data pengguna untuk membuat solusi kabin yang paling sesuai bagi pelanggannya. Sementara Uber berinvestasi dalam membuat keputusan berdasarkan data, Uber juga memanfaatkan kombinasi analitik data tingkat lanjut dan analitik prediktif untuk merancang strategi pemasaran, penawaran promosi, dan kebijakan harga.
Dalam proyek ini, Anda akan merancang sistem analisis data menggunakan perpustakaan ggplot2 untuk mendapatkan wawasan dari data pengguna dan untuk menghasilkan prediksi pelanggan yang hampir akurat yang akan memanfaatkan perjalanan dan tumpangan Uber. Sistem akan menggunakan pemrograman R dan pustaka ggplot2 untuk menganalisis parameter pelanggan yang berbeda seperti jumlah perjalanan yang dilakukan dalam sehari, jam perjalanan harian pelanggan tetap, jumlah perjalanan selama bulan tertentu, dll.
Dengan memvisualisasikan titik data ini, sistem dapat mengetahui jumlah rata-rata penumpang yang memanfaatkan perjalanan Uber dalam sehari, jam sibuk ketika ada lalu lintas maksimum di aplikasi, hari-hari dengan jumlah perjalanan tertinggi dalam sebulan, dan seterusnya. .
3. Proyek Deteksi Penipuan Kartu Kredit
Akhir-akhir ini, penipuan kartu kredit meroket. Faktanya, ini adalah salah satu ancaman paling umum di sektor BFSI. Gagasan di balik proyek R ini adalah untuk mengembangkan pengklasifikasi yang dapat secara efisien mendeteksi transaksi penipuan kartu kredit.
Dataset untuk proyek ini adalah dataset transaksi kartu kredit yang berisi campuran transaksi non-penipuan dan penipuan. Proyek ini akan mencakup banyak algoritma ML seperti Decision Trees, Logistic Regression, Artificial Neural Networks, dan Gradient Boosting Classifier.
Dengan menerapkan algoritme ML ini, sistem akan dapat membedakan panggilan palsu dari panggilan non-penipuan. Proyek ini akan mengajari Anda cara menerapkan algoritme ML dalam skenario dunia nyata untuk melakukan klasifikasi.
4. Proyek Rekomendasi Film
Jika Anda penggemar berat Amazon, Amazon Prime, atau Netflix, Anda mungkin tahu bahwa platform ini memanfaatkan "mesin rekomendasi". Seperti yang dapat Anda tebak dari namanya, satu-satunya tujuan mesin rekomendasi adalah untuk "merekomendasikan" hal-hal yang relevan kepada pelanggan - sedangkan untuk Amazon merekomendasikan produk, untuk Prime dan Netflix merekomendasikan konten kepada pengguna, berdasarkan riwayat pembelian atau riwayat tontonan mereka sebelumnya.

Tujuan utama dari proyek R ini adalah untuk merancang sistem rekomendasi yang akan merekomendasikan film kepada pengguna. Dataset yang digunakan untuk project ini adalah dataset MovieLens. Data ini mencakup 105339 peringkat untuk lebih dari 10329 film. Dalam proyek ini, Anda akan membuat Filter Kolaboratif Berbasis Item.
Bagian terbaik tentang membangun mesin rekomendasi film ini dari awal adalah ini akan membantu Anda memahami fungsi dan mekanisme bagian dalam mesin rekomendasi. Anda akan belajar bagaimana menerapkan keterampilan pemrograman R Anda bersama dengan keterampilan pembelajaran mesin dalam proyek langsung.
5. Proyek Rekomendasi Musik
Sistem rekomendasi musik bekerja mirip dengan sistem rekomendasi film, satu-satunya perbedaan adalah bahwa alih-alih film, ini akan merekomendasikan musik kepada pengguna. Ini adalah proyek Python + R. Kumpulan data yang digunakan untuk proyek ini berasal dari KKBOX, layanan streaming musik terkemuka di Asia, yang membanggakan perpustakaan yang berisi lebih dari 30 juta trek musik .
Dalam proyek ini, Anda akan membangun sistem ML menggunakan Python dan R yang dapat memprediksi peluang pengguna mendengarkan lagu secara berulang setelah peristiwa mendengarkan pertama dipicu dalam jangka waktu tertentu. Di sini, set data pelatihan dan pengujian dipilih dari riwayat mendengarkan pengguna yang berbeda dalam jangka waktu tertentu.
Jadi, misalnya, jika peristiwa mendengarkan berulang dipicu dalam waktu satu bulan setelah peristiwa mendengarkan pertama yang dapat diamati pengguna, sistem akan menandai target sebagai 1 dalam set pelatihan, dan jika tidak, itu menandai 0. Aturan yang sama kemudian diterapkan ke perangkat tes. Proyek ini adalah kesempatan sempurna untuk mempelajari cara melakukan EDA dasar untuk memperoleh wawasan dari data.
6. Proyek Segmentasi Pelanggan
Sama seperti Analisis Sentimen yang digunakan untuk mendapatkan wawasan yang lebih dalam tentang pendapat dan emosi pelanggan tentang berbagai produk/layanan, Segmentasi Pelanggan digunakan untuk pemasaran yang lebih bertarget. Dengan mengkategorikan audiens target ke dalam persona pembeli yang berbeda sesuai dengan kebutuhan, preferensi, usia, lokasi, pekerjaan, perilaku pembelian, dll., merek dapat membuat produk yang disesuaikan, strategi pemasaran, dan penawaran/diskon, untuk segmen pelanggan tertentu. Hal ini memungkinkan untuk kepuasan pelanggan yang lebih tinggi yang pada akhirnya meningkatkan penjualan dan pendapatan.
Segmentasi Pelanggan adalah salah satu aplikasi pembelajaran tanpa pengawasan (ML) yang paling banyak digunakan. Dalam proyek ini, Anda akan menggunakan algoritme K-means untuk mengelompokkan kumpulan data yang tidak berlabel. Algoritme pengelompokan K-means dapat secara efektif memvisualisasikan distribusi usia dan jenis kelamin dalam kumpulan data. Selanjutnya, juga akan menganalisis pendapatan dan pola pengeluaran tahunan. Pada dasarnya, proyek R ini akan menawarkan analisis deskriptif data dengan menerapkan berbagai versi algoritma K-means.
7. Proyek Identifikasi Bundel Produk
Konsep product bundling bukanlah hal baru di bidang pemasaran. Dalam pendekatan bundling produk, produk yang berbeda disatukan dan dijual sebagai satu unit dengan harga tertentu (biasanya harga diskon). Hal ini memungkinkan pemasar untuk mendorong pelanggan untuk membeli lebih banyak produk mereka. Mungkin contoh terbaik dari bundel produk adalah McDonald's Happy Meal.
Dalam proyek Ilmu Data ini, fokus utamanya adalah pada segmentasi subjektif, teknik pengelompokan yang dapat membantu mengidentifikasi bundel produk terbaik dalam data penjualan. Di sini, kami akan mengambil kumpulan data transaksi penjualan mingguan yang berisi jumlah pembelian berbagai produk selama rentang beberapa minggu.
Dataset juga akan menyertakan nilai yang dinormalisasi. Dengan menggunakan kumpulan data ini, tujuannya adalah untuk mengetahui produk mana yang dapat digabungkan bersama untuk membuat kombo yang sangat baik bagi pelanggan. Sementara pendekatan tradisional menggunakan Analisis Keranjang Pasar untuk mengidentifikasi bundel produk, dalam proyek ini, fokus kami adalah membandingkan dan menganalisis kepentingan relatif dari pengelompokan deret waktu dalam menentukan bundel produk dari data penjualan.
8. Proyek Prediksi Kualitas Anggur
Idenya di sini adalah untuk meningkatkan kualitas anggur menggunakan pemodelan prediktif. Dalam proyek Ilmu Data ini, kami akan menganalisis kumpulan data anggur merah untuk menilai kualitas anggur. Tujuan dari proyek ini adalah untuk mengeksplorasi sifat kimia yang mempengaruhi kualitas anggur merah.
Dalam proyek ini, pertimbangan pertama adalah menggunakan variabel input untuk memprediksi kualitas anggur, sedangkan pertimbangan kedua adalah untuk mengklasifikasikan anggur yang memiliki atribut yang sangat baik. Anda akan membuat dan memperbaiki plot untuk mengilustrasikan hubungan unik dalam data saat dan ketika mereka ditemukan. Proyek ini akan mengajarkan Anda eksplorasi data, visualisasi data, bercerita, dan juga bagaimana menerapkan model regresi dan mengajukan pertanyaan yang tepat untuk analisis data pada berbagai tahap dalam proyek.
Dapatkan kursus ilmu data dari Universitas top dunia. Bergabunglah dengan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister kami untuk mempercepat karir Anda.
Kesimpulan
Ini dia 8 proyek Data Science menarik yang bisa kamu coba sendiri! Saat Anda mengerjakannya, Anda akan menguasai konsep inti Ilmu Data dan pemrograman R. Yang terpenting, Anda akan mendapatkan kesempatan untuk menampilkan semua proyek Anda di resume Anda – apa yang lebih baik untuk menarik perhatian calon atasan Anda!
Struktur Program Ilmu Data dirancang untuk memfasilitasi Anda menjadi talenta sejati di bidang Ilmu Data, yang memudahkan untuk mengantongi pemberi kerja terbaik di pasar. Daftar hari ini untuk memulai perjalanan jalur pembelajaran Anda dengan upGrad!