Proyek Pembelajaran Mesin Teratas dengan Python Untuk Pemula [2022]
Diterbitkan: 2021-01-03Jika Anda ingin menjadi profesional pembelajaran mesin, Anda harus mendapatkan pengalaman menggunakan teknologinya. Cara terbaik untuk melakukannya adalah dengan menyelesaikan proyek. Itu sebabnya dalam artikel ini, kami membagikan beberapa proyek pembelajaran mesin dengan Python sehingga Anda dapat dengan cepat mulai menguji keterampilan Anda dan mendapatkan pengalaman berharga.
Namun, sebelum Anda mulai, pastikan Anda terbiasa dengan pembelajaran mesin dan algoritmenya. Jika Anda belum pernah mengerjakan proyek sebelumnya, jangan khawatir karena kami juga telah membagikan tutorial terperinci tentang satu proyek:
Daftar isi
Kumpulan Data Iris: Untuk Pemula
Dataset Iris dengan mudah menjadi salah satu proyek pembelajaran mesin paling populer di Python. Ini relatif kecil, tetapi kesederhanaan dan ukurannya yang ringkas membuatnya sempurna untuk pemula. Jika Anda belum pernah mengerjakan proyek pembelajaran mesin apa pun dengan Python, Anda harus memulainya. Dataset Iris adalah kumpulan ukuran sepal dan petal bunga Iris. Ini memiliki tiga kelas, dengan masing-masing 50 instance.
Kami telah menyediakan kode contoh di berbagai tempat, tetapi Anda hanya boleh menggunakannya untuk memahami cara kerjanya. Menerapkan kode tanpa memahaminya akan menggagalkan premis dalam melakukan proyek. Jadi pastikan untuk memahami kode dengan baik sebelum menerapkannya.
Langkah 1: Impor Perpustakaan
Langkah pertama dari setiap proyek pembelajaran mesin adalah mengimpor perpustakaan. Alasan utama mengapa Python sangat serbaguna adalah karena perpustakaannya yang kuat. Pustaka yang kita perlukan dalam proyek ini adalah:
- panda
- Matplotlib
- Sklearn
- SciPy
- JumlahPy
Ada beberapa metode untuk mengimpor pustaka ke sistem Anda, dan Anda harus menggunakan cara tertentu untuk mengimpor semua pustaka. Ini akan memastikan konsistensi dan membantu Anda menghindari kebingungan. Perhatikan bahwa penginstalan bervariasi sesuai dengan Sistem Operasi perangkat Anda, jadi ingatlah itu saat mengimpor pustaka.

Kode:
# Muat perpustakaan
dari panda impor read_csv
dari pandas.plotting impor scatter_matrix
dari matplotlib impor pyplot
dari sklearn.model_selection impor train_test_split
dari sklearn.model_selection impor cross_val_score
dari sklearn.model_selection impor StratifiedKFold
dari sklearn.metrics mengimpor klasifikasi_laporan
dari sklearn.metrics mengimpor kebingungan_matrix
dari sklearn.metrics impor akurasi_score
dari sklearn.linear_model impor LogisticRegression
dari sklearn.tree impor DecisionTreeClassifier
dari sklearn.neighbors impor KNeighborsClassifier
dari sklearn.discriminant_analysis impor LinearDiscriminantAnalysis
dari sklearn.naive_bayes impor GaussianNB
dari sklearn.svm impor SVC
Baca: 10 Ide Proyek Kumpulan Data Machine Learning Terbaik Untuk Pemula
Langkah 2: Muat Kumpulan Data
Setelah mengimpor perpustakaan, saatnya memuat dataset. Seperti yang telah kita diskusikan, kita akan menggunakan dataset Iris dalam proyek ini. Anda dapat mengunduhnya dari sini .
Pastikan Anda menentukan nama setiap kolom saat memuat data, dan itu akan membantu Anda nanti dalam proyek. Sebaiknya unduh kumpulan data, jadi meskipun Anda menghadapi masalah koneksi, proyek Anda tidak akan terpengaruh.
Kode:
# Muat kumpulan data
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”
nama = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
kumpulan data = read_csv(url, nama=nama)
Langkah 3: Meringkas
Sebelum kita mulai menggunakan dataset, pertama-tama kita harus melihat data yang ada di dalamnya. Kita akan mulai dengan memeriksa dimensi kumpulan data, yang menunjukkan kepada kita bahwa kumpulan data memiliki lima atribut dan 150 instance.
Setelah memeriksa dimensi, Anda harus melihat beberapa baris dan kolom dari kumpulan data untuk memberikan gambaran umum tentang isinya. Kemudian Anda harus melihat ringkasan statistik dari kumpulan data dan melihat metrik mana yang paling umum dalam hal yang sama.
Terakhir, Anda harus memeriksa distribusi kelas di dataset. Itu berarti Anda harus memeriksa berapa banyak instance yang termasuk dalam setiap kelas. Berikut kode untuk meringkas dataset kami:
#ringkas data
dari panda impor read_csv
# Muat kumpulan data
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”
nama = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
kumpulan data = read_csv(url, nama=nama)
# membentuk
cetak (dataset.bentuk)
# kepala
cetak(dataset.head(20))
# deskripsi
cetak(set data.deskripsikan())
#distribusi kelas
print(dataset.groupby('class').size())
Langkah 4: Visualisasikan Data
Setelah meringkas kumpulan data, Anda harus memvisualisasikannya untuk pemahaman dan analisis yang lebih baik. Anda dapat menggunakan plot univariat untuk menganalisis setiap atribut secara detail dan plot multivariat untuk mempelajari hubungan setiap fitur. Visualisasi data adalah aspek penting dari proyek pembelajaran mesin karena membantu menemukan informasi penting yang ada dalam kumpulan data.
Langkah 5: Evaluasi Algoritma
Setelah memvisualisasikan data, kami akan mengevaluasi beberapa algoritme untuk menemukan model terbaik untuk proyek kami. Pertama, kita akan membuat dataset validasi yang akan kita ambil dari yang asli. Kemudian kita akan menggunakan validasi silang 10 kali lipat dan membuat berbagai model. Seperti yang telah dibahas, kami bertujuan untuk memprediksi spesies melalui pengukuran bunga. Anda harus menggunakan berbagai jenis algoritme dan memilih salah satu yang memberikan hasil terbaik. Anda bisa menguji SVM (Support Vector Machines), KNN (K-Nearest Neighbors), LR (Logistic Regression), dan lain-lain.
Dalam implementasi kami, kami menemukan SVM sebagai model terbaik. Berikut kodenya:
dari panda impor read_csv
dari matplotlib impor pyplot
dari sklearn.model_selection impor train_test_split
dari sklearn.model_selection impor cross_val_score
dari sklearn.model_selection impor StratifiedKFold
dari sklearn.linear_model impor LogisticRegression
dari sklearn.tree impor DecisionTreeClassifier
dari sklearn.neighbors impor KNeighborsClassifier
dari sklearn.discriminant_analysis impor LinearDiscriminantAnalysis
dari sklearn.naive_bayes impor GaussianNB
dari sklearn.svm impor SVC
# Muat kumpulan data
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”
nama = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
kumpulan data = read_csv(url, nama=nama)
# Set data validasi terpisah
array = kumpulan data.nilai
X = larik[:,0:4]
y = larik[:,4]
X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1, shuffle=True)
# Algoritma Spot Check
model = []
model.append(('LR', LogisticRegression(solver='liblinear', multi_class='ovr')))
model.append(('LDA', LinearDiscriminantAnalysis()))
model.append(('KNN', KNeighborsClassifier()))
model.append(('CART', DecisionTreeClassifier()))
model.append(('NB', GaussianNB()))
model.append(('SVM', SVC(gamma='auto')))
# evaluasi setiap model secara bergantian
hasil = []
nama = []
untuk nama, model dalam model:
kfold = StratifiedKFold(n_splits=10, random_state=1, shuffle=True)
cv_results = cross_val_score(model, X_train, Y_train, cv=kfold, scoring='accuracy')
hasil.append(cv_results)
nama.tambahkan(nama)

print('%s: %f (%f)' % (nama, cv_results.mean(), cv_results.std()))
# Bandingkan Algoritma
pyplot.boxplot(hasil, label=nama)
pyplot.title('Perbandingan Algoritma')
gambar.tampilkan()
Langkah 6: Prediksi
Setelah Anda mengevaluasi berbagai algoritme dan memilih yang terbaik, inilah saatnya untuk memprediksi hasilnya. Kami akan menggunakan model kami pada dataset validasi terlebih dahulu untuk melihat uji akurasinya. Setelah itu, kami akan mengujinya di seluruh dataset.
Berikut kode untuk menjalankan model kami pada dataset:
# membuat prediksi
dari panda impor read_csv
dari sklearn.model_selection impor train_test_split
dari sklearn.metrics mengimpor klasifikasi_laporan
dari sklearn.metrics mengimpor kebingungan_matrix
dari sklearn.metrics impor akurasi_score
dari sklearn.svm impor SVC
# Muat kumpulan data
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”
nama = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
kumpulan data = read_csv(url, nama=nama)
# Set data validasi terpisah
array = kumpulan data.nilai
X = larik[:,0:4]
y = larik[:,4]
X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1)
# Buat prediksi pada dataset validasi
model = SVC(gamma='otomatis')
model.fit(X_train, Y_train)
prediksi = model.predict(X_validation)
# Evaluasi prediksi
print(accuracy_score(Y_validation, prediksi))
print(confusion_matrix(Y_validation, prediksi))
print(classification_report(Y_validation, prediksi))
Itu dia. Anda sekarang telah menyelesaikan proyek pembelajaran mesin dengan Python dengan menggunakan dataset Iris.
Proyek Pembelajaran Mesin Tambahan dengan Python
Dataset Iris terutama untuk pemula. Jika Anda memiliki pengalaman mengerjakan proyek pembelajaran mesin dengan Python, Anda harus melihat proyek di bawah ini:
1. Gunakan ML untuk Memprediksi Harga Saham
Tempat terbaik untuk menerapkan algoritme pembelajaran mesin adalah pasar saham. Perusahaan menggunakan algoritma AI dan teknologi berbasis ML untuk melakukan analisis teknis untuk beberapa waktu sekarang. Anda juga dapat membuat model ML yang memprediksi harga saham.
Namun, untuk mengerjakan proyek ini, Anda harus menggunakan beberapa teknik, termasuk analisis regresi, analisis prediktif, pemodelan statistik, dan analisis tindakan. Anda bisa mendapatkan data yang diperlukan dari situs resmi bursa saham. Mereka berbagi data tentang kinerja saham di masa lalu. Anda dapat menggunakan data tersebut untuk melatih dan menguji model Anda.
Sebagai pemula, Anda bisa fokus pada satu perusahaan tertentu dan memprediksi nilai sahamnya selama tiga bulan. Demikian pula, jika Anda ingin membuat proyek menjadi menantang, Anda dapat menggunakan beberapa perusahaan dan memperpanjang jadwal prediksi Anda.
Apa yang Anda Pelajari dari Proyek Ini:
Proyek ini akan membuat Anda terbiasa dengan aplikasi AI dan ML di industri keuangan. Anda juga dapat mempelajari analisis prediktif melalui proyek ini dan mencoba berbagai algoritme.
2. Tulis Algoritma Pembelajaran Mesin dari Awal
Jika Anda seorang pemula dan belum pernah mengerjakan proyek pembelajaran mesin apa pun dengan Python, Anda juga dapat memulai dengan yang ini. Dalam proyek ini, Anda harus membangun algoritma ML dari awal. Melakukan proyek ini akan membantu Anda memahami semua dasar fungsi algoritme sekaligus mengajari Anda untuk mengubah rumus matematika menjadi kode pembelajaran mesin.
Mengetahui cara mengubah konsep matematika menjadi kode ML sangat penting, karena Anda harus menerapkannya berkali-kali di masa mendatang. Saat Anda akan mengatasi masalah yang lebih lanjut, Anda harus mengandalkan keterampilan ini. Anda dapat memilih algoritma apa pun sesuai dengan keakraban Anda dengan konsepnya. Akan lebih baik untuk memulai dengan algoritma sederhana jika Anda tidak memiliki pengalaman.
Apa yang Anda Pelajari dari Proyek Ini:
Anda akan terbiasa dengan konsep matematika kecerdasan buatan dan pembelajaran mesin.
3. Buat Pembaca Tulisan Tangan
Ini adalah proyek visi komputer. Visi komputer adalah sektor kecerdasan buatan yang terkait dengan analisis gambar. Dalam proyek ini, Anda akan membuat model ML yang dapat membaca tulisan tangan. Membaca berarti model harus bisa mengenali apa yang tertulis di kertas. Anda harus menggunakan jaringan saraf dalam proyek ini untuk terbiasa dengan pembelajaran mendalam dan konsep-konsep yang relevan.
Anda harus terlebih dahulu memproses gambar dan menghapus bagian yang tidak perlu; dengan kata lain, lakukan pembersihan data pada gambar untuk kejelasan. Setelah itu, Anda harus melakukan segmentasi dan pengubahan ukuran gambar agar algoritme dapat membaca karakter dengan benar. Setelah Anda menyelesaikan pra-pemrosesan dan segmentasi, Anda dapat melanjutkan ke langkah berikutnya, klasifikasi. Algoritma klasifikasi akan membedakan karakter yang ada dalam teks dan memasukkannya ke dalam kategori masing-masing.
Anda dapat menggunakan aktivasi log sigmoid untuk melatih algoritme ML Anda untuk proyek ini.
Apa yang Anda Pelajari dari Proyek Ini:
Anda akan mempelajari visi komputer dan jaringan saraf. Menyelesaikan proyek ini juga akan membuat Anda terbiasa dengan pengenalan dan analisis gambar.
4. Seorang Prediktor Penjualan
Sektor ritel memiliki banyak aplikasi untuk AI dan pembelajaran mesin. Dalam proyek ini, Anda akan menemukan satu aplikasi seperti itu, yaitu memprediksi penjualan produk.
Kumpulan data umum di antara penggemar pembelajaran mesin adalah kumpulan data penjualan BigMart. Memiliki lebih dari 1559 produk yang tersebar di berbagai gerai di 10 kota. Anda dapat menggunakan kumpulan data untuk membuat model regresi. Menurut outlet, model Anda harus memprediksi potensi penjualan produk tertentu di tahun mendatang. Dataset ini memiliki atribut khusus untuk setiap outlet dan produk untuk memahami properti mereka dan hubungan antara keduanya dengan cepat.
Apa yang Anda Pelajari dari Proyek Ini:

Bekerja pada proyek ini akan membuat Anda terbiasa dengan model regresi dan analisis prediktif. Anda juga akan belajar tentang aplikasi pembelajaran mesin di sektor ritel.
Pelajari Lebih Lanjut Tentang Pembelajaran Mesin dan Python
Kami harap daftar proyek pembelajaran mesin dengan Python ini bermanfaat bagi Anda. Jika Anda memiliki pertanyaan atau pemikiran, beri tahu kami melalui bagian komentar. Kami akan senang untuk menjawab pertanyaan Anda.
Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Berikut adalah beberapa sumber tambahan untuk mempelajari pembelajaran mesin dan Python.
- Tutorial Python
- Pembelajaran Mesin Vs. Pembelajaran Mendalam
- Aplikasi Pembelajaran Mesin
Di sisi lain, jika Anda ingin mendapatkan pengalaman belajar yang lebih personal, Anda dapat mengikuti kursus AI dan ML. Anda akan belajar dari pakar industri melalui video, tugas, dan proyek.
Apakah pembelajaran mesin merupakan pilihan karir yang baik?
Jika Anda tertarik dengan teknologi baru dan berita terkait, Anda pasti sudah mendengar tentang revolusi industri keempat yang dibawa oleh teknologi pembelajaran mesin. Sesuai laporan, pasar global untuk pembelajaran mesin diperkirakan akan mencapai nilai INR 543 miliar pada tahun 2023. Namun, kesenjangan dalam permintaan dan pasokan profesional pembelajaran mesin yang mahir telah meningkat hingga hampir 125 persen. Ini menunjukkan bahwa untuk seorang profesional pembelajaran mesin dengan kombinasi keterampilan yang tepat, pasar kerja memiliki banyak janji. Apakah Anda bercita-cita untuk menjadi insinyur pembelajaran mesin, insinyur penelitian, atau ilmuwan penelitian, itu pasti akan menjadi karir yang memperkaya bagi Anda.
Bisakah tas yang lebih segar menjadi pekerjaan pembelajaran mesin?
Meskipun sebagian besar pekerjaan pembelajaran mesin saat ini membutuhkan profesional yang berpengalaman, pilihan untuk mahasiswa baru juga meningkat, karena permintaan yang sangat besar di pasar. Mungkin sulit bagi pemula, tetapi tentu saja bukan tidak mungkin untuk mendapatkan pekerjaan pembelajaran mesin. Jika Anda dapat menguasai keterampilan yang diperlukan, merencanakan bagaimana tampil dengan baik, dan belajar dengan cepat dari para pemain berpengalaman di lapangan, Anda juga dapat memperoleh pekerjaan impian itu. Anda dapat mempertimbangkan opsi seperti mendapatkan sertifikasi yang relevan untuk menambah nilai lebih, mendaftar ke kursus pembelajaran mesin di platform yang andal, mencoba beberapa proyek langsung, mengikuti berita dan tren teknologi terbaru, dan bergabung dengan komunitas secara online.
Berapa penghasilan seorang insinyur pembelajaran mesin?
Gaji rata-rata yang ditarik oleh seorang insinyur pembelajaran mesin di India adalah sekitar INR 8,2 lakh per tahun, sesuai data dari glassdoor.in. Sekarang, pendapatan rata-rata tergantung pada beberapa faktor seperti keterampilan, sertifikasi, pengalaman, lokasi, dan banyak lagi. Tetapi dengan lebih banyak pengalaman kerja, Anda dapat berharap untuk meningkatkan penghasilan Anda. Misalnya, insinyur pembelajaran mesin senior dapat memperoleh rata-rata antara INR 13 hingga 15 lakh.