Menjelajahi AutoML: Tersedia Alat Teratas [Yang Perlu Anda Ketahui]
Diterbitkan: 2020-12-07Siklus hidup pembelajaran mesin adalah sekumpulan proses yang mencakup Pengumpulan Data, Pembersihan Data, rekayasa fitur, pemilihan fitur, pembuatan model, penyetelan parameter hiper, validasi, dan penerapan model.
Sementara pengumpulan data dapat mengambil banyak bentuk seperti survei manual, entri data, scrapping web, atau data yang dihasilkan selama percobaan, pembersihan data adalah tempat data diubah menjadi bentuk standar yang dapat digunakan selama tahap lain dari siklus hidup. .
Lonjakan pembelajaran mesin baru-baru ini juga menyambut banyak bisnis untuk mengadopsi solusi berbasis AI untuk produk utama mereka dan oleh karena itu, babak baru AutoML telah tiba di pasar. Ini bisa menjadi alat yang hebat untuk menyiapkan solusi berbasis AI dengan cepat, tetapi masih ada beberapa faktor yang perlu diperhatikan.
Daftar isi
Apa itu AutoML?
Ini adalah seperangkat alat yang mengotomatiskan beberapa bagian pembelajaran mesin yang merupakan proses otomatis untuk menghasilkan prediksi dan klasifikasi yang mengarah ke hasil yang dapat ditindaklanjuti. Meskipun hanya dapat mengotomatiskan rekayasa fitur, pembuatan model, dan terkadang tahap penerapan, sebagian besar alat AutoML mendukung beberapa algoritme pembelajaran mesin dan metrik evaluasi yang hampir sama banyaknya.
Ketika alat semacam itu dimulai, alat tersebut menjalankan kumpulan data yang sama di semua algoritme, menguji berbagai metrik yang terkait dengan masalah, dan kemudian menyajikan kartu laporan terperinci. Mari kita jelajahi beberapa alat terkenal yang tersedia di pasar dan digunakan secara luas.
H2O.ai
Salah satu solusi terkemuka di AutoML adalah H2O.ai yang menawarkan solusi siap industri untuk masalah bisnis yang tidak mengkode apa pun dari awal. Hal ini memungkinkan siapa saja dari domain mana pun untuk mengekstrak wawasan yang berarti dari data tanpa perlu memiliki keahlian dalam pembelajaran mesin.

H2O adalah sumber terbuka yang mendukung semua model pembelajaran mesin dan pendekatan statistik yang banyak digunakan. Itu dibangun untuk memberikan solusi makan malam yang cepat karena data didistribusikan ke seluruh cluster dan kemudian disimpan dalam format kolom dalam memori, memungkinkan operasi pembacaan paralel.
Versi yang lebih baru dari proyek ini juga memiliki dukungan GPU, yang membuatnya lebih cepat dan efisien. Mari kita lihat bagaimana ini dapat dilakukan menggunakan Python (jalankan kode di notebook jupyter untuk pemahaman yang lebih baik):
!pip install h2o # jalankan ini jika Anda belum menginstalnya
impor air
h2o.init()
dari h2o.automl impor H2OAutoML
df = h2o.import_file() # Di sini menyediakan path file
y = 'label_target'
x = df.hapus(y)
X_train, X_test, X_validate = df.split_frame(rasio=[.7, .15])
model_obj = H2OAutoML(max_models = 10, seed = 10, verbositas=”info”, nfolds=0)
model_obj.train(x = x, y = y, training_frame = X_train, validasi_frame=X_validate)
hasil = model_obj.leaderboard
Ini akan menyimpan hasil semua algoritme yang menampilkan metrik masing-masing tergantung pada masalahnya.
Baca: Alat Pembelajaran Mesin
Pycaret
Ini adalah perpustakaan yang cukup baru diluncurkan tahun ini, yang mendukung berbagai fitur AutoML hanya dengan beberapa baris kode. Baik itu memproses nilai yang hilang, mengubah data kategorikal ke format yang dapat dimodelkan, penyetelan hyper-parameter, atau bahkan rekayasa fitur, PyCaret mengotomatiskan semua ini di belakang layar saat Anda dapat lebih fokus pada strategi manipulasi data.

Ini lebih merupakan pembungkus Python untuk semua alat dan pustaka pembelajaran mesin yang tersedia seperti NumPy, pandas, sklearn, XGBoost, dll. Mari kita pahami bagaimana Anda dapat melakukan masalah klasifikasi menggunakan Pycaret:
!pip install pycaret # jalankan ini jika Anda belum menginstalnya
dari pycaret.datasets impor get_data
dari impor pycaret.classification *
df = get_data('diabetes')
setting = setup(diabetes, target = 'Variabel kelas')
compare_models() # Fungsi ini hanya menampilkan perbandingan semua algoritma!
selected_model = create_model() # berikan nama algoritma yang ingin Anda buat
prediksi_model(model_pilihan)
final_model = finalisasi_model(model_pilihan)
save_model(final_model , 'nama_file')
dimuat = load_model('nama_file')
Itu saja, Anda baru saja membuat jalur transformasi yang melakukan rekayasa fitur, melatih model, dan menyimpannya!
Google DataPrep
Kami telah melihat dua perpustakaan yang mengotomatiskan pemilihan fitur, pembuatan model, dan penyetelan untuk mendapatkan hasil terbaik, tetapi kami belum membahas bagaimana pembersihan data dapat diotomatisasi. Proses ini pasti dapat diotomatisasi, tetapi memerlukan verifikasi manual tentang apakah data yang benar dilewatkan atau apakah nilainya masuk akal atau tidak.
Lebih banyak data merupakan nilai tambah untuk pembuatan model, tetapi data tersebut harus berkualitas untuk mendapatkan hasil yang berkualitas. Google DataPrep adalah alat penyiapan data cerdas yang ditawarkan sebagai platform sebagai layanan yang memungkinkan pembersihan data visual dari data, artinya Anda dapat mengubah data tanpa mengkode bahkan satu baris pun dan hanya memilih opsi.

Ini menawarkan GUI interaktif, yang membuatnya sangat mudah untuk memilih opsi untuk melakukan fungsi yang ingin Anda terapkan. Bagian terbaik dari alat ini adalah ia akan menampilkan semua perubahan yang dilakukan pada kumpulan data di panel samping sesuai urutan yang telah dilakukan dan langkah apa pun dapat diubah. Ini membantu dalam melacak perubahan. Anda akan diminta dengan saran yang harus dibuat, yang sebagian besar benar.
File yang dihasilkan dapat diekspor ke penyimpanan lokal atau karena layanan ini disediakan di Google Cloud Platform, Anda dapat langsung membawa file ini ke keranjang Google Storage atau tabel BigQuery tempat Anda dapat melakukan tugas machine learning langsung di editor kueri. Kemunduran utama dalam hal ini adalah biayanya yang berulang, ini bukan proyek sumber terbuka dan lebih merupakan solusi industri yang lengkap.
Bisakah ini menggantikan Ilmuwan Data?
Sama sekali tidak! AutoML sangat bagus dan dapat membantu Data Scientist untuk mempercepat siklus hidup tertentu, tetapi saran ahli selalu diperlukan. Misalnya, akan membutuhkan banyak waktu untuk mendapatkan model yang tepat untuk pernyataan masalah tertentu dari AutoML yang menjalankan semua algoritme daripada dari pakar yang akan menjalankannya pada algoritme tertentu yang paling sesuai dengan masalah.
Ilmuwan data akan diminta untuk memvalidasi hasil dari jenis otomatisasi ini dan kemudian memberikan solusi yang layak untuk bisnis. Orang-orang ahli domain akan menganggap otomatisasi ini sangat berguna karena mereka mungkin tidak memiliki banyak pengalaman dalam memperoleh wawasan dari data, tetapi alat ini akan memandu mereka dengan cara terbaik.
Jika Anda ingin menguasai pembelajaran mesin dan mempelajari cara melatih agen untuk bermain tic tac toe, melatih chatbot, dll., lihat kursus Diploma PG Pembelajaran Mesin & Kecerdasan Buatan Grad.