Insinyur Pembelajaran Mesin: Mitos vs. Realitas

Diterbitkan: 2018-05-08

Pembelajaran mesin adalah apa yang memberi komputer kemampuan untuk belajar dan secara iteratif menjadi lebih baik dalam tugas-tugas mereka. Ini berfokus pada pengembangan algoritme dinamis yang dapat mengubah (memodifikasi) diri mereka sendiri ketika terpapar pada kumpulan data baru. Berbicara secara sederhana, pembelajaran mesin adalah apa yang membuat Facebook pergi “apakah Anda ingin menandai teman Anda di gambar ini?” , setiap kali Anda mengunggah foto grup. Orang-orang yang bekerja di belakang layar untuk mewujudkan semua ini dengan rendah hati dikenal sebagai Insinyur Pembelajaran Mesin.
Sekarang, seperti setiap domain lain di bawah payung luas ilmu data, Machine Learning juga memiliki banyak kesalahpahaman tentangnya. Dan membersihkannya adalah tujuan kami hari ini. Namun, penting bagi kami untuk memandu Anda terlebih dahulu melalui kehidupan seorang insinyur pembelajaran mesin termasuk keterampilan dan alat yang mereka miliki.
Insinyur Pembelajaran Mesin
Pertama, mari kita batasi dengan jelas pembelajaran mesin dari ilmu data.

Daftar isi

Apakah insinyur pembelajaran mesin adalah ilmuwan data?

Ilmu data adalah istilah yang mencakup semua, tetapi ada sesuatu yang berbeda secara mendasar tentang cara kerja pembelajaran mesin. Ilmu data dan analis pada dasarnya mengeksplorasi data dan mencoba menemukan pendekatan atau model yang sesuai dengan kebutuhan bisnis mereka.
Pembelajaran mesin, di sisi lain, mengubah model ini sepenuhnya. Insinyur pembelajaran mesin tidak berurusan langsung dengan data. Mereka tahu hasil yang mereka inginkan tetapi membiarkan algoritme bekerja untuk mereka. Pembelajaran mesin membangun mesin yang mengalahkan juara Go, atau yang menandai foto atau yang menerjemahkan antar bahasa. Tujuan ini tidak dicapai melalui eksplorasi data yang cermat – tidak seperti dalam kasus analisis data. Ada banyak data untuk dijelajahi dan terlalu banyak dimensi untuk ditangani (misalnya, apa dimensi game Go? Atau, bahasa?) Janji pembelajaran mesin adalah bahwa ia membangun model itu sendiri: ia melakukan eksplorasi datanya dan penyetelan.
Perbedaan antara Ilmu Data, Pembelajaran Mesin, dan Data Besar!

Akibatnya, insinyur pembelajaran mesin tidak "menjelajah" sebanyak yang dilakukan ilmuwan atau analis data – setidaknya tidak dalam arti kata yang sebenarnya. Tujuan mereka bukanlah menemukan signifikansi dalam data mereka – mereka percaya bahwa signifikansi sudah ada di sana. Sebaliknya, mereka bertujuan untuk membangun model/algoritma/mesin/sistem yang dapat menganalisis data dan menghasilkan hasil. Atau, untuk membuat jaringan saraf yang berfungsi – yang dapat diubah untuk menghasilkan hasil yang andal pada kumpulan data input apa pun.
Mari kita lihat beberapa poin penting seputar insinyur pembelajaran mesin:

  • Mereka memiliki keterampilan rekayasa perangkat lunak yang lebih kuat daripada analis/ilmuwan data biasa. Insinyur pembelajaran mesin bekerja dengan insinyur yang bertanggung jawab untuk memelihara sistem produksi. Oleh karena itu, mereka perlu memahami metodologi pengembangan perangkat lunak, praktik tangkas, dan alat pengembangan perangkat lunak paling modern. Mereka harus teliti dengan segala sesuatu mulai dari IDE seperti Eclipse atau IntelliJ hingga komponen jalur penyebaran perangkat lunak.
  • Insinyur pembelajaran mesin fokus pada membuat produk data berfungsi dalam produksi. Akibatnya, mereka holistik dalam pendekatan mereka. Mereka membentuk bagian inti dari setiap tim pengembangan perangkat lunak, dan karenanya, mengetahui apa itu pengujian A/B. Mereka tidak hanya "memahami", tetapi juga tahu bagaimana melakukan pengujian A/B pada sistem produksi. Mereka memahami pentingnya logging dan keamanan untuk nasib aplikasi apa pun.
  • Mereka sangat berhati-hati dalam memantau produk data dalam produksi. Meskipun ada banyak sumber daya untuk mengotomatiskan proses pemantauan aplikasi, persyaratan pembelajaran mesin melangkah lebih jauh. Saluran data, model, algoritme, atau bahkan sistem dapat menjadi usang dan perlu dilatih ulang. Sistem pembelajaran mesin dapat dengan mudah terdistorsi dengan mengorbankan jalur pipa data yang memberinya makan. Oleh karena itu, insinyur pembelajaran mesin selalu perlu tahu cara mendeteksi kompromi ini.
Neural Networks for Dummies: Panduan Komprehensif

Beberapa keterampilan yang diperlukan untuk insinyur pembelajaran mesin yang sukses:

  • Pengetahuan dasar tentang ilmu komputer dan pemrograman
  • Probabilitas dan statistik
  • Pemodelan dan evaluasi data
  • Menemukan perpustakaan ML yang tepat untuk digunakan dan menyesuaikannya saat dan saat dibutuhkan
  • Rekayasa dan pemodelan perangkat lunak

Mitos #1: Insinyur pembelajaran mesin membuat sistem berpikir persis seperti manusia.

Meskipun ini adalah tujuan akhir, itu jauh dari kebenaran saat ini. Bandingkan secara singkat proses pembelajaran seorang anak dengan proses pembelajaran mesin, dan Anda akan menyadari bahwa pembelajaran mesin masih dalam tahap awal. Misalnya, seorang bayi tidak perlu mengamati ratusan manusia untuk hal-hal sederhana seperti berjalan atau makan. Mereka menetapkan tujuan mereka sendiri, memahami orang lain di sekitar, secara intuitif membuat strategi pembelajaran mereka, dan menyempurnakannya melalui coba-coba sampai mereka berhasil berhasil. Bahkan tanpa banyak intervensi atau bimbingan eksternal, bayi dapat berhasil belajar berjalan, bersama dengan hal-hal penting lainnya.
Mesin, di sisi lain, membutuhkan pengawasan pada setiap langkah pembelajaran. Selain itu, seorang anak dengan mudah menggabungkan berbagai masukan yang diterima dari berbagai organ indera secara holistik dan efisien. Misalnya, seorang anak akan dapat mengenali gambar dalam sekejap, dan juga memahami teks apa pun yang tertulis di atasnya. Tapi, untuk mengajarkan mesin hal yang sama, kita membutuhkan algoritma canggih yang terpisah, masing-masing untuk mengenali data, mengidentifikasi suara, dan memahami teks.

Mitos #2: Semua data berguna untuk insinyur pembelajaran mesin.

Tidak diragukan lagi bahwa insinyur pembelajaran mesin juga membutuhkan data, tetapi tidak semuanya relevan dengan pembelajaran mesin. Mereka membutuhkan data representatif yang mencakup pola dan hasil yang perlu ditangani oleh sistem mereka. Data tidak boleh menyertakan pola yang tidak relevan karena model pembelajaran mesin akan mencerminkan pola yang tidak terkait tersebut dan mencarinya dalam data yang akan digunakan dengannya.
Semua data yang Anda gunakan untuk pelatihan perlu diberi label dan diberi label dengan baik dengan fitur yang sesuai dengan pertanyaan yang akan Anda ajukan pada sistem pembelajaran mesin, yang membutuhkan banyak pekerjaan. Semua data ini perlu diberi label dengan baik dengan fitur yang sesuai dengan pertanyaan yang akan Anda ajukan ke sistem Anda. Itu juga harus murni dan bebas dari inkonsistensi atau kesalahan. Jadi, semua data tidak berharga bagi para insinyur pembelajaran mesin – hanya data yang relevan yang berharga!
Perhatikan Hal Besar Berikutnya: Pembelajaran Mesin

Mitos #3: Insinyur pembelajaran mesin mengabaikan pengetahuan yang sudah ada sebelumnya.

Para ahli di banyak bidang mengabaikan pembelajaran mesin karena mengambil pendekatan "batu tulis kosong" dalam algoritme pembelajaran mereka. Mereka berasumsi bahwa setiap algoritma pembelajaran mesin dimulai dari nol – tanpa pengetahuan tentang data yang sudah ada sebelumnya. Insinyur pembelajaran mesin lebih memahami bahwa pembelajaran adalah proses panjang yang membutuhkan pemantauan terus-menerus. Itu tidak bisa ditiru hanya dengan memasukkan data ke dalam algoritma. Oleh karena itu, tidak semua algoritme pembelajaran dimulai dengan papan tulis kosong; beberapa menggunakan kumpulan data untuk memperbaiki kumpulan pengetahuan yang sudah ada sebelumnya. Pada akhirnya, itu tergantung pada kebutuhan bisnis organisasi.
Mitos #4: Model pembelajaran mesin yang lebih sederhana selalu lebih akurat.

Ini sejalan dengan pisau cukur Occam. Tapi, mari kita beri tahu Anda bahwa pisau cukur hanya mengatakan bahwa penjelasan yang lebih sederhana lebih disukai, bukan mengapa. Mereka lebih disukai karena lebih mudah dipahami, diingat, dan ditangani. Namun, dalam hal pembelajaran mesin, terkadang hipotesis paling sederhana yang konsisten dengan data kurang akurat untuk prediksi daripada hipotesis yang lebih rumit. Beberapa model keluaran algoritme pembelajaran paling ampuh yang tampaknya sangat rumit — terkadang bahkan terus menambahkannya setelah mereka menyesuaikan data dengan benar — tetapi begitulah cara mereka mengalahkan yang kurang kuat.

Pelajari Kursus ML Online dari Universitas top dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.

Apakah matematika suatu keharusan bagi para insinyur Pembelajaran Mesin?

Karena Pembelajaran Mesin adalah bagian dari Ilmu Data, kombinasi dari Ilmu Komputer dan Matematika, pengetahuan matematika adalah suatu keharusan bagi para insinyur Pembelajaran Mesin. Anda akan membutuhkan pengetahuan tentang konsep matematika seperti aljabar linier, kalkulus, optimisasi, probabilitas, dan statistik untuk membuat dan memahami algoritme Pembelajaran Mesin. Untuk lebih tepatnya, Anda harus memiliki ide dasar operasi matematika yang membantu dalam analisis data. Tetapi bagian terbaiknya adalah Anda dapat mempelajari konsep dasar matematika ini seiring waktu sambil mempelajari Machine Learning, dan sebagian besar konsep ini cukup mudah untuk dipahami.

Apakah ilmuwan data membutuhkan Pembelajaran Mesin?

Kita tahu bahwa Ilmu Data dan Pembelajaran Mesin terkait erat, jadi Pembelajaran Mesin hanya akan sebaik data yang diberikan dan kapasitas algoritme untuk menyerapnya. Ilmuwan data akan diminta untuk memiliki pemahaman dasar tentang Pembelajaran Mesin. Ilmuwan data mengekstrak pengetahuan yang berguna dari sejumlah besar data. Mereka mengungkap tren dan membantu dalam pengembangan solusi untuk mengotomatisasi operasi bisnis tertentu. Untuk prakiraan dan perkiraan yang akurat, Ilmuwan Data harus memahami Pembelajaran Mesin. Ini dapat membantu robot dalam membuat penilaian yang lebih baik dan mengambil tindakan yang lebih bijaksana secara real-time tanpa perlu interaksi manusia. Penambangan dan interpretasi data sedang diubah oleh Machine Learning. Prosedur statistik tradisional telah digantikan oleh kumpulan algoritma generik otomatis yang lebih akurat.

Bahasa pengkodean mana yang lebih disukai oleh para insinyur ML?

Python adalah bahasa yang paling banyak digunakan untuk analisis data dan Machine Learning. Mayoritas insinyur Pembelajaran Mesin memilih Python untuk tantangan NLP, R atau Python lebih disukai untuk pekerjaan analisis sentimen, dan Java digunakan untuk aplikasi Pembelajaran Mesin lainnya seperti keamanan dan deteksi ancaman. Python telah menjadi bahasa pilihan untuk analisis data, Pembelajaran Mesin, dan kecerdasan buatan (AI) karena ekosistem perpustakaannya yang luas, yang memungkinkan para profesional Pembelajaran Mesin mengakses, mengelola, mengonversi, dan menganalisis data dengan mudah. Python populer di kalangan pengembang Machine Learning karena platformnya yang independen, sederhana, dan mudah dibaca.