Dari Jr Data Scientist/Machine learning hingga Data Scientist/Machine Learning Engineer Expert

Diterbitkan: 2020-12-07

Dari Jr Data Scientist/Machine learning hingga Full-stack Data Scientist/Machine learning engineer

Pandangan saat ini di bidang Ilmu Data telah berubah secara signifikan dibandingkan dengan tiga atau bahkan dua tahun yang lalu. Kurva belajar seharusnya tidak pernah berakhir. Jadi untuk berkembang, seseorang harus mengembangkan keahlian yang tepat untuk memenuhi ekspektasi industri saat ini.

“Kemampuan beradaptasi adalah tentang perbedaan yang kuat antara beradaptasi untuk mengatasi dan beradaptasi untuk menang.” -Max McKeown.

Mari kita lihat elemen kunci yang dapat membantu kita beralih dari Jr Data Scientist / Machine learning ke Full stack Data Scientist / Machine learning.

Daftar isi

Harapan Masa Lalu

Sangat penting untuk memahami tanggung jawab masa lalu untuk beradaptasi dengan ekspektasi industri saat ini. Jadi singkatnya, peran sehari-hari seorang Data Scientist di masa lalu umumnya melibatkan:

  • Ruang AI masih relatif baru (meskipun tidak di bidang akademik) dan banyak perusahaan, perusahaan rintisan menganalisis aplikasinya dan kasus penggunaan yang valid.
  • Penelitian menjadi fokus utama. Peringatan di sini adalah bahwa penelitian ini berkali-kali tidak langsung sejalan dengan inti organisasi. Jadi awalnya tidak begitu banyak kredibilitas yang diharapkan.
  • Umumnya, perusahaan biasanya memadukan peran Ilmuwan Data dengan analis Data atau insinyur Data. Sekali lagi, karena ketidakjelasan aplikasi perusahaan AI.
  • Individu juga memiliki semacam dilema serupa. Banyak penelitian atau karya mereka yang tidak langsung sejalan, praktis tidak layak untuk disajikan sebagai sebuah produk.

Pandangan Saat Ini

Demokratisasi AI telah melihat perkembangan luar biasa dari perusahaan dan startup. Mari kita coba memahaminya,

  • Industri kini membedakan peran Data Scientist, Machine Learning Engineer, Data Analyst, Data engineer, bahkan MLops engineer.
  • Bisnis tidak lagi mengizinkan penelitian di alam liar, karena mereka tahu kasus penggunaan apa yang sebenarnya mereka gunakan. Pola pikir yang jelas & pendekatan diskrit serupa dari seorang individu juga diperlukan.
  • Setiap Riset atau POC harus memiliki produk yang nyata dan dapat disajikan.

Baca Juga: Karir di Machine Learning

Pembedahan menyeluruh dari semua Peran

Jika kita harus memilih satu area di mana Bisnis telah unggul dalam ruang AI, tidak diragukan lagi harapan yang jelas dari semua jenis Peran, yang secara singkat:

  1. Ilmuwan Data: Ilmuwan Data adalah orang yang (umumnya dari latar belakang statistik/matematika) menggunakan berbagai cara termasuk AI untuk mengekstrak informasi berharga dari data.
    • Perbedaan mendasar antara Analis Data & Ilmuwan data adalah- yang pertama umumnya mengandalkan pengetahuan domain dan metode manual lama untuk memahami data dalam skala kecil hingga menengah, sedangkan yang terakhir bertanggung jawab mengumpulkan, menganalisis, dan menafsirkan data dalam skala yang lebih besar. menggunakan alat yang lebih luas seperti AI, SQL, cara manual sekolah lama, dll.,
    • Pengetahuan domain bukanlah suatu keharusan tetapi memiliki sangat membantu.
    • Pekerjaan utama adalah untuk memelihara dan mengekstrak bisnis memberikan kontribusi wawasan dari data & bukan untuk mengembangkan perangkat lunak atau produk.
    • Seorang Ahli Statistik atau Matematikawan dapat menjadi Ilmuwan Data yang baik.

2. Insinyur Pembelajaran Mesin: Seorang insinyur perangkat lunak khusus yang mengembangkan produk atau layanan berdasarkan AI.

    • Seorang insinyur ML harus memiliki semua keahlian rekayasa perangkat lunak tradisional bersama dengan pengetahuan tentang AI karena dia pada akhirnya akan membangun perangkat lunak dengan AI sebagai intinya.
    • Pekerjaan utama bukan untuk mengekstrak data tetapi untuk mengembangkan alat AI yang dapat melakukan pekerjaan yang sama.
    • Pengembang dengan pengetahuan yang baik tentang pembelajaran mesin/pembelajaran mendalam serta rekayasa perangkat lunak dapat menjadi insinyur pembelajaran mesin yang baik.

3. Insinyur Operasi Pembelajaran Mesin: Seorang insinyur perangkat lunak khusus yang memelihara dan mengotomatiskan saluran yang digunakan oleh sistem ML.

    • Bidang yang relatif baru terinspirasi oleh DevOps. Meskipun berbeda dari peran DevOps tradisional.
    • Tidak seperti rekayasa perangkat lunak tradisional, pengembangan untuk produk/perangkat lunak/layanan apa pun berdasarkan AI tidak berhenti pada penyelesaian pembangunan perangkat lunak. Itu harus diperbarui secara berkala dengan data baru, yaitu 'Data-Drift'.
    • Pekerjaan utama mencakup semua pekerjaan DevOps tradisional serta memelihara/mengotomatiskan pipeline dan Data-Drift
    • Pengembang dengan pengetahuan yang baik tentang pembelajaran mesin/pembelajaran mendalam, rekayasa perangkat lunak & teknologi cloud dapat menjadi insinyur MlOps yang baik.

Untuk pencari baru atau seseorang yang ingin maju dalam karirnya, semua peran dan harapan ini harus dipahami dengan baik. Mengingat bahwa perusahaan dengan jelas membedakan peran ini, diharapkan hal ini juga terjadi pada individu. Pola pikir yang tidak jelas sama sekali tidak berguna.

Tumpukan sistem Pembelajaran Mesin tumpukan penuh

Sekarang mari kita beralih ke poin penting. Untuk menjadi Insinyur Pembelajaran Mesin tumpukan penuh, pemahaman konsep di balik tumpukan diperlukan.

Apa itu tumpukan penuh?

  • Mirip dengan rekayasa perangkat lunak tradisional, mengembangkan sistem berbasis AI juga membutuhkan seperangkat alat. Suite lengkap ini dapat disebut sebagai Full Stack.
  • Tumpukan penuh biasanya dibangun menggunakan tiga blok bangunan, teknologi Cloud, teknologi Tata Kelola, dan teknologi AI.
  • Ada beberapa komponen untuk membangun sistem AI di tiga blok bangunan. Daftar tersebut mencakup Konfigurasi, Transformasi & verifikasi pengumpulan data, kode ML (pelatihan & validasi), alat manajemen Sumber Daya (proses & mesin), Infrastruktur penyajian, Pemantauan (dapat dipukul dengan Data Drift). Daftar ini tidak lengkap, tetapi sudah pasti generik dan dapat dimodifikasi sesuai kebutuhan.
  • Jadi, untuk mematuhi sistem ML yang berkinerja baik, kita harus menggunakan tumpukan alat untuk mencakup semua komponen yang disebutkan di atas, terkadang bahkan lebih dari satu untuk satu bagian.

Apa pentingnya kemampuan merancang sistem tumpukan penuh?

Kredit Pic: Utang teknis tersembunyi dalam makalah sistem pembelajaran mesin

  • Seperti yang saya sebutkan di atas, bisnis saat ini tidak mengizinkan penelitian/POC tanpa keberlanjutan produk yang nyata.
  • Saya tidak akan melebih-lebihkan jika saya mengatakan pelatihan model bukanlah bagian yang paling penting, bahkan saya akan memberi peringkat ketiga atau bahkan keempat. Orang yang dapat mendesain dan memelihara stack menjadi vital bagi Perusahaan, karena,
    • Jika orang yang sama yang akan melatih model juga memelihara saluran data (atau berkontribusi) maka dia dapat mendesainnya untuk memenuhi kebutuhan yang tepat.
    • Memahami infra Deployment akan membantu membangun kinerja yang lebih sentris.
    • Memahami Melayani infra akan membantu di bagian kecepatan dan latensi (yang umumnya merupakan seruan tertinggi untuk sistem ML apa pun).
    • Memahami Pemantauan akan membantu dengan Data Drift & dalam kinerja model jangka panjang.
    • Jadi, seseorang yang mengetahui semua ini dapat membuat keseluruhan saluran lebih efisien dan meningkatkan kinerja. Tetapi di atas semua itu, menghemat biaya bagi perusahaan karena sekarang satu orang dapat menangani banyak peran, sehingga pada gilirannya, meningkatkan nilai individu bagi perusahaan.

Jadi untuk meringkas, penting untuk tidak hanya terobsesi dengan akurasi model tetapi terobsesi dengan semua metrik kinerja utama- kecepatan, latensi, akurasi, kebutuhan infra, permintaan penyajian, dll.

Baca Juga: Ide Proyek Pembelajaran Mesin

Ikhtisar tentang cara kerja sistem tumpukan penuh

Ikhtisar Siklus Hidup Sistem ML Ideal

Kredit foto: Microsoft MLOps

Pipeline ML yang Ideal harus mengikuti konsep di bawah ini:

  1. Tata Kelola:
    • Versi kode Proyek
    • Versi Data
    • Versi Model
    • Dokumentasi
  2. Toko artefak universal untuk menyimpan aset berversi
  3. Cetak biru saluran pipa umum:
    • Penemuan umum + kebijakan eksperimen
    • Pelacakan eksperimen (seperti beberapa metrik, hasil, kinerja)
    • Strategi umum untuk menghubungkan komponen pipa
    • Publikasikan hasil
  4. Mekanisme untuk dengan mudah mereproduksi, membuat ulang, port
  5. Dukungan untuk CI/CD
  6. Infrastruktur yang memadai untuk mendukung pengembangan dan produksi
  7. Adaptasi yang mudah untuk produksi dan titik akhir
  8. Scalable Melayani infra untuk memenuhi permintaan yang terus meningkat

Ikhtisar Pipa

  1. Konfigurasi pengaturan satu kali dengan tumpukan
  2. Versi Dataset dengan DVC.
  3. Eksperimen pelacakan strat dengan MLflow/Wandb.
  4. Catat hasil, metrik, dll., dengan MLflow/Wandb di toko Universal Artifact (penyimpanan gumpalan Azure sebagai backend).
  5. Log Model (atau aset terkait apa pun) sebagai aset berversi dengan MLflow/Wandb di toko Universal Artifact.
  6. Kemas komponen individual dengan Docker.
  7. Simpan komponen paket dengan repositori Docker yang diinginkan
  8. Pengemasan dan penerbitan harus dilakukan dengan menggunakan CI/CD.
  9. Menjadwalkan pelatihan model otomatis berdasarkan pemantauan berkelanjutan untuk Data Drift.

Dapatkan sertifikasi ilmu data dari Universitas top dunia. Pelajari Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karir Anda.

Kesimpulan

Untuk tetap relevan, banyak akal, pemain tim kunci, perlu untuk meningkatkan tenda pengetahuan kita. Ini tidak diragukan lagi akan membantu seseorang untuk maju dalam lingkungan yang kompetitif.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Rencanakan Karir Anda di Ilmu Data Sekarang.

Mendaftar untuk Program Sertifikat Profesional dalam Ilmu Data dari IIM-Kozhikode