De la Jr Data Scientist/Machine Learning la Data Scientist/Machine Learning Engineer Expert
Publicat: 2020-12-07De la Jr Data Scientist/Machine learning la Full-stack Data Scientist/inginer de învățare automată
Perspectiva actuală în domeniul științei datelor s-a schimbat semnificativ în comparație cu acum trei sau chiar doi ani. Curba de învățare nu ar trebui să se termine niciodată. Deci, pentru a prospera, trebuie să dezvolți setul de abilități potrivite pentru a îndeplini așteptările actuale ale industriei.
„Adaptabilitatea înseamnă diferența puternică dintre adaptarea pentru a face față și adaptarea pentru a câștiga.” — Max McKeown.
Să ne uităm la elementele cheie care ne pot ajuta să trecem de la Jr Data Scientist/Machine Learning la Full Stack Data Scientist/Machine learning.
Cuprins
Așteptarea din trecut
Este vital să înțelegem responsabilitatea trecută de a se adapta la așteptările actuale ale industriei. Deci, pe scurt, rolul de zi cu zi al unui Data Scientist în trecut a implicat în general:
- Spațiul AI era încă relativ nou (deși nu în mediul academic) și multe companii, startup-uri analizau aplicația și cazul de utilizare valid.
- Cercetarea a fost principalul obiectiv. Avertismentul aici a fost că această cercetare de multe ori nu a fost direct în conformitate cu nucleul organizației. Deci inițial nu se aștepta atât de multă credibilitate.
- În general, companiile obișnuiau să îmbine rolurile unui Data Scientist cu un analist de date sau un inginer de date. Din nou, din cauza neclarității aplicației AI pentru întreprinderi.
- Indivizii au avut și ele un fel de dilemă similară. O mare parte din cercetarea sau munca lor nu era direct în linie, practic nu era viabilă pentru a fi servită ca produs.
Perspectivele curente
Democratizarea inteligenței artificiale a cunoscut evoluții remarcabile din partea companiilor și startup-urilor. Să încercăm să înțelegem,
- Industria distinge acum rolul unui Data Scientist, Machine Learning Engineer, Data Analyst, Data Engineer, chiar și MLops.
- Companiile nu mai permit cercetarea în sălbăticie, deoarece știu exact în ce caz de utilizare folosesc. Este, de asemenea, necesară o mentalitate clară și o abordare discretă similară din partea unei persoane.
- Fiecare cercetare sau POC trebuie să aibă un produs tangibil și utilizabil.
Citește și: Carieră în Machine Learning
Disecția amănunțită a tuturor Rolurilor
Dacă trebuie să alegem un domeniu în care afacerile au excelat în spațiul AI, acesta este, fără îndoială, așteptările clare din toate varietățile de roluri, care sunt pe scurt:
- Data Scientist: Un Data Scientist este o persoană care (în general din mediul statistic/matematic) folosește o varietate de mijloace, inclusiv AI, pentru a extrage informații valoroase din date.
- O diferență fundamentală între Data Analyst și Data Scientist este că primul se bazează, în general, pe cunoștințele domeniului și pe metodele manuale vechi de școală pentru a înțelege datele la scară mică sau medie, în timp ce cel din urmă este responsabil cu colectarea, analiza și interpretarea datelor la scară mai mare. folosind mijloace mai largi de instrumente cum ar fi AI, SQL, metode manuale vechi etc.,
- Cunoașterea domeniului nu este obligatorie, dar a avea este utilă.
- Sarcina principală este de a menține și de a extrage informații care contribuie la afaceri din date și nu de a dezvolta software-ul sau produsul.
- Un statistician sau un matematician poate deveni un bun Data Scientist.
2. Inginer de învățare automată: Un inginer software de nișă care dezvoltă un produs sau serviciu bazat pe AI.
- Un inginer ML trebuie să aibă toată experiența ingineriei software tradiționale, împreună cu cunoștințe despre AI, deoarece în cele din urmă el/ea va construi software cu AI în centrul său.
- Sarcina principală nu este extragerea datelor, ci dezvoltarea unui instrument AI care poate îndeplini aceeași sarcină.
- Un dezvoltator cu cunoștințe bune de învățare automată/învățare profundă, precum și de inginerie software poate deveni un inginer bun de învățare automată.
3. Machine Learning Operation Engineer: Un inginer software de nișă care întreține și automatizează conducta care este utilizată de sistemul ML.
- Domeniu relativ nou inspirat de DevOps. Deși diferit de rolurile tradiționale DevOps.
- Spre deosebire de ingineria software tradițională, dezvoltarea oricărui produs/software/serviciu bazat pe AI nu se oprește la finalizarea construcției software-ului. Trebuie să fie actualizat în mod regulat cu date noi, care este „Data-Drift”.
- Sarcina principală include toate lucrările tradiționale DevOps, precum și întreținerea/automatizarea conductei și Data-Drift
- Un dezvoltator cu cunoștințe bune de învățare automată/învățare profundă, inginerie software și tehnologii cloud poate deveni un inginer bun MlOps.
Pentru un nou căutător sau cineva care își propune să avanseze în carieră, toate aceste roluri și așteptări trebuie bine înțelese. Având în vedere că companiile disting clar acest rol, este de așteptat ca acesta să fie și cazul persoanelor fizice. Mintea vagă este total inutilă.
Stiva unui sistem Full Stack Machine Learning
Să trecem acum la punctul esențial. Pentru a deveni un inginer de învățare automată Full Stack, este necesară înțelegerea conceptului din spatele stivei.

Ce este Full Stack?
- Similar cu ingineria software tradițională, dezvoltarea unui sistem bazat pe inteligență artificială necesită, de asemenea, o suită de instrumente. Această suită completă poate fi denumită Full Stack.
- Stiva completă este de obicei construită folosind trei blocuri, tehnologia cloud, tehnologia guvernării și tehnologia AI.
- Există mai multe componente pentru construirea unui sistem AI în cele trei blocuri. Lista include Configurare, Transformare și verificare a colectării datelor, cod ML (antrenament și validare), instrumente de gestionare a resurselor (proces și mașini), infrastructură de servire, monitorizare (poate fi asociat cu Data Drift). Această listă nu este exhaustivă, dar este cu siguranță generică și poate fi modificată după cum este necesar.
- Deci, pentru a adera la sistemul ML performant, trebuie să folosim teancul de instrumente pentru a acoperi toate componentele menționate mai sus, uneori chiar mai multe pentru o singură piesă.
Care este importanța capacității de a proiecta un sistem Full Stack?
Credit pic: Datorii tehnice ascunse în lucrarea sistemelor de învățare automată
- După cum am menționat mai sus, afacerile de astăzi nu permit cercetarea/POC fără sustenabilitatea tangibilă a produsului.
- Nu exagerez dacă spun că antrenamentul de model nu este partea cea mai importantă, de fapt, o voi clasa pe locul trei sau chiar pe locul patru. Persoana care poate proiecta și întreține stiva devine vitală pentru Companie, deoarece,
- Dacă aceeași persoană care urmează să antreneze un model menține și o conductă de date (sau contribuie), atunci el/ea îl poate proiecta pentru a răspunde exact nevoilor.
- Înțelegerea infrastructurii de implementare va ajuta la construirea unui sistem mai centrat pe performanță.
- Înțelegerea Servirii infra va ajuta în partea de viteză și latență (care este, în general, cel mai mare strigăt pentru orice sistem ML).
- Înțelegerea monitorizării va ajuta la derivarea datelor și la performanța modelului pe termen lung.
- Deci, o persoană care știe toate acestea poate face întreaga conductă mai eficientă și poate crește performanța. Dar mai presus de toate, economisește costuri pentru companie, deoarece acum o singură persoană se poate ocupa de mai multe roluri, astfel, la rândul său, crește valoarea individului pentru companie.
Așadar, pentru a rezuma, este esențial să nu fii doar obsedat de acuratețea modelului, ci să fii obsedat de toate valorile cheie de performanță - viteza, latența, acuratețea, nevoile infrastructurii, cererile de servire etc.
Citește și: Idei de proiecte de învățare automată
Prezentare generală a modului în care funcționează un sistem full stack
Prezentare generală a ciclului de viață al sistemului Ideal ML
Credit foto: Microsoft MLOps
O conductă ML ideală trebuie să respecte următoarele concepte:
- Guvernare:
- Versiunea codului proiectului
- Versiunea datelor
- Versiunea modelului
- Documentație
- Magazin universal de artefacte pentru a stoca materiale cu versiuni
- Planul general al conductei:
- Politica comună de descoperire + experimentare
- Urmărirea experimentului (cum ar fi unele valori, rezultate, performanță)
- O strategie comună de interconectare a componentelor conductei
- Publicați rezultatele
- Un mecanism pentru a reproduce, recrea, porta cu ușurință
- Suport pentru CI/CD
- infrastructură suficientă pentru a sprijini dezvoltarea, precum și producția
- Adaptare ușoară pentru producție și puncte finale
- Servire scalabilă în infra pentru a răspunde cererilor din ce în ce mai mari
Prezentare generală a conductei
- O configurație de setare unică cu stiva
- Versiune set de date cu DVC.
- Experiment de urmărire strat cu MLflow/Wandb.
- Înregistrați rezultatele, valorile etc., cu MLflow/Wandb în Universal Artifact Store (stocare blob Azure ca backend).
- Model de jurnal (sau orice material aferent) ca materiale versiuni cu MLflow/Wandb pe magazinul Universal Artifact.
- Împachetați componente individuale cu Docker.
- Stocați componentele pachetului cu depozitul Docker dorit
- Ambalarea și publicarea trebuie făcute folosind CI/CD.
- Programarea instruirii modelelor automate bazate pe monitorizarea continuă pentru Data Drift.
Obțineți certificare în știința datelor de la cele mai bune universități din lume. Învață programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
Concluzie
Pentru a rămâne relevant, plin de resurse, jucător cheie în echipă, este necesar să creștem cortul nostru de cunoștințe. Ne va ajuta, fără îndoială, să progreseze în orice mediu competitiv.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
