Explorarea AutoML: Top instrumente disponibile [Ce trebuie să știți]

Publicat: 2020-12-07

Ciclul de viață al învățării automate este o mulțime de procese care includ colectarea datelor, curățarea datelor, ingineria caracteristicilor, selecția caracteristicilor, construirea modelului, reglarea hiper-parametrilor, validarea și implementarea modelului.

În timp ce colectarea datelor poate lua multe forme, cum ar fi sondaje manuale, introducerea datelor, eliminarea web sau datele generate în timpul unui experiment, curățarea datelor este locul în care datele sunt transformate într-un formular standard care poate fi utilizat în alte etape ale ciclului de viață. .

Creșterea recentă a învățării automate a încurajat, de asemenea, o mulțime de companii să adopte o soluție bazată pe inteligență artificială pentru produsele lor principale și, prin urmare, un nou capitol al AutoML a ajuns pe piață. Poate fi un instrument excelent pentru a configura rapid soluții bazate pe inteligență artificială, dar există totuși câțiva factori îngrijoratori care trebuie abordați.

Cuprins

Ce este AutoML?

Este acel set de instrumente care automatizează unele părți ale învățării automate, care este în sine un proces automat de generare de predicții și clasificări care conduc la rezultate acționabile. Deși poate automatiza doar ingineria caracteristicilor, construirea modelelor și, uneori, etapele de implementare, majoritatea instrumentelor AutoML acceptă mai mulți algoritmi de învățare automată și aproape tot atâtea valori de evaluare.

Când un astfel de instrument este pornit, rulează același set de date peste toți algoritmii, testează diferite valori asociate cu problema și apoi prezintă un raport detaliat. Să explorăm câteva instrumente faimoase disponibile pe piață și care sunt utilizate pe scară largă.

H2O.ai

Una dintre soluțiile de top în AutoML este H2O.ai, care oferă soluții pregătite pentru industrie pentru problemele de afaceri, care nu codifică nimic de la zero. Acest lucru permite oricui din orice domeniu să extragă informații semnificative din date fără a fi nevoie să aibă experiență în învățarea automată.

H2O este o sursă deschisă care acceptă toate modelele de învățare automată și abordările statistice utilizate pe scară largă. Este construit pentru a oferi soluții foarte rapide, deoarece datele sunt distribuite în clustere și apoi stocate într-un format de coloană în memorie, permițând operațiuni de citire paralelă.

Versiunile mai noi ale acestui proiect au și suport pentru GPU, ceea ce îl face mai rapid și mai eficient. Să ne uităm la modul în care acest lucru poate fi realizat folosind Python (rulați codul în jupyter notebook pentru o mai bună înțelegere):

!pip install h2o # rulați acest lucru dacă nu l-ați instalat

import apă

h2o.init()

din h2o.automl import H2OAutoML

df = h2o.import_file() # Aici furnizați calea fișierului

y = 'target_label'

x = df.remove(y)

X_train, X_test, X_validate = df.split_frame(ratios=[.7, .15])

model_obj = H2OAutoML(max_models = 10, seed = 10, verbosity=”info”, nfolds=0)

model_obj.train(x = x, y = y, training_frame = X_train, validation_frame=X_validate)

rezultate = model_obj.leaderboard

Aceasta va stoca rezultatele tuturor algoritmilor afișând valorile lor respective, în funcție de problemă.

Citiți: Instrumente de învățare automată

Pycaret

Aceasta este o bibliotecă destul de nouă lansată în acest an, care acceptă o gamă largă de funcții AutoML cu doar câteva linii de cod. Fie că este vorba despre procesarea valorilor lipsă, transformarea datelor categorice în format alimentabil de model, reglarea hiper-parametrului sau chiar ingineria caracteristicilor, PyCaret automatizează toate acestea în culise când vă puteți concentra mai mult pe strategiile de manipulare a datelor.

Este mai mult un înveliș Python pentru toate instrumentele și bibliotecile de învățare automată disponibile, cum ar fi NumPy, panda, sklearn, XGBoost etc. Să înțelegem cum puteți realiza o problemă de clasificare folosind Pycaret:

!pip install pycaret # rulați acest lucru dacă nu l-ați instalat

din pycaret.datasets import get_data

din pycaret.clasificare import *

df = get_data('diabet')

setare = setare (diabet, țintă = „variabilă de clasă”)

compare_models() # Această funcție afișează pur și simplu compararea tuturor algoritmilor!

selected_model = create_model() # trece numele algoritmului pe care vrei să-l creezi

predict_model(model_selectat)

model_final = finalize_model(model_selectat)

save_model(final_model , 'file_name')

încărcat = load_model('file_name')

Gata, tocmai ați creat o conductă de transformare care a efectuat ingineria caracteristicilor, a antrenat un model și l-a salvat!

Google DataPrep

Am analizat două biblioteci care automatizează selectarea funcțiilor, construirea modelului și reglarea acestuia pentru a obține cele mai bune rezultate, dar nu am discutat despre cum poate fi automatizată curățarea datelor. Acest proces poate fi automatizat cu siguranță, dar necesită verificare manuală dacă datele corecte sunt transmise sau dacă valorile au sens sau nu.

Mai multe date reprezintă un plus pentru construirea modelului, dar ar trebui să fie date de calitate pentru a obține rezultate de calitate. Google DataPrep este un instrument inteligent de pregătire a datelor oferit ca platformă ca serviciu care permite curățarea vizuală a datelor, ceea ce înseamnă că puteți modifica datele fără a codifica nici măcar o singură linie și doar selectând opțiunile.

Oferă o interfață interactivă, ceea ce face foarte ușor să selectați opțiunile pentru a îndeplini funcțiile pe care doriți să le aplicați. Cea mai bună parte a acestui instrument este că va afișa toate modificările care sunt efectuate asupra setului de date într-un panou lateral, în ordinea în care au fost efectuate și orice pas poate fi schimbat. Ajută la ținerea evidenței schimbărilor. Vi se vor solicita sugestii de făcut, care sunt în mare parte corecte.

Fișierul rezultat poate fi exportat în stocarea locală sau, deoarece acest serviciu este furnizat în Google Cloud Platform, puteți duce direct acest fișier în orice compartiment de stocare Google sau în tabelele BigQuery, unde puteți efectua sarcini de învățare automată direct în editorul de interogări. Recul major al acestui lucru poate fi costurile sale recurente, nu este un proiect open-source, ci mai degrabă o soluție industrială cu drepturi depline.

Poate aceasta să înlocuiască Data Scientists?

Absolut nu! AutoML este grozav și îl poate ajuta pe Data Scientist să accelereze un anumit ciclu de viață, dar este întotdeauna nevoie de sfatul experților. De exemplu, va dura mult timp pentru a obține modelul potrivit pentru o anumită declarație de problemă de la un AutoML care rulează toți algoritmii decât de la un expert care îl va rula pe anumiți algoritmi care se potrivesc cel mai bine problemei.

Oamenii de știință de date vor trebui să valideze rezultatele acestor tipuri de automatizare și apoi să ofere o soluție fezabilă pentru afaceri. Experții în domeniu vor găsi această automatizare foarte utilă, deoarece s-ar putea să nu aibă prea multă experiență în obținerea de informații din date, dar aceste instrumente îi vor ghida în cel mai bun mod.

Dacă vrei să stăpânești învățarea automată și să înveți cum să antrenezi un agent să joace tic tac toe, să antrenezi un chatbot etc., consultă cursul de diplomă PG de învățare automată și inteligență artificială de la upGrad.

Conduceți revoluția tehnologică condusă de inteligența artificială

CERTIFICARE AVANSATĂ ÎN MACHINE LEARNING ȘI CLOUD DE LA IIT MADRAS & UPGRAD

Aflați mai multe