Ottenere il massimo dai modelli pre-addestrati

Pubblicato: 2022-03-11

La maggior parte dei nuovi modelli di deep learning rilasciati, specialmente nella PNL, sono molto, molto grandi: hanno parametri che vanno da centinaia di milioni a decine di miliardi.

Data un'architettura sufficientemente buona, più grande è il modello, maggiore è la capacità di apprendimento che ha. Pertanto, questi nuovi modelli hanno un'enorme capacità di apprendimento e sono addestrati su set di dati molto, molto grandi.

Per questo motivo, apprendono l'intera distribuzione dei set di dati su cui vengono addestrati. Si può dire che codificano la conoscenza compressa di questi set di dati. Ciò consente a questi modelli di essere utilizzati per applicazioni molto interessanti, la più comune è il transfer learning. Il transfer learning consiste nella messa a punto di modelli pre-addestrati su set di dati/attività personalizzati, che richiedono molti meno dati e i modelli convergono molto rapidamente rispetto all'addestramento da zero.

Come i modelli pre-addestrati sono gli algoritmi del futuro

Sebbene i modelli pre-addestrati siano utilizzati anche nella visione artificiale, questo articolo si concentrerà sul loro uso all'avanguardia nel dominio dell'elaborazione del linguaggio naturale (NLP). L'architettura del trasformatore è l'architettura più comune e più potente utilizzata in questi modelli.

L'architettura Transformer presentata nel documento di Google del 2017, "Attention Is All You Need".

Sebbene BERT abbia avviato la rivoluzione dell'apprendimento del trasferimento della PNL, esploreremo i modelli GPT-2 e T5. Questi modelli sono pre-addestrati: la loro messa a punto su applicazioni specifiche si tradurrà in metriche di valutazione molto migliori, ma li utilizzeremo immediatamente, ovvero senza alcuna messa a punto.

Modelli NLP pre-addestrati: GPT-2 di OpenAI

GPT-2 ha creato non poche polemiche quando è stato rilasciato nel 2019. Poiché era molto bravo a generare testo, ha attirato l'attenzione dei media e sollevato molte domande sul futuro dell'IA.

Formato su 40 GB di dati testuali, GPT-2 è un modello molto grande contenente un'enorme quantità di conoscenza compressa da una sezione trasversale di Internet.

GPT-2 ha molti potenziali casi d'uso. Può essere utilizzato per prevedere la probabilità di una frase. Questo, a sua volta, può essere utilizzato per la correzione automatica del testo. Successivamente, la previsione delle parole può essere usata direttamente per creare un componente di completamento automatico per un IDE (come Visual Studio Code o PyCharm) per la scrittura di codice e la scrittura di testo generale. Lo useremo per la generazione automatica del testo e un ampio corpus di testo può essere utilizzato per l'analisi del linguaggio naturale.

GPT-2 che produce suggerimenti basati su input testuali. L'input a sinistra è "AI ha preso la maggior parte dei lavori". Le tre uscite suggerite a destra sono "Infatti la prima assunzione dell'azienda a maggio", "L'unico lavoro che non è stato preso era quello di" e "'Quando ero giovane era come essere" senza una citazione di chiusura marchio.

Generazione di testo

La capacità di un modello pre-addestrato come GPT-2 di generare testo coerente è davvero impressionante. Possiamo assegnargli un testo prefisso e chiedergli di generare la parola, la frase o la frase successiva.

Un esempio di caso d'uso è la generazione di un set di dati di recensioni di prodotti per vedere quale tipo di parole vengono generalmente utilizzate nelle recensioni positive rispetto a quelle negative.

Diamo un'occhiata ad alcuni esempi, partendo da quello che otteniamo se iniziamo con il prefisso positivo "Mi è piaciuto molto questo film!"

Campione 1 Ho adorato le emozioni del personaggio nell'essere in costante pericolo e il modo in cui le sue paure interiori sono state lentamente superate da questi eventi. Mi è piaciuto anche il fatto che sia così concentrato sulla sopravvivenza; anche per un po' è sembrato che qualcosa di Batman v Superman si facesse vedere di nuovo ogni tanto perché sapevi sempre che il tuo nemico si sarebbe presentato alla fine comunque :) Il tema finale mi è rimasto davvero impresso... Voglio dire, sì, dovevano...
Campione 2 Ha fatto esattamente quello che volevo che facesse, solo molto divertente. Il cast è stato fantastico e la storia ha senso finora dopo aver visto tutto il resto già su IMDB. Ci sono accenni sull'essere in una città sotterranea da tempo immemorabile a causa del loro "potere" (o della sua mancanza) ma in realtà non dicono molto... Penso che sia più un grande mistero che altri aspetti che mi accompagnano per ora però….si suppone…

Come puoi vedere, la parola recensione non era da nessuna parte nel prefisso, ma poiché la maggior parte delle recensioni sono titoli seguiti dal corpo della recensione, questo ha costretto il modello ad adattarsi a quella distribuzione. Da notare anche il riferimento a Batman v Superman .

Vediamo un altro esempio. Invece di una recensione del film, cercheremo di generare una recensione del prodotto utilizzando il prefisso negativo "Un prodotto spazzatura! Non comprare."

Campione 1 E per favore, NON provare a usarlo come fertilizzante per i tuoi giardini o prati: causerà gravi danni all'acqua se ingerito da pesci e uccelli. Usare con cautela a causa della possibilità che i pesticidi possano essere presenti negli alimenti per animali domestici disponibili online nei negozi di alimentari biologici nomi troppo "buoni" come Petsmart, PetSmart e Safeway. Quanto sono tossici i rifiuti alimentari? I prodotti di scarto possono contribuire in quantità significative, tanto che anche molto...
Campione 2 Nessuno ti darà mai più un pezzo di quella spazzatura. Fai solo un favore a te stesso e alla tua attività e pulisci prima di acquistarlo per nient'altro che per risparmiare denaro o convenienza in futuro. Confezione da 1/2 oz per la conservazione degli alimenti in plastica + 1 confezione #1636370105702615 (P, 3 ml) $ 7 Acquista ora Puoi acquistare queste bottiglie in qualsiasi negozio al dettaglio, ma ecco come ottenere...

Anche in questo caso, il prefisso può essere dedotto come il titolo di una recensione del prodotto, quindi il modello inizia a generare testo seguendo quel modello. GPT-2 può generare qualsiasi tipo di testo come questo.

Un notebook Google Colab è pronto per essere utilizzato per gli esperimenti, così come la demo dal vivo "Write With Transformer".

Risposte alle domande

Sì, poiché GPT-2 è formato sul web, "conosce" molte conoscenze umane che sono state pubblicate online fino al 2019. Può funzionare anche per domande contestuali, ma dovremo seguire il formato esplicito di " Domanda: X, Risposta:” prima di lasciare che tenti di completare automaticamente. Ma se forziamo il modello a rispondere alla nostra domanda, potrebbe produrre una risposta piuttosto vaga. Ecco cosa succede cercando di costringerlo a rispondere a domande aperte per testare le sue conoscenze:

Campione 1 Domanda: Chi ha inventato la teoria dell'evoluzione?
Risposta: La teoria dell'evoluzione fu proposta per la prima volta da Charles Darwin nel 1859.
Campione 2 Domanda: quanti denti hanno gli esseri umani?
Risposta: Gli esseri umani hanno 21 denti.

Come possiamo vedere, il modello pre-addestrato ha dato una risposta abbastanza dettagliata alla prima domanda. Per il secondo, ha fatto del suo meglio, ma non è paragonabile a Ricerca Google.

È chiaro che GPT-2 ha un enorme potenziale. Perfezionandolo, può essere utilizzato per gli esempi sopra menzionati con una precisione molto maggiore. Ma anche il GPT-2 pre-addestrato che stiamo valutando non è ancora così male.

Modelli NLP pre-addestrati: T5 di Google

Il T5 di Google è uno dei modelli di linguaggio naturale più avanzati fino ad oggi. Si basa sul lavoro precedente sui modelli Transformer in generale. A differenza di BERT, che aveva solo blocchi di codificatore, e GPT-2, che aveva solo blocchi di decodifica, T5 utilizza entrambi i .

Ingressi e uscite T5. 1) "traduci dall'inglese al tedesco: va bene", diventa "Das ist gut". 2) "frase cola: il corso sta saltando bene", diventa "non accettabile". 3) "stsb frase1: il rinoceronte ha pascolato sull'erba. frase2: un rinoceronte sta pascolando in un campo", diventa "3.8". 4) "riassumere: le autorità statali hanno inviato squadre di emergenza martedì per rilevare i danni dopo un attacco di maltempo in Mississippi..." diventa "sei persone ricoverate in ospedale dopo una tempesta nella contea di attala".
Esempi di input e output corrispondenti dal modello T5, dal documento di Google del 2019, "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer".

GPT-2 addestrato su 40 GB di dati di testo era già impressionante, ma T5 è stato addestrato su un set di dati da 7 TB . Anche se è stato addestrato per un numero molto, molto elevato di iterazioni, non è stato possibile eseguire tutto il testo. Sebbene T5 possa eseguire la generazione di testo come GPT-2, lo utilizzeremo per casi d'uso aziendali più interessanti.

Riassunto

Iniziamo con un compito semplice: la sintesi del testo. Per quelle società di sviluppo di intelligenza artificiale che desiderano creare un'app che riassuma un articolo di notizie, T5 è perfettamente adatto per l'attività. Ad esempio, dando questo articolo a T5, ecco tre diversi riepiloghi che ha prodotto:

V1 La prossima stagione di Destiny 2, a partire dal 10 marzo, rielaborerà le spade. avranno energia di ricarica utilizzata per potenziare sia gli attacchi pesanti che la guardia. l'evento di San Valentino, i giorni cremisi, si svolgerà anche questo mese.
V2 Bungie ha rivelato che la prossima stagione di Destiny 2 rielaborerà drasticamente le spade. lo studio è stato per lo più timido su ciò che la stagione comporterà. il ripensamento consentirà alle spade di bypassare in parte gli scudi ai nemici.
V3 La prossima stagione di Destiny 2 rielaborerà le spade e consentirà loro di bypassare gli scudi dei nemici ai. la stagione inizia il 10 marzo. puoi giocare a Destiny 2 durante i giorni cremisi, un evento di San Valentino.

Come possiamo vedere, ha svolto un lavoro piuttosto ingegnoso nel riassumere l'articolo. Inoltre, ogni sommario è diverso dagli altri.

Riassumere utilizzando modelli pre-addestrati ha enormi potenziali applicazioni. Un caso d'uso interessante potrebbe essere quello di generare automaticamente un riepilogo di ogni articolo e metterlo all'inizio per i lettori che vogliono solo una sinossi. Potrebbe essere ulteriormente personalizzato personalizzando il riepilogo per ciascun utente . Ad esempio, se alcuni utenti hanno vocabolari più piccoli, potrebbe essere loro offerto un riassunto con scelte di parole meno complicate. Questo è un esempio molto semplice, ma dimostra la potenza di questo modello.

Un altro caso d'uso interessante potrebbe essere quello di utilizzare tali riepiloghi nella SEO di un sito web. Sebbene T5 possa essere addestrato per generare automaticamente SEO di altissima qualità, l'utilizzo di un riepilogo potrebbe essere di aiuto immediato, senza riqualificare il modello.

Comprensione della lettura

T5 può essere utilizzato anche per la comprensione della lettura, ad esempio per rispondere a domande da un determinato contesto. Questa applicazione ha casi d'uso molto interessanti che vedremo più avanti. Ma iniziamo con alcuni esempi:

Domanda Chi ha inventato la teoria dell'evoluzione?
Contesto
(Enciclopedia Britannica)
La scoperta di ossa fossili di grandi mammiferi estinti in Argentina e l'osservazione di numerose specie di fringuelli nelle isole Galapagos sono stati tra gli eventi accreditati per aver stimolato l'interesse di Darwin per l'origine delle specie. Nel 1859 pubblicò Sull'origine delle specie per mezzo della selezione naturale, un trattato che stabilisce la teoria dell'evoluzione e, soprattutto, il ruolo della selezione naturale nel determinarne il corso.
Risposta darwin

Non vi è alcuna menzione esplicita che Darwin abbia inventato la teoria, ma il modello ha utilizzato la sua conoscenza esistente insieme a un contesto per raggiungere la giusta conclusione.

Che ne dici di un contesto molto piccolo?

Domanda Dove siamo andati?
Contesto Il giorno del mio compleanno, abbiamo deciso di visitare le aree settentrionali del Pakistan. È stato davvero divertente.
Risposta aree settentrionali del Pakistan

Ok, è stato abbastanza facile. Che ne dici di una domanda filosofica?

Domanda Qual è il senso della vita?
Contesto
(Wikipedia)
Il significato della vita come la percepiamo deriva dalla contemplazione filosofica e religiosa e dalle indagini scientifiche sull'esistenza, i legami sociali, la coscienza e la felicità. Sono coinvolte anche molte altre questioni, come il significato simbolico, l'ontologia, il valore, lo scopo, l'etica, il bene e il male, il libero arbitrio, l'esistenza di uno o più dei, le concezioni di Dio, l'anima e l'aldilà. I contributi scientifici si concentrano principalmente sulla descrizione di fatti empirici correlati sull'universo, esplorando il contesto ei parametri relativi al "come" della vita.
Risposta contemplazione filosofica e religiosa e indagini scientifiche sull'esistenza, i legami sociali, la coscienza e la felicità

Sebbene sappiamo che la risposta a questa domanda è molto complicata, T5 ha cercato di fornire una risposta molto vicina, ma sensata. Complimenti!

Andiamo oltre. Facciamo alcune domande usando l'articolo di Engadget menzionato in precedenza come contesto.

Domanda Cosa riguarda?
Risposta Destino 2 verrà drammaticamente rielaborato
Domanda Quando possiamo aspettarci questo aggiornamento?
Risposta 10 marzo

Come puoi vedere, la risposta alle domande contestuali di T5 è molto buona. Un caso d'uso aziendale potrebbe essere la creazione di un chatbot contestuale per siti Web che risponda a domande pertinenti alla pagina corrente.

Un altro caso d'uso potrebbe essere la ricerca di alcune informazioni nei documenti, ad esempio porre domande come "È una violazione del contratto utilizzare un laptop aziendale per un progetto personale?" utilizzando un documento legale come contesto. Sebbene il T5 abbia i suoi limiti, è abbastanza adatto per questo tipo di attività.

I lettori potrebbero chiedersi, perché non utilizzare modelli specializzati per ogni attività? È un buon punto: la precisione sarebbe molto più elevata e il costo di implementazione di modelli specializzati sarebbe molto inferiore rispetto al modello NLP pre-addestrato di T5. Ma il bello di T5 è proprio che è "un modello per dominarli tutti", ovvero puoi utilizzare un modello pre-addestrato per quasi tutte le attività di PNL. Inoltre, vogliamo utilizzare questi modelli fuori dagli schemi, senza riqualificazione o messa a punto. Pertanto, per gli sviluppatori che creano un'app che riepiloga articoli diversi, nonché un'app che risponde a domande contestuali, lo stesso modello T5 può eseguire entrambi.

Modelli pre-addestrati: i modelli di deep learning che presto diventeranno onnipresenti

In questo articolo, abbiamo esplorato i modelli pre-addestrati e come utilizzarli immediatamente per diversi casi d'uso aziendali. Proprio come un algoritmo di ordinamento classico viene utilizzato quasi ovunque per l'ordinamento dei problemi, questi modelli pre-addestrati verranno utilizzati come algoritmi standard. È abbastanza chiaro che ciò che abbiamo esplorato è stato solo graffiare la superficie delle applicazioni NLP e c'è molto di più che può essere fatto da questi modelli.

I modelli di deep learning pre-addestrati come StyleGAN-2 e DeepLabv3 possono alimentare, in modo simile, le applicazioni della visione artificiale. Spero che questo articolo ti sia piaciuto e non vedo l'ora di sentire i tuoi commenti qui sotto.