Tirer le meilleur parti des modèles pré-formés
Publié: 2022-03-11La plupart des nouveaux modèles d'apprentissage en profondeur publiés, en particulier dans le NLP, sont très, très volumineux : ils ont des paramètres allant de centaines de millions à des dizaines de milliards.
Avec une architecture suffisamment bonne, plus le modèle est grand, plus il a de capacité d'apprentissage. Ainsi, ces nouveaux modèles ont une énorme capacité d'apprentissage et sont formés sur de très, très grands ensembles de données.
De ce fait, ils apprennent la distribution complète des ensembles de données sur lesquels ils sont formés. On peut dire qu'ils encodent la connaissance compressée de ces ensembles de données. Cela permet à ces modèles d'être utilisés pour des applications très intéressantes, la plus courante étant l'apprentissage par transfert. L'apprentissage par transfert consiste à affiner des modèles pré-formés sur des ensembles de données/tâches personnalisés, ce qui nécessite beaucoup moins de données, et les modèles convergent très rapidement par rapport à la formation à partir de rien.
Comment les modèles pré-entraînés sont les algorithmes du futur
Bien que des modèles pré-entraînés soient également utilisés en vision par ordinateur, cet article se concentrera sur leur utilisation de pointe dans le domaine du traitement du langage naturel (TAL). L'architecture de transformateur est l'architecture la plus courante et la plus puissante utilisée dans ces modèles.
Bien que BERT ait lancé la révolution de l'apprentissage par transfert PNL, nous explorerons les modèles GPT-2 et T5. Ces modèles sont pré-entraînés - les affiner sur des applications spécifiques se traduira par de bien meilleures métriques d'évaluation, mais nous les utiliserons hors de la boîte, c'est-à-dire sans ajustement.
Modèles de PNL pré-formés : GPT-2 d'OpenAI
GPT-2 a créé toute une controverse lors de sa sortie en 2019. Comme il était très bon pour générer du texte, il a attiré l'attention des médias et soulevé de nombreuses questions concernant l'avenir de l'IA.
Formé sur 40 Go de données textuelles, GPT-2 est un très grand modèle contenant une quantité massive de connaissances compressées provenant d'un échantillon représentatif d'Internet.
GPT-2 a beaucoup de cas d'utilisation potentiels. Il peut être utilisé pour prédire la probabilité d'une phrase. Ceci, à son tour, peut être utilisé pour la correction automatique du texte. Ensuite, la prédiction de mots peut être directement utilisée pour créer un composant de saisie semi-automatique pour un IDE (comme Visual Studio Code ou PyCharm) pour écrire du code ainsi que pour écrire du texte en général. Nous l'utiliserons pour la génération automatique de texte, et un grand corpus de texte peut être utilisé pour l'analyse du langage naturel.
Génération de texte
La capacité d'un modèle pré-formé comme GPT-2 à générer un texte cohérent est très impressionnante. Nous pouvons lui donner un texte de préfixe et lui demander de générer le mot, la phrase ou la phrase suivante.
Un exemple de cas d'utilisation consiste à générer un ensemble de données d'avis sur les produits pour voir quel type de mots est généralement utilisé dans les avis positifs par rapport aux avis négatifs.
Regardons quelques exemples, en commençant par ce que nous obtenons si nous commençons par le préfixe positif, "Vraiment aimé ce film !"
Échantillon 1 | J'ai adoré les émotions du personnage face à un danger constant et la façon dont ses peurs intérieures ont été lentement surmontées par ces événements. J'ai aussi adoré le fait qu'il soit tellement concentré sur sa survie; même pendant un moment, j'avais l'impression que quelque chose de Batman v Superman réapparaissait de temps en temps parce que vous saviez toujours que votre ennemi finirait par apparaître de toute façon :) Le thème de la fin m'a vraiment marqué aussi… Je veux dire oui, ils devaient le faire… |
Échantillon 2 | Il a fait exactement ce que je voulais qu'il fasse, juste beaucoup de plaisir. Le casting était génial et l'histoire a du sens jusqu'à présent après avoir vu tout le reste déjà sur IMDB. Il y a des indices sur le fait d'être dans une ville souterraine depuis des temps immémoriaux en raison de leur "pouvoir" (ou de leur absence), mais ils ne disent pas grand-chose… Je pense que c'est plus comme un grand mystère que d'autres aspects qui se rejoignent avec moi pour l'instant quoique….C'est supposé… |
Comme vous pouvez le voir, le mot critique n'était nulle part dans le préfixe, mais comme la plupart des critiques sont des titres suivis du corps de la critique, cela a forcé le modèle à s'adapter à cette distribution. Notez également la référence à Batman v Superman .
Voyons un autre exemple. Au lieu d'une critique de film, nous essaierons de générer une critique de produit en utilisant le préfixe négatif, "Un produit poubelle ! N'achète pas."
Échantillon 1 | Et s'il vous plaît, n'essayez PAS de l'utiliser comme engrais pour vos jardins ou pelouses - cela causera de graves dégâts d'eau s'il est ingéré par des poissons et des oiseaux. À utiliser avec prudence en raison de la possibilité que des pesticides soient présents dans les aliments pour animaux de compagnie disponibles en ligne dans les épiceries bio telles que Petsmart, PetSmart et Safeway. À quel point les déchets alimentaires sont-ils toxiques ? Les déchets peuvent contribuer des quantités importantes - assez pour que même très… |
Échantillon 2 | Personne ne vous donnera plus jamais un morceau de ces ordures. Faites simplement une faveur à vous-même et à votre entreprise et nettoyez avant de l'acheter pour rien de plus que d'économiser de l'argent ou de la commodité à l'avenir. Emballage de stockage des aliments en plastique pour bouteille de 1/2 oz + 1 paquet #1636370105702615 (P, 3 ml) 7 $ Acheter Vous pouvez acheter ces bouteilles dans tous les magasins de détail, mais voici comment vous les procurer… |
Encore une fois, le préfixe peut être déduit comme le titre d'une critique de produit, de sorte que le modèle commence à générer du texte en suivant ce modèle. GPT-2 peut générer n'importe quel type de texte comme celui-ci.
Un bloc-notes Google Colab est prêt à être utilisé pour des expériences, tout comme la démo en direct "Write With Transformer".
Réponse aux questions
Oui, puisque GPT-2 est formé sur le Web, il "connaît" beaucoup de connaissances humaines qui ont été publiées en ligne jusqu'en 2019. Cela peut également fonctionner pour les questions contextuelles, mais nous devrons suivre le format explicite de " Question : X, Réponse : » avant de le laisser tenter une saisie semi-automatique. Mais si nous forçons le modèle à répondre à notre question, il peut produire une réponse assez vague. Voici ce qui se passe en essayant de le forcer à répondre à des questions ouvertes pour tester ses connaissances :
Échantillon 1 | Question : Qui a inventé la théorie de l'évolution ? Réponse : La théorie de l'évolution a été proposée pour la première fois par Charles Darwin en 1859. |
Échantillon 2 | Question : Combien de dents les humains ont-ils ? Réponse : Les humains ont 21 dents. |
Comme nous pouvons le voir, le modèle pré-formé a donné une réponse assez détaillée à la première question. Pour le second, il a fait de son mieux, mais il ne se compare pas à la recherche Google.
Il est clair que GPT-2 a un énorme potentiel. En l'affinant, il peut être utilisé pour les exemples mentionnés ci-dessus avec une précision beaucoup plus élevée. Mais même le GPT-2 pré-formé que nous évaluons n'est toujours pas si mauvais.
Modèles de PNL pré-entraînés : le T5 de Google
Le T5 de Google est l'un des modèles de langage naturel les plus avancés à ce jour. Il s'appuie sur des travaux antérieurs sur les modèles Transformer en général. Contrairement à BERT, qui n'avait que des blocs d'encodeur, et GPT-2, qui n'avait que des blocs de décodeur, T5 utilise les deux .


GPT-2 étant formé sur 40 Go de données textuelles était déjà impressionnant, mais T5 a été formé sur un ensemble de données de 7 To . Même s'il a été formé pour un très, très grand nombre d'itérations, il ne pouvait pas parcourir tout le texte. Bien que T5 puisse générer du texte comme GPT-2, nous l'utiliserons pour des cas d'utilisation commerciale plus intéressants.
Récapitulation
Commençons par une tâche simple : la synthèse de texte. Pour les sociétés de développement d'IA qui souhaitent créer une application qui résume un article d'actualité, T5 est parfaitement adapté à la tâche. Par exemple, en donnant cet article à T5, voici trois résumés différents qu'il a produits :
V1 | La prochaine saison de Destiny 2, à partir du 10 mars, retravaillera les épées. ils auront une énergie de recharge utilisée pour alimenter à la fois les attaques lourdes et la garde. l'événement de la Saint-Valentin, les jours cramoisis, se déroule également ce mois-ci. |
V2 | Bungie a révélé que la prochaine saison de Destiny 2 retravaillera radicalement les épées. le studio a surtout été timide sur ce que la saison impliquera. la refonte permettra aux épées de contourner en partie les boucliers des ennemis ai. |
V3 | La prochaine saison de Destiny 2 retravaillera les épées et les laissera contourner les boucliers des ennemis ai. la saison commence le 10 mars. vous pouvez jouer à destin 2 pendant les jours cramoisis, un événement de la Saint-Valentin. |
Comme nous pouvons le voir, il a fait un travail assez astucieux pour résumer l'article. De plus, chaque résumé est différent des autres.
Résumer à l'aide de modèles pré-formés a d'énormes applications potentielles. Un cas d'utilisation intéressant pourrait être de générer automatiquement un résumé de chaque article et de le mettre au début pour les lecteurs qui veulent juste un synopsis. On pourrait aller plus loin en personnalisant le résumé pour chaque utilisateur . Par exemple, si certains utilisateurs ont des vocabulaires plus petits, ils pourraient recevoir un résumé avec des choix de mots moins compliqués. C'est un exemple très simple, mais il démontre la puissance de ce modèle.
Un autre cas d'utilisation intéressant pourrait être d'utiliser de tels résumés dans le référencement d'un site Web. Bien que T5 puisse être formé pour générer automatiquement un référencement de très haute qualité, l'utilisation d'un résumé peut aider dès le départ, sans recycler le modèle.
Compréhension écrite
T5 peut également être utilisé pour la compréhension de lecture, par exemple, répondre à des questions d'un contexte donné. Cette application a des cas d'utilisation très intéressants que nous verrons plus tard. Mais commençons par quelques exemples :
Question | Qui a inventé la théorie de l'évolution ? |
Le contexte (Encyclopadia Britannica) | La découverte d'ossements fossiles de grands mammifères éteints en Argentine et l'observation de nombreuses espèces de pinsons dans les îles Galapagos ont été parmi les événements crédités d'avoir stimulé l'intérêt de Darwin pour l'origine des espèces. En 1859, il publie De l'origine des espèces au moyen de la sélection naturelle, un traité établissant la théorie de l'évolution et, plus important encore, le rôle de la sélection naturelle dans la détermination de son cours. |
Répondre | darwin |
Il n'y a aucune mention explicite que Darwin a inventé la théorie, mais le modèle a utilisé ses connaissances existantes avec un certain contexte pour parvenir à la bonne conclusion.
Que diriez-vous d'un très petit contexte?
Question | Où sommes-nous allés ? |
Le contexte | Le jour de mon anniversaire, nous avons décidé de visiter les régions du nord du Pakistan. C'était vraiment amusant. |
Répondre | régions du nord du pakistan |
D'accord, c'était assez facile. Que diriez-vous d'une question philosophique?
Question | Quel est le sens de la vie? |
Le contexte (Wikipédia) | Le sens de la vie tel que nous le percevons est dérivé de la contemplation philosophique et religieuse et des enquêtes scientifiques sur l'existence, les liens sociaux, la conscience et le bonheur. De nombreuses autres questions sont également impliquées, telles que la signification symbolique, l'ontologie, la valeur, le but, l'éthique, le bien et le mal, le libre arbitre, l'existence d'un ou plusieurs dieux, les conceptions de Dieu, l'âme et l'au-delà. Les contributions scientifiques se concentrent principalement sur la description de faits empiriques connexes sur l'univers, en explorant le contexte et les paramètres concernant le "comment" de la vie. |
Répondre | contemplation philosophique et religieuse de, et enquêtes scientifiques sur l'existence, les liens sociaux, la conscience et le bonheur |
Bien que nous sachions que la réponse à cette question est très compliquée, T5 a essayé de trouver une réponse très proche, mais sensée. Gloire!
Allons plus loin. Posons quelques questions en utilisant l'article Engadget mentionné précédemment comme contexte.
Question | Ca parle de quoi? |
Répondre | Destiny 2 va radicalement retravailler |
Question | Quand peut-on s'attendre à cette mise à jour ? |
Répondre | 10 mars |
Comme vous pouvez le voir, la réponse aux questions contextuelles du T5 est très bonne. Un cas d'utilisation commerciale pourrait consister à créer un chatbot contextuel pour les sites Web qui répond aux requêtes pertinentes pour la page actuelle.
Un autre cas d'utilisation pourrait être de rechercher des informations dans des documents, par exemple, poser des questions telles que "Est-ce une rupture de contrat d'utiliser un ordinateur portable d'entreprise pour un projet personnel ?" en utilisant un document juridique comme contexte. Bien que le T5 ait ses limites, il est plutôt bien adapté à ce type de tâche.
Les lecteurs peuvent se demander, pourquoi ne pas utiliser des modèles spécialisés pour chaque tâche ? C'est un bon point : la précision serait beaucoup plus élevée et le coût de déploiement de modèles spécialisés serait bien inférieur au modèle NLP pré-entraîné de T5. Mais la beauté de T5 est précisément qu'il s'agit "d'un modèle pour les gouverner tous", c'est-à-dire que vous pouvez utiliser un modèle pré-formé pour presque toutes les tâches PNL. De plus, nous voulons utiliser ces modèles prêts à l'emploi, sans recyclage ni ajustement. Ainsi, pour les développeurs qui créent une application qui résume différents articles, ainsi qu'une application qui répond aux questions contextuelles, le même modèle T5 peut faire les deux.
Modèles pré-entraînés : les modèles d'apprentissage en profondeur qui seront bientôt omniprésents
Dans cet article, nous avons exploré des modèles pré-formés et comment les utiliser prêts à l'emploi pour différents cas d'utilisation commerciale. Tout comme un algorithme de tri classique est utilisé presque partout pour les problèmes de tri, ces modèles pré-entraînés seront utilisés comme algorithmes standards. Il est assez clair que ce que nous avons exploré ne faisait qu'effleurer la surface des applications NLP, et ces modèles peuvent faire beaucoup plus.
Des modèles d'apprentissage en profondeur pré-formés comme StyleGAN-2 et DeepLabv3 peuvent alimenter, de la même manière, des applications de vision par ordinateur. J'espère que vous avez apprécié cet article et j'ai hâte d'entendre vos commentaires ci-dessous.