Aprovechar al máximo los modelos preentrenados

Publicado: 2022-03-11

La mayoría de los nuevos modelos de aprendizaje profundo que se lanzan, especialmente en NLP, son muy, muy grandes: tienen parámetros que van desde cientos de millones hasta decenas de miles de millones.

Dada una arquitectura lo suficientemente buena, cuanto más grande es el modelo, más capacidad de aprendizaje tiene. Por lo tanto, estos nuevos modelos tienen una gran capacidad de aprendizaje y están entrenados en conjuntos de datos muy, muy grandes.

Por eso, aprenden la distribución completa de los conjuntos de datos en los que están capacitados. Se puede decir que codifican el conocimiento comprimido de estos conjuntos de datos. Esto permite que estos modelos se utilicen para aplicaciones muy interesantes, siendo la más común el aprendizaje por transferencia. El aprendizaje de transferencia es el ajuste fino de modelos preentrenados en conjuntos de datos/tareas personalizados, lo que requiere muchos menos datos y los modelos convergen muy rápidamente en comparación con el entrenamiento desde cero.

Cómo los modelos preentrenados son los algoritmos del futuro

Aunque los modelos preentrenados también se utilizan en la visión por computadora, este artículo se centrará en su uso de vanguardia en el dominio del procesamiento del lenguaje natural (NLP). La arquitectura de transformadores es la arquitectura más común y poderosa que se utiliza en estos modelos.

La arquitectura de Transformer tal como se presenta en el artículo de Google de 2017, "La atención es todo lo que necesita".

Aunque BERT inició la revolución del aprendizaje por transferencia de PNL, exploraremos los modelos GPT-2 y T5. Estos modelos están entrenados previamente: ajustarlos en aplicaciones específicas dará como resultado métricas de evaluación mucho mejores, pero los usaremos de manera inmediata, es decir, sin ajustes finos.

Modelos de PNL preentrenados: GPT-2 de OpenAI

GPT-2 creó una gran controversia cuando se lanzó en 2019. Dado que era muy bueno para generar texto, atrajo bastante la atención de los medios y planteó muchas preguntas sobre el futuro de la IA.

Entrenado con 40 GB de datos textuales, GPT-2 es un modelo muy grande que contiene una gran cantidad de conocimiento comprimido de una sección transversal de Internet.

GPT-2 tiene muchos casos de uso potenciales. Se puede utilizar para predecir la probabilidad de una oración. Esto, a su vez, se puede utilizar para la autocorrección de texto. A continuación, la predicción de palabras se puede usar directamente para crear un componente de autocompletar para un IDE (como Visual Studio Code o PyCharm) para escribir código y escribir texto en general. Lo usaremos para la generación automática de texto, y se puede usar un gran corpus de texto para el análisis del lenguaje natural.

GPT-2 produce sugerencias basadas en entradas de texto. La entrada de la izquierda es "AI tomó la mayoría de los trabajos". Las tres salidas sugeridas a la derecha son "De hecho, la primera contratación de la empresa en mayo", "El único trabajo que no se tomó fue el de" y "Cuando era joven, era como ser" sin una cita de cierre. marca.

Generación de texto

La capacidad de un modelo previamente entrenado como GPT-2 para generar texto coherente es muy impresionante. Podemos darle un texto de prefijo y pedirle que genere la siguiente palabra, frase u oración.

Un caso de uso de ejemplo es generar un conjunto de datos de reseñas de productos para ver qué tipo de palabras se usan generalmente en reseñas positivas frente a reseñas negativas.

Veamos algunos ejemplos, comenzando con lo que obtenemos si comenzamos con el prefijo positivo, "¡Realmente me gustó esta película!"

Muestra 1

Me encantaron las emociones del personaje al estar en peligro constante, y cómo sus miedos internos fueron superados lentamente por estos eventos. También me encantó que esté tan concentrado en sobrevivir; incluso por un tiempo sentí que algo de Batman v Superman aparecía de vez en cuando porque siempre supiste que tu enemigo aparecería eventualmente de todos modos :) El tema final realmente me quedó grabado también... Quiero decir, sí, tenían que hacerlo...

Muestra 2

Hizo exactamente lo que yo quería que hiciera, simplemente muy divertido. El elenco fue increíble y la historia tiene sentido hasta ahora después de ver todo lo demás ya en IMDB. Hay indicios de estar en una ciudad subterránea desde tiempos inmemoriales debido a su "poder" (o la falta de él), pero en realidad no dicen mucho... Creo que es más como un gran misterio que otros aspectos que se unen conmigo por ahora. aunque... se supone...

Como puedes ver, la palabra reseña no aparecía por ningún lado en el prefijo, pero como la mayoría de las reseñas son títulos seguidos del cuerpo de la reseña, esto obligó al modelo a adaptarse a esa distribución. Observe también la referencia a Batman v Superman .

Veamos otro ejemplo. En lugar de una reseña de la película, intentaremos generar una reseña del producto usando el prefijo negativo, “¡Un producto basura! No compres."

Muestra 1

Y, por favor, NO intente usar esto como fertilizante para sus jardines o céspedes: causará daños graves por agua si los peces y las aves lo ingieren. Úselo con precaución debido a la posibilidad de que los pesticidas puedan estar presentes en los alimentos para mascotas disponibles en línea en las tiendas de comestibles orgánicos, como nombres demasiado "buenos" como Petsmart, PetSmart y Safeway. ¿Qué tan tóxico es el desperdicio de alimentos? Los productos de desecho pueden aportar cantidades significativas, lo suficiente como para que incluso muy...

Muestra 2

Nadie te dará un pedazo de esa basura nunca más. Solo hágase un favor a usted y a su negocio y limpie antes de comprarlo solo para ahorrar algo de dinero o comodidad en el futuro. Botella de 1/2 oz Empaque plástico para almacenamiento de alimentos + 1 paquete #1636370105702615 (P, 3ml) $7 Comprar ahora Puede comprar estas botellas en cualquier tienda minorista, pero aquí le indicamos cómo obtenerlas...

Nuevamente, el prefijo se puede inferir como el título de una reseña de producto, por lo que el modelo comienza a generar texto siguiendo ese patrón. GPT-2 puede generar cualquier tipo de texto como este.

Una libreta de Google Colab está lista para usarse en experimentos, al igual que la demostración en vivo de "Write With Transformer".

Respuesta a preguntas

Sí, dado que GPT-2 está entrenado en la web, "conoce" una gran cantidad de conocimiento humano que se ha publicado en línea hasta 2019. También puede funcionar para preguntas contextuales, pero tendremos que seguir el formato explícito de " Pregunta: X, Respuesta:” antes de dejar que intente autocompletar. Pero si obligamos al modelo a responder a nuestra pregunta, puede generar una respuesta bastante vaga. Esto es lo que sucede al tratar de forzarlo a responder preguntas abiertas para probar su conocimiento:

Muestra 1	Pregunta: ¿Quién inventó la teoría de la evolución? Respuesta: La teoría de la evolución fue propuesta por primera vez por Charles Darwin en 1859.
Muestra 2	Pregunta: ¿Cuántos dientes tienen los humanos? Respuesta: Los humanos tienen 21 dientes.

Como podemos ver, el modelo pre-entrenado dio una respuesta bastante detallada a la primera pregunta. Para el segundo, hizo todo lo posible, pero no se compara con la Búsqueda de Google.

Está claro que GPT-2 tiene un enorme potencial. Al ajustarlo, se puede usar para los ejemplos mencionados anteriormente con una precisión mucho mayor. Pero incluso el GPT-2 preentrenado que estamos evaluando no es tan malo.

Modelos de PNL pre-entrenados: T5 de Google

El T5 de Google es uno de los modelos de lenguaje natural más avanzados hasta la fecha. Se basa en trabajos previos sobre modelos de Transformer en general. A diferencia de BERT, que solo tenía bloques codificadores, y GPT-2, que solo tenía bloques decodificadores, T5 usa ambos .

Entradas y salidas T5. 1) "traducir inglés a alemán: Eso es bueno", se convierte en "Das ist gut". 2) "frase cola: El curso está saltando bien", se convierte en "no aceptable". 3) "stsb oración 1: El rinoceronte pastaba en la hierba. oración 2: Un rinoceronte está pastando en un campo", se convierte en "3.8". 4) "resumir: las autoridades estatales enviaron equipos de emergencia el martes para inspeccionar los daños después de una avalancha de clima severo en Mississippi..." se convierte en "seis personas hospitalizadas después de una tormenta en el condado de Attala". — Ejemplos de entradas y salidas correspondientes del modelo T5, del artículo de Google de 2019, "Exploring the Limits of Transfer Learning with a Unified Text-to-Tex Transformer".

El entrenamiento de GPT-2 con 40 GB de datos de texto ya era impresionante, pero el entrenamiento de T5 con un conjunto de datos de 7 TB . A pesar de que fue entrenado para un número muy, muy grande de iteraciones, no pudo leer todo el texto. Aunque T5 puede generar texto como GPT-2, lo usaremos para casos de uso comercial más interesantes.

resumen

Comencemos con una tarea simple: resumen de texto. Para aquellas empresas de desarrollo de IA que desean crear una aplicación que resuma un artículo de noticias, T5 es ideal para la tarea. Por ejemplo, al darle este artículo a T5, aquí hay tres resúmenes diferentes que produjo:

V1	La próxima temporada de Destination 2, a partir del 10 de marzo, reelaborará las espadas. Tendrán energía de recarga utilizada para potenciar tanto los ataques pesados como la protección. el evento del día de san valentín, crimson days, también tendrá lugar este mes.
V2	Bungie ha revelado que la próxima temporada de Destination 2 cambiará drásticamente las espadas. el estudio ha sido en su mayoría tímido sobre lo que implicará la temporada. el replanteamiento permitirá que las espadas eludan parcialmente los escudos de los enemigos.
V3	La próxima temporada de Destination 2 reelaborará las espadas y les permitirá pasar por alto los escudos de los enemigos. la temporada comienza el 10 de marzo. puedes jugar al destino 2 durante los días carmesí, un evento del día de San Valentín.

Como podemos ver, ha hecho un trabajo bastante ingenioso al resumir el artículo. Además, cada resumen es diferente de los demás.

Resumir usando modelos previamente entrenados tiene enormes aplicaciones potenciales. Un caso de uso interesante podría ser generar un resumen de cada artículo automáticamente y ponerlo al principio para los lectores que solo quieren una sinopsis. Se podría ir más allá personalizando el resumen para cada usuario . Por ejemplo, si algunos usuarios tienen vocabularios más pequeños, podrían recibir un resumen con opciones de palabras menos complicadas. Este es un ejemplo muy simple, pero demuestra el poder de este modelo.

Otro caso de uso interesante podría ser el uso de tales resúmenes en el SEO de un sitio web. Aunque T5 se puede entrenar para generar SEO de muy alta calidad automáticamente, el uso de un resumen puede ayudar de inmediato, sin volver a entrenar el modelo.

Comprensión lectora

T5 también se puede utilizar para la comprensión de lectura, por ejemplo, responder preguntas de un contexto determinado. Esta aplicación tiene casos de uso muy interesantes que veremos más adelante. Pero empecemos con algunos ejemplos:

Pregunta	¿Quién inventó la teoría de la evolución?
Contexto (Enciclopedia Británica)	El descubrimiento de huesos fósiles de grandes mamíferos extintos en Argentina y la observación de numerosas especies de pinzones en las Islas Galápagos fueron algunos de los eventos que estimularon el interés de Darwin por el origen de las especies. En 1859 publicó Sobre el origen de las especies por medio de la selección natural, un tratado que establece la teoría de la evolución y, lo que es más importante, el papel de la selección natural en la determinación de su curso.
Responder	darwin

No se menciona explícitamente que Darwin inventó la teoría, pero el modelo usó su conocimiento existente junto con algo de contexto para llegar a la conclusión correcta.

¿Qué tal un contexto muy pequeño?

Pregunta	¿Adónde fuimos?
Contexto	El día de mi cumpleaños, decidimos visitar las zonas del norte de Pakistán. Fue realmente divertido.
Responder	áreas del norte de pakistán

Bueno, eso fue bastante fácil. ¿Qué tal una pregunta filosófica?

Pregunta	¿Cuál es el significado de la vida?
Contexto (Wikipedia)	El significado de la vida tal como la percibimos se deriva de la contemplación filosófica y religiosa y de las investigaciones científicas sobre la existencia, los lazos sociales, la conciencia y la felicidad. También están involucrados muchos otros temas, como el significado simbólico, la ontología, el valor, el propósito, la ética, el bien y el mal, el libre albedrío, la existencia de uno o varios dioses, las concepciones de Dios, el alma y el más allá. Las contribuciones científicas se centran principalmente en describir hechos empíricos relacionados con el universo, explorando el contexto y los parámetros relacionados con el “cómo” de la vida.
Responder	contemplación filosófica y religiosa e investigaciones científicas sobre la existencia, los lazos sociales, la conciencia y la felicidad

Aunque sabemos que la respuesta a esta pregunta es muy complicada, T5 trató de encontrar una respuesta muy cercana pero sensata. ¡Prestigio!

Llevémoslo más lejos. Hagamos algunas preguntas usando el artículo de Engadget mencionado anteriormente como contexto.

Pregunta	¿De qué se trata esto?
Responder	El destino 2 se reelaborará dramáticamente.

Pregunta	¿Cuándo podemos esperar esta actualización?
Responder	10 de marzo

Como puede ver, la respuesta de preguntas contextuales de T5 es muy buena. Un caso de uso comercial podría ser crear un chatbot contextual para sitios web que responda consultas relevantes para la página actual.

Otro caso de uso podría ser buscar información de documentos, por ejemplo, hacer preguntas como: "¿Es un incumplimiento de contrato usar una computadora portátil de la empresa para un proyecto personal?" usando un documento legal como contexto. Aunque T5 tiene sus límites, es bastante adecuado para este tipo de tareas.

Los lectores pueden preguntarse, ¿Por qué no utilizar modelos especializados para cada tarea? Es un buen punto: la precisión sería mucho mayor y el costo de implementación de los modelos especializados sería mucho menor que el modelo NLP preentrenado de T5. Pero la belleza de T5 es precisamente que es "un modelo para gobernarlos a todos", es decir, puede usar un modelo previamente entrenado para casi cualquier tarea de PNL. Además, queremos usar estos modelos listos para usar, sin volver a capacitarlos ni ajustarlos. Entonces, para los desarrolladores que crean una aplicación que resume diferentes artículos, así como una aplicación que responde preguntas contextuales, el mismo modelo T5 puede hacer ambas cosas.

Modelos preentrenados: los modelos de aprendizaje profundo que pronto serán omnipresentes

En este artículo, exploramos modelos preentrenados y cómo usarlos listos para usar para diferentes casos de uso comercial. Al igual que un algoritmo de clasificación clásico se usa en casi todas partes para clasificar problemas, estos modelos pre-entrenados se usarán como algoritmos estándar. Está bastante claro que lo que exploramos fue solo rascar la superficie de las aplicaciones de PNL, y estos modelos pueden hacer mucho más.

Los modelos de aprendizaje profundo preentrenados como StyleGAN-2 y DeepLabv3 pueden potenciar, de manera similar, las aplicaciones de visión por computadora. Espero que hayas disfrutado este artículo y espero escuchar tus comentarios a continuación.