Resumen de texto en el procesamiento del lenguaje natural: algoritmos, técnicas y desafíos

Publicado: 2020-08-07

Crear un resumen a partir de un contenido determinado es un proceso muy abstracto en el que todos participan. La automatización de dicho proceso puede ayudar a analizar una gran cantidad de datos y ayudar a los humanos a utilizar mejor su tiempo para tomar decisiones cruciales. Con el gran volumen de medios que hay, uno puede ser muy eficiente al reducir la pelusa en torno a la información más crítica. Ya hemos comenzado a ver resúmenes de texto en la web que se generan automáticamente.

Si frecuenta Reddit, es posible que haya visto que el 'bot Autotldr' ayuda habitualmente a los Redditors al resumir los artículos vinculados en una publicación determinada. Fue creado en solo 2011 y ya ha ahorrado miles de horas-persona. Existe un mercado para resúmenes de texto confiables, como lo demuestra una tendencia de aplicaciones que hacen precisamente eso, como Inshorts (resumir noticias en 60 palabras o menos) y Blinkist (resumir libros).

El resumen automático de texto , por lo tanto, es una frontera emocionante pero desafiante en el procesamiento del lenguaje natural (NLP) y el aprendizaje automático (ML). Los desarrollos actuales en el resumen automático de texto se deben a la investigación en este campo desde la década de 1950 cuando se publicó el artículo de Hans Peter Luhn titulado "La creación automática de resúmenes de literatura".

Este documento describió el uso de características como la frecuencia de palabras y la frecuencia de frases para extraer oraciones esenciales de un documento. A esto le siguió otra investigación crítica realizada por Harold P Edmundson a fines de la década de 1960, que destacó la presencia de palabras clave, las palabras utilizadas en el título que aparece en el texto y la ubicación de las oraciones para extraer oraciones significativas de un documento.

Ahora que el mundo ha avanzado en el aprendizaje automático y la publicación de nuevos estudios en el campo, el resumen automático de texto está a punto de convertirse en una herramienta omnipresente para interactuar con la información en la era digital.

Debe leer: Salario de ingeniero de PNL en India

Hay principalmente dos enfoques principales para resumir el texto en NLP

Tabla de contenido

Resumen de texto en PNL

1. Resumen basado en extracción

Como sugiere el nombre, esta técnica se basa simplemente en extraer o extraer frases clave de un documento. A continuación, se combinan estas frases clave para formar un resumen coherente.

2. Resumen basado en abstractivo

Esta técnica, a diferencia de la extracción, se basa en poder parafrasear y acortar partes de un documento. Cuando tal abstracción se realiza correctamente en problemas de aprendizaje profundo, uno puede estar seguro de tener una gramática consistente. Pero esta capa adicional de complejidad tiene el costo de ser más difícil de desarrollar que la extracción.

Hay otra forma de crear resúmenes de mayor calidad. Este enfoque se denomina resumen asistido, que implica un esfuerzo humano y de software combinado. Esto también viene en 2 sabores diferentes.

Resumen humano asistido por máquina : las técnicas de extracción resaltan pasajes candidatos para ser incluidos, a los que el humano puede agregar o quitar texto.
Resumen de máquina asistido por humanos : el humano simplemente edita la salida del software.

Además de los principales enfoques para resumir el texto, existen otras bases sobre las cuales se clasifican los resúmenes de texto. Los siguientes son esos jefes de categoría:

3. Resumen de un solo documento frente a varios

Los documentos únicos se basan en la cohesión y la repetición poco frecuente de hechos para generar resúmenes. Los resúmenes de varios documentos, por otro lado, aumentan la posibilidad de que se produzca información redundante y recurrencia.

4. Indicativo vs informativo

La taxonomía de los resúmenes se basa en el objetivo final del usuario. Por ejemplo, en resúmenes de tipo indicativo, uno esperaría puntos de alto nivel de un artículo. Mientras que, en una descripción general informativa, uno puede esperar más filtrado de temas para permitir que el lector profundice en el resumen.

5. Tipo y longitud del documento

La longitud del texto de entrada influye en gran medida en el tipo de enfoque de resumen.

Los conjuntos de datos de resumen más grandes, como la sala de redacción de Cornell, se han centrado en artículos de noticias, que tienen una media de entre 300 y 1000 palabras. Los resúmenes extractivos manejan relativamente bien tales extensiones. Un documento de varias páginas o un capítulo de un libro solo se puede resumir adecuadamente con enfoques más avanzados como la agrupación jerárquica o el análisis del discurso.

Además, el género del texto también influye en el resumen. Los métodos que resumirían un libro blanco técnico serían radicalmente diferentes de las técnicas que pueden estar mejor equipadas para resumir un estado financiero.

En este artículo, nos centraremos en más detalles de la técnica de resumen de extracción.

Algoritmo de PageRank

Este algoritmo ayuda a los motores de búsqueda como Google a clasificar las páginas web. Entendamos el algoritmo con un ejemplo. Suponga que tiene cuatro páginas web con diferentes niveles de conectividad entre ellas. Uno puede no tener vínculos con los otros tres; uno puede estar conectado a los otros 2, uno puede estar correlacionado con uno solo, y así sucesivamente.

Luego podemos modelar las probabilidades de navegar de una página a otra usando una matriz con n filas y columnas, donde n es el número de páginas web. Cada elemento dentro de la matriz representará la probabilidad de pasar de una página web a otra. Al asignar las probabilidades correctas, uno puede actualizar iterativamente dicha matriz para llegar a una clasificación de página web.

Lea también: Proyecto y temas de PNL

Algoritmo de rango de texto

La razón por la que exploramos el algoritmo PageRank es para mostrar cómo se puede usar el mismo algoritmo para clasificar texto en lugar de páginas web. Esto se puede hacer cambiando la perspectiva reemplazando los enlaces entre páginas por similitud entre oraciones y usando la matriz de estilo de PageRank como una puntuación de similitud.

Implementando el algoritmo TextRank

Bibliotecas requeridas

Entumecido
pandas
Ntlk
re

La siguiente es una explicación del código detrás de la técnica de resumen de extracción:

Paso 1

Concatene todo el texto que tiene en el documento de origen como un bloque sólido de texto. La razón para hacerlo es proporcionar condiciones para que podamos ejecutar el paso 2 más fácilmente.

Paso 2

Proporcionamos condiciones que definen una oración, como buscar signos de puntuación como el punto (.), el signo de interrogación (?) y el signo de exclamación (!). Una vez que tenemos esta definición, simplemente dividimos el documento de texto en oraciones.

Paso 3

Ahora que tenemos acceso a oraciones separadas, encontramos representaciones vectoriales (incrustaciones de palabras) de cada una de esas oraciones. Es ahora cuando debemos entender qué son las representaciones vectoriales. Las incrustaciones de palabras son un tipo de representación de palabras que proporciona una descripción matemática de palabras con significados similares. En realidad, esta es una clase completa de técnicas que representan palabras como vectores de valores reales en un espacio vectorial predefinido.

Cada palabra está representada por un vector de valor real que tiene muchas dimensiones (más de 100 a veces). La representación de distribución se basa en el uso de palabras y, por lo tanto, permite que las palabras que se usan de manera similar tengan descripciones similares. Esto nos permite captar de forma natural los significados de las palabras por su proximidad a otras palabras representadas como vectores en sí mismas.

Para esta guía, utilizaremos los Vectores Globales de Representación de Palabras (GloVe). The gloVe es el algoritmo de representación de palabras distribuidas de código abierto que fue desarrollado por Pennington en Stanford. Combina las características de 2 familias de modelos, a saber, la factorización de matriz global y los métodos de ventana de contexto local.

Etapa 4

Una vez que tenemos la representación vectorial de nuestras palabras, debemos extender el proceso para representar oraciones completas como vectores. Para hacerlo, podemos buscar las representaciones vectoriales de los términos que constituyen las palabras en una oración y luego la media/promedio de esos vectores para llegar a un vector consolidado para la oración.

Paso 5

En este punto, tenemos una representación vectorial para cada oración individual. Ahora es útil cuantificar las similitudes entre las oraciones utilizando el enfoque de similitud del coseno. Entonces podemos llenar una matriz vacía con las similitudes de coseno de las oraciones.

Paso 6

Ahora que tenemos una matriz poblada con las similitudes de coseno entre las oraciones. Podemos convertir esta matriz en un gráfico en el que los nodos representan las oraciones y los bordes representan la similitud entre las oraciones. Es en este gráfico donde usaremos el práctico algoritmo PageRank para llegar a la clasificación de oraciones.

Paso 7

Ahora hemos clasificado todas las oraciones del artículo en orden de importancia. Ahora podemos extraer las primeras N (digamos 10) oraciones para crear un resumen.

Para encontrar el código de dicho método, hay muchos proyectos de este tipo en Github; este artículo, por otro lado, ayuda a desarrollar una comprensión de la misma.

Echa un vistazo a: Evolución del modelado del lenguaje en la vida moderna

Técnicas de evaluación

Un factor importante para afinar dichos modelos es contar con un método confiable para juzgar la calidad de los resúmenes producidos. Esto requiere buenas técnicas de evaluación, que pueden clasificarse ampliamente en las siguientes:

Evaluación intrínseca y extrínseca :

Intrínseco: tal evaluación prueba el sistema de resumen en sí mismo. Principalmente evalúan la coherencia y el carácter informativo del resumen.

Extrínseco: tal evaluación prueba el resumen en función de cómo afecta alguna otra tarea. Puede probar el impacto del resumen en tareas como evaluación de relevancia, comprensión de lectura, etc.

Intertextuales e Intratextuales :

Intertextual: tales evaluaciones se centran en un análisis contrastivo de varios sistemas de resumen.

Intratextual: tales evaluaciones evalúan el resultado de un sistema de resumen específico.

Específico del dominio e independiente del dominio :

Independiente del dominio: estas técnicas generalmente aplican conjuntos de características generales que pueden enfocarse en identificar segmentos de texto ricos en información.

Específico del dominio: estas técnicas utilizan el conocimiento disponible específico para un dominio en un texto. Por ejemplo, el resumen de texto de la literatura médica requiere el uso de fuentes de conocimiento y ontologías médicas.

Evaluación cualitativa de los resúmenes :

El principal inconveniente de otras técnicas de evaluación es que necesitan resúmenes de referencia para poder comparar la salida de los resúmenes automáticos con el modelo. Esto hace que la tarea de evaluación sea difícil y costosa. Se está trabajando en la construcción de un corpus de artículos/documentos y sus correspondientes resúmenes para solucionar este problema.

Desafíos para el resumen de texto

A pesar de las herramientas altamente desarrolladas para generar y evaluar resúmenes, sigue habiendo desafíos para encontrar una manera confiable para que los resúmenes de texto entiendan lo que es importante y relevante.

Como se discutió, la representación vectorial y las matrices de similitud intentan encontrar asociaciones de palabras, pero aún no tienen un método confiable para identificar las oraciones más importantes.

Otro desafío en el resumen de texto es la complejidad del lenguaje humano y la forma en que las personas se expresan, especialmente en el texto escrito. El lenguaje no solo se compone de oraciones largas con adjetivos y adverbios para describir algo, sino también oraciones relativas, aposiciones, etc. Estas ideas pueden agregar información valiosa que no ayudan a establecer el quid principal de la información que se incluirá en el resumen.

El “problema de la anáfora” es otra barrera en la síntesis de textos. En el lenguaje, a menudo reemplazamos el tema en la conversación con sus sinónimos o pronombres. La comprensión de qué pronombre sustituye a qué término es el "problema de la anáfora".

El “problema de la catafora” es el problema opuesto al problema de la anáfora. En estas palabras y explicaciones ambiguas, se usa un término particular en el texto antes de introducir el término mismo.

Conclusión

El campo de los resúmenes de texto está experimentando un rápido crecimiento y se están desarrollando herramientas especializadas para abordar tareas de resúmenes más específicas. Con el software de código abierto y los paquetes de incrustación de palabras cada vez más disponibles, los usuarios están ampliando el uso de esta tecnología.

El resumen automático de texto es una herramienta que permite un salto cuántico en la productividad humana al simplificar el gran volumen de información con el que los humanos interactúan a diario. Esto no solo permite a las personas reducir la lectura necesaria, sino que también libera tiempo para leer y comprender obras escritas que de otro modo se pasarían por alto. Es solo cuestión de tiempo que estos resúmenes se integren tan bien que creen resúmenes indistinguibles de los escritos por humanos.

Si desea mejorar sus habilidades de PNL, debe tener en sus manos estos proyectos de PNL. Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Cuáles son los usos de la PNL?

La PNL o Procesamiento del Lenguaje Natural, una de las tecnologías modernas más sofisticadas e interesantes, se utiliza de diversas formas. Sus principales aplicaciones incluyen: corrección automática de palabras, predicción automática, chatbots y asistentes de voz, reconocimiento de voz en asistentes virtuales, análisis de sentimientos del habla humana, filtrado de correo electrónico y spam, traducción, análisis de redes sociales, publicidad dirigida, resumen de texto y escaneo de currículums para contratación, entre otros. Los avances adicionales en NLP que dan lugar a conceptos como la comprensión del lenguaje natural (NLU) están ayudando a lograr una mayor precisión y resultados muy superiores en tareas complejas.

¿Tengo que estudiar matemáticas para aprender PNL?

Con la abundancia de recursos disponibles tanto en línea como fuera de línea, ahora es más fácil acceder al material de estudio diseñado para aprender PNL. Estos recursos de estudio tienen que ver con conceptos específicos de este vasto campo llamado PNL en lugar del panorama general. Pero si te preguntas si las matemáticas son parte de alguno de los conceptos de la PNL, entonces debes saber que las matemáticas son una parte esencial de la PNL. Las matemáticas, especialmente la teoría de la probabilidad, la estadística, el álgebra lineal y el cálculo, son los pilares fundamentales de los algoritmos que impulsan la PNL. Tener una comprensión básica de las estadísticas es útil para que pueda desarrollarlo según sea necesario. Aún así, no hay forma de aprender el procesamiento del lenguaje natural sin entrar en matemáticas.

¿Cuáles son algunas técnicas de PNL utilizadas para extraer información?

En esta era digital, ha habido un aumento masivo en la generación de datos no estructurados, principalmente en forma de audio, imágenes, videos y textos de varios canales como plataformas de redes sociales, quejas de clientes y encuestas. NLP ayuda a extraer información útil de volúmenes de datos no estructurados, lo que puede ayudar a las empresas. Existen cinco técnicas comunes de NLP que se utilizan para extraer datos perspicaces, a saber: reconocimiento de entidades nombradas, resumen de texto, análisis de sentimientos, minería de aspectos y modelado de temas. Hay muchos otros métodos de extracción de datos en PNL, pero estos son los más utilizados.