Résumé de texte dans le traitement automatique du langage naturel : algorithmes, techniques et défis

Publié: 2020-08-07

La création d'un résumé à partir d'un contenu donné est un processus très abstrait auquel tout le monde participe. L'automatisation d'un tel processus peut aider à analyser un grand nombre de données et aider les humains à mieux utiliser leur temps pour prendre des décisions cruciales. Avec le volume considérable de médias disponibles, on peut être très efficace en réduisant le flou autour des informations les plus critiques. Nous avons déjà commencé à voir des résumés de texte sur le Web qui sont générés automatiquement.

Si vous fréquentez Reddit, vous avez peut-être vu le "bot Autotldr" aider régulièrement les Redditors en résumant les articles liés dans un article donné. Il a été créé en 2011 seulement et a déjà permis d'économiser des milliers d'heures-personnes. Il existe un marché pour les résumés de texte fiables, comme le montre une tendance des applications qui font précisément cela, comme Inshorts (résumant les actualités en 60 mots ou moins) et Blinkist (résumant des livres).

Le résumé automatique de texte est donc une frontière passionnante mais stimulante dans le traitement du langage naturel (TAL) et l'apprentissage automatique (ML). Les développements actuels du résumé automatique de texte sont dus à la recherche dans ce domaine depuis les années 1950 lorsque l'article de Hans Peter Luhn intitulé "La création automatique de résumés de littérature" a été publié.

Cet article décrit l'utilisation de fonctionnalités telles que la fréquence des mots et la fréquence des phrases pour extraire les phrases essentielles d'un document. Cela a été suivi par une autre recherche critique effectuée par Harold P Edmundson à la fin des années 1960, qui a mis en évidence la présence de mots de repère, les mots utilisés dans le titre apparaissant dans le texte et l'emplacement des phrases pour extraire des phrases importantes d'un document.

Maintenant que le monde a fait des progrès dans l'apprentissage automatique et la publication de nouvelles études dans le domaine, le résumé automatique de texte est sur le point de devenir un outil omniprésent pour interagir avec les informations à l'ère numérique.

Doit lire: Salaire d'un ingénieur en PNL en Inde

Il existe principalement deux approches principales pour résumer le texte en PNL

Table des matières

Résumé de texte en PNL

1. Résumé basé sur l'extraction

Comme son nom l'indique, cette technique repose simplement sur l'extraction ou l'extraction de phrases clés d'un document. Il est ensuite suivi de la combinaison de ces phrases clés pour former un résumé cohérent.

2. Résumé basé sur l'abstraction

Cette technique, contrairement à l'extraction, repose sur la capacité de paraphraser et de raccourcir des parties d'un document. Lorsqu'une telle abstraction est effectuée correctement dans les problèmes d'apprentissage en profondeur, on peut être sûr d'avoir une grammaire cohérente. Mais cette couche supplémentaire de complexité se fait au prix d'être plus difficile à développer que l'extraction.

Il existe un autre moyen d'obtenir des résumés de meilleure qualité. Cette approche est appelée synthèse assistée, qui implique un effort humain et logiciel combiné. Cela aussi vient en 2 saveurs différentes

Résumé humain assisté par machine : les techniques extractives mettent en évidence les passages candidats à inclure, auxquels l'humain peut ajouter ou supprimer du texte.
Synthèse de machine assistée par l'homme : l'homme édite simplement la sortie du logiciel.

Outre les principales approches pour résumer du texte, il existe d'autres bases sur lesquelles les résumés de texte sont classés. Voici ces têtes de catégorie :

3. Résumé unique ou multi-document

Les documents uniques reposent sur la cohésion et la répétition peu fréquente des faits pour générer des résumés. Les résumés multi-documents, en revanche, augmentent le risque d'informations redondantes et de récurrence.

4. Indicatif vs informatif

La taxonomie des résumés repose sur l'objectif final de l'utilisateur. Par exemple, dans des résumés de type indicatif, on s'attendrait à des points de haut niveau d'un article. Alors que, dans un aperçu informatif, on peut s'attendre à plus de filtrage de sujets pour permettre au lecteur d'approfondir le résumé.

5. Longueur et type de document

La longueur du texte d'entrée influence fortement le type d'approche de résumé.

Les plus grands ensembles de données de synthèse, comme la salle de rédaction de Cornell, se sont concentrés sur les articles de presse, qui comptent en moyenne environ 300 à 1 000 mots. Les résumés extractifs traitent relativement bien de telles longueurs. Un document de plusieurs pages ou un chapitre d'un livre ne peut être résumé de manière adéquate qu'avec des approches plus avancées telles que le regroupement hiérarchique ou l'analyse du discours.

De plus, le genre du texte influence également le résumé. Les méthodes qui résumeraient un livre blanc technique seraient radicalement différentes des techniques qui pourraient être mieux équipées pour résumer un état financier.

Dans cet article, nous nous concentrerons sur les détails supplémentaires de la technique de résumé d'extraction.

Algorithme de PageRank

Cet algorithme aide les moteurs de recherche comme Google à classer les pages Web. Comprenons l'algorithme avec un exemple. Supposons que vous ayez quatre pages Web avec différents niveaux de connectivité entre elles. L'un peut n'avoir aucun lien avec les trois autres; l'un peut être connecté aux 2 autres, l'un peut être corrélé à un seul, et ainsi de suite.

On peut alors modéliser les probabilités de naviguer d'une page à l'autre en utilisant une matrice à n lignes et colonnes, où n est le nombre de pages web. Chaque élément de la matrice représentera la probabilité de transition d'une page Web à une autre. En attribuant les bonnes probabilités, on peut mettre à jour de manière itérative une telle matrice pour arriver à un classement de page Web.

Lisez aussi: Projet et sujets PNL

Algorithme TextRank

La raison pour laquelle nous avons exploré l'algorithme PageRank est de montrer comment le même algorithme peut être utilisé pour classer du texte au lieu de pages Web. Cela peut être fait en changeant de perspective en remplaçant les liens entre les pages par la similarité entre les phrases et en utilisant la matrice de style PageRank comme score de similarité.

Implémentation de l'algorithme TextRank

Bibliothèques requises

Numby
Pandas
Ntlk
ré

Voici une explication du code derrière la technique de résumé d'extraction :

Étape 1

Concaténer tout le texte que vous avez dans le document source en un seul bloc de texte solide. La raison de le faire est de fournir des conditions pour que nous puissions exécuter l'étape 2 plus facilement.

Étape 2

Nous fournissons des conditions qui définissent une phrase, telles que la recherche de signes de ponctuation tels que le point (.), le point d'interrogation (?) et le point d'exclamation (!). Une fois que nous avons cette définition, nous divisons simplement le document texte en phrases.

Étape 3

Maintenant que nous avons accès à des phrases séparées, nous trouvons des représentations vectorielles (incorporations de mots) de chacune de ces phrases. C'est maintenant qu'il faut comprendre ce que sont les représentations vectorielles. Les incorporations de mots sont un type de représentation de mots qui fournit une description mathématique de mots ayant des significations similaires. En réalité, il s'agit d'une classe entière de techniques qui représentent des mots comme des vecteurs à valeurs réelles dans un espace vectoriel prédéfini.

Chaque mot est représenté par un vecteur à valeurs réelles qui a de nombreuses dimensions (plus de 100 parfois). La représentation de la distribution est basée sur l'utilisation des mots et, par conséquent, permet aux mots utilisés de manière similaire d'avoir des descriptions similaires. Cela nous permet de capter naturellement le sens des mots comme par leur proximité avec d'autres mots représentés eux-mêmes comme des vecteurs.

Pour ce guide, nous utiliserons les vecteurs globaux de représentation des mots (GloVe). The gloVe est l'algorithme open-source de représentation distribuée des mots qui a été développé par Pennington à Stanford. Il combine les fonctionnalités de 2 familles de modèles, à savoir les méthodes de factorisation matricielle globale et de fenêtre contextuelle locale.

Étape 4

Une fois que nous avons la représentation vectorielle de nos mots, nous devons étendre le processus pour représenter des phrases entières sous forme de vecteurs. Pour ce faire, nous pouvons récupérer les représentations vectorielles des termes qui constituent les mots dans une phrase, puis la moyenne/moyenne de ces vecteurs pour arriver à un vecteur consolidé pour la phrase.

Étape 5

À ce stade, nous avons une représentation vectorielle pour chaque phrase individuelle. Il est maintenant utile de quantifier les similitudes entre les phrases en utilisant l'approche de similitude cosinus. Nous pouvons alors remplir une matrice vide avec les similitudes cosinus des phrases.

Étape 6

Maintenant que nous avons une matrice remplie avec les similitudes cosinus entre les phrases. Nous pouvons convertir cette matrice en un graphe dans lequel les nœuds représentent les phrases et les arêtes représentent la similitude entre les phrases. C'est sur ce graphique que nous utiliserons l'algorithme pratique du PageRank pour arriver au classement des phrases.

Étape 7

Nous avons maintenant classé toutes les phrases de l'article par ordre d'importance. Nous pouvons maintenant extraire les N premières phrases (disons 10) pour créer un résumé.

Pour trouver le code d'une telle méthode, il existe de nombreux projets de ce type sur Github ; cet article, d'autre part, aide à développer une compréhension de la même chose.

Consultez : Évolution de la modélisation du langage dans la vie moderne

Techniques d'évaluation

Un facteur important pour affiner ces modèles est de disposer d'une méthode fiable pour juger de la qualité des résumés produits. Cela nécessite de bonnes techniques d'évaluation, qui peuvent être globalement classées comme suit :

Évaluation intrinsèque et extrinsèque :

Intrinsèque : une telle évaluation teste le système de synthèse en lui-même. Ils évaluent principalement la cohérence et le caractère informatif du résumé.

Extrinsèque : une telle évaluation teste le résumé en fonction de la manière dont il affecte une autre tâche. Il peut tester l'impact du résumé sur des tâches telles que l'évaluation de la pertinence, la compréhension en lecture, etc.

Inter-textuel et Intra-textuel :

Intertextuel : De telles évaluations se concentrent sur une analyse contrastive de plusieurs systèmes de synthèse.

Intra-textuel : de telles évaluations évaluent le résultat d'un système de synthèse spécifique.

Spécifique au domaine et indépendant du domaine :

Indépendant du domaine : ces techniques appliquent généralement des ensembles de caractéristiques générales qui peuvent être axées sur l'identification de segments de texte riches en informations.

Spécifique à un domaine : ces techniques utilisent les connaissances disponibles spécifiques à un domaine sur un texte. Par exemple, la synthèse textuelle de la littérature médicale nécessite l'utilisation de sources de connaissances médicales et d'ontologies.

Evaluer qualitativement les résumés :

L'inconvénient majeur des autres techniques d'évaluation est qu'elles nécessitent des synthèses de référence pour pouvoir comparer la sortie des synthèses automatiques avec le modèle. Cela rend la tâche d'évaluation difficile et coûteuse. Des travaux sont en cours pour constituer un corpus d'articles/documents et leurs résumés correspondants afin de résoudre ce problème.

Les défis du résumé de texte

Malgré des outils hautement développés pour générer et évaluer des résumés, il reste des défis à trouver un moyen fiable pour les résumés de texte de comprendre ce qui est important et pertinent.

Comme discuté, les représentations vectorielles et les matrices de similarité tentent de trouver des associations de mots, mais elles n'ont toujours pas de méthode fiable pour identifier les phrases les plus importantes.

Un autre défi dans la synthèse de texte est la complexité du langage humain et la façon dont les gens s'expriment, en particulier dans le texte écrit. Le langage n'est pas seulement composé de longues phrases avec des adjectifs et des adverbes pour décrire quelque chose, mais aussi de phrases relatives, d'appositions, etc.

Le « problème d'anaphore » est un autre obstacle à la synthèse de texte. En langage, on remplace souvent le sujet dans la conversation par ses synonymes ou ses pronoms. La compréhension de quel pronom remplace quel terme est le "problème de l'anaphore".

Le « problème des cataphores » est le problème inverse du problème des anaphores. Dans ces mots et explications ambigus, un terme particulier est utilisé dans le texte avant d'introduire le terme lui-même.

Conclusion

Le domaine de la synthèse de texte connaît une croissance rapide et des outils spécialisés sont en cours de développement pour s'attaquer à des tâches de synthèse plus ciblées. Les logiciels open source et les packages d'intégration de mots devenant largement disponibles, les utilisateurs étendent le cas d'utilisation de cette technologie.

Le résumé automatique de texte est un outil qui permet un saut quantique dans la productivité humaine en simplifiant le volume considérable d'informations avec lesquelles les humains interagissent quotidiennement. Cela permet non seulement aux gens de réduire la lecture nécessaire, mais libère également du temps pour lire et comprendre des travaux écrits autrement négligés. Ce n'est qu'une question de temps pour que de tels résumés s'intègrent si bien qu'ils créent des résumés indiscernables de ceux écrits par des humains.

Si vous souhaitez améliorer vos compétences en PNL, vous devez mettre la main sur ces projets PNL. Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

A quoi sert la PNL ?

Le NLP ou Natural Language Processing, l'une des technologies modernes les plus sophistiquées et les plus intéressantes, est utilisé de diverses manières. Ses principales applications incluent la correction automatique des mots, la prédiction automatique, les chatbots et les assistants vocaux, la reconnaissance vocale dans les assistants virtuels, l'analyse des sentiments de la parole humaine, le filtrage des e-mails et des spams, la traduction, l'analyse des médias sociaux, la publicité ciblée, la synthèse de texte et l'analyse des CV pour recrutement, entre autres. De nouvelles avancées dans la PNL donnant lieu à des concepts tels que la compréhension du langage naturel (NLU) aident à obtenir une plus grande précision et des résultats bien supérieurs à partir de tâches complexes.

Dois-je étudier les mathématiques pour apprendre la PNL ?

Avec l'abondance de ressources disponibles à la fois hors ligne et en ligne, il est désormais plus facile d'accéder au matériel d'étude conçu pour l'apprentissage de la PNL. Ces ressources d'étude portent toutes sur des concepts spécifiques de ce vaste domaine appelé PNL plutôt que sur une vue d'ensemble. Mais si vous vous demandez si les mathématiques font partie de l'un des concepts de la PNL, alors vous devez savoir que les mathématiques sont une partie essentielle de la PNL. Les mathématiques, en particulier la théorie des probabilités, les statistiques, l'algèbre linéaire et le calcul, sont les piliers fondamentaux des algorithmes qui pilotent la PNL. Avoir une compréhension de base des statistiques est utile pour que vous puissiez vous en servir au besoin. Pourtant, il n'y a aucun moyen d'apprendre le traitement du langage naturel sans entrer dans les mathématiques.

Quelles sont les techniques de PNL utilisées pour extraire des informations ?

À l'ère numérique, il y a eu une augmentation massive de la génération de données non structurées, principalement sous forme d'audio, d'images, de vidéos et de textes provenant de divers canaux comme les plateformes de médias sociaux, les plaintes des clients et les enquêtes. Le NLP permet d'extraire des informations utiles à partir de volumes de données non structurées, ce qui peut aider les entreprises. Il existe cinq techniques NLP courantes qui sont utilisées pour extraire des données pertinentes, à savoir la reconnaissance d'entités nommées, le résumé de texte, l'analyse des sentiments, l'exploration d'aspects et la modélisation de sujets. Il existe de nombreuses autres méthodes d'extraction de données en PNL, mais ce sont les plus couramment utilisées.