Textzusammenfassung in der Verarbeitung natürlicher Sprache: Algorithmen, Techniken und Herausforderungen

Veröffentlicht: 2020-08-07

Das Erstellen einer Zusammenfassung aus einem bestimmten Inhalt ist ein sehr abstrakter Prozess, an dem jeder teilnimmt. Die Automatisierung eines solchen Prozesses kann helfen, viele Daten zu analysieren und Menschen dabei zu helfen, ihre Zeit besser zu nutzen, um wichtige Entscheidungen zu treffen. Bei der schieren Menge an Medien da draußen kann man sehr effizient sein, indem man den Flaum um die wichtigsten Informationen herum reduziert. Wir haben bereits damit begonnen, Textzusammenfassungen im Internet zu sehen, die automatisch generiert werden.

Wenn Sie Reddit häufig besuchen, haben Sie vielleicht gesehen, dass der „Autotldr-Bot“ Redditoren routinemäßig hilft, indem er verlinkte Artikel in einem bestimmten Beitrag zusammenfasst. Es wurde erst 2011 erstellt und hat bereits Tausende von Arbeitsstunden eingespart. Es gibt einen Markt für zuverlässige Textzusammenfassungen, wie ein Trend von Anwendungen zeigt, die genau das tun, wie Inshorts (Zusammenfassung von Nachrichten in 60 Wörtern oder weniger) und Blinkist (Zusammenfassung von Büchern).

Die automatische Textzusammenfassung ist daher eine aufregende, aber auch herausfordernde Grenze in der Verarbeitung natürlicher Sprache (NLP) und im maschinellen Lernen (ML). Die aktuellen Entwicklungen in der automatischen Textzusammenfassung sind der Forschung auf diesem Gebiet seit den 1950er Jahren zu verdanken, als Hans Peter Luhns Arbeit mit dem Titel „Die automatische Erstellung von Literaturzusammenfassungen“ veröffentlicht wurde.

Dieses Papier skizzierte die Verwendung von Merkmalen wie Worthäufigkeit und Phrasenhäufigkeit, um wesentliche Sätze aus einem Dokument zu extrahieren. Darauf folgte eine weitere kritische Untersuchung von Harold P. Edmundson in den späten 1960er Jahren, die das Vorhandensein von Stichworten, im Titel verwendete Wörter im Text und die Position von Sätzen hervorhob, um Sätze von Bedeutung aus einem Dokument zu extrahieren.

Jetzt, da die Welt beim maschinellen Lernen Fortschritte gemacht und neuere Studien auf diesem Gebiet veröffentlicht hat, steht die automatische Textzusammenfassung kurz davor, ein allgegenwärtiges Werkzeug für die Interaktion mit Informationen im digitalen Zeitalter zu werden.

Muss gelesen werden: Gehalt als NLP-Ingenieur in Indien

Es gibt hauptsächlich zwei Hauptansätze zum Zusammenfassen von Text im NLP

Inhaltsverzeichnis

Textzusammenfassung im NLP

1. Extraktionsbasierte Zusammenfassung

Wie der Name schon sagt, beruht diese Technik darauf, Schlüsselphrasen aus einem Dokument zu extrahieren oder herauszuziehen. Anschließend werden diese Schlüsselphrasen zu einer zusammenhängenden Zusammenfassung kombiniert.

2. Zusammenfassung auf Abstraktionsbasis

Anders als bei der Extraktion beruht diese Technik darauf, dass Teile eines Dokuments paraphrasiert und gekürzt werden können. Wenn eine solche Abstraktion bei Deep-Learning-Problemen korrekt durchgeführt wird, kann man sicher sein, eine konsistente Grammatik zu haben. Diese zusätzliche Ebene der Komplexität geht jedoch zu Lasten der schwierigeren Entwicklung als der Extraktion.

Es gibt einen anderen Weg, um qualitativ hochwertigere Zusammenfassungen zu erstellen. Dieser Ansatz wird als unterstützte Zusammenfassung bezeichnet, was einen kombinierten Aufwand von Mensch und Software erfordert. Auch diese gibt es in 2 verschiedenen Geschmacksrichtungen

Maschinenunterstützte menschliche Zusammenfassung : Extraktionstechniken heben Kandidatenpassagen hervor, die aufgenommen werden sollen, denen der Mensch Text hinzufügen oder entfernen kann.
Menschlich unterstützte maschinelle Zusammenfassung : Der Mensch bearbeitet einfach die Ausgabe der Software.

Abgesehen von den Hauptansätzen zum Zusammenfassen von Text gibt es andere Grundlagen, nach denen Textzusammenfasser klassifiziert werden. Im Folgenden sind diese Kategorieköpfe aufgeführt:

3. Einzel- vs. Multi-Dokument-Zusammenfassung

Einzelne Dokumente verlassen sich auf die Kohärenz und die seltene Wiederholung von Fakten, um Zusammenfassungen zu erstellen. Zusammenfassungen mehrerer Dokumente erhöhen andererseits die Wahrscheinlichkeit redundanter Informationen und Wiederholungen.

4. Indikativ vs. informativ

Die Taxonomie der Zusammenfassungen beruht auf dem Endziel des Benutzers. Beispielsweise würde man in indikativen Zusammenfassungen allgemeine Punkte eines Artikels erwarten. Wohingegen man in einer informativen Übersicht eine stärkere Themenfilterung erwarten kann, damit der Leser die Zusammenfassung aufschlüsseln kann.

5. Dokumentenlänge und -typ

Die Länge des Eingabetextes beeinflusst stark die Art des Zusammenfassungsansatzes.

Die größten Zusammenfassungsdatensätze, wie Newsroom von Cornell, haben sich auf Nachrichtenartikel konzentriert, die im Durchschnitt etwa 300-1000 Wörter umfassen. Extraktive Zusammenfassungen kommen mit solchen Längen relativ gut zurecht. Ein mehrseitiges Dokument oder Kapitel eines Buches kann nur mit fortgeschritteneren Ansätzen wie hierarchischem Clustering oder Diskursanalyse angemessen zusammengefasst werden.

Zusätzlich beeinflusst auch das Genre des Textes den Summarer. Die Methoden, die ein technisches Whitepaper zusammenfassen würden, würden sich radikal von den Techniken unterscheiden, die möglicherweise besser geeignet sind, um einen Abschluss zusammenzufassen.

In diesem Artikel konzentrieren wir uns auf weitere Details der Extraktionszusammenfassungstechnik.

PageRank-Algorithmus

Dieser Algorithmus hilft Suchmaschinen wie Google beim Ranking von Webseiten. Lassen Sie uns den Algorithmus anhand eines Beispiels verstehen. Angenommen, Sie haben vier Webseiten mit unterschiedlichen Konnektivitätsstufen zwischen ihnen. Einer hat möglicherweise keine Verbindungen zu den anderen drei; einer kann mit den anderen 2 verbunden sein, einer kann nur mit einem korreliert sein und so weiter.

Wir können dann die Wahrscheinlichkeiten für das Navigieren von einer Seite zur anderen modellieren, indem wir eine Matrix mit n Zeilen und Spalten verwenden, wobei n die Anzahl der Webseiten ist. Jedes Element innerhalb der Matrix repräsentiert die Wahrscheinlichkeit des Wechsels von einer Webseite zu einer anderen. Durch die Zuweisung der richtigen Wahrscheinlichkeiten kann man eine solche Matrix iterativ aktualisieren, um zu einem Webseiten-Ranking zu kommen.

Lesen Sie auch: NLP-Projekt und -Themen

TextRank-Algorithmus

Wir haben den PageRank-Algorithmus untersucht, um zu zeigen, wie derselbe Algorithmus verwendet werden kann, um Text anstelle von Webseiten zu bewerten. Dies kann erreicht werden, indem die Perspektive geändert wird, indem Links zwischen Seiten durch Ähnlichkeiten zwischen Sätzen ersetzt werden und die PageRank-Stilmatrix als Ähnlichkeitswert verwendet wird.

Implementieren des TextRank-Algorithmus

Erforderliche Bibliotheken

Benommen
Pandas
Ntlk
betreffend

Im Folgenden finden Sie eine Erläuterung des Codes hinter der Extraktionszusammenfassungstechnik:

Schritt 1

Verketten Sie den gesamten Text, den Sie im Quelldokument haben, als einen festen Textblock. Der Grund dafür ist, Bedingungen bereitzustellen, damit wir Schritt 2 einfacher ausführen können.

Schritt 2

Wir stellen Bedingungen bereit, die einen Satz definieren, z. B. die Suche nach Satzzeichen wie Punkt (.), Fragezeichen (?) und Ausrufezeichen (!). Sobald wir diese Definition haben, teilen wir das Textdokument einfach in Sätze auf.

Schritt 3

Jetzt, da wir Zugriff auf separate Sätze haben, finden wir Vektordarstellungen (Worteinbettungen) jedes dieser Sätze. Jetzt müssen wir verstehen, was Vektordarstellungen sind. Worteinbettungen sind eine Art der Wortdarstellung, die eine mathematische Beschreibung von Wörtern mit ähnlicher Bedeutung liefert. Tatsächlich ist dies eine ganze Klasse von Techniken, die Wörter als reellwertige Vektoren in einem vordefinierten Vektorraum darstellen.

Jedes Wort wird durch einen reellwertigen Vektor dargestellt, der viele Dimensionen hat (zeitweise über 100). Die Verteilungsdarstellung basiert auf der Verwendung von Wörtern und ermöglicht somit, dass Wörter, die auf ähnliche Weise verwendet werden, ähnliche Beschreibungen haben. Dies ermöglicht es uns, die Bedeutung von Wörtern auf natürliche Weise durch ihre Nähe zu anderen Wörtern zu erfassen, die selbst als Vektoren dargestellt werden.

Für diesen Leitfaden verwenden wir die Global Vectors of Word Representation (GloVe). The gloVe ist der Open-Source-Algorithmus zur verteilten Wortdarstellung, der von Pennington in Stanford entwickelt wurde. Es kombiniert die Eigenschaften von 2 Modellfamilien, nämlich der globalen Matrixfaktorisierung und der lokalen Kontextfenstermethode.

Schritt 4

Sobald wir die Vektordarstellung für unsere Wörter haben, müssen wir den Prozess erweitern, um ganze Sätze als Vektoren darzustellen. Dazu können wir die Vektordarstellungen der Terme abrufen, die Wörter in einem Satz bilden, und dann den Mittelwert/Durchschnitt dieser Vektoren, um zu einem konsolidierten Vektor für den Satz zu gelangen.

Schritt 5

An diesem Punkt haben wir eine Vektordarstellung für jeden einzelnen Satz. Es ist nun hilfreich, Ähnlichkeiten zwischen den Sätzen unter Verwendung des Kosinus-Ähnlichkeitsansatzes zu quantifizieren. Wir können dann eine leere Matrix mit den Kosinus-Ähnlichkeiten der Sätze füllen.

Schritt 6

Jetzt haben wir eine Matrix, die mit den Kosinus-Ähnlichkeiten zwischen den Sätzen gefüllt ist. Wir können diese Matrix in einen Graphen umwandeln, in dem die Knoten die Sätze darstellen und die Kanten die Ähnlichkeit zwischen den Sätzen darstellen. In diesem Diagramm werden wir den praktischen PageRank-Algorithmus verwenden, um zum Satzranking zu gelangen.

Schritt 7

Wir haben nun alle Sätze im Artikel nach Wichtigkeit geordnet. Wir können jetzt die besten N (z. B. 10) Sätze extrahieren, um eine Zusammenfassung zu erstellen.

Um den Code für eine solche Methode zu finden, gibt es viele solcher Projekte auf Github; dieser Artikel hingegen hilft dabei, ein Verständnis dafür zu entwickeln.

Siehe: Evolution der Sprachmodellierung im modernen Leben

Bewertungstechniken

Ein wichtiger Faktor bei der Feinabstimmung solcher Modelle ist eine zuverlässige Methode zur Beurteilung der Qualität der erstellten Zusammenfassungen. Dies erfordert gute Bewertungstechniken, die grob in die folgenden Kategorien eingeteilt werden können:

Eigene und äußere Bewertung :

Intrinsisch: Eine solche Bewertung testet das Zusammenfassungssystem an und für sich. Sie beurteilen vor allem die Kohärenz und Aussagekraft der Zusammenfassung.

Extrinsisch: Eine solche Bewertung testet die Zusammenfassung basierend darauf, wie sie sich auf eine andere Aufgabe auswirkt. Es kann die Auswirkung der Zusammenfassung auf Aufgaben wie Relevanzbewertung, Leseverständnis usw. testen.

Intertextuell und intratextuell :

Intertextuell: Solche Auswertungen konzentrieren sich auf eine kontrastive Analyse mehrerer Verdichtungssysteme.

Intratextuell: Solche Auswertungen bewerten die Ausgabe eines bestimmten Zusammenfassungssystems.

Domänenspezifisch und domänenunabhängig :

Domänenunabhängig: Diese Techniken wenden im Allgemeinen Sätze allgemeiner Merkmale an, die sich auf die Identifizierung informationsreicher Textsegmente konzentrieren können.

Domänenspezifisch: Diese Techniken nutzen das verfügbare Wissen, das für eine Domäne auf einem Text spezifisch ist. Beispielsweise erfordert die Textzusammenfassung medizinischer Literatur die Verwendung von medizinischen Wissensquellen und Ontologien.

Zusammenfassungen qualitativ bewerten :

Der Hauptnachteil anderer Bewertungsverfahren besteht darin, dass sie Referenzzusammenfassungen benötigen, um die Ergebnisse der automatischen Zusammenfassungen mit dem Modell vergleichen zu können. Dies macht die Aufgabe der Bewertung schwierig und teuer. Es wird daran gearbeitet, einen Korpus von Artikeln/Dokumenten und ihren entsprechenden Zusammenfassungen aufzubauen, um dieses Problem zu lösen.

Herausforderungen an die Textzusammenfassung

Trotz hochentwickelter Tools zum Erstellen und Auswerten von Zusammenfassungen bleibt die Herausforderung, einen zuverlässigen Weg für Textzusammenfasser zu finden, um zu verstehen, was wichtig und relevant ist.

Wie bereits erwähnt, versuchen Vektorrepräsentations- und Ähnlichkeitsmatrizen, Wortassoziationen zu finden, aber sie haben immer noch keine zuverlässige Methode, um die wichtigsten Sätze zu identifizieren.

Eine weitere Herausforderung bei der Textzusammenfassung ist die Komplexität der menschlichen Sprache und die Art und Weise, wie Menschen sich ausdrücken, insbesondere in geschriebenem Text. Sprache besteht nicht nur aus langen Sätzen mit Adjektiven und Adverbien, um etwas zu beschreiben, sondern auch aus relativen Sätzen, Appositionen usw. Solche Einsichten können wertvolle Informationen hinzufügen, die sie nicht dabei unterstützen, den Kern der Informationen festzulegen, die in die Zusammenfassung aufgenommen werden sollen.

Das „Anaphora-Problem“ ist ein weiteres Hindernis bei der Textzusammenfassung. In der Sprache ersetzen wir oft das Subjekt im Gespräch durch seine Synonyme oder Pronomen. Das Verständnis, welches Pronomen welchen Begriff ersetzt, ist das „Anaphora-Problem“.

Das „Kataphora-Problem“ ist das entgegengesetzte Problem des Anaphora-Problems. In diesen mehrdeutigen Wörtern und Erklärungen wird ein bestimmter Begriff im Text verwendet, bevor der Begriff selbst eingeführt wird.

Fazit

Der Bereich der Textzusammenfassung erlebt ein schnelles Wachstum, und es werden spezielle Tools entwickelt, um gezieltere Zusammenfassungsaufgaben zu bewältigen. Mit der zunehmenden Verfügbarkeit von Open-Source-Software und Worteinbettungspaketen erweitern Benutzer den Anwendungsfall dieser Technologie.

Die automatische Textzusammenfassung ist ein Tool, das einen Quantensprung in der menschlichen Produktivität ermöglicht, indem es die schiere Menge an Informationen vereinfacht, mit denen Menschen täglich interagieren. Dies ermöglicht es den Menschen nicht nur, das notwendige Lesen zu reduzieren, sondern gibt auch Zeit frei, um ansonsten übersehene schriftliche Arbeiten zu lesen und zu verstehen. Es ist nur eine Frage der Zeit, dass solche Zusammenfassungen so gut integriert werden, dass sie Zusammenfassungen erstellen, die nicht von denen zu unterscheiden sind, die von Menschen geschrieben wurden.

Wenn Sie Ihre NLP-Fähigkeiten verbessern möchten, müssen Sie sich diese NLP-Projekte aneignen. Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Was sind die Einsatzmöglichkeiten von NLP?

NLP oder Natural Language Processing, eine der anspruchsvollsten und interessantesten modernen Technologien, wird auf vielfältige Weise eingesetzt. Zu den Hauptanwendungen gehören – automatische Wortkorrektur, automatische Vorhersage, Chatbots und Sprachassistenten, Spracherkennung in virtuellen Assistenten, Stimmungsanalyse der menschlichen Sprache, E-Mail- und Spam-Filterung, Übersetzung, Social-Media-Analyse, gezielte Werbung, Textzusammenfassung und Scannen von Lebensläufen Rekrutierung, unter anderem. Weitere Fortschritte im NLP, die zu Konzepten wie Natural Language Understanding (NLU) führen, tragen dazu bei, bei komplexen Aufgaben eine höhere Genauigkeit und weitaus bessere Ergebnisse zu erzielen.

Muss ich Mathematik studieren, um NLP zu lernen?

Mit der Fülle an Ressourcen, die sowohl offline als auch online verfügbar sind, ist es jetzt einfacher, auf Lernmaterial zuzugreifen, das zum Erlernen von NLP entwickelt wurde. Bei diesen Lernressourcen geht es eher um spezifische Konzepte dieses riesigen Feldes namens NLP als um das Gesamtbild. Aber wenn Sie sich fragen, ob Mathematik Teil eines NLP-Konzepts ist, dann müssen Sie wissen, dass Mathematik ein wesentlicher Bestandteil von NLP ist. Mathematik, insbesondere Wahrscheinlichkeitstheorie, Statistik, lineare Algebra und Analysis, sind die Grundpfeiler der Algorithmen, die NLP vorantreiben. Ein Grundverständnis der Statistik ist hilfreich, um bei Bedarf darauf aufbauen zu können. Dennoch gibt es keine Möglichkeit, die Verarbeitung natürlicher Sprache zu lernen, ohne sich mit Mathematik zu befassen.

Welche NLP-Techniken werden verwendet, um Informationen zu extrahieren?

In diesem digitalen Zeitalter hat die Generierung unstrukturierter Daten, hauptsächlich in Form von Audio, Bildern, Videos und Texten aus verschiedenen Kanälen wie Social-Media-Plattformen, Kundenbeschwerden und Umfragen, massiv zugenommen. NLP hilft dabei, nützliche Informationen aus Mengen unstrukturierter Daten zu extrahieren, was Unternehmen helfen kann. Es gibt fünf gängige NLP-Techniken, die verwendet werden, um aufschlussreiche Daten zu extrahieren, nämlich – benannte Entitätserkennung, Textzusammenfassung, Stimmungsanalyse, Aspekt-Mining und Themenmodellierung. Es gibt viele andere Datenextraktionsmethoden im NLP, aber diese sind die am häufigsten verwendeten.