ChatGPT und Dokumentenverarbeitung

24.04.2023

Jetzt kennt wirklich (fast) jeder ein Large Language Model beim Namen. Das generative Sprachmodell ChatGPT ist der breiten Öffentlichkeit bekannt. Es kann auf Fragen antworten und Texte generieren – aber kann es auch zur Dokumentenverarbeitung für im Unternehmen eingesetzt werden oder sind klassische Transformer-Modelle (wie BERT) besser geeignet? Wir geben Antworten auf die Frage: Was können Modelle der GPT-Familie, wenn es um die Informationsextraktion und Verarbeitung geht und was (noch) nicht?

Hintergründe | Was ist Was

Natural Language Processing (NLP)

Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz. Es geht darum, KI-Software zu entwickeln, die Sprache auf menschlichem Niveau analysiert (liest) und produziert. Die Technologie kommt in unterschiedlichen Anwendungen zum Einsatz – z.B. in Chatbots, zur Spracherkennung, bei maschineller Übersetzung und Sentimentanalyse. Und insbesondere die automatisierte Informationsextraktion aus Dokumenten mittels NLP-Technologie ist ein großer Hebel bei der Digitalisierung und Automatisierung von Geschäftsprozessen. Herzstück jeder NLP-Lösung sind KI-Modelle.

NLP-Modelle

Large Language Models sind Sprachmodelle, die darauf trainiert wurden, natürliche Sprache zu verarbeiten und/oder zu generieren. Deep-Learning-Techniken wie neuronale Netze werden dazu verwendet, die Modelle anhand von (sehr vielen) bestehenden Texten zu trainieren.

Die Modelle, setzen hierbei Elemente eines Textes – die Textbausteine – miteinander in Verbindung bzw. analysieren diese im Kontext. Die Beziehungen zwischen den Daten/Elementen dient somit als Basis um deren Bedeutung im Zusammenhang zu „verstehen“.

Generative & klassische Transformer-Modelle

Die beim Natural Language Processing zum Einsatz kommenden Models sind zwar alle Sprachmodelle, die zum Teil anhand von sehr großen Textmengen („Large“ Language Model) trainiert wurden, jedoch ist je nach Modell die Funktionsweise und das primäre Anwendungsgebiet unterschiedlich.

Generative Modelle (z.B. GPT-4) sind darauf trainiert, Texte zu generieren. Hierbei berechnet das Modell eine Wahrscheinlichkeitsverteilung – bezogen auf mögliche Folgewörter in einem Satz oder einer Textsequenz. So sind Generative Modelle besonders geeignet, um Texte zu generieren, die den Texten aus dem Trainingsset ähnlich sind.

Klassische Transformer-Modelle (z.B. BERT) sind darauf ausgerichtet und trainiert, konkrete Sprachaufgaben durchzuführen. Das Modell lernt „Kontextaufgaben“ – also die Bedeutung von Wörtern und Sätzen in einem bestimmten Kontext zu verstehen. Damit ein Modell effizient arbeitet, werden hierzu weniger Trainingsdaten benötigt und das Modell kann einfacher auf spezielle Fragestellungen trainiert werden.

Damit sich mit NLP-Lösungen konkrete Aufgaben praktisch lösen lassen, müssen die Modelle in Prozesse und Anwendungen eingebunden, angebunden und (in fast allen Fällen) auch für die spezifische Aufgabe noch einmal speziell trainiert werden. Nur dann ist die Performance bei der Dokumentenverarbeitung so gut, dass der Einsatz sich wirklich lohnt.

(Chat)GPT

GPT bedeutet Generative Pretrained Transformer. Bei dem von OpenAI entwickelten GPT (1-4) handelt es sich also um ein generatives Large Language Model – eines der fortschrittlichsten der Welt.

Das Haupt-Einsatzgebiet von GPT ist das Training von Chatbots (wie ChatGPT), sowie die Textgenerierung, Übersetzung und Zusammenfassung von Texten.

Darüber hinaus lassen sich mittels GPT aber auch Texte klassifizieren bzw. in bestimmte Kategorien einteilen und Informationen aus Texten extrahieren.

Generative Modelle | Chancen und Grenzen

ChatGPT zur Prozessoptimierung am Dokument

Der Hype um ChatGPT lässt viele Verantwortliche im Unternehmen die berechtigte Frage stellen: Lässt sich auch für die Dokumentenverarbeitung einsetzen?

Die Antwort ist: Es kommt drauf an.

Der Einsatz generativer Modelle – wie GPT-4 – kann in bestimmten (Teil-)Gebieten sehr nützlich sein. Jedoch gibt es viele Fälle, in denen der Einsatz eines speziell angepassten klassischen Transformer-Modells mehr Sinn macht.

Potential beim Einsatz von GPT-4

Erstellung von Trainingsdaten

Mithilfe von GPT-4 lassen sich Trainingsdaten automatisiert generieren. Das kann eine große Bereicherung sein, denn gute/viele Trainingsdaten sind für die Performance jedes NLP-Modells essentiell. GPT-Modelle können zum Beispiel paraphrasierte Sätze oder Texte generieren, die den vorhandenen Texten ähnlich sind. So lässt sich die Vielfalt mit synthetischen Trainingsdaten erhöhen. Auch zur Textklassifikation lassen sich GPT-Modelle einsetzen, indem das Modell relevante Schlagwörter identifiziert, welche als Labels für Klassifikationsmodelle dienen können.

Darüber hinaus können die GPT-Modelle bei der Datenbereinigung sowie bei der Augmentation unterstützend eingesetzt werden. So können Sie bestehende Daten korrigieren (Qualitätsverbesserung) oder auch komplett neue Datensätze generieren – was wiederum die Varianz erhöhen kann.

Extraktion einfacher Daten aus kurzen Dokumenten

GPT-Modelle sind auf Basis einer sehr großen Textmenge trainiert und können Informationen im Kontext erkennen. Allerdings kann es sehr schwierig und zeitaufwändig werden, mit generativen Modellen zuverlässig Informationen auch aus komplexen Texten zu extrahieren und zu bewerten. Denn: Die Modelle brauchen immer einen “Prompt” – also eine konkrete Anfrage bzw. Fragestellung. Diesen “Prompt” so zu definieren, dass das Modell genau arbeitet und dass das Modell wirklich qualitativ hochwertige Ergebnisse liefert, ist oft schwierig.

Zudem ist der Rechenaufwand sehr hoch. Dieser resultiert vor allem aus den Modellparametern – in jedem Modell-Aufruf müssen alle Modellparameter in die Berechnung einfließen.

Im Vergleich:

  • BERT: 110 Mio. Parameter
  • GPT-3: 175 Mrd. Parameter (1.500x so viele!)
  • GPT-4: nicht veröffentlicht, aber vermutlich nochmal deutlich mehr als GPT-3

Wann eher klassische Transformer-Modelle einsetzen?

Hohe Genauigkeit

Wenn die Konfidenz hoch und die Extraktions-Ergebnisse exakt sein sollen, ist der Einsatz klassischer Transformer-Modelle (z.B. BERT) oft sinnvoller. Denn sie sind tatsächlich dafür entwickelt, Entitäten zu identifizieren und Texte zu klassifizieren.Generative Modelle hingegen sind darauf ausgelegt, neue Texte zu produzieren und können daher zu „Halluzinationen“ tendieren. Das bedeutet, sie liefern weniger präzise Ergebnisse und haben eine Tendenz, mehr “unkontrollierte” Ausgaben zu produzieren. Das Training von generativen Sprachmodellen für spezifische Fälle erfordert eine beträchtliche Menge an Trainingsdaten und Ressourcen und ist deshalb selten praktikabel.

Human-in-the-Loop

Müssen die Extraktions-Ergebnisse im direkten Zusammenhang von Menschen überprüfbar sein, ist der Einsatz klassischer Transformer-Modelle die richtige Entscheidung. Generative Modelle geben die Position der gefundenen Elemente im Text nicht zurück. Das bedeutet: Es ist sehr aufwändig bis unmöglich, dass Mitarbeiter die extrahierten Daten schnell und direkt mit dem Dokument (z.B. einem Scan von einem Vertrag) vergleichen können.

Layout-abhängige Daten

Generative Modelle erkennen bei der Datenextraktion aus Dokumenten (noch) keine Informationen zur Seitenposition. Sie sind also nicht darauf ausgelegt, spezifische Layout-Informationen zu analysieren bzw. nicht dafür trainiert, strukturierte Daten aus Dokumenten zu extrahieren. Sie können zwar Informationen erkennen, haben aber keine Kenntnis der genauen Position dieser Texte innerhalb der Dokumente.

Es gibt jedoch klassische Transformer-Modelle, die zusätzlich zum Text auch Layout-Information verarbeiten können (zusätzlicher Modell-Input) und somit Informationen wie Tabellenspalten, Feldpositionen oder Absatzstrukturen erkennen und extrahieren können.

Viele oder lange Dokumente

Klassische Transformer-Modelle verarbeiten Texte deutlich schneller als generative Modelle, denn sie kommen mit viel weniger Parametern aus. Soll z.B. ein großer Bestand an Dokumenten auf bestimmte Kriterien hin geprüft werden oder lange Dokumente strukturiert verarbeitet werden, ist der Einsatz generativer Modelle – alleine schon aus Effizienzgründen – nicht empfehlenswert.

Daten on-premise

Wenn die Daten on-premise bleiben sollen (oder aus Datenschutzgründen bleiben müssen), also nicht in eine Cloud-Umgebung übertragen werden können, sind klassische Transformer-Modelle die beste Wahl. Sie arbeiten schnell, benötigen weniger Parameter und sind somit ressourceneffizienter.

Aktuell sind wenige Generative Modelle überhaupt frei verfügbar. GPT-Modelle können z.B. nur über die API von OpenAI angesprochen werden.

Fazit

Die Technologie hinter jeder praktisch sinnvoll einsetzbaren NLP-Lösung sollte auf die spezifischen Anforderungen ausgerichtet sein.

Strukturierte Extraktion von Informationen aus Dokumenten ist sowohl mit klassischen Transformer-Modellen als auch mit Generativen Modellen möglich – allerdings sind Generative Modelle, wie GPT-4, nicht in jedem Fall besser geeignet. Ist hohe Genauigkeit gefragt oder soll ein strukturierter Review durch Personen erfolgen, ist der Einsatz (noch) nicht zu empfehlen. Auch, wenn Daten layout-abhängig extrahiert oder viele, lange Dokumente analysiert werden sollen, stoßen Generative Modelle aktuell noch an ihre Grenzen. Ihr Einsatz on-premise ist bislang kaum möglich – bzw. wenig sinnvoll.

Allerdings kann sich der Einsatz von Modellen wie GPT-4 insbesondere bei der Extraktion von einfachen Informationen aus kurzen Texten bereits jetzt lohnen.

Besonders gut geeignet sind Generative Modelle zur Optimierung von Trainingsdaten - mit denen klassische Modelle wiederum effizient trainiert werden können.

Die Technologie entwickelt sich rasant – Generative Modelle leisten beeindruckendes. In den nächsten Jahren werden sie auch in der Dokumentenverarbeitung eine immer größere Rolle spielen.

Was wir tun

Ganzheitliche, praktisch einsetzbare NLP-Lösungen

Experten für Natural Language Processing

Das Potential ist groß, die Technik entwickelt sich schnell: Lösungen müssen zum Unternehmen, zur Branche und zum speziellen Anwendungsfall passen. Wir entwickeln NLP-Lösungen – auch für komplexe Prozesse, lange Dokumente und Spezialfälle.

Das KI-System zur Verarbeitung komplexer Dokumente

Mit unserem KI-System kinisto lassen sich Informationen aus Dokumenten jeglicher Länge und Komplexität in strukturierte Daten umwandeln und schnell weiterverarbeiten – unabhängig vom Eingangskanal, der Formate oder dem Aufbau von Dokumenten.

Grundlegender Prozess bei der Dokumentenverarbeitung mit kinisto:

Kontakt