tetrel Logo tetrel Logo

Ein robuster Trainingsprozess für Natural Language Processing Modelle in fünf Schritten

01.12.2021

Dies ist ein Auszug aus dem Gastbeitrag “Architektur für serienmäßige Prozessautomatisierung mit Natural Language Processing (NLP)” im Themendossier Nr. 21/2021 der Versicherungsforen Leipzig. Klicken Sie hier, um den vollständigen Artikel als PDF herunterzuladen.

Richtig und konsequent angewendet ist Natural Language Processing eine Technologie, mit der sich wissensbasierte Prozesse automatisieren und langfristige strategische Vorteile generieren lassen.

Der Unterschied zwischen einer schnellen, erfolgreichen Umsetzung einer NLP-Entwicklung und einem nie enden wollenden Proof of Concept liegt dabei zu 90 Prozent nicht im Modelltraining, sondern in der Auswahl, Konvertierung, Bereinigung, Erstellung und Annotation von Trainingsdaten.

Die größten Hebel für eine kürzere Time to Market sind hierbei: ein robuster Trainingsprozess, die Erfahrung der beteiligten Data Scientists und das optimale Werkzeug.

Ein Best Practice Trainingsprozess besteht dabei in der Regel aus fünf klar definierten Schritten.

1. Vorbereitung und Synthetisieren von Trainingsdaten

Vorliegende Dokumente werden in ein passendes Format konvertiert - hier spielt auch die passende OCR-Engine mit Layout-Erkennung eine große Rolle. Die konvertierten Dokumente werden bereinigt, dedupliziert und eine passende Auswahl für ein ausgewogenes Training getroffen.

Gerade wenn nur wenige Beispieldokumente vorliegen oder die zu erkennenden Strukturen semi-regulär sind, bietet sich das Synthetisieren von Trainingsdaten mit spezialisierten generativen Grammatiken an. Durch dieses Verfahren können innerhalb kurzer Zeit tausende Trainingsdaten mit einer angemessenen Varianz erzeugt werden – und der folgende Schritt entfällt ganz.

2. Manuelle Annotation einiger Beispiele

Durch den Einsatz von Transfer Learning lässt sich ein erstes Modell heutzutage schon mit 50–150 annotierten Beispielen trainieren. Die Annotation erfolgt am besten in Kooperation zwischen Data Team und Fachabteilung. So wird sichergestellt, dass innerhalb weniger Tage die optimale Trainingsgrundlage geschaffen wird.

3. Active Learning

Das so gewonnene Modell wird anschließend auf nicht annotierte Rohdaten angewendet. Aus den Vorhersagen des Modells wird eine Menge von 30 bis 50 Dokumenten ausgewählt und von Data Scientists oder Fachexperten überprüft und ggf. korrigiert.

Die Auswahl erfolgt dabei nach zwei Kriterien: wo ist sich das Modell unsicher (“uncertainty sampling”) und welche Dokumente unterscheiden sich stark von den vorherigen Trainingsdaten (“diversity sampling”). Dadurch wird sichergestellt, dass die ausgewählten Dokumente beim erneuten Training einen maximalen Lerneffekt bieten – sogenanntes “Active Learning”.

In wenigen, kurzen Iterationsschleifen wird das Modell dadurch auf eine optimale Vorhersagegüte gebracht – ein Prozess, der sonst oft ein Vielfaches der Zeit benötigt.

4. Deployment

Das so gewonnene Modell ist in aller Regel nach wenigen Wochen für den Einsatz in Produktion gut geeignet. Moderne Trainingslösungen bieten ein automatisches Deployment im standardisierten Format und oft bereits Konnektoren für handelsübliche IT-Systeme. Das Modell kann via standardisierter API in Backend-Systeme, Workflow-Tools und sogar Frontends eingebunden werden.

5. Kontinuierliche Verbesserung

Im laufenden Betrieb wird das Modell abgesichert mit einem sogenannten “Human in the Loop”: Vorhersagen, bei denen die Konfidenz einen vorher festgelegten Schwellwert unterschreitet, werden zur Überprüfung an einen menschlichen Bearbeiter gegeben, um Fehler zu vermeiden.

Die Korrekturen des “Human in the Loop” werden anschließend für ein Fine-Tuning des Modells verwendet – so entsteht ein kontinuierlicher Verbesserungsprozess.

Lesen Sie hier den vollständigen Artikel als PDF.



Ihr Ansprechpartner

Johannes Humbert
+49 176 83 33 51 46
johannes.humbert@tetrel.ai