tetrel Logo tetrel Logo

Die Herausforderung bei NLP: das Strukturieren von teils hochgradig unstrukturierten Daten

10.11.2021 von Johannes Humbert (LinkedIn | Twitter)

Dieser Artikel ist ein Auszug aus dem Whitepaper Funktionsweise und Einsatzgebiete von Natural Language Processing. Lesen Sie das vollständige Whitepaper hier.

Menschen brauchen Jahre, um den Umgang mit Sprache zu erlernen. Nuancen und unzählige Unregelmäßigkeiten machen es schwer, diese zu erkennen und zu unterscheiden. Das erschwert es NLP-Lösungen, unstrukturierte Sprache in strukturierte Daten zu konvertieren, um diese zu verwerten. Dabei sind jetzt nicht nur Sarkasmus, Metaphern und Synonyme gemeint. Dazu kommen noch Ausnahmen in Grammatik, Syntax und Redewendungen, aber vor allem der Kontext. Ein Beispiel:

„Ich gehe zu meiner Bank“ kann sowohl bedeuten, zu einer Filiale einer Bank zu gehen, um dort Geld einzuzahlen, wie auch die Intention, in einem Park an seinem Lieblingsplatz gemütlich ein Buch zu lesen.

NLP Use Cases

Besondere Herausforderungen bei gesprochener Sprache:

Dialekte, Slang, Lehnworte, genuschelt, schlechte Verbindung, gehaspelt, Stimmlagen, Amplitudenvarianzen, rhetorische Fragen, Halbsätze, Einzelwörter etc. Dies erschwert die Erkennung und damit die Erstellung eines Kontextes, der essentiell für die Verarbeitung ist.

Besondere Herausforderungen bei geschriebener Sprache:

Tippfehler, unterschiedliche Schreibweisen und Satzbau sowie Grammatikfehler, fehlende oder falsche Satzzeichen und Abkürzungen stellen NLP-Lösungen vor große – aber lösbare - Herausforderungen, da vielzählige Entitäten erkannt und richtig zugeordnet werden müssen. Auch Homonyme zählen dazu: Wörter die verschiedene Bedeutungen haben können. Beispielsweise „Band“ – das kann ein Buch einer mehrteiligen Buchreihe sein, ebenso ein schmaler Textilstreifen oder auch eine Musikgruppe.

NLP-Lösungen erkennen den Kontext, verbessern sich ständig, sie lernen dazu und optimieren sich so automatisch. Je mehr Trainingsdaten am Anfang eines NLP-Projektes vorhanden sind, desto besser.



Ihr Ansprechpartner

Johannes Humbert
+49 176 83 33 51 46
johannes.humbert@tetrel.ai