tetrel Logo tetrel Logo

Klassisches Natural Language Processing vs. Deep Learning - was ist der Unterschied?

17.11.2021 von Philipp Block (LinkedIn | Twitter)

Dieser Artikel ist ein Auszug aus dem Whitepaper Funktionsweise und Einsatzgebiete von Natural Language Processing. Lesen Sie das vollständige Whitepaper hier.

Ohne Daten geht nichts. Es gibt vorgefertigte NLP-Lösungen, die mit synthetischen Daten trainiert werden. „Training“ bedeutet in diesem Zusammenhang, dass sie Annahmen treffen, diese prüfen, analysieren und dann entsprechend sich selbst optimieren, neue verfeinerte Annahmen treffen, diese in neue Modelle gießen, wieder prüfen und analysieren – ein durchgängiger und fortsetzender Prozess. Um individuelle NLP-Lösungen auf die jeweiligen Anforderungen anzupassen, um definierte Ziele zu erreichen, müssen diese erstellt werden, am besten mit eigenen Daten.

Verallgemeinert kann man sagen, dass es darum geht, NLP Sprache in einzelne Bestandteile zu clustern. Dann die Beziehungen dieser Bestandteile zueinander zu eruieren und daraus einen Kontext zu erstellen.

In der Syntax-Analyse wird die Anordnung der Wörter in einem Satz geprüft, ob diese sinnvoll ist. Die syntaktische Analyse bewertet, ob die extrahierte Sprache grammatikalischen Regeln entspricht und leitet daraus Regeln ab, um entsprechende Algorithmen zu erstellen. Die Syntax-Analyse kann unterteilt werden in unter anderem:

  • Lemmatisierung – eine Art Reduktion beziehungsweise Zusammenfassung verschiedener fast bedeutungsgleicher Wörter in Gruppen. Zum Beispiel „Freude“, „Begeisterung“, „Fröhlichkeit“ und „Vergnügen“.
  • Wortsegmentierung – die Unterteilung eines langen Textdokuments in einzelne Einheiten.
  • Stemming – ein Wort in einer flektierten Form erkennen und entsprechend einordnen.
  • Tagging – Wortarten werden erkannt, also ob Verb, Nomen oder Adjektiv etc.

Die Semantik-Analyse beleuchtet den genauen Inhalt und die Bedeutung eines Textes und setzt diesen in einen Kontext. Hierfür als Erklärung das Beispiel „Bank“ – Bank zum Geld abheben oder Bank zum Ausruhen. Darüber hinaus bildet die Semantik-Analyse die Basis für die Erstellung von durch KI erstellten Texten und Sprachausgaben – seien es kurze Nachrichtenartikel in Print oder Online oder eben die auch schon erwähnten Sprachassistenz-Systeme: „Alexa, spiel mir meine Lieblingsplaylist von letztem Monat!“.

Moderne Transformer-Modelle führen diese Schritte sozusagen automatisch durch, sie sind im entwickelten Modell integriert. Der Vorteil dabei ist, dass man dies muss nicht manuell machen muss. Der Nachteil: Es bedarf dafür allerdings eines komplexen Modells mit vielen Trainingsdaten, um das einmal alles zu erlernen.

NLP Prozess



Ihr Ansprechpartner