Datenanalyse von unstrukturierten Texten

In der heutigen Welt stehen im Unternehmen an vielen Stellen unstrukturierte Texte zur Verfügung. Im konkreten Anwendungsfall haben wir mit Tools folgende Grunddaten untersucht:

  • Buchungstexte in SAP-Feldern Buchungsbelege
  • In Ermittlungen nach datenschutzrechtlicher Freigabe ein größerer Bestand an Dokumenten auf internen Laufwerken einer Abteilung.

Durchlesen war gestern, Voranalyse ist heute, Bewertung der Sachverhalte kann allerdings die Maschine (noch?) nicht. Insofern müssen die Auffälligkeiten immer bewertet werden. Maschinelle Analysen helfen mit geringerem Aufwand Auffälligkeiten zu erkennen.

Aufgabenstellung und Ziele

  • Effektive Vorverarbeitung von textbasierten Dokumenten
  • Bestimmung und Auswahl von optimalen Parametern für Analysen
  • Bereitstellung von branchenspezifischen Kenngrößen
  • Bereitstellung von aussagekräftigen Auswertungsergebnissen

Durchgeführte Tätigkeiten

  • Identifizierung von fachspezifischen Anforderungen und Besonderheiten
  • Generierung von maßgeschneiderten Dictionaries
    • Anlegen von eigenen sog. „Stopword“-Listen
    • Anlegen von Branchenspezifischen Wörterbüchern
  • Durchführung einer idealen Vorverarbeitung der Dokumente
  • Implementierung der durchzuführenden Analysealgorithmen
  • Bereitstellung und Customizing von Scrapern (maschinellen Methoden für das Auslesen von Texten)
  • Optimierung von verwendeten Hyperparametern
  • Training von Modellen des maschinellen Lernens
  • Aggregation und Visualisierung der Analyseergebnisse

Mehrwerte für den Kunden

  • Minimierung von Risiken durch kontinuierliche Analysen
  • Wertschöpfung durch neu entdeckte Zusammenhänge in internen Prozessen
  • Wissensgewinn durch maschinelle Erschließung von latent zusammenhängenden Themengebieten