Topic Modeling – Konzept für die Praxis?

Alexander Bast

„Dieses Produkt könnte Ihnen auch gefallen“, „Empfohlene Artikel, die andere Kunden oft erneut kaufen“ – diese Sätze sind Ihnen sicher bereits häufiger begegnet. Viele Marktteilnehmer sind stets darum bemüht, den Kunden möglichst individuelle Vorschläge zu machen, um damit ihre Umsätze zu steigern. Was den Kunden ggf. ein hohes Maß an Komfort bringt, kann in anderen Bereichen ein hohes Maß an Struktur und Wissensgewinn bringen. KYC – Know Your Customer ist in Banken und Versicherungen bereits eine feste Größe, lassen Sie uns diesen Begriff etwas ausweiten.

Auslage von Erdbeeren, Feigen und grüne Feigen auf einem Marktstand.

Topic Modeling – Definition

Als Topic Modeling bezeichnet man primär den Prozess, durch quantitative Methoden der Textanalyse, abstrakte Themen in einer Sammlung von Dokumenten zu erschließen.

Auf den ersten Blick vermutet man hinter dem Begriff des Topic Modelings, dass man einen Datensatz bestehend aus textbasierten Dokumenten durch einen Algorithmus laufen lässt. Das Resultat daraus ist im Idealfall eine Auswahl an Themen, die das Dokument charakterisieren, so dass man direkte Rückschlüsse ziehen kann.

Das Prinzip des Topic Modeling ist es jedoch, dass ein unbekanntes Thema durch eine Auswahl von für die Maschine relevanten Begriffen, eine so genannte Bag Of Words (BOW), zu charakterisieren. Das Zielthema ist zu diesem Zeitpunkt noch unbekannt, sozusagen „latent“. Das führt zu einem der gängigsten Wahrscheinlichkeitsmodelle des Text Modelings, der Latent Dirichlet Allocation (kurz LDA).

Diese fehlende Information lässt sich durch eine Auswertung der charakterisierenden Begriffe herleiten, stört den Anwender aber in der Regel nicht, da eine Sammlung von Begriffen in das Thema detaillierter aufschlüsselt als ein Überbegriff. Treten „Terme, Wörter, Beobachtungen“ in einer ähnlichen Struktur auf, so gelingt eine Klassifizierung von ähnlichen Dokumenten und ermöglicht eine solide Bildung von Themen-Clustern.

Die technische Umsetzung und Beschreibung dieser Algorithmen ist in Fachmedien sehr ausführlich vorhanden und eher theoretischer Natur. Aus Sicht der Datenanalytik bieten diese Algorithmen allerdings einen hohen Nutzen in komplexeren Analysemodellen.

Hat die altmodische Prüfung ausgedient?

Kundenzufriedenheit ist für die Unternehmen ein wichtiger Faktor für den Erfolg und es findet jeden Tag ein Austausch zwischen Unternehmen und Kunden statt. Dabei gilt es für die Unternehmen sehr aufmerksam zu sein und auf jedes Detail zu achten.

Einen ähnlichen Stellenwert nimmt der Informationsaustausch von Kreditor und Debitor ein. Für eine einwandfreie Zusammenarbeit zwischen beiden Parteien möchte der Kreditor sicher gehen, dass es zu keinen bösen Überraschungen in der weiteren Zusammenarbeit kommt. Ganz im Sinne des Know Your Customer-Prinzips werden relevante Daten vom Kunden erfasst. Häufen sich die Schadensfälle, so ist ggf. die Interne Revision eines Unternehmens vor die Aufgabe gestellt, welche prozessualen Schäden beim Know Your Customer-Prinzip erkennbar sind. Bekannte Fälle demonstrieren bildlich, wie Mitarbeiter Vorgaben umgangen – sei es bewusst oder unbewusst – und somit eine Tür für einen Betrugsfall geöffnet haben.

Untersucht man in diesem Zusammenhang auftretende Texte mit der Latent Dirichlet Allocation-Methode, so wird jedem der themengebenden Textfragment ein gewichtender Faktor zugeordnet, der die Einflussgröße auf dieses Thema beschreibt. Wird ein Thema in den vorliegenden Dokumenten mit einer ungewöhnlich hohen Gewichtung durch Begriffe beschrieben, so kann dies ein Ansatzpunkt für weitere Prüfungshandlungen sein. Es liegt nahe, dass bestimmte Sequenzen beim Rating einfach vervielfältigt wurden.

Verbesserte Latent Dirichlet Allocation-Methoden bedienen sich modernen Clustering Methoden und bestimmen die ideale Anzahl an Clustern, um damit eine wirklich relevante Themenmenge zu definieren. Befinden sich in der Auswertung von Kundenüberprüfungen nur ungewöhnlich wenige Cluster, so kann dies ein Indiz dafür sein, dass keine individuelle Prüfung durch die Fachabteilung durchgeführt wurde.

Somit können diese Informationen als Basis für mögliche Prozessschwächen oder Betrugsmuster genutzt werden. Kein Kunde gleicht dem anderen und wir sollten genauer hinsehen…

Den Anschluss nicht verpassen

Wer ausschließlich auf klassische Methoden, die auf Kennzahlen basieren setzt, riskiert es wichtige Details unerkannt zu lassen. Die Analyse durch Topic Modeling eröffnet neue Möglichkeiten und unterstützt dabei, Möglichkeiten zu entdecken und zukünftigen Schadensfällen vorzubeugen. In diesem Sinne: KYC – Know Your Customer!

Newsletter mit interessanten Beiträgen

Was gibt es Neues? Profitieren Sie von aktuellen und kostenfreien Arbeitsvorlagen, Buchartikeln, Seminarempfehlungen, Best-Practice-Ansätzen uvm. – so können Sie Ihre Arbeitsabläufe optimieren und neues Wissen in der Praxis einsetzen.

Hier geht es zur Anmeldung.

Zur Übersicht