Text-Mining – ein Ansatz zur Betrugserkennung in Buchungsbelegen

Alexander Bast

Ein bekanntes Sprichwort sagt: „Zahlen lügen nicht“. Und doch zeigen sie nie die ganze Wahrheit. Lassen Sie uns gemeinsam zwischen den Zahlen lesen und durch Textanalysen einen möglichen Betrug aufdecken.

Vogelperspektive auf eine Landschaft mit geschwungener Straße

Es gibt zahlreiche Modelle und Möglichkeiten, um betrügerische Handlungen in getätigten Buchungen eines Unternehmens festzustellen. Die meisten dieser Methoden befassen sich mit einer Analyse der angegebenen Kalkulationen und Zahlenwerten. Liegen einige dieser Werte stark außerhalb eines Zahlenbereichs, so wird jeder Prüfer schnell aufmerksam. Folgen alle Zahlenwerte korrekt der Unternehmenslogik, so kommt nur schwer der Verdacht eines Betrugs auf.

Eine Täuschung kann sich jedoch auch auf anderen Ebenen bemerkbar machen. Betrachtet man z.B. die Buchungstexte aller getätigter Buchungen, kann ein bisher unerkanntes Muster oder eine ungewöhnliche Verwendung bestimmter Buchungstexte einen Betrug geschickt verschleiern. Im Alltag begegnet man allerdings häufig so großen Datenmengen, so dass es fast unmöglich ist, diese Aufgabe mit simplen Methoden zu lösen. Die Wahl einer auf Text-Mining basierenden Methode der Betrugserkennung kann hier Abhilfe schaffen.

Was ist Text-Mining?

Als Text-Mining bezeichnet man formal einen Prozess, mit dem man aus unstrukturiertem Text numerisch relevante Kennzahlen extrahiert und damit eine Struktur bereitstellt, die sich zu einer weiteren Analyse eignet. Ein Text-Mining-System liefert dem Benutzer statistisch relevante Informationen über den Inhalt des Dokuments, die bisher verborgen geblieben sind und ermöglicht damit ein breites Spektrum an Einsatzmöglichkeiten.

Eine praktische Anwendung findet man beispielsweise in der SAP® Tabelle BKPF, die den Belegkopf für die Buchhaltung enthält. Hier wird unter dem Feld BKTXT ein Belegkopftext vermerkt und ist in diesem Fallbeispiel unsere Grundlage für eine Auswertung mit Text-Mining-Systemen. Es gibt viele Programmiersprachen, die für Text-Mining in Frage kommen, doch haben Python und R die Nase vorn, es bleibt dem Anwender aber frei sich für eine Programmiersprache zu entscheiden.

Screenshot: Tabellenexport in SAP®
Export der Tabelle BKPF im SAP®-System

Nach einem Export der Tabelle BKPF liegt uns diese als Excel- oder Textdatei vor. Eine gründliche Bereinigung der Daten ermöglicht uns schließlich die isolierte Betrachtung aller Buchungstexte. Nun steht es uns frei Buchungstexte zu aggregieren, zusammenzufassen, die absoluten und relativen Häufigkeiten zu bestimmen und Korrelationen und andere statistisch relevanten Kennzahlen zu ermitteln. Im direkten Vergleich zur Verwendung von Microsoft® Excel triumphiert das Text-Mining-System durch die beinahe vollautomatisierte Bearbeitung dieser Daten und liefert dem Anwender schnell aussagekräftige Informationen. Die Funktionalität die vorliegenden Textfragmente auf Hypothesen zu testen, ermöglicht dem Anwender ein noch breiteres Anwendungsspektrum. Sie haben also einen Verdacht? Dann lassen Sie ihn einfach überprüfen.

Indizien zur Betrugserkennung

Häuft sich eine Buchung ungewöhnlich, oder folgt eine Buchung in einer bisher unbekannten Regelmäßigkeit einer anderen Buchung, so wären dies zwei Indizien dafür, dass man einen genaueren Blick auf diese Datensätze werfen sollte. Möglicherweise wurden Buchungen vorgenommen, die bewusst mit einem falschen Buchungstext versehen wurden. Oder man findet ungewöhnliche Frequenzen in der Abfolge und kann feststellen, dass – wie so häufig – ein bestimmtes Muster benutzt wurde, um einen Betrug zu vertuschen.

Ausreißer stellen den Abschluss dieser kleinen Einführung und sind damit nicht von minderem Interesse. Beim systematischen Betrug kann diese Auswertung Buchungen finden, die in einer sehr niedrigen aber doch regelmäßigen Frequenz getätigt wurden und sich so im Verborgenen, über Jahre hinweg ein erheblicher Geldbetrag erschlichen werden konnte.

Wo heute noch Prüfer viel Arbeit in die Auswertung von textbasierten Dokumenten stecken, gab es in den letzten Jahren einen erheblichen und bisher noch wenig genutzten Fortschritt im Bereich des Text-Mining. Sich in diesen Bereich einzuarbeiten und eine Raffinesse zu entwickeln, scheint auf den ersten Blick im Vergleich zu klassischen, beispielsweise auf Microsoft® Excel basierenden Methoden, ein unverhältnismäßig hoher Aufwand. Doch kann ich Ihnen versprechen, dass es sich aus meiner Erfahrung lohnt und ich werde Ihnen in den weiteren Artikeln dieses Gebiet näherbringen. Sie werden es nicht mehr missen wollen.

Newsletter mit interessanten Beiträgen

Was gibt es Neues? Profitieren Sie von aktuellen und kostenfreien Arbeitsvorlagen, Buchartikeln, Seminarempfehlungen, Best-Practice-Ansätzen uvm. – so können Sie Ihre Arbeitsabläufe optimieren und neues Wissen in der Praxis einsetzen.

Hier geht es zur Anmeldung.

Zur Übersicht