Doppelte Datensätze ermitteln mittels Fuzzy Lookup

Maria Drießen

Sie werden das Problem kennen und auch in meiner Projektarbeit bei addResults begegnet es mir ständig: doppelte Datensätze gehören zur Normalität bei der Arbeit mit Datenbanken. Kreditoren tauchen doppelt auf und verursachen Probleme oder wachsen zu einer großen Menge Datenmüll an. Durch andere Schreibweisen oder auch Tippfehler sind die Duplikate allerdings oft sehr schwer zu identifizieren.

Um dieses Problem zu lösen, nutze ich bei addResults ein kleines kostenloses Microsoft® Add-In für Excel: „Fuzzy Lookup“. Zur Ermittlung der doppelten Datensätze behilft sich das Add-In mit der Levenshtein-Distanz. Diese Distanz errechnet sich aus der minimalen Anzahl von Einfüge-, Lösch- und Ersetz-Optionen, die benötigt wird, um eine Zeichenkette in eine zweite umzuwandeln. Wenn zwei Datensätze komplett identisch sind, ist die Levenshtein-Distanz null. Je unterschiedlicher die Datensätze sind, desto größer wird die Distanz.

Fuzzy Lookup anwenden

Bei der Erstanwendung muss das Add-In auf der Website von Microsoft heruntergeladen werden. Falls Ihre IT sich an dieser Stelle quer stellt, weil Sie auf Ihrem Firmenrechner keine Downloads vornehmen dürfen, probieren Sie den Vorgang doch zunächst auf Ihrem privaten Computer aus. So können Sie Ihre IT/Ihren Chef im Anschluss von Ihren Erfahrungen mit dem Tool berichten und für eine Freischaltung des Downloads überzeugen. Das Tool ist momentan nur in englischer Sprache verfügbar. Nach erfolgreicher Installation sollte es als weiterer Reiter innerhalb der Toolbar der Excel-Datei erscheinen.

Reiter in Excel zur Installation des Add-Ins Fuzzy Lookup
Fuzzy Lookup Add-In in Excel

Klickt man auf das Feld „Fuzzy Lookup“, erscheint ein Bereich auf der rechten Seite des Excel-Blattes. Dort müssen zwei Tabellen („Left Table“ und „Right Table“) zum Vergleich ausgewählt werden. Hierbei gibt es auch die Möglichkeit die gleichen Tabellen zu vergleichen, um Duplikate innerhalb einer Tabelle zu identifizieren.

Screenshot: Tabellenvergleich mit Fuzzy Lookup in Excel
Tabellen in Excel vergleichen mit Fuzzy Lookup

Wichtig: Um eine Tabelle auswählen zu können, müssen die Daten als Tabelle in Excel definiert werden. Dies kann eingestellt werden, indem der gewünschte Tabellenbereich markiert und über den Reiter Einfügen und dann Tabelle1 ausgewählt wird. Die Tabelle sollte zur Vereinfachung der nachfolgenden Schritte mit Überschriften übernommen werden.

Screenshot: Tabellen in Excel erstellen
Tabellen erstellen

Tabellen vergleichen

Im nächsten Schritt („Left Columns“ und „Right Columns“) werden die Spalten ausgewählt, die gegenübergestellt werden sollen. Hierbei können auch mehrere Spalten innerhalb einer Tabelle ausgewählt werden, um z. B. in unserem gewählten Beispiel neben dem Debitorennamen auch weitere Merkmale, wie z. B. den Standort, zu vergleichen. Im Bereich „Match Columns“ können mehrere Vergleichsvarianten selektiert werden, z. B. möchte man anfangs nur einzelne Spalten miteinander vergleichen und anschließend alle zusammen.

Im vorletzten Schritt können die Spalten ausgewählt werden, die Sie am Ende innerhalb der Auswertung sehen möchten. Bevor Sie den Knopf „Go“ drücken, muss die Trefferanzahl eingestellt werden und anschließend der Übereinstimmungsgrad, der ermittelt werden soll.

Wenn alle Bereiche eingestellt sind, kann das Tool die Auswertung beginnen. Es ist wichtig, dass der Cursor bei dem Klick „Go“ in einem neuen Arbeitsblatt im Feld A1 steht. An dieser Stelle wird das Ergebnis der Auswertung abgelegt.

Ein einfaches Beispiel finden Sie in unserer Excel-Datei „addResults – FuzzyLookup“, welches die nötigen Schritte komprimiert noch einmal darstellt und ein Beispiel zum selber testen beinhaltet:

Newsletter mit interessanten Beiträgen

Was gibt es Neues? Profitieren Sie von aktuellen und kostenfreien Arbeitsvorlagen, Buchartikeln, Seminarempfehlungen, Best-Practice-Ansätzen uvm. – so können Sie Ihre Arbeitsabläufe optimieren und neues Wissen in der Praxis einsetzen.

Hier geht es zur Anmeldung.

Zur Übersicht