Keywords: Adressqualität, Datenqualität, Data Quality, Adressen, Adressdatenbank, CRM, Dubletten, Dublettenprüfung, Dublettenbereinigung, Verschmelzung, Trennschärfe, Software.

Dublettenbereinigung in Adressdateien

Die Prüfung und Bereinigung von Adressdateien (z. B. CSV, Excel, Access) oder Datenbanktabellen (z. B. Microsoft SQL Server, Oracle) erfolgt in drei Schritten:

  • Im ersten Schritt werden Dublettenkandidaten ermittelt. Dies erfolgt durch Fuzzyfizierung der Adressen.
  • Im zweiten Schritt werden die Dublettenkandidaten zu Gruppen zusammengefasst und gegeneinander verglichen. Es wird geprüft, ob es sich tatsächlich um Dubletten handelt oder doch nur um einzelne Adressen (Singles).
  • Im dritten Schritt werden die Dublettengruppen bereinigt. q.address unterstützt zwei Verfahren:
  • Selektion: Es wird nach bestimmten Regeln eine Adresse ausgewählt, die übrigen Adressen werden aus dem Bestand eliminiert. Das Problem: Zusammen mit den eliminierten Adressen gehen auch alle in diesen Adressen enthaltenen Informationen verloren. Zum Beispiel könnte in der überlebenden, selektierten Adresse der Vorname leer sein, während er in den eliminierten Adressen vorliegt. Der Vorname ginge verloren. Dasselbe gilt für Telefonnummern, E-Mail- und Internetadressen, Marketinginformationen etc.
  • Verschmelzung: Bei der Verschmelzung werden die Informationen aus allen Adressen der Dublettengruppe gesammelt und nach bestimmten Regeln in einer Ergebnisadresse zusammengeführt. Der Verlust von Informationen wird auf diese Weise vermieden.  mehr…

Wenn Adresslisten für ein Mailing vorbereitet werden, können die Verarbeitungsergebnisse in der Regel ohne weitere Nachbearbeitung sofort eingesetzt werden.

Wenn die Adressen aus der Adressdatenbank eines CRM-, Vertriebs- oder ERP-Systems bereinigt werden sollen (sog. „Grundbereinigung“), geht die Arbeit oft erst los: Die Ergebnisse sind in die Datenbank zu laden und es ist eine Lösung für den Umgang mit den Dubletten-Adressen zu finden. Denn Dublettenadressen können regelmäßig nicht einfach als gelöscht markiert oder gleich ganz entfernt werden, weil an diesen Adressen weitere Informationen hängen: Angebote, Rechnungen, Vertriebsinformationen, und ggf. Kontaktpersonen, an denen wiederum eigene Datensätze hängen können.

Verwandte Aufgabenstellungen

Die Suche doppelter Adressen (Dubletten) ist eine Kerntechnologie für eine große Zahl verwandter Aufgabenstellungen:

  • Suche und Entfernung doppelter Adressen (= klassische Dublettenbereinigung)
  • Dublettenfreie Zusammenführung mehrerer Adressbestände
  • Beispiele: Verschiedene Unternehmen einer Unternehmensgruppe, Abteilungen, Fachbereiche, Anwendungen verwalten jeweils eigene Adressbestände, die in einem gemeinsamem CRM-System zusammengeführt werden sollen
  • Filterungen: Positiv- und Negativabgleiche
  • Beispiele: Eliminierung von Nixie– und Robinson-Adressen oder Adressen aus Sperrlisten (z. B. zahlungsunwillige Kunden)
  • Adressaktualisierungen (durch Abgleich gegen die Umzugsdatei u.ä.)
  • Adressanreicherung (durch Abgleich gegen Referenzbestände, etwa Firmendatenbanken zur Übernahme von Marketingdaten u.ä.)
  • Synchronisierung verschiedener Adresssysteme, etwa der Debitoren im Rechnungswesen (ERP) und der Adressen im vorgelagerten CRM-System.

Produkte

Die Produktbezeichnung für das Modul Dublettenprüfung ist „DublettenCheck“ („DC“). Der DublettenCheck (zur Bereinigung von Adressdateien) ist verfügbar in:

QADDRESS-LOGO-blue