Optimierung der Datenqualität im Unternehmen - we.CONECT
Optimierung der Datenqualität im Unternehmen - we.CONECT
Optimierung der Datenqualität im Unternehmen - we.CONECT
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Cleansed Data<br />
First Last G SIN Birth Date Address<br />
John Smith M 1978-12-16 V3R 2A9;BC;Surrey;14618 110 Avenue<br />
John Smith M 095242434 1978-12-16 V3R 2A9;BC;Surrey;14618 110 Avenue<br />
John Smith M 095242434 M4X 1V5;ON;Toronto;25 Linden Street<br />
Smith M 1978-11-16<br />
John Smith M 095252433 1978-11-16 L3T 7M8;ON;Markham;8500 Leslie Str.<br />
John Smith M 1978-11-16 L3T 7M8;ON;Markham;8500 Leslie Str.<br />
John Smith M 095252433 1978-11-16<br />
Jane Watson F 420347213 L3T 7M8;ON;Markham;8500 Leslie Str.<br />
Jane Watson F 420347213 1982-01-01 L3T 7M8;ON;Markham;8500 Leslie Str.<br />
Jane Smith F 420347213 1982-01-05<br />
J. Smith 420347213<br />
Abgleich<br />
Es <strong>we</strong>rden verwandte Einträge für John Smith und Jane Watson gefunden. Trotz <strong>der</strong> Ähnlichkeiten<br />
zwischen den Datensätzen sind nicht alle Informationen redundant – es gibt wirklich z<strong>we</strong>i<br />
verschiedene John Smiths. Leistungsfähige Abgleichfunktionen <strong>we</strong>rten die Daten in den<br />
einzelnen Sätzen detailliert aus und ermitteln, <strong>we</strong>lche redundant sind und <strong>we</strong>lche eigenständig.<br />
Cleansed Data<br />
First Last G SIN Birth Date Address<br />
John Smith M 1978-12-16 V3R 2A9;BC;Surrey;14618 110 Avenue<br />
John Smith M 095242434 1978-12-16 V3R 2A9;BC;Surrey;14618 110 Avenue<br />
John Smith M 095242434 M4X 1V5;ON;Toronto;25 Linden Street<br />
Golden Record<br />
First Last G SIN Birth Date Address<br />
John Smith M 095242434 1978-12-16 V3R;BC;Surrey;14618 110 Avenue<br />
Zusammenführung<br />
Durch die Zusammenführung <strong>we</strong>rden die abgest<strong>im</strong>mten Daten zu einem umfassenden Datensatz.<br />
Hier <strong>we</strong>rden die doppelten Einträge für John Smith zu einem vollständigen Datensatz vereinigt,<br />
<strong>der</strong> alle Informationen enthält. Da das Adressfeld wi<strong>der</strong>sprüchliche Daten enthielt, wurde anhand<br />
fester Regeln die häufigste Version ver<strong>we</strong>ndet. Auch Householding, eine ähnliche Technik wie<br />
die Zusammenführung, bei <strong>der</strong> verwandte Informationen von getrennten Systemen gesammelt<br />
und in einer zentralen Datenbank gespeichert <strong>we</strong>rden, fällt in diese Kategorie. Mit Householding<br />
können Firmen ähnliche Informationen etwa über Familien o<strong>der</strong> <strong>Unternehmen</strong> konsolidieren und<br />
so dem Benutzer ein vollständiges Bild bieten.<br />
5<br />
Information Buil<strong>der</strong>s