18.04.2014 Views

Open Data

Open Data

Open Data

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Bachelorthemen III<br />

Schema-Extraktion aus Rohdaten<br />

Motivation:<br />

Die von öffentlichen Institutionen zur im Web zur Verfügung gestellten Daten liegen häufig in<br />

Rohdatenformaten ohne Schemabeschreibung, oder ohne maschinenlesbare Schemabeschreibung<br />

vor. Die automatische Weiterverarbeitung dieser Datensätze wird dadurch erschwert.<br />

Aufgabe:<br />

Wünschenswert wäre eine möglichst automatisierte Überführung von Rohdaten verschiedener<br />

Formate (CSV, XML, Excel, etc.) in relationale Datenbankschemata. Dabei ist die automatische<br />

Erkennung von Datentypen eine erste Herausforderung (trivial: Int oder String, schwerer: String<br />

oder Location). Eine weitere mögliche Ausbaustufe wäre die automatische Erkennung von<br />

möglichen „Foreign-Keys“ zwischen Datensets, etwa zwei Ortsspalten mit den selben<br />

geographischen Entitäten.<br />

Betreuer: Julian Eberius<br />

© Prof. Dr.-Ing. Wolfgang Lehner| Do-It-Yourself Analytics on <strong>Open</strong> <strong>Data</strong><br />

49

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!