Open Data
Open Data
Open Data
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Bachelorthemen III<br />
Schema-Extraktion aus Rohdaten<br />
Motivation:<br />
Die von öffentlichen Institutionen zur im Web zur Verfügung gestellten Daten liegen häufig in<br />
Rohdatenformaten ohne Schemabeschreibung, oder ohne maschinenlesbare Schemabeschreibung<br />
vor. Die automatische Weiterverarbeitung dieser Datensätze wird dadurch erschwert.<br />
Aufgabe:<br />
Wünschenswert wäre eine möglichst automatisierte Überführung von Rohdaten verschiedener<br />
Formate (CSV, XML, Excel, etc.) in relationale Datenbankschemata. Dabei ist die automatische<br />
Erkennung von Datentypen eine erste Herausforderung (trivial: Int oder String, schwerer: String<br />
oder Location). Eine weitere mögliche Ausbaustufe wäre die automatische Erkennung von<br />
möglichen „Foreign-Keys“ zwischen Datensets, etwa zwei Ortsspalten mit den selben<br />
geographischen Entitäten.<br />
Betreuer: Julian Eberius<br />
© Prof. Dr.-Ing. Wolfgang Lehner| Do-It-Yourself Analytics on <strong>Open</strong> <strong>Data</strong><br />
49