Archiving websites Archivierungskonzept für das Intranet der Dresdner
Archiving websites Archivierungskonzept für das Intranet der Dresdner Archiving websites Archivierungskonzept für das Intranet der Dresdner
Sicherung und Erhaltung des Intranet-Archivs software change and still maintain the compatibility of the object with the new generation of technology. ”159 Die Migration stellt aber für alle bisherigen Projekte die einzige umsetzbare Archivierungsstrategie dar. Zwar gibt es noch das „Refreshing“, bei dem die Informationen auf ein neues Medium kopiert werden. Die Informationen sind aber nur so lange lesbar, bis die Hard- und Software nicht mehr zur Verfügung steht. „Refreshing“ kann nur eine Lösung für kurze Zeit sein 160 . 9.3.1 Migration von webbasierten Aufzeichnungen Wenn der Datentyp veraltet oder nicht für die Archivierung geeignet erscheint, muss es auf einen neuen, equivalenten Datentyp konvertiert werden. Die Migration muss bei der hohen Anzahl von Dateien, die zu einem gespiegelten Intranetauftritt gehören, automatisch für jede einzelne Datei durchgeführt werden. Um eine vollständige Webseite zu konvertieren, muss nicht nur die Dokumentenbeschreibungssprache HTML, sondern auch alle eingebunden Text-, Grafik- und Videodateien sowie Style Sheets und Skriptsprachen migriert werden. Zum Beispiel: HTML 3.2 HTML 4.0 XHTML 1.0, CSS 1.0 CSS 2.0 XSL 1.0, Java 1.0 Java 2.0. Theoretisch wird in den meisten Fällen der Inhalt konvertiert. Es kann aber auch die Darstellung bzw. das Ergebnis konvertiert werden 161 . Die Migration der Dateien sollte so oft wie nötig durchgeführt werden 162 . Dabei ist zu achten, dass die originalen Dateien immer erhalten bleiben, da eine Migration häufig mit Informationsverlusten verbunden ist. Zum Ablauf der Migration ist ein Protokoll anzufertigen und mit in dem Verzeichnis des durchgeführten Spiegelungsprojektes abzulegen ist. 159 Task Force, Preserving Information, 1996, S. 5. 160 „Refreshing thus cannot serve as a general solution for preserving digital information.“ (Ebd., S. 4) 161 Vgl. Arms, Minerva, 2001. 162 „Web-based records and their associated metadata should be migrated as often as necessary to avoid technological obsolescence for as long a the records are required.” (NAA, Guidelines, 2001, S. 33) 82
Sicherung und Erhaltung des Intranet-Archivs 9.3.2 HTML-XML-Konverter Die Umwandlung von HTML 4.01 zu XHTML 1.0 ist theoretisch einfach durchzuführen, da XHTML ja bekanntlich eine Umformulierung von HTML 4.01 ist. Um Probleme bei der Validierung zu XHTML zu vermeiden, müssen die HTML-Dokumente gefiltert und korrigiert werden, da sonst viele Einbettungsfehler und Probleme bei XHTML auftreten können. Für die eigentliche Umwandlung existieren bereits automatische Konverter-Tools, die über das Internet aufrufbar sind. Sie enthalten Tidy 163 , eine Anwendung, die HTML-Codes überprüft und korrigiert wird. Darüber können jedoch nur einzelne Webseiten korrigiert und transformiert werden. Auf Grund der hohen Anzahl von HTML-Dateien, die nach einer Spiegelung vorliegen, ist ein Konverter erforderlich, der automatisch mehrere HTML-Dateien korrigiert und in XHTML umwandelt. Herr Oehler, Mitarbeiter der Dresdner Bank - Bereich STA Software- Technologie und –Architektur für die Allianz Gruppe Deutschland – Content Management hat einen HTML-XML-Konverter im Auftrag der Allianz entwickelt, der diese Anforderungen erfüllt. Damit ist es möglich, ein Verzeichnis mit mehreren unkorrekten HTML-Dateien in reine XML- Dateien umzuwandeln. Der Prozess kann zwischen wenigen Sekunden bis ein paar Minuten dauern. Das hängt von der Anzahl der HTML-Dateien im Verzeichnis und dem Grad der Fehler in HTML ab. Ablauf Mit Hilfe von Batch-Dateien werden auf DOS-Ebene die einzelnen Arbeitsschritte nacheinander durchgeführt 164 . Bevor der Konvertierungsablauf beginnt, werden die Dateien in einem Verzeichnis abgelegt, das in den folgenden Schritten immer als Gesamtheit betrachtet wird. Es werden ferner Verzeichnisse und Protokolldateien für die Ergebnisse angelegt. Im ersten Schritt wird der HTML-Code der Dateien gefiltert, um nicht 100%ige korrekte HTML-Codes auf die Anwendung von Tidy vorzubereiten. Dazu gehören die Kleinsetzung von HTML-Tags sowie die Entfernung definierter Tags. An dieser Stelle tritt der 163 Tidy: http://www.w3.org/People/Raggett/tidy/ 83
- Seite 37 und 38: Ablauf der Archivierung 1. Datenexp
- Seite 39 und 40: Ablauf der Archivierung definierten
- Seite 41 und 42: Ablauf der Archivierung XML-Dokumen
- Seite 43 und 44: Ablauf der Archivierung Speicherkap
- Seite 45 und 46: Die Bewertung 7. Die Bewertung Nach
- Seite 47 und 48: Die Bewertung deren Ausgaben vollst
- Seite 49 und 50: Die Bewertung goals of the digital
- Seite 51 und 52: Die Bewertung producing it and what
- Seite 53 und 54: Die Bewertung Im Unterschied zum ar
- Seite 55 und 56: Die Bewertung im Blick der Öffentl
- Seite 57 und 58: Die Bewertung dynamischen und inter
- Seite 59 und 60: Die Bewertung jedoch nicht aus, nur
- Seite 61 und 62: Die Bewertung 5. Aggregierungsgrad
- Seite 63 und 64: Die Bewertung Interesse für das Un
- Seite 65 und 66: Die Bewertung zum Zeitpunkt der Spi
- Seite 67 und 68: Die Bewertung Denn eine Navigation
- Seite 69 und 70: Die Bewertung Innerhalb der gespieg
- Seite 71 und 72: Die Bewertung kostenintensiv wird u
- Seite 73 und 74: Die Spiegelung video files. Ignorin
- Seite 75 und 76: Die Spiegelung 8.2 HTTrack HTTrack
- Seite 77 und 78: Die Spiegelung 8.2.2 Fazit Trotz ve
- Seite 79 und 80: Die Spiegelung Es wurde bereits erw
- Seite 81 und 82: Sicherung und Erhaltung des Intrane
- Seite 83 und 84: Sicherung und Erhaltung des Intrane
- Seite 85 und 86: Sicherung und Erhaltung des Intrane
- Seite 87: Sicherung und Erhaltung des Intrane
- Seite 91 und 92: Sicherung und Erhaltung des Intrane
- Seite 93 und 94: Zusammenfassung 7. Brennen der Date
- Seite 95 und 96: Zusammenfassung 10.2. Fazit - Oblig
- Seite 97 und 98: Frame Ein abgetrennter Bereich auf
- Seite 99 und 100: Literatur- und Quellenverzeichnis (
- Seite 101 und 102: Lixfeld, Dirk [zit. Lixfeld, brain,
- Seite 103 und 104: Stadsarchief Antwerpen: Metadatasch
- Seite 105 und 106: 99 Tab. 1: Archiving websites - Pro
- Seite 107 und 108: 101 NWA (Nordic Web Archive) 11/200
- Seite 109 und 110: 103 Private Kunden und Geschäftsku
- Seite 111 und 112: 105 Abb. 2: Das Intranet der Dresdn
- Seite 113 und 114: 107 Abb. 4: Das Intranet der Dresde
- Seite 115 und 116: Web-TV - Archiv „Archiv“ Diskus
- Seite 117 und 118: Abb. 9: Meta-Tags im Styleguide 2.1
- Seite 119 und 120: 113 Abb. 11: Archivierungsablauf f
- Seite 121 und 122: Abb.13: Beispiele für die Online-B
- Seite 123 und 124: Abb. 15: Faktoren für die Risikoan
- Seite 125 und 126: Gesellschaftspolitisches Engagement
- Seite 127 und 128: Anzeigen (*pdf, *mpg-Dateien), Bild
- Seite 129 und 130: 123 Abb. 19: Teleport Pro - Screens
- Seite 131 und 132: 125 Abb. 21: Das Intranet der Dresd
- Seite 133: 127 [Druckvorlage] Abb. 23: Der Abl
Sicherung und Erhaltung des <strong>Intranet</strong>-Archivs<br />
software change and still maintain the compatibility of the object<br />
with the new generation of technology. ”159<br />
Die Migration stellt aber <strong>für</strong> alle bisherigen Projekte die einzige umsetzbare<br />
Archivierungsstrategie dar. Zwar gibt es noch <strong>das</strong> „Refreshing“, bei dem die<br />
Informationen auf ein neues Medium kopiert werden. Die Informationen<br />
sind aber nur so lange lesbar, bis die Hard- und Software nicht mehr zur<br />
Verfügung steht. „Refreshing“ kann nur eine Lösung <strong>für</strong> kurze Zeit sein 160 .<br />
9.3.1 Migration von webbasierten Aufzeichnungen<br />
Wenn <strong>der</strong> Datentyp veraltet o<strong>der</strong> nicht <strong>für</strong> die Archivierung geeignet<br />
erscheint, muss es auf einen neuen, equivalenten Datentyp konvertiert<br />
werden. Die Migration muss bei <strong>der</strong> hohen Anzahl von Dateien, die zu<br />
einem gespiegelten <strong>Intranet</strong>auftritt gehören, automatisch <strong>für</strong> jede einzelne<br />
Datei durchgeführt werden. Um eine vollständige Webseite zu konvertieren,<br />
muss nicht nur die Dokumentenbeschreibungssprache HTML, son<strong>der</strong>n auch<br />
alle eingebunden Text-, Grafik- und Videodateien sowie Style Sheets und<br />
Skriptsprachen migriert werden.<br />
Zum Beispiel: HTML 3.2 HTML 4.0 XHTML 1.0, CSS 1.0 CSS 2.0 XSL<br />
1.0, Java 1.0 Java 2.0.<br />
Theoretisch wird in den meisten Fällen <strong>der</strong> Inhalt konvertiert. Es kann aber<br />
auch die Darstellung bzw. <strong>das</strong> Ergebnis konvertiert werden 161 .<br />
Die Migration <strong>der</strong> Dateien sollte so oft wie nötig durchgeführt werden 162 .<br />
Dabei ist zu achten, <strong>das</strong>s die originalen Dateien immer erhalten bleiben, da<br />
eine Migration häufig mit Informationsverlusten verbunden ist.<br />
Zum Ablauf <strong>der</strong> Migration ist ein Protokoll anzufertigen und mit in dem<br />
Verzeichnis des durchgeführten Spiegelungsprojektes abzulegen ist.<br />
159<br />
Task Force, Preserving Information, 1996, S. 5.<br />
160<br />
„Refreshing thus cannot serve as a general solution for preserving digital information.“<br />
(Ebd., S. 4)<br />
161<br />
Vgl. Arms, Minerva, 2001.<br />
162<br />
„Web-based records and their associated metadata should be migrated as often as<br />
necessary to avoid technological obsolescence for as long a the records are required.”<br />
(NAA, Guidelines, 2001, S. 33)<br />
82