S 113 Elektronische Archivierung - Project Consult ...

S 113 Elektronische Archivierung - Project Consult ... S 113 Elektronische Archivierung - Project Consult ...

project.consult.de
von project.consult.de Mehr von diesem Publisher
24.02.2013 Aufrufe

PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH S113 Elektronische Archivierung Dr. Ulrich Kampffmeyer [Ort], [Datum] E-Book-Formate © PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 2011 / Autorenrecht: Feb-13 / Quelle: PROJECT CONSULT 2 E-Book PDF Variante für Reader • Nahezu jede Plattform und fast alle eBook- Lesegeräte haben einen PDF-Viewer • Text auf dem Bildschirm genau so anzeigen wie auf Papier, Darstellung von PDF-Dateien auf recht kleinen Bildschirmen der eBook-Geräte nicht besonders leserlich Elektronische Archivierung Dr. Ulrich Kampffmeyer PROJECT CONSULT Seminar 113 439 © PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 2011 / Autorenrecht: Feb-13 / Quelle: PROJECT CONSULT 2 ISO 28500 WARC WARC ISO 28500 Die ISO 28500 soll verhindern, dass wertvolle Informationen verschwinden, wenn sich eine Webseite verändert. Entwickelt durch ISO Technischen Komitees ISO / TC 46, Information und Dokumentation, Unterausschuss SC 4, Technische Interoperabilität • WARC ist aber nur ein Dateiformat • Effektive Verwaltung, Strukturierung und Speicherung unzähliger, angesammelter Ressourcen aus dem Internet • Erweiterung des ARC-Dateiformats, durch IIPC um Informationen und Wissen aus dem Internet, für zukünftige Generationen bereitstellen zu können • Aufzeichnung von http-request-headern, beliebig vielen Metadaten • Zuweisung von Kennungen für jede enthaltene Datei • Verwaltung von Duplikaten und migrierten Datensätzen • WARC speichert jede Art von digitalen Inhalten Elektronische Archivierung Dr. Ulrich Kampffmeyer PROJECT CONSULT Seminar 113 440 Isestraße 63 20149 Hamburg http://www.iso.org/iso/pressrelease.htm?refid=Ref1255 www.PROJECT-CONSULT.com © PROJECT CONSULT 2013 220 18.06.2012

PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH S113 Elektronische Archivierung Dr. Ulrich Kampffmeyer [Ort], [Datum] WARC – Beispiel und Kritik © PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 2011 / Autorenrecht: Feb-13 / Quelle: PROJECT CONSULT 2 Das Problem an WARC liegt darin, dass die eigentlichen Inhalte weiterhin genauso vorliegen, wie sie auf der Webseite ursprünglich vorhanden waren. Hier ein Beispiel aus der Spezifikation selbst (ISO 28500:2009): WARC/1.0 WARC-Type: response WARC-Target-URI: http://www.archive.org/images/logoc.jpg WARC-Warcinfo-ID: WARC-Date: 2006-09-19T17:20:24Z WARC-Block-Digest: sha1:UZY6ND6CCHXETFVJD2MSS7ZENMWF7KQ2 WARC-Payload- Digest: sha1:CCHXETFVJD2MUZY6ND6SS7ZENMWF7KQ2 WARC-IP-Address: 207.241.233.58 WARC-Record-ID: Content-Type: application/http;msgtype=response WARC-Identified-Payload-Type: image/jpeg Content-Length: 1902 HTTP/1.1 200 OK Date: Tue, 19 Sep 2006 17:18:40 GMT Server: Apache/2.0.54 (Ubuntu) Last-Modified: Mon, 16 Jun 2003 22:28:51 GMT ETag: "3e45-67e-2ed02ec0" Accept-Ranges: bytes Content-Length: 1662 Connection: close Content-Type: image/jpeg [image/jpeg binary data here] < PROBLEM Elektronische Archivierung Dr. Ulrich Kampffmeyer PROJECT CONSULT Seminar 113 441 WARC – Beispiel und Kritik © PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 2011 / Autorenrecht: Feb-13 / Quelle: PROJECT CONSULT 2 • Der Inhalt ist weiterhin eine normale JPEG-Datei, d.h. auch mit WARC wird das Format-Problem nicht gelöst, sondern es wird einzig ein Container über die Daten gestülpt. • Das löst zwar das Problem, der standardisierten Speicherung von HTTP-Informationen und Metadaten zusammen mit einem Objekt in einem WARC-File, nicht aber das eigentliche Kernproblem, dass die Webformate selbst (Videos, CSS, Javascripts, Bildformate, Flash, etc.) nicht langzeittauglich sind. • Ein WARC-Reader ist sehr einfach zu schreiben, aber für die Darstellung der Inhalte wieder auf eine normale Rendering- Engine angewiesen. • Mehr dazu: Diskussion auf XING in der Gruppe Information & Document Management http://bit.ly/srUTkX Elektronische Archivierung Dr. Ulrich Kampffmeyer PROJECT CONSULT Seminar 113 442 Isestraße 63 20149 Hamburg www.PROJECT-CONSULT.com © PROJECT CONSULT 2013 221 18.06.2012

PROJECT CONSULT Unternehmensberatung<br />

Dr. Ulrich Kampffmeyer GmbH<br />

S<strong>113</strong> <strong>Elektronische</strong> <strong>Archivierung</strong><br />

Dr. Ulrich Kampffmeyer<br />

[Ort], [Datum]<br />

WARC – Beispiel und Kritik<br />

© PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 2011 / Autorenrecht: Feb-13 / Quelle: PROJECT CONSULT 2<br />

Das Problem an WARC liegt darin, dass die eigentlichen Inhalte<br />

weiterhin genauso vorliegen, wie sie auf der Webseite<br />

ursprünglich vorhanden waren. Hier ein Beispiel aus der<br />

Spezifikation selbst (ISO 28500:2009):<br />

WARC/1.0<br />

WARC-Type: response<br />

WARC-Target-URI: http://www.archive.org/images/logoc.jpg WARC-Warcinfo-ID:<br />

WARC-Date: 2006-09-19T17:20:24Z<br />

WARC-Block-Digest: sha1:UZY6ND6CCHXETFVJD2MSS7ZENMWF7KQ2 WARC-Payload-<br />

Digest: sha1:CCHXETFVJD2MUZY6ND6SS7ZENMWF7KQ2 WARC-IP-Address:<br />

207.241.233.58<br />

WARC-Record-ID: Content-Type:<br />

application/http;msgtype=response WARC-Identified-Payload-Type: image/jpeg<br />

Content-Length: 1902<br />

HTTP/1.1 200 OK<br />

Date: Tue, 19 Sep 2006 17:18:40 GMT<br />

Server: Apache/2.0.54 (Ubuntu)<br />

Last-Modified: Mon, 16 Jun 2003 22:28:51 GMT<br />

ETag: "3e45-67e-2ed02ec0"<br />

Accept-Ranges: bytes<br />

Content-Length: 1662<br />

Connection: close<br />

Content-Type: image/jpeg<br />

[image/jpeg binary data here] < PROBLEM<br />

<strong>Elektronische</strong> <strong>Archivierung</strong> Dr. Ulrich Kampffmeyer PROJECT CONSULT Seminar <strong>113</strong><br />

441<br />

WARC – Beispiel und Kritik<br />

© PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 2011 / Autorenrecht: Feb-13 / Quelle: PROJECT CONSULT 2<br />

• Der Inhalt ist weiterhin eine normale JPEG-Datei, d.h.<br />

auch mit WARC wird das Format-Problem nicht gelöst,<br />

sondern es wird einzig ein Container über die Daten<br />

gestülpt.<br />

• Das löst zwar das Problem, der standardisierten<br />

Speicherung von HTTP-Informationen und Metadaten<br />

zusammen mit einem Objekt in einem WARC-File, nicht<br />

aber das eigentliche Kernproblem, dass die Webformate<br />

selbst (Videos, CSS, Javascripts, Bildformate, Flash,<br />

etc.) nicht langzeittauglich sind.<br />

• Ein WARC-Reader ist sehr einfach zu schreiben, aber für die<br />

Darstellung der Inhalte wieder auf eine normale Rendering-<br />

Engine angewiesen.<br />

• Mehr dazu: Diskussion auf XING in der Gruppe Information &<br />

Document Management http://bit.ly/srUTkX<br />

<strong>Elektronische</strong> <strong>Archivierung</strong> Dr. Ulrich Kampffmeyer PROJECT CONSULT Seminar <strong>113</strong><br />

442<br />

Isestraße 63<br />

20149 Hamburg<br />

www.PROJECT-CONSULT.com<br />

© PROJECT CONSULT 2013<br />

221<br />

18.06.2012

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!