09.12.2012 Aufrufe

Leibniztag - edoc-Server der BBAW - Berlin-Brandenburgische ...

Leibniztag - edoc-Server der BBAW - Berlin-Brandenburgische ...

Leibniztag - edoc-Server der BBAW - Berlin-Brandenburgische ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Bericht über die Arbeitsergebnisse 2009<br />

Bilddigitalisierung<br />

Die Bilddigitalisierung konnte im Jahr 2009 vollständig abgeschlossen werden. Ergänzend<br />

zu den Kooperationen mit großen <strong>Berlin</strong>er Bibliotheken (SBB PK, ZLB;<br />

siehe Bericht im Jahrbuch 2008) wurden 2009 durch das an die Staats- und Universitätsbibliothek<br />

Göttingen angeglie<strong>der</strong>te Göttinger Digitalisierungszentrum (GDZ)<br />

Bilddigitalisate angefertigt. Insgesamt wurden knapp 260.000 Bilddigitalisate erstellt<br />

und etwa 730 Textbände vollständig digitalisiert. Da jeweils <strong>der</strong> gesamte Band, inkl.<br />

Einband, Vor- und Nachstücken sowie den für die Volltexterstellung irrelevanten Abbildungen,<br />

digitalisiert wird, müssen ca. 220.000 Seiten als Volltexte erfasst werden.<br />

Volltexterstellung und linguistische Annotierung<br />

Die Volltexterfassung bildete einen <strong>der</strong> drei Schwerpunkte <strong>der</strong> Projektarbeit im Berichtszeitraum.<br />

Der größere Teil <strong>der</strong> Texte (mindestens 150.000 Textseiten) wird im<br />

Double-Keying-Verfahren manuell erfasst, für einen kleineren Teil überwiegend<br />

einfach strukturierter Texte (ca. 70.000 Textseiten) wird eine OCR-So� ware mit anschließen<strong>der</strong><br />

manueller Nachkorrektur eingesetzt.<br />

Die vor <strong>der</strong> Volltexterfassung anfallende Vorstrukturierung <strong>der</strong> Bilddigitalisate<br />

(Kennzeichnung von Überschri� en, typographischen Beson<strong>der</strong>heiten u. ä.) konnte<br />

in diesem Jahr abgeschlossen werden.<br />

Im Double-Keying-Verfahren wurden bis Ende 2009 knapp 140.000 Seiten (375<br />

Bände) in einem vorstrukturierten Volltextformat erfasst, damit sind insgesamt 93 %<br />

des vereinbarten Gesamtvolumens abgeschlossen. Die mit dem für das Double-Keying<br />

beau� ragten Dienstleister vereinbarte Arbeitsgeschwindigkeit ist eingehalten<br />

worden, so dass bis Ende Februar 2010 mit dem Abschluss <strong>der</strong> manuellen Volltexterfassung<br />

gerechnet werden kann.<br />

Die nach <strong>der</strong> manuellen Texterfassung anfallenden Konvertierungsarbeiten bedürfen<br />

einer weiteren Vorbereitung (manuell vertiefende Strukturierungen, Konkordanz<br />

<strong>der</strong> Bilddigitalisate zur Paginierung <strong>der</strong> Originalvorlagen). Im Mai 2009 konnte mit<br />

<strong>der</strong> Konvertierung <strong>der</strong> Volltexte in das Zielformat XML-TEI-P5 entsprechend dem<br />

DTA-XML-Schema nach den Richtlinien <strong>der</strong> Text Encoding Initiative (TEI) begonnen<br />

werden. Seither wurden 300 Bände für die Konvertierung vorbereitet. 250 <strong>der</strong><br />

manuell erfassten Bände liegen im � nalen XML-TEI-Format vor.<br />

Von den per OCR erkannten Seiten haben 2009 ca. 25.000 ein doppeltes Nachkorrekturverfahren<br />

durchlaufen. Die OCR-Nachkorrektur von 70.000 Seiten konnte<br />

damit abgeschlossen werden. Der sich daran anschließende Vergleich <strong>der</strong> beiden<br />

Korrekturfassungen fällt aufwendiger aus als geplant. Er konnte im Berichtsjahr für<br />

29.000 Seiten durchgeführt werden, insgesamt liegen damit 35.000 von 70.000 Seiten<br />

Deutsches Textarchiv<br />

|<br />

321

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!