09.12.2012 Aufrufe

Leibniztag - edoc-Server der BBAW - Berlin-Brandenburgische ...

Leibniztag - edoc-Server der BBAW - Berlin-Brandenburgische ...

Leibniztag - edoc-Server der BBAW - Berlin-Brandenburgische ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

vor. Bisher konnten durch das OCR-Nachkorrekturverfahren 127 Bände in das XML-<br />

TEI-Format überführt werden, die letzten Nachkorrekturen wurden für ca. 60 dieser<br />

Bände vorgenommen.<br />

Seit März 2009 werden auch alle für das Double-Keying bestimmten Bände durch<br />

das OCR-Verfahren geleitet, mit dem Ziel, die zeichengenauen Koordinaten für die<br />

Text-Bild-Verknüpfung zu erhalten. Bislang haben 130.000 von 150.000 Seiten dieses<br />

Verfahren durchlaufen.<br />

Zweiter Schwerpunkt im Berichtszeitraum war die Weiterentwicklung und Anpassung<br />

computerlinguistischer Technologien an die Bedürfnisse des DTA. Es wurde ein<br />

Verfahren entwickelt, das Texte, die in nicht normierter Orthographie vorliegen, auf<br />

die mo<strong>der</strong>ne Schreibweise zurückführt (‚� eyl‘ -> ‚Teil‘). Damit können auch ältere<br />

Texte mit den computerlinguistischen Verfahren, die auch im DWDS angewendet<br />

werden, analysiert werden. Die Normalisierung ist <strong>der</strong>zeit bereits in die Suchfunktion<br />

des DTA integriert und steht als Webservice bereit. Die darauf au� auenden Annotationen<br />

(Lemmatisierung, morphologische Analyse) können automatisiert durchgeführt<br />

werden, sobald die <strong>der</strong>zeit in Entwicklung be� ndliche Anbindung an das DTA fertig<br />

gestellt ist. Dies ist für Frühjahr 2010 anvisiert, so dass alle bis dahin vorliegenden und<br />

die 2010 neu in das DTA zu integrierenden Texte eine linguistische Grundannotation<br />

erhalten werden.<br />

So� wareentwicklung und Webapplikation<br />

Die weitere So� wareentwicklung konzentrierte sich zum einen auf die Entwicklung<br />

<strong>der</strong> Konvertierungsroutinen für die im Double-Keying-Verfahren manuell erfassten<br />

Volltexte sowie für die per OCR erkannten und nachkorrigierten Volltexte in das<br />

XML-TEI-Zielformat. Die Erstellung <strong>der</strong> notwendigen Skripte wurde im Juli 2009<br />

abgeschlossen. Kleinere Ergänzungen und Verbesserungen werden laufend eingep�<br />

egt.<br />

Die öff entlichkeitswirksamste Maßnahme des Jahres 2009 war die Entwicklung<br />

<strong>der</strong> Webplattform des DTA. Die Website ermöglicht die Anzeige <strong>der</strong> Bilddigitalisate<br />

und Volltexte und stellt komplexe Suchmöglichkeiten zur Verfügung. Am 1. September<br />

2009 ist das DTA mit den ersten 113 Bänden unter http://www.deutsches-textarchiv.de<br />

online gegangen, Ende Januar 2010 sind knapp 300 Bücher online im DTA<br />

verfügbar.<br />

Publikationen und Vorträge<br />

Das DTA konnte in den vergangenen Monaten auf folgenden Veranstaltungen <strong>der</strong><br />

Akademie- und Fachöff entlichkeit präsentiert werden:<br />

Duntze, Oliver/Fritze, Christiane, „Deutsches Textarchiv kodieren – denkbare Perspektiven<br />

kumulativen Arbeitens“, D-SPIN-Workshop „Kumulatives Arbeiten<br />

322 | Berichte <strong>der</strong> Projekte und Initiativen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!