23.11.2013 Aufrufe

Prof. Dr. Klaus-Dirk Schmitz - tekom

Prof. Dr. Klaus-Dirk Schmitz - tekom

Prof. Dr. Klaus-Dirk Schmitz - tekom

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

TBX – ein Standard für den<br />

Austausch terminologischer Daten:<br />

Anforderungen, Probleme, Verbesserungen<br />

<strong>tekom</strong> Jahrestagung 2012<br />

23.-25. November 2012 - Wiesbaden<br />

<strong>Prof</strong>. <strong>Dr</strong>. <strong>Klaus</strong>-<strong>Dirk</strong> <strong>Schmitz</strong><br />

Fachhochschule Köln - Fakultät 03 - ITMK<br />

klaus.schmitz@fh-koeln.de


Terminologieaustausch<br />

• Konsistente und zuverlässige Terminologiearbeit<br />

ist zeitaufwendig und kostenintensiv!<br />

Warum nicht existierende Terminologie nutzen?<br />

• Zusammenarbeit erfordert Bereitstellung und<br />

gemeinsame Nutzung von Terminologie!<br />

Warum nicht Terminologie austauschen?<br />

• Systemwechsel und Data Sharing erfordert<br />

Datenaustausch zwischen den Systemen!<br />

Warum nicht Terminologie wiederverwenden?<br />

2 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch<br />

• Übernahme von Terminologie(beständen)<br />

• Import zur Übernahme aus anderen TMS<br />

• Import zur Übernahme aus anderen Anwendungen<br />

(MÜ-Wörterbücher, Term-Extraktion, CMS, SAP etc.)<br />

• Import zur Übernahme aus Sammlungen (z.B. Web)<br />

• Dabei: Harmonisierung mit existierenden Einträgen<br />

• Weitergabe von Terminologie(beständen)<br />

• Export zur Weitergabe (an Partner)<br />

• Export zur drucktechnischen Aufbereitung oder Web<br />

• Export zur Verwendung in anderen Anwendungen (MÜ-<br />

Wörterbücher, Term-Checker etc.)<br />

• Dabei: Selektion von Datenkategorien und Einträgen<br />

3 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Probleme<br />

• wirtschaftliche und juristische Aspekte<br />

• Information als Kapital<br />

• Urheber- und Nutzungsrecht<br />

• Qualität der Terminologiebestände<br />

• Hardware- und Software-Kompatibilität<br />

• Datenträger / Codierung / Zeichensätze<br />

• inhaltliche Aspekte<br />

• Datenkategorien, Datenfeldinhalte, Klassifikationen, ...<br />

• Granularität (Grammatik vs. Genus/Numerus/Wortklasse)<br />

• Eintragsmodellierung<br />

• Prinzipien (Begriffsorientierung, Benennungsautonomie)<br />

4 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Daten<br />

TXT<br />

Keine Semantik<br />

Keine Struktur<br />

5 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Daten<br />

CSV<br />

Keine Semantik<br />

Keine Struktur<br />

6 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Daten<br />

MT 5.5<br />

Keine genormte Semantik<br />

Keine hierarchische Struktur<br />

7 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Daten<br />

MT 2011<br />

Keine genormte Semantik<br />

8 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Individuell<br />

Term-<br />

Base 1<br />

Term-<br />

Base 2<br />

Term-<br />

Base 3<br />

Term-<br />

Base 4<br />

9 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch: Std-Format<br />

Term-<br />

Base 1<br />

Term-<br />

Base 2<br />

Term-<br />

Base 3<br />

Term-<br />

Base 4<br />

10 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch<br />

• Austauschnormen: derzeitiger Stand<br />

• ISO 12200 (1999): MARTIF<br />

• ISO 12620 (1999): Terminological Data Categories<br />

• ISO 16642 (2003): Terminology Markup Framework<br />

• ISO 12620 (2009): Data Categories („Meta“-Std.)<br />

Datenkategorien in Registry (DCR): www.isocat.org<br />

• ISO 30042 (2008): TBX (früher LISA, jetzt ETSI)<br />

(Familie: TBX-Default, TBX-Basic, TBX-Glossary)<br />

wird zur Zeit überarbeitet und aktualisiert!<br />

• ISO 26162 (2012): Design, implementation and use<br />

of terminology management systems<br />

11 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch<br />

TBX: TermBase eXchange format<br />

• Austauschformat, festgelegt zunächst durch die OSCAR-<br />

Group der LISA (Localization Industry Standards Association) auf<br />

der Basis von ISO 16642 und ISO 12620<br />

• Dann als ISO 30042 (2008) genormt<br />

• Nach Ende von LISA von ETSI (European Telecommunications<br />

Standards Institute) übernommen<br />

• TBX ist damit gleichzeitig eine internationale Norm und ein<br />

Industrie-Standard!<br />

12 K.-D. <strong>Schmitz</strong>, FH Köln


Terminologieaustausch<br />

TBX: TermBase eXchange format<br />

• TBX basiert auf anerkannten Standards (XML, Unicode)<br />

• TBX ist eine TML (Terminology Markup Language), die den<br />

Spezifikationen des TMF (Terminology Markup Framework, ISO<br />

16642) genügt<br />

• TBX berücksichtigt Best Practices für das Terminologie-<br />

Management (Begriffsorientierung, Benennungsautonomie)<br />

• TBX ist in einigen Terminologie-Management-Systeme<br />

implementiert (wie? Dazu später mehr!)<br />

13 K.-D. <strong>Schmitz</strong>, FH Köln


TBX: Beispiel<br />

14 K.-D. <strong>Schmitz</strong>, FH Köln


TBX: Konzeption<br />

TBX setzt sich im wesentlichen zusammen aus:<br />

• Metamodell (aus ISO 16642 bzw. 12200)<br />

• berücksichtigt Begriffsorientierung<br />

• berücksichtigt Benennungsautonomie<br />

• Datenkategorien (aus ISO 12620 und IsoCat)<br />

• Zuordnung der Datenkategorien zu den Ebenen<br />

des Metamodells<br />

15 K.-D. <strong>Schmitz</strong>, FH Köln


Datenmodellierung: Metamodel (ISO 16642)<br />

16 K.-D. <strong>Schmitz</strong>, FH Köln


Datenmodellierung: Metamodel (ISO 12000)<br />

17 K.-D. <strong>Schmitz</strong>, FH Köln


Eintragsmodellierung + Prinzipien<br />

• Begriffsorientierung<br />

Alle terminologische Information zu einem Begriff<br />

einschließlich aller Benennungen in allen Sprachen<br />

sollen in einem Eintrag verwaltet werden können.<br />

Daraus folgt:<br />

• Alle Synonyme, Abkürzungen, Äquivalente müssen in<br />

einen Eintrag (tauchen alle im Index auf)<br />

• Alle Homonyme / Polyseme müssen in verschiedene<br />

Einträge (tauchen im Index mehrfach auf)<br />

18 K.-D. <strong>Schmitz</strong>, FH Köln


Eintragsmodellierung + Prinzipien<br />

• Benennungsautonomie<br />

Alle Benennungen zu einem Begriff sollen als autonome<br />

Blöcke von Datenkategorien verwaltet und mit allen<br />

notwendigen Datenkategorien dokumentiert werden<br />

können (ohne Bevorzugung einer bestimmten<br />

Benennung)<br />

Daraus folgt:<br />

• Alle Synonyme, Abkürzungen, Varianten etc. können<br />

mit Genus, Wortklasse, Quelle, Kontext, Firmencode<br />

etc. versehen werden.<br />

• Auch „verbotene“ Benennungen sollten aufgenommen<br />

werden (markiert als „abgelehnt“ oder „no term“)<br />

19 K.-D. <strong>Schmitz</strong>, FH Köln


Eintragsmodellierung + Prinzipien<br />

Eintrag<br />

„Begriff“<br />

repräsentiert durch ID-Nr., + Metadaten wie z.B. Fachgebiet<br />

Sprache 1<br />

Sprache 2<br />

Sprache 3<br />

...<br />

+ Metadaten<br />

+ Metadaten<br />

+ Metadaten<br />

Benennung 1<br />

Benennung 1<br />

Benennung 1<br />

+ Metadaten<br />

+ Metadaten<br />

+ Metadaten<br />

Benennung 2<br />

Benennung 2<br />

+ Metadaten<br />

+ Metadaten<br />

Benennung 3<br />

+ Metadaten<br />

20 K.-D. <strong>Schmitz</strong>, FH Köln


Eintragsmodellierung + Prinzipien<br />

...<br />

21<br />

K.-D. <strong>Schmitz</strong>, FH Köln


Terminology Metamodel (ISO)<br />

concept<br />

orientation<br />

metadata<br />

term<br />

autonomy<br />

22 K.-D. <strong>Schmitz</strong>, FH Köln


Metamodel in MultiTerm<br />

entry = concept<br />

language<br />

term<br />

23 K.-D. <strong>Schmitz</strong>, FH Köln


Datenkategorien<br />

• Erste umfassende Analyse von terminologischen<br />

Datenkategorien, die in Termbanken auftreten,<br />

bei der Erarbeitung von ISO 12620 und ISO<br />

12200<br />

• Erste Norm für terminologische Datenkategorien:<br />

ISO 12620:1999<br />

• Vollständig neue Version der ISO 12620:2009<br />

(keine term. Datenkategorien mehr enthalten)<br />

• Data Category Registry ISOcat (www.isocat.org)<br />

The Registration Authority of the TC 37 DCR is the Max Planck<br />

Institute for Psycholinguistics, Nijmegen, The Netherlands<br />

24 K.-D. <strong>Schmitz</strong>, FH Köln


Data categories (ISOcat)<br />

25 K.-D. <strong>Schmitz</strong>, FH Köln


Data categories (ISOcat)<br />

26 K.-D. <strong>Schmitz</strong>, FH Köln


Data categories (ISOcat)<br />

27 K.-D. <strong>Schmitz</strong>, FH Köln


Zuordnung DatCats zu Ebenen<br />

• Die Typologie der Datenkategorien in ISOCAT gibt<br />

Hinweise, auf welchen Ebenen des Datenmodells<br />

sie angeordnet werden<br />

(begriffs-, sprach- oder benennungsorientiert)<br />

• Sehr oft ist die Ebene genau definiert:<br />

z.B.: Wortklasse auf Benennungsebene<br />

• In einigen Fällen hängt die Wahl der Ebene von Zweck<br />

und Philosophie der Termbank ab:<br />

z.B.: Definition auf allen 3 Ebenen erlaubt<br />

28 K.-D. <strong>Schmitz</strong>, FH Köln


(S.E.Wright)<br />

definition pertains to all terms in a language.<br />

29 K.-D. <strong>Schmitz</strong>, FH Köln


TBX-Unterstützung in Tools<br />

• TBX ist eigentlich zu „technisch“; nicht jeder Nutzer<br />

eines Terminologie-Management-Systems kann selbst<br />

eine TBX-Schnittstelle „bauen“<br />

• Also müssten Systementwickler eine solche Schnittstelle<br />

implementieren, die von den Nutzern als eine Funktion<br />

direkt angesprochen werden kann.<br />

• Dabei gibt es aber grundsätzliche Probleme<br />

• Dies soll am Beispiel von SDL MultiTerm 2011<br />

verdeutlicht und Lösungen aufgezeigt werden<br />

• Für viele andere Tools gilt das Gezeigte entsprechend!<br />

30 K.-D. <strong>Schmitz</strong>, FH Köln


Eigenschaften von MultiTerm 2011<br />

• SDL MultiTerm ist seit vielen Jahren Marktführer bei den<br />

Terminologie-Managament-Systemen mit einer Unzahl an<br />

Installationen<br />

• MultiTerm kann als Desktop-Version, als Client-Server-<br />

Anwendung in einer Mehrbenutzer-Umgebung und als<br />

browser-basierte Web-Anwendung genutzt werden<br />

• MultiTerm erlaubt/erfordert nutzer- bzw. anwendungsspezifische<br />

Datenbank-Definitionen;<br />

deshalb gibt es sehr viele unterschiedliche MultiTerm-<br />

Datenbanken, selbst in der gleichen Umgebung<br />

31 K.-D. <strong>Schmitz</strong>, FH Köln


Eigenschaften von MultiTerm 2011<br />

MT2011 stellt wesentliche Eigenschaften bereit,<br />

die für eine TBX-Schnittstelle notwendig oder<br />

zumindest hilfreich sind:<br />

• Begriffsorientierung<br />

• Benennungsautonomie<br />

• ISO-Metamodell and Hierarchien<br />

• Offene und geschlossene Datenkategorien<br />

das erleichtert die Bereitstellung von TBX-<br />

Schnittstellen durch den Software-Entwickler<br />

32 K.-D. <strong>Schmitz</strong>, FH Köln


ISO-Datenkategorie-Typen in MT 2011<br />

• Offene DatCats<br />

Text<br />

• Geschlossene<br />

DatCats<br />

Picklist<br />

• Einfache DatCats<br />

Boolean<br />

33 K.-D. <strong>Schmitz</strong>, FH Köln


Eigenschaften von MultiTerm 2011<br />

MT2011 Datenmodell<br />

34 K.-D. <strong>Schmitz</strong>, FH Köln


Eigenschaften von MultiTerm 2011<br />

<br />

masculine feminine<br />

neuter otherGender<br />

<br />

35 K.-D. <strong>Schmitz</strong>, FH Köln


Eigenschaften von MultiTerm 2011<br />

MT2011 erlaubt nutzer-spezifische Datenbank-<br />

Modellierungen:<br />

• eigene Sprachennamen (aber EN, FR, DE, …)<br />

• eigene Datenkategorie-Namen<br />

• eigene Werte (von Picklisten)<br />

• eigene Zuordnung der Datenkategorien zu<br />

den Ebenen des Datenmodells<br />

das macht es nahezu unmöglich, eine TBX-<br />

Schnittstelle durch den Software-Entwickler<br />

bereitzustellen<br />

36 K.-D. <strong>Schmitz</strong>, FH Köln


Eigenschaften von MultiTerm 2011<br />

37 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Import<br />

• Die Import-Funktion von MT2011 erlaubt nur<br />

den Import von Daten im Format mtf.xml<br />

(MT2011-spezifisches XML, ähnlich zu TBX)<br />

38 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Import<br />

• Aber MT2011 Convert erlaubt den Import aus<br />

verschiedenen Formaten, auch aus TBX:<br />

39 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Import<br />

• TBX Import-Datei (Beispiel)<br />

40 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Import<br />

41 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Import<br />

42 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export<br />

• MT2011 stellt verschiedene Export-Formate<br />

bereit (einschließlich TBX),<br />

erlaubt aber auch eigene nutzer-spezifische<br />

Export-Format Definitionen<br />

43 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export<br />

44 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export<br />

45 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export<br />

46 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export<br />

47 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export angepasst<br />

48 K.-D. <strong>Schmitz</strong>, FH Köln


MT09 and TBX: Export modified<br />

49 K.-D. <strong>Schmitz</strong>, FH Köln


MT09 and TBX: Export modified<br />

50 K.-D. <strong>Schmitz</strong>, FH Köln


MT2011 und TBX: Export angepasst<br />

51 K.-D. <strong>Schmitz</strong>, FH Köln


Schlussfolgerung<br />

• MT2011 stellt Schnittstellen für den Austausch<br />

von und nach TBX bereit (andere Tools auch)<br />

• Import und Export arbeiten (im Moment) nicht<br />

fehlerfrei (z.B. termNote, xref, picklist values etc.)<br />

(auch bei anderen Tools)<br />

• Dieses Problem haben mehr oder weniger alle<br />

Tools, die eine nutzer-spezifische Definition oder<br />

Anpassung der Datenbankstruktur erlauben<br />

(Der Entwickler kann nicht die Semantik der<br />

Nutzer-Datenkategorie und -Werte kennen!)<br />

52 K.-D. <strong>Schmitz</strong>, FH Köln


Schlussfolgerung<br />

Lösung 1:<br />

• Definiere eine „TBX-nahe“ Termbank-Struktur<br />

(DatCat-Namen, Picklisten-Werte, korrekte Ebenen)<br />

• Schreibe eigenen TBX-Export (wenn möglich)<br />

(z.B. basierend auf existierendem TBX-Export)<br />

Beides könnte SDL als Template bereitstellen<br />

Lösung 2:<br />

• Nutze ein Mapping-Tool, dass von proprietärem<br />

XML in TBX umwandelt<br />

Wird von BYU-TRG entwickelt (akmtrg@byu.edu)<br />

53 K.-D. <strong>Schmitz</strong>, FH Köln


MT predefined termbase templates<br />

54 K.-D. <strong>Schmitz</strong>, FH Köln


Ausblick<br />

• Derzeit wird an einer Konsolidierung von TBX<br />

gearbeitet:<br />

• Abgleich der unterschiedlichen TBXe (default, basic, …)<br />

• Normung der Datenkategorien in IsoCat<br />

• Kompatibilität mit existierenden TBX-Implementierungen<br />

• Unterschiedliche Styles (tags vs. attributes)<br />

• …<br />

• Wird zu einer Aktualisierung von ISO 30042<br />

führen (2014?)<br />

55 K.-D. <strong>Schmitz</strong>, FH Köln


Vielen Dank für Ihre<br />

Aufmerksamkeit<br />

<strong>Prof</strong>. <strong>Dr</strong>. <strong>Klaus</strong>-<strong>Dirk</strong> <strong>Schmitz</strong><br />

Fachhochschule Köln<br />

Fakultät 03 - ITMK/IIM<br />

Mainzer Str. 5<br />

50678 Köln<br />

klaus.schmitz@fh-koeln.de

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!