Prof. Dr. Klaus-Dirk Schmitz - tekom
Prof. Dr. Klaus-Dirk Schmitz - tekom
Prof. Dr. Klaus-Dirk Schmitz - tekom
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
TBX – ein Standard für den<br />
Austausch terminologischer Daten:<br />
Anforderungen, Probleme, Verbesserungen<br />
<strong>tekom</strong> Jahrestagung 2012<br />
23.-25. November 2012 - Wiesbaden<br />
<strong>Prof</strong>. <strong>Dr</strong>. <strong>Klaus</strong>-<strong>Dirk</strong> <strong>Schmitz</strong><br />
Fachhochschule Köln - Fakultät 03 - ITMK<br />
klaus.schmitz@fh-koeln.de
Terminologieaustausch<br />
• Konsistente und zuverlässige Terminologiearbeit<br />
ist zeitaufwendig und kostenintensiv!<br />
Warum nicht existierende Terminologie nutzen?<br />
• Zusammenarbeit erfordert Bereitstellung und<br />
gemeinsame Nutzung von Terminologie!<br />
Warum nicht Terminologie austauschen?<br />
• Systemwechsel und Data Sharing erfordert<br />
Datenaustausch zwischen den Systemen!<br />
Warum nicht Terminologie wiederverwenden?<br />
2 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch<br />
• Übernahme von Terminologie(beständen)<br />
• Import zur Übernahme aus anderen TMS<br />
• Import zur Übernahme aus anderen Anwendungen<br />
(MÜ-Wörterbücher, Term-Extraktion, CMS, SAP etc.)<br />
• Import zur Übernahme aus Sammlungen (z.B. Web)<br />
• Dabei: Harmonisierung mit existierenden Einträgen<br />
• Weitergabe von Terminologie(beständen)<br />
• Export zur Weitergabe (an Partner)<br />
• Export zur drucktechnischen Aufbereitung oder Web<br />
• Export zur Verwendung in anderen Anwendungen (MÜ-<br />
Wörterbücher, Term-Checker etc.)<br />
• Dabei: Selektion von Datenkategorien und Einträgen<br />
3 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Probleme<br />
• wirtschaftliche und juristische Aspekte<br />
• Information als Kapital<br />
• Urheber- und Nutzungsrecht<br />
• Qualität der Terminologiebestände<br />
• Hardware- und Software-Kompatibilität<br />
• Datenträger / Codierung / Zeichensätze<br />
• inhaltliche Aspekte<br />
• Datenkategorien, Datenfeldinhalte, Klassifikationen, ...<br />
• Granularität (Grammatik vs. Genus/Numerus/Wortklasse)<br />
• Eintragsmodellierung<br />
• Prinzipien (Begriffsorientierung, Benennungsautonomie)<br />
4 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Daten<br />
TXT<br />
Keine Semantik<br />
Keine Struktur<br />
5 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Daten<br />
CSV<br />
Keine Semantik<br />
Keine Struktur<br />
6 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Daten<br />
MT 5.5<br />
Keine genormte Semantik<br />
Keine hierarchische Struktur<br />
7 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Daten<br />
MT 2011<br />
Keine genormte Semantik<br />
8 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Individuell<br />
Term-<br />
Base 1<br />
Term-<br />
Base 2<br />
Term-<br />
Base 3<br />
Term-<br />
Base 4<br />
9 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch: Std-Format<br />
Term-<br />
Base 1<br />
Term-<br />
Base 2<br />
Term-<br />
Base 3<br />
Term-<br />
Base 4<br />
10 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch<br />
• Austauschnormen: derzeitiger Stand<br />
• ISO 12200 (1999): MARTIF<br />
• ISO 12620 (1999): Terminological Data Categories<br />
• ISO 16642 (2003): Terminology Markup Framework<br />
• ISO 12620 (2009): Data Categories („Meta“-Std.)<br />
Datenkategorien in Registry (DCR): www.isocat.org<br />
• ISO 30042 (2008): TBX (früher LISA, jetzt ETSI)<br />
(Familie: TBX-Default, TBX-Basic, TBX-Glossary)<br />
wird zur Zeit überarbeitet und aktualisiert!<br />
• ISO 26162 (2012): Design, implementation and use<br />
of terminology management systems<br />
11 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch<br />
TBX: TermBase eXchange format<br />
• Austauschformat, festgelegt zunächst durch die OSCAR-<br />
Group der LISA (Localization Industry Standards Association) auf<br />
der Basis von ISO 16642 und ISO 12620<br />
• Dann als ISO 30042 (2008) genormt<br />
• Nach Ende von LISA von ETSI (European Telecommunications<br />
Standards Institute) übernommen<br />
• TBX ist damit gleichzeitig eine internationale Norm und ein<br />
Industrie-Standard!<br />
12 K.-D. <strong>Schmitz</strong>, FH Köln
Terminologieaustausch<br />
TBX: TermBase eXchange format<br />
• TBX basiert auf anerkannten Standards (XML, Unicode)<br />
• TBX ist eine TML (Terminology Markup Language), die den<br />
Spezifikationen des TMF (Terminology Markup Framework, ISO<br />
16642) genügt<br />
• TBX berücksichtigt Best Practices für das Terminologie-<br />
Management (Begriffsorientierung, Benennungsautonomie)<br />
• TBX ist in einigen Terminologie-Management-Systeme<br />
implementiert (wie? Dazu später mehr!)<br />
13 K.-D. <strong>Schmitz</strong>, FH Köln
TBX: Beispiel<br />
14 K.-D. <strong>Schmitz</strong>, FH Köln
TBX: Konzeption<br />
TBX setzt sich im wesentlichen zusammen aus:<br />
• Metamodell (aus ISO 16642 bzw. 12200)<br />
• berücksichtigt Begriffsorientierung<br />
• berücksichtigt Benennungsautonomie<br />
• Datenkategorien (aus ISO 12620 und IsoCat)<br />
• Zuordnung der Datenkategorien zu den Ebenen<br />
des Metamodells<br />
15 K.-D. <strong>Schmitz</strong>, FH Köln
Datenmodellierung: Metamodel (ISO 16642)<br />
16 K.-D. <strong>Schmitz</strong>, FH Köln
Datenmodellierung: Metamodel (ISO 12000)<br />
17 K.-D. <strong>Schmitz</strong>, FH Köln
Eintragsmodellierung + Prinzipien<br />
• Begriffsorientierung<br />
Alle terminologische Information zu einem Begriff<br />
einschließlich aller Benennungen in allen Sprachen<br />
sollen in einem Eintrag verwaltet werden können.<br />
Daraus folgt:<br />
• Alle Synonyme, Abkürzungen, Äquivalente müssen in<br />
einen Eintrag (tauchen alle im Index auf)<br />
• Alle Homonyme / Polyseme müssen in verschiedene<br />
Einträge (tauchen im Index mehrfach auf)<br />
18 K.-D. <strong>Schmitz</strong>, FH Köln
Eintragsmodellierung + Prinzipien<br />
• Benennungsautonomie<br />
Alle Benennungen zu einem Begriff sollen als autonome<br />
Blöcke von Datenkategorien verwaltet und mit allen<br />
notwendigen Datenkategorien dokumentiert werden<br />
können (ohne Bevorzugung einer bestimmten<br />
Benennung)<br />
Daraus folgt:<br />
• Alle Synonyme, Abkürzungen, Varianten etc. können<br />
mit Genus, Wortklasse, Quelle, Kontext, Firmencode<br />
etc. versehen werden.<br />
• Auch „verbotene“ Benennungen sollten aufgenommen<br />
werden (markiert als „abgelehnt“ oder „no term“)<br />
19 K.-D. <strong>Schmitz</strong>, FH Köln
Eintragsmodellierung + Prinzipien<br />
Eintrag<br />
„Begriff“<br />
repräsentiert durch ID-Nr., + Metadaten wie z.B. Fachgebiet<br />
Sprache 1<br />
Sprache 2<br />
Sprache 3<br />
...<br />
+ Metadaten<br />
+ Metadaten<br />
+ Metadaten<br />
Benennung 1<br />
Benennung 1<br />
Benennung 1<br />
+ Metadaten<br />
+ Metadaten<br />
+ Metadaten<br />
Benennung 2<br />
Benennung 2<br />
+ Metadaten<br />
+ Metadaten<br />
Benennung 3<br />
+ Metadaten<br />
20 K.-D. <strong>Schmitz</strong>, FH Köln
Eintragsmodellierung + Prinzipien<br />
...<br />
21<br />
K.-D. <strong>Schmitz</strong>, FH Köln
Terminology Metamodel (ISO)<br />
concept<br />
orientation<br />
metadata<br />
term<br />
autonomy<br />
22 K.-D. <strong>Schmitz</strong>, FH Köln
Metamodel in MultiTerm<br />
entry = concept<br />
language<br />
term<br />
23 K.-D. <strong>Schmitz</strong>, FH Köln
Datenkategorien<br />
• Erste umfassende Analyse von terminologischen<br />
Datenkategorien, die in Termbanken auftreten,<br />
bei der Erarbeitung von ISO 12620 und ISO<br />
12200<br />
• Erste Norm für terminologische Datenkategorien:<br />
ISO 12620:1999<br />
• Vollständig neue Version der ISO 12620:2009<br />
(keine term. Datenkategorien mehr enthalten)<br />
• Data Category Registry ISOcat (www.isocat.org)<br />
The Registration Authority of the TC 37 DCR is the Max Planck<br />
Institute for Psycholinguistics, Nijmegen, The Netherlands<br />
24 K.-D. <strong>Schmitz</strong>, FH Köln
Data categories (ISOcat)<br />
25 K.-D. <strong>Schmitz</strong>, FH Köln
Data categories (ISOcat)<br />
26 K.-D. <strong>Schmitz</strong>, FH Köln
Data categories (ISOcat)<br />
27 K.-D. <strong>Schmitz</strong>, FH Köln
Zuordnung DatCats zu Ebenen<br />
• Die Typologie der Datenkategorien in ISOCAT gibt<br />
Hinweise, auf welchen Ebenen des Datenmodells<br />
sie angeordnet werden<br />
(begriffs-, sprach- oder benennungsorientiert)<br />
• Sehr oft ist die Ebene genau definiert:<br />
z.B.: Wortklasse auf Benennungsebene<br />
• In einigen Fällen hängt die Wahl der Ebene von Zweck<br />
und Philosophie der Termbank ab:<br />
z.B.: Definition auf allen 3 Ebenen erlaubt<br />
28 K.-D. <strong>Schmitz</strong>, FH Köln
(S.E.Wright)<br />
definition pertains to all terms in a language.<br />
29 K.-D. <strong>Schmitz</strong>, FH Köln
TBX-Unterstützung in Tools<br />
• TBX ist eigentlich zu „technisch“; nicht jeder Nutzer<br />
eines Terminologie-Management-Systems kann selbst<br />
eine TBX-Schnittstelle „bauen“<br />
• Also müssten Systementwickler eine solche Schnittstelle<br />
implementieren, die von den Nutzern als eine Funktion<br />
direkt angesprochen werden kann.<br />
• Dabei gibt es aber grundsätzliche Probleme<br />
• Dies soll am Beispiel von SDL MultiTerm 2011<br />
verdeutlicht und Lösungen aufgezeigt werden<br />
• Für viele andere Tools gilt das Gezeigte entsprechend!<br />
30 K.-D. <strong>Schmitz</strong>, FH Köln
Eigenschaften von MultiTerm 2011<br />
• SDL MultiTerm ist seit vielen Jahren Marktführer bei den<br />
Terminologie-Managament-Systemen mit einer Unzahl an<br />
Installationen<br />
• MultiTerm kann als Desktop-Version, als Client-Server-<br />
Anwendung in einer Mehrbenutzer-Umgebung und als<br />
browser-basierte Web-Anwendung genutzt werden<br />
• MultiTerm erlaubt/erfordert nutzer- bzw. anwendungsspezifische<br />
Datenbank-Definitionen;<br />
deshalb gibt es sehr viele unterschiedliche MultiTerm-<br />
Datenbanken, selbst in der gleichen Umgebung<br />
31 K.-D. <strong>Schmitz</strong>, FH Köln
Eigenschaften von MultiTerm 2011<br />
MT2011 stellt wesentliche Eigenschaften bereit,<br />
die für eine TBX-Schnittstelle notwendig oder<br />
zumindest hilfreich sind:<br />
• Begriffsorientierung<br />
• Benennungsautonomie<br />
• ISO-Metamodell and Hierarchien<br />
• Offene und geschlossene Datenkategorien<br />
das erleichtert die Bereitstellung von TBX-<br />
Schnittstellen durch den Software-Entwickler<br />
32 K.-D. <strong>Schmitz</strong>, FH Köln
ISO-Datenkategorie-Typen in MT 2011<br />
• Offene DatCats<br />
Text<br />
• Geschlossene<br />
DatCats<br />
Picklist<br />
• Einfache DatCats<br />
Boolean<br />
33 K.-D. <strong>Schmitz</strong>, FH Köln
Eigenschaften von MultiTerm 2011<br />
MT2011 Datenmodell<br />
34 K.-D. <strong>Schmitz</strong>, FH Köln
Eigenschaften von MultiTerm 2011<br />
<br />
masculine feminine<br />
neuter otherGender<br />
<br />
35 K.-D. <strong>Schmitz</strong>, FH Köln
Eigenschaften von MultiTerm 2011<br />
MT2011 erlaubt nutzer-spezifische Datenbank-<br />
Modellierungen:<br />
• eigene Sprachennamen (aber EN, FR, DE, …)<br />
• eigene Datenkategorie-Namen<br />
• eigene Werte (von Picklisten)<br />
• eigene Zuordnung der Datenkategorien zu<br />
den Ebenen des Datenmodells<br />
das macht es nahezu unmöglich, eine TBX-<br />
Schnittstelle durch den Software-Entwickler<br />
bereitzustellen<br />
36 K.-D. <strong>Schmitz</strong>, FH Köln
Eigenschaften von MultiTerm 2011<br />
37 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Import<br />
• Die Import-Funktion von MT2011 erlaubt nur<br />
den Import von Daten im Format mtf.xml<br />
(MT2011-spezifisches XML, ähnlich zu TBX)<br />
38 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Import<br />
• Aber MT2011 Convert erlaubt den Import aus<br />
verschiedenen Formaten, auch aus TBX:<br />
39 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Import<br />
• TBX Import-Datei (Beispiel)<br />
40 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Import<br />
41 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Import<br />
42 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export<br />
• MT2011 stellt verschiedene Export-Formate<br />
bereit (einschließlich TBX),<br />
erlaubt aber auch eigene nutzer-spezifische<br />
Export-Format Definitionen<br />
43 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export<br />
44 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export<br />
45 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export<br />
46 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export<br />
47 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export angepasst<br />
48 K.-D. <strong>Schmitz</strong>, FH Köln
MT09 and TBX: Export modified<br />
49 K.-D. <strong>Schmitz</strong>, FH Köln
MT09 and TBX: Export modified<br />
50 K.-D. <strong>Schmitz</strong>, FH Köln
MT2011 und TBX: Export angepasst<br />
51 K.-D. <strong>Schmitz</strong>, FH Köln
Schlussfolgerung<br />
• MT2011 stellt Schnittstellen für den Austausch<br />
von und nach TBX bereit (andere Tools auch)<br />
• Import und Export arbeiten (im Moment) nicht<br />
fehlerfrei (z.B. termNote, xref, picklist values etc.)<br />
(auch bei anderen Tools)<br />
• Dieses Problem haben mehr oder weniger alle<br />
Tools, die eine nutzer-spezifische Definition oder<br />
Anpassung der Datenbankstruktur erlauben<br />
(Der Entwickler kann nicht die Semantik der<br />
Nutzer-Datenkategorie und -Werte kennen!)<br />
52 K.-D. <strong>Schmitz</strong>, FH Köln
Schlussfolgerung<br />
Lösung 1:<br />
• Definiere eine „TBX-nahe“ Termbank-Struktur<br />
(DatCat-Namen, Picklisten-Werte, korrekte Ebenen)<br />
• Schreibe eigenen TBX-Export (wenn möglich)<br />
(z.B. basierend auf existierendem TBX-Export)<br />
Beides könnte SDL als Template bereitstellen<br />
Lösung 2:<br />
• Nutze ein Mapping-Tool, dass von proprietärem<br />
XML in TBX umwandelt<br />
Wird von BYU-TRG entwickelt (akmtrg@byu.edu)<br />
53 K.-D. <strong>Schmitz</strong>, FH Köln
MT predefined termbase templates<br />
54 K.-D. <strong>Schmitz</strong>, FH Köln
Ausblick<br />
• Derzeit wird an einer Konsolidierung von TBX<br />
gearbeitet:<br />
• Abgleich der unterschiedlichen TBXe (default, basic, …)<br />
• Normung der Datenkategorien in IsoCat<br />
• Kompatibilität mit existierenden TBX-Implementierungen<br />
• Unterschiedliche Styles (tags vs. attributes)<br />
• …<br />
• Wird zu einer Aktualisierung von ISO 30042<br />
führen (2014?)<br />
55 K.-D. <strong>Schmitz</strong>, FH Köln
Vielen Dank für Ihre<br />
Aufmerksamkeit<br />
<strong>Prof</strong>. <strong>Dr</strong>. <strong>Klaus</strong>-<strong>Dirk</strong> <strong>Schmitz</strong><br />
Fachhochschule Köln<br />
Fakultät 03 - ITMK/IIM<br />
Mainzer Str. 5<br />
50678 Köln<br />
klaus.schmitz@fh-koeln.de