Extensible Markup Language (PDF) - IT-Dienstleistungszentrum Berlin
Extensible Markup Language (PDF) - IT-Dienstleistungszentrum Berlin
Extensible Markup Language (PDF) - IT-Dienstleistungszentrum Berlin
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
ç Ein XML Schema ist ungleich komplexer<br />
als eine DTD, aber die Möglichkeiten<br />
der Definition sind auch ungleich<br />
besser als es eine DTD erlauben würde<br />
Detaillierte Erklärungen zu DTDs und<br />
XML Schemas und vielen weiteren Themen<br />
bezüglich XML finden sich zB<br />
unter http://wwwibmcom/<br />
developerworks/xml<br />
Wenn Ihnen also das nächste Mal jemand<br />
von dem Segen des XML-Standards<br />
erzählt, fragen Sie ihn – oder sie –<br />
doch mal von welchem XML Vokabular<br />
er – oder sie – spricht!<br />
FRANK SCHÄCKERMANN<br />
Software <strong>IT</strong> Architekt,<br />
IBM Deutschland<br />
Web-Anwendungen mit<br />
XML und Apache<br />
Cocoon<br />
2<br />
u<br />
Nach einer Einführung in XML<br />
und Web-Anwendungen wird<br />
in diesem Artikel das Cocoon-<br />
Framework der Apache Software<br />
Foundation vorgestellt, welches die<br />
Entwicklung von XML-basierten Web-<br />
Anwendungen entscheidend vereinfacht<br />
In einem Folgeartikel wird der<br />
<strong>Berlin</strong>er Liegenschaftsinformationsservice<br />
(BLIS) als eine konkrete Anwendung<br />
dieser Technologie vorgestellt<br />
XML<br />
XML steht für eXtensible <strong>Markup</strong><br />
<strong>Language</strong>, frei übersetzt „erweiterbare<br />
Sprache zum Anbringen von Markierungen“<br />
Um es gleich vorwegzunehmen:<br />
XML ist keine Weiterentwicklung<br />
oder Erweiterung von HTML XML<br />
und HTML verbinden zwar gemeinsame<br />
Wurzeln, aber XML folgt einem<br />
weitaus allgemeineren Konzept Während<br />
HTML neben dem Inhalt auch die<br />
graphische Gestaltung der Seite vermittelt,<br />
konzentriert sich XML allein auf<br />
den Inhalt Es handelt sich um eine<br />
ausgereifte, über 30 Jahre alte Technologie,<br />
die erst jetzt ihren Durchbruch zu<br />
erleben scheint Ausgangspunkt ihrer<br />
Entwicklung war der Wunsch, Dokumente<br />
in einer geeigneteren Art und<br />
Weise im Computer zu speichern, als<br />
dies bislang möglich war Heute kommt<br />
dem Begriff des „Dokumentes“ im Zusammenhang<br />
mit XML eine wichtige,<br />
aber abstraktere Bedeutung zu, er bezeichnet<br />
die gröbste Informationseinheit<br />
Geschichte und Konzepte<br />
Was ist eine geeignete Art, Dokumente<br />
im Computer zu speichern? Begonnen<br />
hat die Entwicklung der elektronischen<br />
Textverarbeitung in den 60er Jahren<br />
Dokumente wurden damals in<br />
proprietären Textverarbeitungssystemen<br />
durch reinen Text mit eingebetteten<br />
Steuerzeichen dargestellt Die Steuerzeichen<br />
dienten lediglich der Formatierung<br />
und waren nicht standardisiert<br />
Dokumente, die mit einem System erstellt<br />
wurden, waren nicht ohne Weiteres<br />
mit einem anderen lesbar und bei<br />
einem Systemwechsel mussten alle<br />
Steuerzeichen ersetzt werden<br />
Wünschenswert war es daher, den<br />
proprietären Bestandteil der Dokumente,<br />
die der Formatierung dienenden<br />
Steuerzeichen, vom eigentlichen Inhalt<br />
zu trennen Jedes Programm könnte<br />
dann dem Text seine eigenen Befehle<br />
für die Formatierung hinzufügen Damit<br />
gingen aber auch wichtige Informationen<br />
zur Bedeutung der einzelnen<br />
Textbestandteile verloren Jeder Anwender<br />
könnte selbst entscheiden, welcher<br />
Text eine Überschrift ist, welche<br />
Bemerkung hervorgehoben werden sollte<br />
Diese Bedeutung ist dem Inhalt des<br />
Dokuments inhärent Die Lösung dieses<br />
Problems war die Idee, die Bedeutung<br />
und nicht das Format der einzelnen<br />
Textteile mit Markierungen zu kennzeichnen<br />
So wurde ein wichtiges Prinzip<br />
– die Trennung des Inhalts und der<br />
Präsentation – geschaffen Nachdem<br />
jedem Textabschnitt eine Bedeutung<br />
zugewiesen wurde, kann in einem zweiten<br />
Schritt für jede Bedeutung ein konkretes<br />
Format definiert werden Benötigt<br />
werden dazu meistens nur wenige<br />
1/02 2 8<br />
Regeln und das Format muss dann nicht<br />
mehr jeder Wortgruppe einzeln zugewiesen<br />
werden Wenn ein bestehendes<br />
Dokument anders darstellt werden soll,<br />
werden nur diese Regeln geändert, das<br />
Dokument selbst bleibt unverändert<br />
Zudem ist es möglich, die gleichen Regeln<br />
für mehrere Dokumente anzuwenden,<br />
die mit einheitlichem Format dargestellt<br />
werden sollen Neben der Vereinfachung<br />
der Formatierung ergeben<br />
sich durch die Markierung der Bedeutungen<br />
zwei weitere Vorteile: Zum einen<br />
kann auch die Struktur des Dokuments<br />
erkennbar gemacht werden und<br />
mit Hilfe dieser durch das Dokument<br />
navigieren: Ein Kapitel besteht zum<br />
Beispiel aus einer Kapitelüberschrift, aus<br />
Unterüberschriften, Absätzen und anderen<br />
Elementen Zum anderen kann<br />
ein markiertes Dokument viel sinnvoller<br />
und gezielter durchsucht oder Teile<br />
davon herausfiltert werden<br />
Aber wie wird jedem Textteil eine abstrakte<br />
Bedeutung zugeordnet? Für die<br />
Definition der in einer Gruppe von<br />
Dokumenten zulässigen Bedeutungen<br />
wurde eine neue Sprache entwickelt und<br />
so entstand 1969 bei IBM die<br />
Generalized <strong>Markup</strong> <strong>Language</strong> (GML)<br />
Sie wurde später in fast allen<br />
Dokumentenverwaltungssystemen von<br />
IBM eingesetzt Im Jahre 1986 wurde<br />
eine weiterentwickelte Version von GML<br />
zum ISO-Standard „Standardized<br />
Generalized <strong>Markup</strong> <strong>Language</strong>“<br />
(SGML) Mit SGML wurden einige große<br />
Dokumentenverwaltungssysteme<br />
(zB die gesamte Flugzeugdokumentation<br />
bei Boeing) realisiert Die<br />
bekannteste Anwendung von SGML ist<br />
die HyperText <strong>Markup</strong> <strong>Language</strong><br />
(HTML), die Sprache des World Wide<br />
Web HTML ist folglich ebenfalls nur<br />
ein Satz von Markierungen, definiert<br />
mit Hilfe von SGML<br />
SGML hatte jedoch einen großen Nachteil:<br />
sie war zu kompliziert und hat sich<br />
nur bei großen Projekten rentiert Daher<br />
blieb auch im World Wide Web<br />
HTML die einzige definierte<br />
Dokumentenart Software-Bibliotheken<br />
für SGML, die dem Entwickler è