05.07.2014 Views

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

3.4.2 ANNOTATION MORPHOLOGIQUE<br />

3.4.2 Fichier pdgm.xml<br />

Pour pouvoir être utilisées dans des traitements automatiques, <strong>les</strong> informations concernant<br />

<strong>les</strong> types <strong>par</strong>adigmatiques qui viennent d’être exposées, doivent être inscrites dans un<br />

format lisible <strong>par</strong> ordinateur. Le format XML 14 a été choisi pour sa maniabilité et pour la<br />

facilité <strong>du</strong> traitement des données dans ce format. Les critères formels que nous avons établis<br />

pour leur définition servent d’éléments de structuration de ce ficher. Il contient <strong>les</strong> types<br />

<strong>par</strong>adigmatiques, <strong>les</strong> ensemb<strong>les</strong> de terminaisons qui leur sont assignés et des informations<br />

complémentaires exploitées dans des différents traitements sur CETLEF.<br />

3.4.2.1 Rappel technique<br />

Le langage XML (eXtensible Markup Language) est un méta-langage destiné au traitement<br />

de documents. Il permet de structurer <strong>les</strong> données à l’aide de balises et des attributs<br />

personnalisab<strong>les</strong> – ils ne sont pas définis à l’avance, comme c’était le cas pour le prédécesseur<br />

<strong>du</strong> XML, le langage international de documentation normalisé SGML (Standard Generalized<br />

Markup Language), mais ils sont choisis <strong>par</strong> l’auteur <strong>du</strong> document en fonction de<br />

la nature des données encodées. La seule restriction est le respect de la syntaxe XML dont<br />

<strong>les</strong> règ<strong>les</strong> principa<strong>les</strong> sont l’existence d’un seul élément racine pour chaque document et la<br />

correspondance des balises ouvrantes et des balises fermantes.<br />

Pour donner un aperçu de la structure d’un document formaté avec XML, nous allons<br />

présenter ici <strong>les</strong> notions de base de ce langage :<br />

• une balise ouvrante est une suite de caractères entourée <strong>par</strong> des chevrons, <strong>par</strong> exemple<br />

.<br />

• une balise fermante est est une suite de caractères entourée <strong>par</strong> des chevrons avec une<br />

barre oblique au début, <strong>par</strong> exemple .<br />

• un document XML contient un ou plusieurs éléments, qui sont définis <strong>par</strong> une balise<br />

ouvrante, une balise fermante et le contenu entouré <strong>par</strong> ces deux balises, <strong>par</strong> exemple<br />

contenu.<br />

• une balise peut posséder un ou plusieurs attributs qui doivent être situés à l’intérieur<br />

de la balise après son nom ; la valeur de l’attribut est située entre des guillemets, <strong>par</strong><br />

exemple .<br />

• un élément vide est signalé <strong>par</strong> une balise qui est ouvrante et fermante à la fois, <strong>par</strong><br />

exemple .<br />

14 Voir http://www.w3.org/XML/.<br />

65

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!