05.07.2014 Views

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.7.3 ANNOTATION MORPHOLOGIQUE<br />

mladých peut être le locatif pluriel de tous <strong>les</strong> genres) et <strong>les</strong> pronoms (<strong>par</strong> exemple těm peut<br />

être le datif pluriel de tous <strong>les</strong> genres).<br />

3.7.3 Annotation des lemmes inconnus<br />

Si le lemme n’a pas été trouvé dans <strong>les</strong> exemp<strong>les</strong> spécifiant <strong>les</strong> sous-types dans le fichier<br />

pdgm.xml, la situation est plus compliquée car l’homonymie des désinences ainsi que<br />

le caractère arbitraire de l’attribution <strong>du</strong> genre à des unités lexica<strong>les</strong> de certains types <strong>par</strong>adigmatiques<br />

accroît le nombre d’ambiguïtés. Par exemple, pour le lemme vkus, la forme<br />

requise vkuse et la consigne sg, l’annotation peut théoriquement contenir trois valeurs de la<br />

catégorie <strong>du</strong> genre (masculin animé, inanimé, féminin) ; pour chaque genre, il peut y avoir<br />

plusieurs types <strong>par</strong>adigmatiques consonantiques qui peuvent avoir une forme lexicale au singulier<br />

terminée <strong>par</strong> la désinence –e ; cette désinence peut être à son tour homonyme au sein<br />

<strong>du</strong> <strong>par</strong>adigme (type pán : voc. sg. ; type hrad : voc. et loc. sg. ; type muž : gen., acc. sg. ; type<br />

muž : gen. sg. ; type píseň : gen. sg.).<br />

L’annotation des lemmes inconnus est assez im<strong>par</strong>faite et l’intervention de l’auteur dans<br />

le choix des bonnes étiquettes doit être plus importante. Les traitements se déroulent de cette<br />

façon :<br />

(1) Le radical et la désinence sont extraits à <strong>par</strong>tir <strong>du</strong> lemme. Étant donné, que <strong>les</strong> lemmes<br />

inconnus peuvent ap<strong>par</strong>tenir uniquement aux types morphologiques nominaux, adjectivaux<br />

ou adjectivaux mixtes 33 , la désinence <strong>du</strong> lemme peut être uniquement l’une des suivantes :<br />

–#, –a, –e, –ě, –í, –ý, –o 34 .<br />

(2) Le début d’une boucle de lecture effectuée sur l’ensemble des sous-types <strong>par</strong>adigmatiques<br />

(spécifiés <strong>par</strong> la valeur de l’attribut pdgm) ayant la même désinence au nominatif<br />

singulier que le lemme recherché. Pour chacun de ces sous-types, la même procé<strong>du</strong>re que<br />

pour l’annotation de lemmes connus à l’étape (3) et (4) est réalisée.<br />

L’algorithme pourrait être perfectionné surtout pour une restriction de types <strong>par</strong>adigmatiques<br />

possib<strong>les</strong> plus efficace que celle basée uniquement sur la désinence <strong>du</strong> nominatif<br />

singulier. La condition qui devrait être prise en compte prioritairement serait la nature de<br />

la dernière consonne <strong>du</strong> radical pour pouvoir distinguer <strong>les</strong> types <strong>par</strong>adigmatiques <strong>du</strong>rs et<br />

mous.<br />

33 Le type pronominal et numéral sont des classes fermées, gérées <strong>par</strong> la procé<strong>du</strong>re de l’annotation de lemmes<br />

connus.<br />

34 La désinence –us pour <strong>les</strong> sous-types virus, Celsius n’est pas prise en compte <strong>par</strong> ce traitement.<br />

115

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!