05.07.2014 Views

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ANNOTATION MORPHOLOGIQUE<br />

Pour illustration, le <strong>par</strong>adigme des formes fléchies <strong>du</strong> substantif dívka (fille, décomposition<br />

en radical et désinence : dívk + a), avec des alternances dans le datif et le locatif<br />

singulier (palatalisation) ainsi que dans le génitif pluriel (-e- intercalaire), est le suivant :<br />

singulier<br />

pluriel<br />

nominatif dívk –a dívk –y<br />

génitif dívk –y dívek –#<br />

datif dívc –e dívk –ám<br />

accusatif dívk –u dívk –y<br />

vocatif dívk –o dívk –y<br />

locatif dívc –e dívk –ách<br />

instrumental dívk –ou dívk –ami<br />

3.1.2 Utilité de l’annotation linguistique<br />

L’annotation linguistique, notion issue <strong>du</strong> traitement automatique des langues et de la<br />

linguistique de corpus, enrichie des données textuel<strong>les</strong> dans un corpus <strong>par</strong> des informations<br />

d’ordre linguistique. L’utilité d’une telle annotation est évidente car <strong>les</strong> métadonnées élargissent<br />

le répertoire de critères pour la recherche de l’information. L’annotation peut être<br />

ajoutée automatiquement ou manuellement. Dans le premier cas, elle peut être considérée<br />

comme un pro<strong>du</strong>it dérivé des diverses techniques de traitement automatique des langues car<br />

la fiabilité de l’annotation dans un corpus est souvent un indice important de la qualité des<br />

méthodes d’<strong>analyse</strong> qui la pro<strong>du</strong>isent. L’autre possibilité, plus coûteuse mais généralement<br />

plus fiable, est la saisie manuelle de l’annotation <strong>par</strong> des équipes d’annotateurs humains qui<br />

suivent des consignes élaborées dans le cadre d’une certaine théorie linguistique.<br />

Les deux corpus majeurs disponib<strong>les</strong> pour le <strong>tchèque</strong>, Corpus National Tchèque (ČNK) 1<br />

et Prague Dependency Treebank 2 , sont des exemp<strong>les</strong> de corpus annotés. Le premier contient<br />

un étiquetage morphologique généré <strong>par</strong> l’<strong>analyse</strong> automatique de Hajič (2004). Le second<br />

contient également une annotation aux niveaux syntaxique et sémantique, ajoutée manuellement<br />

ou <strong>par</strong> des procé<strong>du</strong>res semi-automatiques, d’après la conception théorique pragoise<br />

description générative fonctionnelle 3 . Pour d’autres langues, il existe des corpus annotés<br />

comme Penn Treebank pour l’anglais ou Tiger pour l’allemand.<br />

Dans <strong>les</strong> années 1990, une discussion critique sur l’annotation des corpus 4 a été suscitée<br />

notamment <strong>par</strong> <strong>les</strong> questions de fiabilité, souvent faible, ainsi que <strong>par</strong> l’opacité de certains<br />

1 Voir Čermák (1997), l’accès au ČNK est possible sur http://www.korpus.cz.<br />

2 Voir Hajič et al. (2001), http://ufal.mff.cuni.cz/pdt2.0/.<br />

3 Voir Sgall (1967), Sgall et al. (1986)<br />

4 Pour un résumé de cette discussion dans Mitkov (2003), p. 453.<br />

34

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!