05.07.2014 Views

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

Acquisition du tchèque par les francophones : analyse ... - LaLIC

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ANNOTATION MORPHOLOGIQUE<br />

rée comme plus fiable, est basée évidemment sur la fréquence des unités mais elle reflète<br />

également la ré<strong>par</strong>tition des occurrences d’une certaine unité dans l’ensemble <strong>du</strong> corpus, ce<br />

qui permet de diminuer l’influence des textes avec une fréquence trop importante d’une unité<br />

spécifique, employée uniquement dans un contexte donné.<br />

Si la liste de 50 000 mots de FSČ est ordonnée d’après la valeur ARF, l’ordre des différents<br />

mots dans cette liste est exprimé <strong>par</strong> la valeur appelée rank ARF – elle est égale à 1<br />

pour le lexème le plus fréquent, à 2 pour le deuxième lexème le plus fréquent etc. Dans <strong>les</strong><br />

calculs suivants, cette liste va correspondre à la liste L, intro<strong>du</strong>ite ci-dessus. Pour donner un<br />

exemple de l’organisation de cette liste, une dizaines de mots classée d’après ARF à <strong>par</strong>tir de<br />

l’unité sur la 961 e position (rank ARF) d’après la fréquence est présentée ici : 961 student,<br />

961 študent, 962 probíhat, 963 potíž, 964 občanský, 965 stavět, 966 novinář, 967 zboží, 968<br />

instituce, 969 tiskový, 970 tvorba, 971 bohatý<br />

Le chiffre correspond à la valeur <strong>du</strong> rank ARF et d’après la conception choisi dans FSČ,<br />

cette valeur est égale pour <strong>les</strong> différentes variantes d’un seul lexème.<br />

Il est maintenant nécessaire d’extraire le lexique A1A2, disponible à l’origine dans un<br />

document en format PDF (Portable Document File) et le formater en XML pour faciliter <strong>les</strong><br />

manipulations informatiques. Ce fichier a ensuite été traité <strong>par</strong> un script Perl qui a attribué à<br />

chaque unité sa valeur <strong>du</strong> rank ARF, lue dans la liste L. Voici un extrait <strong>du</strong> fichier résultant,<br />

contenant <strong>les</strong> lexèmes de A1A2, ayant comme point de dé<strong>par</strong>t l’unité avec le rank ARF 961,<br />

comme dans l’exemple précédent : 961 student, 964 občanský, 966 novinář, 967 zboží, 972<br />

dívat se, 974 poslat, 975 únor, 977 červenec, 979 červený, 986 radost<br />

En observant la différence entre <strong>les</strong> deux extraits, nous pouvons constater que le lexique<br />

A1A2 ne contient pas la variante študent de l’élément avec le rank ARF égale à 961, il ne<br />

contient ni l’élément 962 probíhat et 963 potíž, il contient l’élément 964 občanský etc. –<br />

cette com<strong>par</strong>aison révèle rapidement qu’il y a des unités présentes dans la liste L et absentes<br />

dans le lexique A1A2. Ainsi, la valeur <strong>du</strong> rank ARF des unités <strong>du</strong> lexique A1A2 n’est pas<br />

égale à leur ordre – la plus grande valeur <strong>du</strong> rank ARF n’est pas égale au nombre d’unités,<br />

comme nous l’avons supposé plus haut pour le cas idéal, mais il dépasse largement la limite<br />

de 2700 mots <strong>les</strong> plus fréquents dans le FSČ, voir fig. 3.1.<br />

Il est évident que le lexique A1A2 contient des lexèmes qui sont beaucoup moins fréquents<br />

qu’un ensemble de lexèmes correspondant qui serait délimité uniquement sur la base<br />

de la fréquence – la courbe correspondrait à la flèche pointillée sur la fig. 3.1.<br />

La valeur <strong>du</strong> rank ARF monte d’une façon régulière jusqu’aux alentours de la valeur<br />

10 000, atteinte autour <strong>du</strong> lexème de l’ordre 2 000 dans le lexique A1A2, <strong>les</strong> 700 éléments<br />

restants sont des lexèmes re<strong>par</strong>tis sur une plage entre 10 000 et 50 000 de la valeur ARF. Les<br />

derniers lexèmes entre 40 000 et 50 000 sont <strong>les</strong> suivants : 40381 nastydlý, 40631 nahustit,<br />

40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!