Acquisition du tchèque par les francophones : analyse ... - LaLIC
Acquisition du tchèque par les francophones : analyse ... - LaLIC
Acquisition du tchèque par les francophones : analyse ... - LaLIC
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
ANNOTATION MORPHOLOGIQUE<br />
rée comme plus fiable, est basée évidemment sur la fréquence des unités mais elle reflète<br />
également la ré<strong>par</strong>tition des occurrences d’une certaine unité dans l’ensemble <strong>du</strong> corpus, ce<br />
qui permet de diminuer l’influence des textes avec une fréquence trop importante d’une unité<br />
spécifique, employée uniquement dans un contexte donné.<br />
Si la liste de 50 000 mots de FSČ est ordonnée d’après la valeur ARF, l’ordre des différents<br />
mots dans cette liste est exprimé <strong>par</strong> la valeur appelée rank ARF – elle est égale à 1<br />
pour le lexème le plus fréquent, à 2 pour le deuxième lexème le plus fréquent etc. Dans <strong>les</strong><br />
calculs suivants, cette liste va correspondre à la liste L, intro<strong>du</strong>ite ci-dessus. Pour donner un<br />
exemple de l’organisation de cette liste, une dizaines de mots classée d’après ARF à <strong>par</strong>tir de<br />
l’unité sur la 961 e position (rank ARF) d’après la fréquence est présentée ici : 961 student,<br />
961 študent, 962 probíhat, 963 potíž, 964 občanský, 965 stavět, 966 novinář, 967 zboží, 968<br />
instituce, 969 tiskový, 970 tvorba, 971 bohatý<br />
Le chiffre correspond à la valeur <strong>du</strong> rank ARF et d’après la conception choisi dans FSČ,<br />
cette valeur est égale pour <strong>les</strong> différentes variantes d’un seul lexème.<br />
Il est maintenant nécessaire d’extraire le lexique A1A2, disponible à l’origine dans un<br />
document en format PDF (Portable Document File) et le formater en XML pour faciliter <strong>les</strong><br />
manipulations informatiques. Ce fichier a ensuite été traité <strong>par</strong> un script Perl qui a attribué à<br />
chaque unité sa valeur <strong>du</strong> rank ARF, lue dans la liste L. Voici un extrait <strong>du</strong> fichier résultant,<br />
contenant <strong>les</strong> lexèmes de A1A2, ayant comme point de dé<strong>par</strong>t l’unité avec le rank ARF 961,<br />
comme dans l’exemple précédent : 961 student, 964 občanský, 966 novinář, 967 zboží, 972<br />
dívat se, 974 poslat, 975 únor, 977 červenec, 979 červený, 986 radost<br />
En observant la différence entre <strong>les</strong> deux extraits, nous pouvons constater que le lexique<br />
A1A2 ne contient pas la variante študent de l’élément avec le rank ARF égale à 961, il ne<br />
contient ni l’élément 962 probíhat et 963 potíž, il contient l’élément 964 občanský etc. –<br />
cette com<strong>par</strong>aison révèle rapidement qu’il y a des unités présentes dans la liste L et absentes<br />
dans le lexique A1A2. Ainsi, la valeur <strong>du</strong> rank ARF des unités <strong>du</strong> lexique A1A2 n’est pas<br />
égale à leur ordre – la plus grande valeur <strong>du</strong> rank ARF n’est pas égale au nombre d’unités,<br />
comme nous l’avons supposé plus haut pour le cas idéal, mais il dépasse largement la limite<br />
de 2700 mots <strong>les</strong> plus fréquents dans le FSČ, voir fig. 3.1.<br />
Il est évident que le lexique A1A2 contient des lexèmes qui sont beaucoup moins fréquents<br />
qu’un ensemble de lexèmes correspondant qui serait délimité uniquement sur la base<br />
de la fréquence – la courbe correspondrait à la flèche pointillée sur la fig. 3.1.<br />
La valeur <strong>du</strong> rank ARF monte d’une façon régulière jusqu’aux alentours de la valeur<br />
10 000, atteinte autour <strong>du</strong> lexème de l’ordre 2 000 dans le lexique A1A2, <strong>les</strong> 700 éléments<br />
restants sont des lexèmes re<strong>par</strong>tis sur une plage entre 10 000 et 50 000 de la valeur ARF. Les<br />
derniers lexèmes entre 40 000 et 50 000 sont <strong>les</strong> suivants : 40381 nastydlý, 40631 nahustit,<br />
40