Présentation de connaissances linguistiques pour le ... - LaLIC
Présentation de connaissances linguistiques pour le ... - LaLIC
Présentation de connaissances linguistiques pour le ... - LaLIC
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Ghassan Mourad<br />
questions, voir notre travail dans (MOURAD 00), ainsi que la «Webliographie» <strong>de</strong> «Ci-dit 1 »<br />
où on trouve un site spécialisé.<br />
Voici <strong>de</strong>ux exemp<strong>le</strong>s <strong>de</strong> citations directe (ex.1) et indirecte (ex. 2) :<br />
1) "Les Net Computers ne vont pas remplacer <strong>le</strong>s PC. Ils seront utilisés par <strong>de</strong>s<br />
employés qui n'ont pas d'outil micro ou qui travail<strong>le</strong>nt aujourd'hui sur <strong>de</strong>s terminaux<br />
passifs ", estime-t-on chez Input.<br />
2) LINTZEN admet que l'atmosphère dans son ensemb<strong>le</strong> peut se réchauffer, que <strong>de</strong>s<br />
réchauffements se sont produits <strong>de</strong> multip<strong>le</strong>s fois dans l'histoire <strong>de</strong> la planète et sans <strong>le</strong>s<br />
effets dévastateurs aujourd'hui prophétisés. Il juge excessifs <strong>le</strong>s accroissements <strong>de</strong><br />
température prévus <strong>de</strong> 1,5 à 5 °C.<br />
3. Le corpus<br />
Notre travail est basé sur la fouil<strong>le</strong> <strong>de</strong> corpus <strong>de</strong> textes <strong>de</strong> différentes sources ; il peut être<br />
effectué soit sur <strong>de</strong>s textes « tout-venant » selon l’appellation <strong>de</strong> B. Habert, soit sur <strong>de</strong>s textes<br />
bien structurés. La constitution <strong>de</strong> notre corpus, ne répond pas exactement à la définition citée<br />
par B. Habert (HABERT 97), <strong>de</strong> J. Sinclair qu’ « un corpus est une col<strong>le</strong>ction <strong>de</strong> données<br />
langagières qui sont sé<strong>le</strong>ctionnées et organisées selon <strong>de</strong>s critères <strong>linguistiques</strong> explicites <strong>pour</strong><br />
servir d’échantillons du langage. » p. 144. Pour nous, un corpus est une col<strong>le</strong>ction très<br />
étendue <strong>de</strong> textes rassemblés <strong>pour</strong> servir d’échantillon, sans critères <strong>linguistiques</strong> (sauf peut<br />
être que notre travail ne concerne que <strong>de</strong>s textes écrits !). Toute donnée langagière peut servir<br />
d’échantillon du langage. Notre corpus est <strong>le</strong> suivant :<br />
• 100 artic<strong>le</strong>s <strong>de</strong> presse <strong>de</strong> « Le Mon<strong>de</strong> Diplomatique » entre 89 – 98 ;<br />
• 4 romans policiers « grand public » ;<br />
• un ensemb<strong>le</strong> <strong>de</strong> textes fournis par l’É<strong>le</strong>ctricité <strong>de</strong> France sur l’effet <strong>de</strong> serre ;<br />
• 60 artic<strong>le</strong>s <strong>de</strong> presse <strong>de</strong> « Le Mon<strong>de</strong> Informatique » et <strong>de</strong> « 01 Informatique ».<br />
4. Les <strong>connaissances</strong> <strong>linguistiques</strong> nécessaires <strong>pour</strong> l’extraction <strong>de</strong> citations<br />
en utilisant la métho<strong>de</strong> d’exploration contextuel<strong>le</strong><br />
Avant <strong>de</strong> lister et <strong>de</strong> classifier <strong>le</strong>s <strong>connaissances</strong> <strong>linguistiques</strong>, nous précisons que ces<br />
<strong>connaissances</strong> <strong>linguistiques</strong> sont implémentées dans <strong>le</strong> logiciel ContextO (MINEL 00)<br />
développé au sein <strong>de</strong> l’équipe <strong>LaLIC</strong>. Ce logiciel fait partie d’une plate-forme (Filtext), qui a<br />
donnée lieu à différentes applications informatiques, comme <strong>le</strong> résumé automatique, <strong>le</strong><br />
filtrage <strong>de</strong> définitions, l’extraction <strong>de</strong>s relations causa<strong>le</strong>s, etc. Tous ces travaux sont fondés<br />
sur la métho<strong>de</strong> d’exploration contextuel<strong>le</strong>. En effet, la métho<strong>de</strong> d’exploration contextuel<strong>le</strong><br />
consiste à chercher dans un segment textuel <strong>de</strong>s marqueurs <strong>linguistiques</strong> (indicateurs et<br />
indices) qui i<strong>de</strong>ntifient <strong>de</strong>s classes sémantiques. D’un coté <strong>le</strong>s indicateurs déc<strong>le</strong>nchent <strong>de</strong>s<br />
règ<strong>le</strong>s d’exploration contextuel<strong>le</strong> ; <strong>le</strong>s indices complémentaires orientent vers la prise <strong>de</strong><br />
décision : gar<strong>de</strong>r tel segment textuel, attribuer à un segment textuel une étiquette sémantique<br />
etc. Les indicateurs et <strong>le</strong>s indices complémentaires sont classés selon <strong>de</strong>s tâches à réaliser<br />
(résumé automatique, extraction <strong>de</strong> relations causa<strong>le</strong>s, etc.). Ces <strong>connaissances</strong>, <strong>pour</strong><br />
l’extraction <strong>de</strong> citation sont <strong>de</strong> <strong>de</strong>ux types : typographiques et langagières 2 . El<strong>le</strong>s sont classées<br />
1<br />
http://www-stu.cai.cam.ac.uk/ci-dit/<br />
2<br />
Nous utilisons la notion « langagière » à la place <strong>de</strong> « linguistique » parce que nous pensons<br />
que <strong>le</strong>s indicateurs typographiques ont une va<strong>le</strong>ur linguistique.