05.07.2014 Views

Présentation de connaissances linguistiques pour le ... - LaLIC

Présentation de connaissances linguistiques pour le ... - LaLIC

Présentation de connaissances linguistiques pour le ... - LaLIC

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Ghassan Mourad<br />

questions, voir notre travail dans (MOURAD 00), ainsi que la «Webliographie» <strong>de</strong> «Ci-dit 1 »<br />

où on trouve un site spécialisé.<br />

Voici <strong>de</strong>ux exemp<strong>le</strong>s <strong>de</strong> citations directe (ex.1) et indirecte (ex. 2) :<br />

1) "Les Net Computers ne vont pas remplacer <strong>le</strong>s PC. Ils seront utilisés par <strong>de</strong>s<br />

employés qui n'ont pas d'outil micro ou qui travail<strong>le</strong>nt aujourd'hui sur <strong>de</strong>s terminaux<br />

passifs ", estime-t-on chez Input.<br />

2) LINTZEN admet que l'atmosphère dans son ensemb<strong>le</strong> peut se réchauffer, que <strong>de</strong>s<br />

réchauffements se sont produits <strong>de</strong> multip<strong>le</strong>s fois dans l'histoire <strong>de</strong> la planète et sans <strong>le</strong>s<br />

effets dévastateurs aujourd'hui prophétisés. Il juge excessifs <strong>le</strong>s accroissements <strong>de</strong><br />

température prévus <strong>de</strong> 1,5 à 5 °C.<br />

3. Le corpus<br />

Notre travail est basé sur la fouil<strong>le</strong> <strong>de</strong> corpus <strong>de</strong> textes <strong>de</strong> différentes sources ; il peut être<br />

effectué soit sur <strong>de</strong>s textes « tout-venant » selon l’appellation <strong>de</strong> B. Habert, soit sur <strong>de</strong>s textes<br />

bien structurés. La constitution <strong>de</strong> notre corpus, ne répond pas exactement à la définition citée<br />

par B. Habert (HABERT 97), <strong>de</strong> J. Sinclair qu’ « un corpus est une col<strong>le</strong>ction <strong>de</strong> données<br />

langagières qui sont sé<strong>le</strong>ctionnées et organisées selon <strong>de</strong>s critères <strong>linguistiques</strong> explicites <strong>pour</strong><br />

servir d’échantillons du langage. » p. 144. Pour nous, un corpus est une col<strong>le</strong>ction très<br />

étendue <strong>de</strong> textes rassemblés <strong>pour</strong> servir d’échantillon, sans critères <strong>linguistiques</strong> (sauf peut<br />

être que notre travail ne concerne que <strong>de</strong>s textes écrits !). Toute donnée langagière peut servir<br />

d’échantillon du langage. Notre corpus est <strong>le</strong> suivant :<br />

• 100 artic<strong>le</strong>s <strong>de</strong> presse <strong>de</strong> « Le Mon<strong>de</strong> Diplomatique » entre 89 – 98 ;<br />

• 4 romans policiers « grand public » ;<br />

• un ensemb<strong>le</strong> <strong>de</strong> textes fournis par l’É<strong>le</strong>ctricité <strong>de</strong> France sur l’effet <strong>de</strong> serre ;<br />

• 60 artic<strong>le</strong>s <strong>de</strong> presse <strong>de</strong> « Le Mon<strong>de</strong> Informatique » et <strong>de</strong> « 01 Informatique ».<br />

4. Les <strong>connaissances</strong> <strong>linguistiques</strong> nécessaires <strong>pour</strong> l’extraction <strong>de</strong> citations<br />

en utilisant la métho<strong>de</strong> d’exploration contextuel<strong>le</strong><br />

Avant <strong>de</strong> lister et <strong>de</strong> classifier <strong>le</strong>s <strong>connaissances</strong> <strong>linguistiques</strong>, nous précisons que ces<br />

<strong>connaissances</strong> <strong>linguistiques</strong> sont implémentées dans <strong>le</strong> logiciel ContextO (MINEL 00)<br />

développé au sein <strong>de</strong> l’équipe <strong>LaLIC</strong>. Ce logiciel fait partie d’une plate-forme (Filtext), qui a<br />

donnée lieu à différentes applications informatiques, comme <strong>le</strong> résumé automatique, <strong>le</strong><br />

filtrage <strong>de</strong> définitions, l’extraction <strong>de</strong>s relations causa<strong>le</strong>s, etc. Tous ces travaux sont fondés<br />

sur la métho<strong>de</strong> d’exploration contextuel<strong>le</strong>. En effet, la métho<strong>de</strong> d’exploration contextuel<strong>le</strong><br />

consiste à chercher dans un segment textuel <strong>de</strong>s marqueurs <strong>linguistiques</strong> (indicateurs et<br />

indices) qui i<strong>de</strong>ntifient <strong>de</strong>s classes sémantiques. D’un coté <strong>le</strong>s indicateurs déc<strong>le</strong>nchent <strong>de</strong>s<br />

règ<strong>le</strong>s d’exploration contextuel<strong>le</strong> ; <strong>le</strong>s indices complémentaires orientent vers la prise <strong>de</strong><br />

décision : gar<strong>de</strong>r tel segment textuel, attribuer à un segment textuel une étiquette sémantique<br />

etc. Les indicateurs et <strong>le</strong>s indices complémentaires sont classés selon <strong>de</strong>s tâches à réaliser<br />

(résumé automatique, extraction <strong>de</strong> relations causa<strong>le</strong>s, etc.). Ces <strong>connaissances</strong>, <strong>pour</strong><br />

l’extraction <strong>de</strong> citation sont <strong>de</strong> <strong>de</strong>ux types : typographiques et langagières 2 . El<strong>le</strong>s sont classées<br />

1<br />

http://www-stu.cai.cam.ac.uk/ci-dit/<br />

2<br />

Nous utilisons la notion « langagière » à la place <strong>de</strong> « linguistique » parce que nous pensons<br />

que <strong>le</strong>s indicateurs typographiques ont une va<strong>le</strong>ur linguistique.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!