Présentation de connaissances linguistiques pour le ... - LaLIC
Présentation de connaissances linguistiques pour le ... - LaLIC
Présentation de connaissances linguistiques pour le ... - LaLIC
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Mourad G., <strong>Présentation</strong> <strong>de</strong> <strong>connaissances</strong> <strong>linguistiques</strong> <strong>pour</strong> <strong>le</strong> repérage et l’extraction <strong>de</strong><br />
citations. In TALN, 7 ème Conférence Annuel<strong>le</strong> sur <strong>le</strong> Traitement Automatique <strong>de</strong>s Langues<br />
Naturel<strong>le</strong>s ; pp. 495-501 ; Lausanne, Suisse 16 – 18 octobre 2000.<br />
<strong>Présentation</strong> <strong>de</strong> <strong>connaissances</strong> <strong>linguistiques</strong> <strong>pour</strong> <strong>le</strong><br />
repérage et l’extraction <strong>de</strong> citations<br />
Ghassan Mourad<br />
Équipe Langage, Logique, Informatique et Cognition (<strong>LaLIC</strong>)<br />
Centre d’Analyse et <strong>de</strong> Mathématique Socia<strong>le</strong>s (CAMS)<br />
UMR 8557 du CNRS, EHESS, Paris-Sorbonne<br />
96, Bou<strong>le</strong>vard Raspail 75006 PARIS – France<br />
Tél. : (33) 01 44 39 89 63<br />
Ghassan.Mourad@paris4.sorbonne.fr<br />
Résumé<br />
Nous décrirons dans cet artic<strong>le</strong> <strong>le</strong>s <strong>connaissances</strong> <strong>linguistiques</strong>, implémentées dans la plateforme<br />
Filtext, <strong>pour</strong> l’extraction <strong>de</strong> la citation dans un texte ou dans un corpus <strong>de</strong> textes. Nous<br />
expliquerons ensuite <strong>le</strong>s classes <strong>de</strong> marqueurs <strong>linguistiques</strong> (indicateurs déc<strong>le</strong>ncheurs et<br />
indices complémentaires). Enfin, nous définirons un classement sémantique <strong>de</strong>s verbes<br />
d’introduction <strong>de</strong> la citation.<br />
1. Introduction<br />
Dans <strong>le</strong> cadre d’un filtrage sémantique <strong>de</strong> textes, <strong>le</strong> repérage <strong>de</strong>s citations n’est pas un<br />
exercice trivial. Les unités <strong>linguistiques</strong> nécessaires, à première vue, peuvent paraître faci<strong>le</strong>s à<br />
i<strong>de</strong>ntifier. Mais en travaillant sur un grand corpus, on se rend compte que ces unités sont<br />
diversifiées. Selon <strong>le</strong>s livres d’ai<strong>de</strong> à la rédaction, il existe <strong>de</strong>ux façons d’introduire une<br />
citation : soit par <strong>le</strong>s « <strong>de</strong>ux-points-guil<strong>le</strong>mets », soit par <strong>le</strong> biais <strong>de</strong>s verbes <strong>de</strong><br />
communication suivis par la complétive « que » <strong>pour</strong> la citation indirecte. En réalité, ce n’est<br />
pas toujours <strong>le</strong> cas. La citation n’est pas un simp<strong>le</strong> segment textuel introduit seu<strong>le</strong>ment par un<br />
marqueur typographique et par <strong>de</strong>s verbes <strong>de</strong> communication. L’acte citationnel est un acte<br />
comp<strong>le</strong>xe au niveau linguistique, ainsi qu’au niveau communicatif. Ce que nous voulons<br />
montrer dans ce papier, ce sont <strong>le</strong>s diverses façons d’introduire une citation, <strong>le</strong> classement<br />
sémantique <strong>de</strong> ces introducteurs, et enfin la façon dont nous avons procédé <strong>pour</strong> repérer<br />
automatiquement la citation dans un texte.<br />
2. Critères simp<strong>le</strong>s <strong>pour</strong> définir une citation<br />
Une citation est tout texte ou fragment textuel rapporté, que ce soit écrit ou prononcé. Un<br />
fragment textuel peut être cité « à la <strong>le</strong>ttre » et entre guil<strong>le</strong>mets : citation directe ; il peut être<br />
paraphrasé ou cité à l’ai<strong>de</strong> « d’autres mots » : citation indirecte. Donc, toute donnée rapportée,<br />
qu’el<strong>le</strong> soit entre guil<strong>le</strong>mets ou non est une citation. Les critères <strong>de</strong> définition d’une citation<br />
sont <strong>de</strong>s critères <strong>de</strong> surface. Les aspects théoriques (qui sont beaucoup plus compliqués que<br />
cette simplification) ne sont pas étudiés dans ce travail. Pour une étu<strong>de</strong> plus détaillée sur ces
Ghassan Mourad<br />
questions, voir notre travail dans (MOURAD 00), ainsi que la «Webliographie» <strong>de</strong> «Ci-dit 1 »<br />
où on trouve un site spécialisé.<br />
Voici <strong>de</strong>ux exemp<strong>le</strong>s <strong>de</strong> citations directe (ex.1) et indirecte (ex. 2) :<br />
1) "Les Net Computers ne vont pas remplacer <strong>le</strong>s PC. Ils seront utilisés par <strong>de</strong>s<br />
employés qui n'ont pas d'outil micro ou qui travail<strong>le</strong>nt aujourd'hui sur <strong>de</strong>s terminaux<br />
passifs ", estime-t-on chez Input.<br />
2) LINTZEN admet que l'atmosphère dans son ensemb<strong>le</strong> peut se réchauffer, que <strong>de</strong>s<br />
réchauffements se sont produits <strong>de</strong> multip<strong>le</strong>s fois dans l'histoire <strong>de</strong> la planète et sans <strong>le</strong>s<br />
effets dévastateurs aujourd'hui prophétisés. Il juge excessifs <strong>le</strong>s accroissements <strong>de</strong><br />
température prévus <strong>de</strong> 1,5 à 5 °C.<br />
3. Le corpus<br />
Notre travail est basé sur la fouil<strong>le</strong> <strong>de</strong> corpus <strong>de</strong> textes <strong>de</strong> différentes sources ; il peut être<br />
effectué soit sur <strong>de</strong>s textes « tout-venant » selon l’appellation <strong>de</strong> B. Habert, soit sur <strong>de</strong>s textes<br />
bien structurés. La constitution <strong>de</strong> notre corpus, ne répond pas exactement à la définition citée<br />
par B. Habert (HABERT 97), <strong>de</strong> J. Sinclair qu’ « un corpus est une col<strong>le</strong>ction <strong>de</strong> données<br />
langagières qui sont sé<strong>le</strong>ctionnées et organisées selon <strong>de</strong>s critères <strong>linguistiques</strong> explicites <strong>pour</strong><br />
servir d’échantillons du langage. » p. 144. Pour nous, un corpus est une col<strong>le</strong>ction très<br />
étendue <strong>de</strong> textes rassemblés <strong>pour</strong> servir d’échantillon, sans critères <strong>linguistiques</strong> (sauf peut<br />
être que notre travail ne concerne que <strong>de</strong>s textes écrits !). Toute donnée langagière peut servir<br />
d’échantillon du langage. Notre corpus est <strong>le</strong> suivant :<br />
• 100 artic<strong>le</strong>s <strong>de</strong> presse <strong>de</strong> « Le Mon<strong>de</strong> Diplomatique » entre 89 – 98 ;<br />
• 4 romans policiers « grand public » ;<br />
• un ensemb<strong>le</strong> <strong>de</strong> textes fournis par l’É<strong>le</strong>ctricité <strong>de</strong> France sur l’effet <strong>de</strong> serre ;<br />
• 60 artic<strong>le</strong>s <strong>de</strong> presse <strong>de</strong> « Le Mon<strong>de</strong> Informatique » et <strong>de</strong> « 01 Informatique ».<br />
4. Les <strong>connaissances</strong> <strong>linguistiques</strong> nécessaires <strong>pour</strong> l’extraction <strong>de</strong> citations<br />
en utilisant la métho<strong>de</strong> d’exploration contextuel<strong>le</strong><br />
Avant <strong>de</strong> lister et <strong>de</strong> classifier <strong>le</strong>s <strong>connaissances</strong> <strong>linguistiques</strong>, nous précisons que ces<br />
<strong>connaissances</strong> <strong>linguistiques</strong> sont implémentées dans <strong>le</strong> logiciel ContextO (MINEL 00)<br />
développé au sein <strong>de</strong> l’équipe <strong>LaLIC</strong>. Ce logiciel fait partie d’une plate-forme (Filtext), qui a<br />
donnée lieu à différentes applications informatiques, comme <strong>le</strong> résumé automatique, <strong>le</strong><br />
filtrage <strong>de</strong> définitions, l’extraction <strong>de</strong>s relations causa<strong>le</strong>s, etc. Tous ces travaux sont fondés<br />
sur la métho<strong>de</strong> d’exploration contextuel<strong>le</strong>. En effet, la métho<strong>de</strong> d’exploration contextuel<strong>le</strong><br />
consiste à chercher dans un segment textuel <strong>de</strong>s marqueurs <strong>linguistiques</strong> (indicateurs et<br />
indices) qui i<strong>de</strong>ntifient <strong>de</strong>s classes sémantiques. D’un coté <strong>le</strong>s indicateurs déc<strong>le</strong>nchent <strong>de</strong>s<br />
règ<strong>le</strong>s d’exploration contextuel<strong>le</strong> ; <strong>le</strong>s indices complémentaires orientent vers la prise <strong>de</strong><br />
décision : gar<strong>de</strong>r tel segment textuel, attribuer à un segment textuel une étiquette sémantique<br />
etc. Les indicateurs et <strong>le</strong>s indices complémentaires sont classés selon <strong>de</strong>s tâches à réaliser<br />
(résumé automatique, extraction <strong>de</strong> relations causa<strong>le</strong>s, etc.). Ces <strong>connaissances</strong>, <strong>pour</strong><br />
l’extraction <strong>de</strong> citation sont <strong>de</strong> <strong>de</strong>ux types : typographiques et langagières 2 . El<strong>le</strong>s sont classées<br />
1<br />
http://www-stu.cai.cam.ac.uk/ci-dit/<br />
2<br />
Nous utilisons la notion « langagière » à la place <strong>de</strong> « linguistique » parce que nous pensons<br />
que <strong>le</strong>s indicateurs typographiques ont une va<strong>le</strong>ur linguistique.
Connaissances <strong>pour</strong> l’extraction <strong>de</strong> citations<br />
dans une base <strong>de</strong> données et organisées selon un formalisme <strong>de</strong> règ<strong>le</strong>s en format déclaratif<br />
dans un premier temps et ensuite codées en Java.<br />
4.1. Les classes <strong>de</strong>s indicateurs déc<strong>le</strong>ncheurs<br />
4.1.1. Les indicateurs typographiques<br />
- : « chaîne <strong>de</strong> caractères » : ceci est <strong>le</strong> marqueur par excel<strong>le</strong>nce d’introduction d’une<br />
citation directe.<br />
- « chaine <strong>de</strong> caractères (Chiffre arabe ou/et donnée bibliographique) » : ce<br />
marqueur renvoie à la source <strong>de</strong> la citation dans <strong>le</strong> cas où il est précédé par <strong>de</strong>s<br />
guil<strong>le</strong>mets.<br />
- « chaine <strong>de</strong> caractères (…) » ou « chaine <strong>de</strong> caractères […] », incise elliptique (...)<br />
ou [...], signa<strong>le</strong> la présence <strong>de</strong> données omises dans une citation.<br />
Ces trois marqueurs ne nécessitent pas <strong>de</strong>s indices complémentaires. Leur présence suffit <strong>pour</strong><br />
détecter une citation directe.<br />
4.1.2. Les indicateurs langagiers<br />
-Les verbes d’introduction <strong>de</strong> la citation : nous avons repéré 209 verbes<br />
d’introduction <strong>de</strong> citation (annexe A).<br />
-Les noms et <strong>le</strong>s prépositions (tab<strong>le</strong> 1). Ce sont <strong>de</strong>s introducteurs <strong>de</strong> citation dans <strong>le</strong>s<br />
cas où ils sont suivis ou précédés d’une entité nommée.<br />
À ces yeux De la part <strong>de</strong> L'affirmation <strong>de</strong> L'opinion <strong>de</strong><br />
Aux yeux <strong>de</strong> La conclusion <strong>de</strong> L'avis <strong>de</strong> Pour<br />
Ce vœu <strong>de</strong> La déclaration <strong>de</strong> Le jugement <strong>de</strong> Par ces mots<br />
Conformément à La position <strong>de</strong> Le terme <strong>de</strong> Selon<br />
D'après La thèse <strong>de</strong> L'observation <strong>de</strong> Suivant<br />
4.2. Les classes <strong>de</strong>s indices complémentaires<br />
4.2.1. Les indices typographiques<br />
Tab<strong>le</strong> 1: <strong>le</strong>s noms et <strong>le</strong>s prépositions<br />
- : l’“italique” est souvent utilisé <strong>pour</strong> insérer une citation directe entre<br />
guil<strong>le</strong>mets.<br />
- ! et ? sont, souvent, <strong>de</strong>s signes <strong>de</strong> discours rapporté dans <strong>le</strong>s romans.<br />
4.2.2. Les indices langagiers<br />
- Les entités nommées, incluent <strong>le</strong>s noms propres, <strong>le</strong>s abréviations et <strong>le</strong>s noms<br />
d’organismes (sociétés, institutions…). Cette classe fait partie d’un modu<strong>le</strong> développé par<br />
Slim BEN-HAZEZ (BEN-HAZEZ 00).<br />
- Les activités professionnel<strong>le</strong>s, (« Activity_Attribution ») incluent <strong>le</strong>s noms <strong>de</strong>s<br />
différents métiers. (directeur, journaliste, avocat, etc.).<br />
- La complétive : que ; (déclare que, dit que, annonce que, disait que, etc.).<br />
- La classe référentiel<strong>le</strong> : lui, el<strong>le</strong>, eux ; (selon lui, <strong>pour</strong> eux, etc.).
Ghassan Mourad<br />
- La classe énonciative : je, nous, notre, nos, on (présence <strong>de</strong>s énonciatives entre<br />
guil<strong>le</strong>mets).<br />
- La classe discursive : il, el<strong>le</strong> ; (dit-il, ajoute-il, annonce-el<strong>le</strong>, note-t-el<strong>le</strong>, etc.).<br />
4.3. <strong>le</strong> langage formel (déclaratif) d’expression <strong>de</strong>s règ<strong>le</strong>s d’exploration contextuel<strong>le</strong><br />
Les règ<strong>le</strong>s d’exploration contextuel<strong>le</strong> sont exprimées sous forme <strong>de</strong> règ<strong>le</strong>s déclaratives. Ce<br />
langage sert, dans un premier temps, aux linguistes à exprimer <strong>le</strong>urs <strong>connaissances</strong> ; et dans<br />
un <strong>de</strong>uxième temps, <strong>pour</strong> que <strong>le</strong>s règ<strong>le</strong>s décrites sous cette forme puissent être transformées et<br />
compilées automatiquement dans un langage <strong>de</strong> programmation (dans notre cas, Java). Le<br />
linguiste doit exprimer au moins dans sa règ<strong>le</strong>, l’espace <strong>de</strong> recherche, <strong>le</strong> marqueur<br />
déc<strong>le</strong>ncheur <strong>de</strong> la règ<strong>le</strong> et l’action qu’il veut effectuer par cette règ<strong>le</strong> (en l’occurrence<br />
l’attribution d’une étiquette sémantique). Dans <strong>le</strong> cas où <strong>le</strong> marqueur ne suffit pas (c’est<br />
souvent <strong>le</strong> cas), ce sont <strong>le</strong>s indices complémentaires qui orientent vers une prise <strong>de</strong> décision.<br />
Exemp<strong>le</strong> <strong>de</strong> règ<strong>le</strong> <strong>pour</strong> l’extraction d’une citation indirecte :.<br />
Commentaire Explication Exemp<strong>le</strong><br />
Nom Règ<strong>le</strong>Citation Renvoie à la classe spécifique liée à la<br />
règ<strong>le</strong><br />
Déc<strong>le</strong>nchement &OpinionP capte <strong>le</strong> marqueur (préposition<br />
d'introduction d'une citation (<strong>de</strong> la classe<br />
OpinionP (« opinion prépositionnel <strong>le</strong>»)<br />
<strong>de</strong> détection d'une citation indirecte;<br />
E1<br />
Créer_Espace<br />
(droite ( nombre<br />
<strong>de</strong> position) )<br />
i<strong>de</strong>ntifie l’espace <strong>de</strong> recherche dans<br />
<strong>le</strong>quel se trouvent <strong>le</strong>s indices ; l’indice<br />
doit se retrouver à droite <strong>de</strong> l’indicateur.<br />
L1 &Guil<strong>le</strong>mets Classe <strong>de</strong> l’indice guil<strong>le</strong>mets ; marqueurs<br />
<strong>de</strong> différenciation entre citation directe et<br />
citation indirecte<br />
L2 &entité nommée indice complémentaire d’i<strong>de</strong>ntification<br />
<strong>de</strong>s noms propres<br />
L3<br />
&Activity_Attrib indice complémentaire d’attribution <strong>de</strong> la<br />
ution<br />
citation à une profession ou un métier<br />
Cond1<br />
Cond2<br />
Action<br />
il_existe_un_indi<br />
ce_y<br />
appartenant_à E1<br />
tel_que classe_<strong>de</strong><br />
y appartient_à<br />
(L2 ou L3 )<br />
il_n'existe_pas_u<br />
n_indice z<br />
appartenant_à E1<br />
tel_que classe_<strong>de</strong><br />
z appartient_à<br />
L1<br />
Attribuer à<br />
(PhraseParent_<strong>de</strong><br />
_I, "citation<br />
indirecte")<br />
si dans l’espace <strong>de</strong> recherche on trouve<br />
un élément <strong>de</strong> la classe entité-nommé ou<br />
<strong>de</strong> la classe Activity-attribution.<br />
si il n’existe pas <strong>de</strong> guil<strong>le</strong>mets dans <strong>le</strong><br />
segment textuel<br />
ce segment est une citation indirecte.<br />
Selon, <strong>pour</strong>,<br />
d’après<br />
Selon X<br />
« »<br />
Nom propre<br />
Directeur,<br />
PDG,<br />
étudiant,etc.
Connaissances <strong>pour</strong> l’extraction <strong>de</strong> citations<br />
Cette règ<strong>le</strong> permet d’extraire une citation indirecte comme dans ces exemp<strong>le</strong>s :<br />
3) Ainsi <strong>pour</strong> Ayres et Walter (1991), <strong>le</strong>s dommages dûs à l'effet <strong>de</strong> serre seraient <strong>de</strong> l'ordre<br />
<strong>de</strong> 30 à 35 US $ par tonne d'équiva<strong>le</strong>nt-CO2 et non pas <strong>de</strong> 3,3 à 36,9 US $ par tonne<br />
d'équiva<strong>le</strong>nt-CO2, comme indiqué par Nordhaus (1991).<br />
4) D'ail<strong>le</strong>urs, une innovation technologique n'a jamais un caractère <strong>de</strong> nécessité: el<strong>le</strong> n'est<br />
jamais prédictib<strong>le</strong> dans sa contingence et son contenu à l'instar du progrès scientifique selon<br />
K. Popper (1957).<br />
Les règ<strong>le</strong>s sont classées selon l’étiquette sémantique à attribuer (type <strong>de</strong> citation), ainsi que<br />
par rapport à l’espace <strong>de</strong> recherche à analyser. Les données <strong>linguistiques</strong> sont classées dans<br />
une base <strong>de</strong> données, et organisées selon <strong>le</strong>s tâches <strong>de</strong> filtrage et <strong>de</strong> repérage.<br />
Il faut signa<strong>le</strong>r que <strong>pour</strong> <strong>le</strong>s marqueurs discontinus (où on trouve <strong>de</strong>s expressions entre <strong>le</strong>s<br />
indices et <strong>le</strong> déc<strong>le</strong>ncheur), <strong>de</strong>s contraintes <strong>de</strong> distance sont envisagées dans <strong>le</strong>s règ<strong>le</strong>s (cf.<br />
Créer_Espace (droite ( nombre <strong>de</strong> position) ). L’espace <strong>de</strong> recherche est défini par un<br />
segmenteur <strong>de</strong> textes qui segmente selon la tache à réaliser. Ce segmenteur ne segmente pas à<br />
l’intérieur <strong>de</strong>s guil<strong>le</strong>mets <strong>pour</strong> la recherche <strong>de</strong> la citation directe (<strong>le</strong>s frontières dans ce cas<br />
sont définies par rapport aux guil<strong>le</strong>mets <strong>de</strong> fermeture). En ce qui concerne la citation<br />
indirecte, <strong>de</strong>s indices <strong>linguistiques</strong> <strong>de</strong> fermeture sont en phase d’étu<strong>de</strong>s et ceci en<br />
collaboration et selon <strong>le</strong>s travaux <strong>de</strong> l’équipe <strong>de</strong> M. Charol<strong>le</strong>s (CHAROLLES 00).<br />
5. Classification sémantique <strong>de</strong> verbes introducteurs<br />
Nous avons procédé à une classification <strong>de</strong>s verbes introducteurs <strong>de</strong> citations (annexe A)<br />
par rapport à <strong>de</strong>s classes sémantiques déjà prédéfinies par nous (MOURAD 00) et ceci selon<br />
<strong>le</strong>s critères d’engagement (désengagement) <strong>de</strong> l’auteur <strong>de</strong> ce qu’il cite ou rapporte. Le<br />
classement sémantique a été effectué par <strong>de</strong>s journalistes utilisateurs potentiels <strong>de</strong> ces verbes<br />
(Gaël<strong>le</strong> Fouéré du Mon<strong>de</strong> <strong>de</strong> L’éducation et Chafik Guendouz <strong>de</strong> L’Usine Nouvel<strong>le</strong>). La tab<strong>le</strong><br />
2 donne un aperçu <strong>de</strong> ces classes.<br />
ENGAGEMENT FAIBLE<br />
ENGAGEMENT FORT<br />
COMMENTAIRE (noter, remarquer…) ANTICIPATION (rétorquer, avancer, ...)<br />
DECLARATION (déclarer, dire,…) PROPOSITION (proposer, suggérer…)<br />
ANALYSE ( constater, observer, …) RECLAMATION (réclamer, revendiquer…)<br />
DESCRIPTION 3 (murmurer, chuchoter) DENOCIATION (dénoncer, déplorer …)<br />
RECIT (raconter, rappe<strong>le</strong>r, …) IRONIE (ironiser, persif<strong>le</strong>r…)<br />
CONCLUSION (conclure, trancher…) MODERATION (modérer, tempérer…)<br />
EXPLICATIF (montrer, développer…) EXCLAMATION (s’exclamer, s’étonner…)<br />
AVEU (avouer, confesser, confier…)<br />
OPINION (exposer, exprimer , juger)<br />
Tab<strong>le</strong> 2<br />
3<br />
Phonétique.
Ghassan Mourad<br />
6. Perspectives et conclusion<br />
En perspective, <strong>le</strong>s étiquettes sémantiques seront classées par rapport aux classes <strong>de</strong> la<br />
tab<strong>le</strong> 2. Ceci veut dire que l’extraction <strong>de</strong> la citation peut se faire soit par l’extraction <strong>de</strong><br />
citations directe ou indirecte, soit par <strong>de</strong>s types <strong>de</strong>s citations plus fines ; en effet l’utilisateur<br />
peut <strong>de</strong>man<strong>de</strong>r <strong>le</strong>s citations <strong>de</strong> type AVEU, ou <strong>de</strong> type EXCLAMATION, etc.<br />
L’extraction <strong>de</strong> citations dans un texte répond à <strong>de</strong>s exigences dans <strong>le</strong> domaine <strong>de</strong> la<br />
recherche d’informations. La citation est une donnée essentiel<strong>le</strong> <strong>pour</strong> la constitution <strong>de</strong> la<br />
presse. Le marquage <strong>de</strong> la citation dans la presse en légen<strong>de</strong> est un facteur important <strong>pour</strong><br />
indiquer « QUI DIT et QUI DIT QUOI ». Deuxièmement, la citation est facteur<br />
d’argumentation dans <strong>le</strong>s artic<strong>le</strong>s <strong>de</strong> vulgarisations scientifiques : on cite <strong>pour</strong> consoli<strong>de</strong>r nos<br />
propos.<br />
Enfin, une étu<strong>de</strong> <strong>de</strong> fréquence d’utilisation à été réalisée sur 603 exemp<strong>le</strong>s <strong>de</strong>s citations.<br />
Ceci nous permet <strong>de</strong> résumer que <strong>pour</strong> la citation directe 16,92% d’utilisation ont été<br />
introduites par <strong>de</strong>ux-points guil<strong>le</strong>mets ; 4,98% par <strong>le</strong> verbe dire, 4,15% par <strong>le</strong> verbe affirmer,<br />
etc. Néanmoins, il faut signa<strong>le</strong>r que l’utilisation <strong>de</strong>s verbes n’est pas la même selon <strong>le</strong> type du<br />
corpus. En effet, nous constatons que <strong>de</strong>s verbes <strong>de</strong> certaines classes sémantiques comme<br />
cel<strong>le</strong>s <strong>de</strong> DECLARATON ne sont pas utilisés dans un corpus <strong>de</strong> vulgarisation scientifique<br />
(0% d’utilisation dans <strong>le</strong> corpus <strong>de</strong> l’EDF), mais ils sont très fréquents dans <strong>le</strong> corpus <strong>de</strong><br />
presse (5%). Par contre, <strong>le</strong>s verbes comme ceux <strong>de</strong> la classe EXPLICATIF (montrer) sont très<br />
fréquents dans <strong>le</strong> corpus <strong>de</strong> l’EDF (5,88%), et 0% dans celui <strong>de</strong> la presse.<br />
Pour finir, nous indiquons que <strong>de</strong>s citations indirectes sont détectées en tant que citations<br />
directes par <strong>le</strong> fait d’utilisation <strong>de</strong> l’indice typographique guil<strong>le</strong>mets dans un acte noncitationnel.<br />
Références<br />
BEN-HAZEZ S. (2000). Modélisation et <strong>de</strong>scription <strong>de</strong> tâches <strong>de</strong> reconnaissance <strong>de</strong> motifs<br />
<strong>linguistiques</strong> comp<strong>le</strong>xes <strong>pour</strong> <strong>le</strong> filtrage <strong>de</strong> textes (traduction). Acte <strong>de</strong> colloque RIAO Paris.<br />
CHAROLLES M. (2000), Les expressions introductrices <strong>de</strong> cadres <strong>de</strong> discours et <strong>le</strong>urs portée<br />
textuel<strong>le</strong>, séminaire <strong>de</strong> recherche, Paris III, Sorbonne Nouvel<strong>le</strong> – (Censier).<br />
HABERT B., NAZARENKO A., SALEM A. (1997) Les <strong>linguistiques</strong> <strong>de</strong> corpus, Armand<br />
Colin, Paris.<br />
MINEL J.-L., DESCLÉS J.-P., CARTIER E., CRISPINO G., BEN HAZEZ S.,<br />
JACKIEWICZ A. (2000). Résumé automatique par filtrage sémantique d'informations dans<br />
<strong>de</strong>s textes. <strong>Présentation</strong> <strong>de</strong> la plate-forme FilText, à paraître, in TSI.<br />
MOURAD G. (2000). Analyse informatique <strong>de</strong>s marques <strong>de</strong> ponctuation dans <strong>le</strong>s textes et<br />
interprétation sémantique <strong>de</strong>s marqueurs typographiques, Thèse <strong>de</strong> doctorat en informatique<br />
linguistique (prévue en 2000), Paris-Sorbonne, Paris.<br />
Annexe A<br />
Accepter<br />
Accuser<br />
Acquiescer<br />
Admettre<br />
Affirmer<br />
Ajouter<br />
Analyser<br />
Annoncer<br />
Annoter<br />
Apostropher<br />
Appe<strong>le</strong>r<br />
Apprendre<br />
Approuver<br />
Articu<strong>le</strong>r<br />
Assurer
Connaissances <strong>pour</strong> l’extraction <strong>de</strong> citations<br />
Attester<br />
Avancer<br />
Avertir<br />
Avouer<br />
Balbutier<br />
Balancer<br />
Baptiser<br />
Bégayer<br />
Certifier<br />
Citer<br />
Commencer<br />
Commenter<br />
Communiquer<br />
Compléter<br />
Concé<strong>de</strong>r<br />
Conclure<br />
Confesser<br />
Confier<br />
Confirmer<br />
Conseil<strong>le</strong>r<br />
Considérer<br />
Constater<br />
Continuer<br />
Convenir<br />
Copier<br />
Crier<br />
Déclamer<br />
Déclarer<br />
Décrire<br />
Déduire<br />
Deman<strong>de</strong>r<br />
Démontrer<br />
Dénoncer<br />
Déplorer<br />
Désapprouver<br />
Désigner<br />
Développer<br />
Dévoi<strong>le</strong>r<br />
Dire<br />
Écrier<br />
Écrire<br />
Émettre<br />
Emporter<br />
Enchaîner<br />
Enjoindre<br />
Enquérir<br />
Entonner<br />
Envisager<br />
Époumoner<br />
Espérer<br />
Estimer<br />
Étonner<br />
Évoquer<br />
Exclamer<br />
Excuser<br />
Exiger<br />
Expliciter<br />
Expliquer<br />
Exposer<br />
Exprimer<br />
Fâcher<br />
Faire<br />
Féliciter<br />
Fulminer<br />
Garantir<br />
Gémir<br />
Glapir<br />
Glisser<br />
Grincer<br />
Grogner<br />
Gromme<strong>le</strong>r<br />
Gron<strong>de</strong>r<br />
Hur<strong>le</strong>r<br />
Imaginer<br />
Imiter<br />
Incliner<br />
Indigner<br />
Indiquer<br />
Informer<br />
Insinuer<br />
Insister<br />
Insurger<br />
Interpel<strong>le</strong>r<br />
Interroger<br />
Intervenir<br />
Intimer<br />
Invectiver<br />
Invoquer<br />
Ironiser<br />
Jeter<br />
Juger<br />
Jurer<br />
Justifier<br />
Lamenter<br />
Lancer<br />
Maintenir<br />
Manifester<br />
Marmonner<br />
Marte<strong>le</strong>r<br />
Maugréer<br />
Modérer<br />
Montrer<br />
Murmurer<br />
Narrer<br />
Nier<br />
Nommer<br />
Noter<br />
Nuancer<br />
Objecter<br />
Observer<br />
Obstiner<br />
Opposer<br />
Ordonner<br />
Parier<br />
Par<strong>le</strong>r<br />
Penser<br />
Persif<strong>le</strong>r<br />
Plagier<br />
Plai<strong>de</strong>r<br />
Plaindre<br />
Poser<br />
Poursuivre<br />
Prêcher<br />
Préciser<br />
Présumer<br />
Prétendre<br />
Prétexter<br />
Prévenir<br />
Prévoir<br />
Prier<br />
Proclamer<br />
Proférer<br />
Promettre<br />
Prôner<br />
Prononcer<br />
Pronostiquer<br />
Proposer<br />
Protester<br />
Prouver<br />
Publier<br />
Qualifier<br />
Raconter<br />
Rail<strong>le</strong>r<br />
Rappe<strong>le</strong>r<br />
Rapporter<br />
Rapprocher<br />
Rassurer<br />
Réaffirmer<br />
Réciter<br />
Réclamer<br />
Reconnaître<br />
Recopier<br />
Rectifier<br />
Redire<br />
Regretter<br />
Réitérer<br />
Rejeter<br />
Relater<br />
Remarquer<br />
Remercier<br />
Renchérir<br />
Répondre<br />
Répéter<br />
Répliquer<br />
Reprendre<br />
Reprocher<br />
Résumer<br />
Rétorquer<br />
Révé<strong>le</strong>r<br />
Revendiquer<br />
Ricaner<br />
Riposter<br />
Saluer<br />
Signa<strong>le</strong>r<br />
Signifier<br />
Songer<br />
Souhaiter<br />
Souligner<br />
Soumettre<br />
Soupçonner<br />
Soutenir<br />
Souvenir<br />
Spécifier<br />
Suggérer<br />
Supposer<br />
Supputer<br />
Témoigner<br />
Tempérer<br />
Tonner<br />
Traduire<br />
Trancher<br />
Trouver(que)<br />
Vociférer<br />
Voir(que)