projet PROLEX : réalisation d'un dictionnaire…

Annotation et normalisation 

des Entités Nommées 

Claude Martineau 

Takuya Nakamura 

Lidia Varga 

Stavroula Voyatzi 

@univmlv.fr 

28ème Colloque International sur le Lexique et la Grammaire 

Bergen, 30 septembre 3 octobre 2009

Plan 

• Contexte de travail 

• Extraction d’Entités Nommées (EN) 

• Module d’Annotation d’EN 

• Normalisation d’EN 

• Évaluation 

• Conclusion et Perspectives

Pôle de compétitivité des 

Contexte 

contenus numériques 

(janvier 2006 – juin 2009) 

29 partenaires (PME, grands groupes, établissements 

publics); 

Financé par les partenaires ainsi que par la DGE et 

quelques conseils régionaux d’Ile de France; 

Étudier et proposer des prototypes logiciels de fonctions 

avancées d’analyse multimodale de données numériques. 

3

Projet Infom@gic 

• Soustâche ST2.11 : extraction d’information à 

partir de données textuelles 

Objectif : 

– fédérer les savoir faire de chaque partenaire dans le 

domaine de l’extraction d’information; 

– Permettre à d’autres partenaires du projet (ex. 

moteur de recherche sémantique sur le Web) 

d’utiliser cette information. 

4

Extraction d’Information 

Conversion du texte en données structurées répondant à des 

questions factuelles : Qui Fait quoi A qui Quand Où 

Comment … 

Le 3ème salon Naturel‘Monts va inaugurer et invahir les salles du nouveau 

Palais des Congrès de St Jean de Monts les 3 et 4 octobre 2009 

(www.autourdubio.fr, 2009) 

5

Extraction d’Entités d Entités Nommées 

La tâche d’Extraction d’Information a mis en évidence l’intérêt de 

reconnaître les Entités Nommées 

Qu’estce qu’on entend par Entités Nommées ? 

…tous les éléments du langage qui font référence à une entité unique et 

concrète, appartenant à un domaine spécifique (ie. social, 

économique, géographique, etc.); 

…noms propres au sens classique, noms propres dans un sens élargi 

mais aussi expressions de temps et de quantité; 

…unités permettant un accès particulièrement pertinent au contenu 

des documents. (MUC7, Chinchor 1998) 

6

Typologie sémantique d’EN (1/2) 

Classes EN Exemples 

Personnes Laurent Gbagbo, Pascal Affi N’Guessan 

Lieux 

(expressions spatiales) 

GuinéeBissau 

axe BouakéYamoussoukro 

Organisations Mouvement patriotique de Côte d’Ivoire, MPCI 

Faits 25e sommet francobritannique du Touquet 

Moyens Boeing 747300 

Œuvres New Press, Le Nouveau Testament 

Dates & Heures 

(expressions temporelles) 

le 29 mars 2003, 10h00 GMT 

depuis jeudi matin 

Expressions numériques 400 kilomètres, 50% 

Coordonnées 01 56 40 13 72, appels.actu@rfi.fr 

7

Typologie sémantique d’EN (2/2) 

Chacune de ces classes est affinée par un ensemble de sous 

classes et d’attributs qui spécifient : 

Attributs 

0, n 

Classe d’EN 

Types Attributs 

0, n 0, n 

Soustypes 

0,n 

Attributs 

0, n 

8

Module d’annotation (1/2) 

• Réutilisation, validation et adaptation des ressources 

linguistiques, développées au sein de l’équipe d’Informatique 

Linguistique à l’IGM, en vue de tâches et d’applications réelles 

(i.e. extraction d’entités nommées → moteur de recherche 

sémantique sur le Web) 

• Annotation fine: annotation et ajout d’informations sur le type 

de la sous classe et les attributs de l’entité nommée 

• Normalisation des expressions temporelles et numériques 

9

Module d’annotation (2/2) 

• Grammaires locales: écrites sous forme de RTN utilisant des 

informations morphosyntaxiques et sémantiques présentes dans les 

dicos 

• Élaborées au sein de l’IGM, les grammaires sont rassemblées et 

accessibles grâce au système Graalweb (Constant, 2004) 

• Dictionnaires généraux et spécialisés (ie. DELAF, toponymes, 

anthroponymes, sigles …) 

• Unitex (Paumier, 2003) : analyse des textes et traitement des 

ressources linguistiques 

Martineau, Claude; Tolone, Elsa et Voyatzi, Stavroula. 2007. « Les Entités Nommées : 

usage et degrés de précision et de désambiguïsation », In Catherine Camugli, Matthieu 

Constant et Anne Dister (éds.) Actes du XXVIe Colloque International Lexique et 

Grammaire, Bonifacio, Corse du Sud, 26 octobre 2007, pp. 105112 

10

Normalisation des EN (1/5) 

Normaliser une EN consiste à associer à chaque forme qu’elle 

peut prendre dans le texte une représentation unique 

Ex: Toutes les EN de type Date suivantes : 

5/02/2009 

5 fév. 2009 

cinq février 2009 

Normalisation 

20090205 

Le texte qui les contient est alors annoté ainsi: 

2/02/2009 

2 fév 2009 

deux février 2009 

La représentation choisie, la norme ISO8601, permet de traiter des dates incomplètes 

2 février 

février 2009 

11


Comment normaliser avec Unitex ? 

Pour transformer 5 février 2009 en 20090205 

Traduire (transduction) certains constituants : 

5 en 05 

février en 02 

Réordonner les traductions en insérant des « » : 5 février 2009 20090205 

1 2 3 1 

2 

3 

Sous Unitex les variables ne permettent de mémoriser et de réordonner que des constituants 

strictement extraits du texte mais pas d’effectuer une transduction en même temps. 

Ainsi le graphe cidessous peut transformer 5 février 2009 en 2009février5 

Ordre 

Mais chaque constituant conserve sa forme initiale 

12


Pour effectuer le traitement souhaité nous utilisons le mode morphologique 

d’Unitex qui permet de récupérer dans des variables les informations associées à 

une entrée d’un dictionnaire, dit dico morphologique. 

En particulier, de récupérer la forme canonique associée à une forme fléchie. Si 

$X$ est une variable morphologique, $X.LEMMA$ contient la forme canonique 

associée. 

Si nous traitons la phrase : « Les enfants chantent dans le jardin » à l’aide du dico 

morphologique et du graphe cidessous: 

Nous obtenons la concordance suivante: 

Les enfants chantent [chanter] dans le jardin 

chante,chanter.V:P1s:P3s:S1s:S3s 

chantes,chanter.V:P2s:S2s 

chantent,chanter.V:P3p 

Extrait de dico morphologique 

13


Un dico morphologique dans lequel on considère les formes 

canoniques comme les formes normalisées et l’ensemble des 

variantes potentiellement présentes dans le texte comme des 

formes fléchies permet d’effectuer la normalisation souhaitée 

Extrait de dico morphologique 

Graphe de normalisation de dates 

Un traitement similaire permet de normaliser des unités monétaires que la valeur soit 

exprimée en chiffres ou lettres (norme ISO4217). 

dix mille yen, 10 000 yen ou 10000 ¥ 10.000 JPY 

Normalisation 

Graphe de normalisation d’unité monétaire 

14

Exemples d’EN normalisées 


La normalisation de certains types d’EN facilite la 

comparaison, le tri et les requêtes sur ces données 

15

Évaluation valuation (1/2) 

• Corpus : 11 988 mots, un ensemble de dépêches d’agences portant sur les 

événements politiques en Côte d’Ivoire durant la période 20002003 

(corpus « CDI ») et un article de Wikipedia (corpus « endurance ») 

• Il contient 938 entités nommées réparties dans les catégories suivantes : 255 

Personnes, 327 Lieux, 300 Expressions Temporelles et 56 Expressions 

Numériques. 

• Schéma d’annotation : hiérarchie de types et soustypes 

16

Évaluation valuation (2/2) 

Nous avons donc calculé, pour chaque fichier ainsi que 

globalement, les taux de précision (quantité d’EN pertinentes 

parmi les EN relevées), de rappel (quantité d’EN pertinentes 

relevées par rapport à la quantité totale d’EN pertinentes du 

corpus) et la Fmesure (combinaison de la précision et du 

rappel). 

• 813 entités nommées détectées, parmi lesquelles 698 sont pertinentes, 66 

sont mal délimitées et 31 ont des erreurs de catégorisation dont 19 sont 

étiquetées avec le type supérieur. Enfin, 22 séquences nonpertinentes sont 

reconnues et 155 entités nommées sont oubliées. 

17

Conclusion et Perspectives 

• Système d’extraction et d’annotation d’EN en 

réutilisant autant que possible les ressources et outils 

existants, en particulier, ceux développés au sein de 

l’équipe d’Informatique Linguistique de l’IGM. 

• Traitement efficace de la normalisation d’EN avec 

Unitex. 

• Annotations par soustype spécifique fournies et 

bonne précision : une amorce fiable pour des 

systèmes d’apprentissage automatique. 

• Enrichissement des ressources, amélioration de la 

typologie (ex. soustypes d’événements), résolution 

de métonymie 

18

MERCI ! 

19

Bibliographie (1/3) 

Allerton D. (1987), «The linguistic and sociolinguistic status of proper names », in Journal of 

Pragmatics, vol. 11 : 6192. 

Bikel D. M., Miller S. Schwartz R. et Weischedel R. (1997), «Nymble: a highperformance 

learning namefinder », in Proceedings of the 5th Conference on Applied Natural language 

processing, 31/0303/04 1997, Morgan Kaufman Publishers Inc., Washington, DC, pp. 194201. 

Chinchor N. (1998), « MUC7 Named Entity Task Definition (version 3.5) », in Proceedings of the 

7th Message Understanding Conference (MUC7), 19 April1 May 1998, Fairfax, VA. 

Constant M. (2004), « GRAAL, une bibliothèque de graphes : mode d’emploi », in Muller C., 

Royeauté J. et Silberztein M. (éds), Cahiers de la MSH Ledoux 1, INTEX pour la linguistique et le 

traitement automatique des langues, Presse Universitaire de FrancheComté, Besançon : 321330. 

Courtois B. (1990), « Un système de dictionnaires électroniques pour les mots simples du français », 

in Courtois B. et Silberztein M. (éds), Dictionnaires électroniques du français, Langue Française, n° 

87, Larousse, Paris : 1122. 

Daille B. et Morin E. (2000), « Reconnaissance automatique des noms propres de la langue écrite : 

les récentes réalisations », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des 

Langues, vol. 41/3 : 601621. 

Dister A et Fairon C. (2004), « Extension des ressources lexicales grâce à un corpus dynamique », 

in Lexicometrica, Paris, version électronique : http://www.cavi.univparis3.fr/lexicometrica/thema 

/thema7/TexteDister.pdf. 

Fourour N. (2002), « Nemesis, un système de reconnaissance incrémentielle des entités nommées 

pour le français », in Actes de la 9ème Conférence Nationale sur le Traitement Automatique des 

Langues Naturelles (TALN 2001), Nancy, vol. 1 : 265274. 

20


Friburger N. (2002), Reconnaissance automatique des noms propres : Application à la classification 

automatique des textes journalistiques, Thèse de doctorat, Université de Tours, Paris. 

Grass T. (2000), « Typologie et traductibilité des noms propres de l’allemand vers le français à partir 

d’un corpus journalistique », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des 

Langues, vol. 41/3 : 643669. 

Gross M. (1981),« Les bases empiriques de la notion de prédicat sémantique », in Langages, n° 63, 

Larousse, Paris : 752. 

Hobbs J., Appelt D., Bear J., Israel D., Kameyama M., Stickel M. et Tyson M. (1996), « 

FASTUS : a cascaded finitestate transducer for extracting information from naturallanguage text», 

in Roche E. et Schabes Y. (éds), Finite State Devices for Natural Language Processing, MIT Press, 

Cambridge, USA : 383406. 

Jacquemin C. et Bush C. (2000), « Fouille du Web pour la collecte d’entités nommées », in Actes de 

la 8ème Conférence Nationale sur le Traitement Automatique des Langues Naturelles (TALN 2000), 

Lausanne : 187196. 

Kleiber G. (1999), Problèmes de Sémantique, la polysémie en questions, Presses Universitaires du 

Septentrion, Lille (Sens et structures), 223 p. 

LE MEUR C., GALLIANO S. et GEOFFROIS E. (2004), « Conventions d’annotations en Entités 

Nommées », ESTER, http://www.afcpparole.org/ester/publis.html, pp. 610. 

Li H., SRIHARI R, Niu C et Li W. (2002), « Location normalization for information extraction », in 

Proceedings of the 19th International Conference on Computational Linguistics, vol. 1, Association 

for Computational Linguistics, Taipei, Taiwan : 17. 

Maurel D. et Piton O. (1999), « Un dictionnaire de noms propres pour Intex : Les noms propres 

géographiques », in Linguisticae Investigationes, vol. 22 : 277287. 

21


Maurel D., Belleil C., Eggert E. et Piton O. (1996), « Le projet PROLEX : réalisation d’un 

dictionnaire électronique relationnel des noms propres du français », in Proceedings of GDRPRC 

Communication HommeMachine Séminaire Lexique, Grenoble : 164175. 

McDonald D. (1996), « Internal and External Evidence in the Identification and Semantic 

Categorisation of Proper Names », in Boguraev B. et Pustejovsky J. (éds), Corpus processing for 

lexical acquisition (Language, Speech and Communication), MIT Press, Cambridge, London : 2137. 

Paumier S. (2003), De la reconnaissance de formes linguistiques à l’analyse syntaxique, Thèse de 

doctorat, Université de MarnelaVallée. 

Poibeau T. (2005), « Le statut référentiel des entités nommées » in Actes de la conférence 

Traitement Automatique des Langues Naturelles (TALN 2005), Dourdan, France. 

Roche E. et Schabes Y. (1997), FiniteState Language Processing, Roche E. et Schabes Y. (éds), 

MIT Press, Cambridge, Mass./London (Language, Speech and Communication), 464 p. 

Sekine S. et Nobata C. (1998), « An Information Extraction System and a Customization Tool », in 

Proceedings of the New Challenges in Natural Language Processing and its Application, 2526 May 

1998, Tokyo, Japan. 

Sekine S., Sudo K. et Nobata C. (2002), « Extended Named Entity Hierarchy», in Proceedings of 

the Third International Conference on Language Resources and Evaluation (LREC 2002), Las 

Palmas, Canary Islands, Spain : 18181824. 

Tolone E. (2006), Rapport technique de stage en Master I d’Informatique, Université de Marnela 

Vallée, Paris, 39 p. 

Watrin P. (2006), Une approche hybride de l’extraction d’information : souslangages et lexiquegrammaire, 

Thèse de doctorat, Cental, Université de LouvainLaNeuve, Belgique. 

22

BACK UP

De la reconnaissance à l’extraction 

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré 

a convoqué l’ambassadeur du Burkina à Abidjan, Émile Ilboudo 

Attribut Attribut 

EN 

Concordance 

nat nat 

fonction fonction fonction_suite fonction_suite 

Fonctions ministérielles 

Nom prenom de personne 

prenom 

 

 

entite nom nom entite 

 

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré a convoqué 

•Délimiter l’EN: Identifier ses bornes 

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré 

une a catégorie convoqué l’ambassadeur sémantique du non Burkina ambiguë à Abidjan 

•Associer éventuellement Abou Drahamane Sangaré les attributs présents 

Nom: Drahamane Sangaré 

Prénom: Abou 

Fonction: ministre des Affaires Étrangères 

Nationalité: ivoirien 

24

Ressources linguistiques (1/3) 

spécialisés (43 921 entrées) 

Nous utilisons des dictionnaires généraux (1 256 951 entrées) 

construits pour le corpus (1000 entrées) 

Type de dictionnaire Auteur Exemple Effectifs 

Prénoms Maurel et al. 1996 Caroline,.N+PR+Hum+Prénom:fs 24 291 

Toponymes Maurel & Piton 1999 Seine,.N+PR+Hydronyme:fs 6 107 

Pays, Capitales et Gentilés Maurel & Piton 1999 France,.N+PR+Toponyme+Pays+IsoFR:fs 3 093 

Adjectifs toponymiques Maurel & Piton 1999 parisiens,parisien.A+Toponyme+Ville:mp 3 407 

Noms de profession Fairon 2004 banquiers,banquier.N+Profession:mp 4 185 

Sigles et Abréviations Maurel et al. 1996 Solensi,Solidarité Enfants Sida.N+Sigle:fs 2 838 

Toponymes Africains Trouvés sur le Web Assinie,.N+PR+Toponyme+Ville:fs 400 

Organisations et Abréviations Elsa Tolone FMI,Fonds Monétaire 

International.N+Sigle+Org:ms 

Mots simples (DELAF) LADL / IGM praesidia,praesidium.N+HumColl:mp 984 723 

Mots composés (DELACF) LADL / IGM weekends,weekend.N+Tps+weekend:mp 272 228 

25 

500

Ressources Linguistiques (2/3) 

Dictionnaire morphologique du français (Système DELA) 

mots simples (DELAF): 984 723 entrées 

f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph 

praesidium,praesidium.N+HumColl:ms 

praesidia,praesidium.N+HumColl:mp 

présidium,présidium.N+HumColl+praesidium:ms 

présidiums,présidium.N+HumColl+praesidium:mp 

mots composés (DELACF): 272 228 entrées 

f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph 

weekend,weekend.N+Tps+weekend:ms 

weekends,weekend.N+Tps+weekend:mp 

26

Ressources Linguistiques(3/3) 

Dictionnaires spécialisés (projet PROLEX) 

Prénoms : 24 291 entrées 

Laurent,.N+PR+Hum+Prénom:ms 

Toponymes : 6 107 entrées 

Seine,.N+PR+Toponyme+Hydronyme:fs 

Pays, Capitales et Gentilés : 3 093 entrées 

France,.N+PR+Toponyme+Pays+IsoFR:fs 

Paris,.N+PR+Toponyme+Ville+Cap+IsoFR:ms:fs 

Français,.N+PR+Hum+Toponyme+Pays:ms:mp 

Abréviations et Sigles : 2 838 entrées 

Solensi,Solidarité Enfants Sida.N+Sigle:fs 

Professions : 4 185 entrées 

avocat d’affaires,.N+Profession:ms 

avocate d’affaires,avocat d’affaires.N+Profession:fs 

27

projet PROLEX : réalisation d'un dictionnaire…

Create successful ePaper yourself

Delete template?

Save as template?