projet PROLEX : réalisation d'un dictionnaire…
projet PROLEX : réalisation d'un dictionnaire…
projet PROLEX : réalisation d'un dictionnaire…
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Annotation et normalisation<br />
des Entités Nommées<br />
Claude Martineau<br />
Takuya Nakamura<br />
Lidia Varga<br />
Stavroula Voyatzi<br />
@univmlv.fr<br />
28ème Colloque International sur le Lexique et la Grammaire<br />
Bergen, 30 septembre 3 octobre 2009
Plan<br />
• Contexte de travail<br />
• Extraction d’Entités Nommées (EN)<br />
• Module d’Annotation d’EN<br />
• Normalisation d’EN<br />
• Évaluation<br />
• Conclusion et Perspectives
Pôle de compétitivité des<br />
Contexte<br />
contenus numériques<br />
(janvier 2006 – juin 2009)<br />
29 partenaires (PME, grands groupes, établissements<br />
publics);<br />
Financé par les partenaires ainsi que par la DGE et<br />
quelques conseils régionaux d’Ile de France;<br />
Étudier et proposer des prototypes logiciels de fonctions<br />
avancées d’analyse multimodale de données numériques.<br />
3
Projet Infom@gic<br />
• Soustâche ST2.11 : extraction d’information à<br />
partir de données textuelles<br />
Objectif :<br />
– fédérer les savoir faire de chaque partenaire dans le<br />
domaine de l’extraction d’information;<br />
– Permettre à d’autres partenaires du <strong>projet</strong> (ex.<br />
moteur de recherche sémantique sur le Web)<br />
d’utiliser cette information.<br />
4
Extraction d’Information<br />
Conversion du texte en données structurées répondant à des<br />
questions factuelles : Qui Fait quoi A qui Quand Où<br />
Comment …<br />
Le 3ème salon Naturel‘Monts va inaugurer et invahir les salles du nouveau<br />
Palais des Congrès de St Jean de Monts les 3 et 4 octobre 2009<br />
(www.autourdubio.fr, 2009)<br />
5
Extraction d’Entités d Entités Nommées<br />
La tâche d’Extraction d’Information a mis en évidence l’intérêt de<br />
reconnaître les Entités Nommées<br />
Qu’estce qu’on entend par Entités Nommées ?<br />
…tous les éléments du langage qui font référence à une entité unique et<br />
concrète, appartenant à un domaine spécifique (ie. social,<br />
économique, géographique, etc.);<br />
…noms propres au sens classique, noms propres dans un sens élargi<br />
mais aussi expressions de temps et de quantité;<br />
…unités permettant un accès particulièrement pertinent au contenu<br />
des documents. (MUC7, Chinchor 1998)<br />
6
Typologie sémantique d’EN (1/2)<br />
Classes EN Exemples<br />
Personnes Laurent Gbagbo, Pascal Affi N’Guessan<br />
Lieux<br />
(expressions spatiales)<br />
GuinéeBissau<br />
axe BouakéYamoussoukro<br />
Organisations Mouvement patriotique de Côte d’Ivoire, MPCI<br />
Faits 25e sommet francobritannique du Touquet<br />
Moyens Boeing 747300<br />
Œuvres New Press, Le Nouveau Testament<br />
Dates & Heures<br />
(expressions temporelles)<br />
le 29 mars 2003, 10h00 GMT<br />
depuis jeudi matin<br />
Expressions numériques 400 kilomètres, 50%<br />
Coordonnées 01 56 40 13 72, appels.actu@rfi.fr<br />
7
Typologie sémantique d’EN (2/2)<br />
Chacune de ces classes est affinée par un ensemble de sous<br />
classes et d’attributs qui spécifient :<br />
Attributs<br />
0, n<br />
Classe d’EN<br />
Types Attributs<br />
0, n 0, n<br />
Soustypes<br />
0,n<br />
Attributs<br />
0, n<br />
8
Module d’annotation (1/2)<br />
• Réutilisation, validation et adaptation des ressources<br />
linguistiques, développées au sein de l’équipe d’Informatique<br />
Linguistique à l’IGM, en vue de tâches et d’applications réelles<br />
(i.e. extraction d’entités nommées → moteur de recherche<br />
sémantique sur le Web)<br />
• Annotation fine: annotation et ajout d’informations sur le type<br />
de la sous classe et les attributs de l’entité nommée<br />
• Normalisation des expressions temporelles et numériques<br />
9
Module d’annotation (2/2)<br />
• Grammaires locales: écrites sous forme de RTN utilisant des<br />
informations morphosyntaxiques et sémantiques présentes dans les<br />
dicos<br />
• Élaborées au sein de l’IGM, les grammaires sont rassemblées et<br />
accessibles grâce au système Graalweb (Constant, 2004)<br />
• Dictionnaires généraux et spécialisés (ie. DELAF, toponymes,<br />
anthroponymes, sigles …)<br />
• Unitex (Paumier, 2003) : analyse des textes et traitement des<br />
ressources linguistiques<br />
Martineau, Claude; Tolone, Elsa et Voyatzi, Stavroula. 2007. « Les Entités Nommées :<br />
usage et degrés de précision et de désambiguïsation », In Catherine Camugli, Matthieu<br />
Constant et Anne Dister (éds.) Actes du XXVIe Colloque International Lexique et<br />
Grammaire, Bonifacio, Corse du Sud, 26 octobre 2007, pp. 105112<br />
10
Normalisation des EN (1/5)<br />
Normaliser une EN consiste à associer à chaque forme qu’elle<br />
peut prendre dans le texte une représentation unique<br />
Ex: Toutes les EN de type Date suivantes :<br />
5/02/2009<br />
5 fév. 2009<br />
cinq février 2009<br />
Normalisation<br />
20090205<br />
Le texte qui les contient est alors annoté ainsi:<br />
2/02/2009<br />
2 fév 2009<br />
deux février 2009<br />
La représentation choisie, la norme ISO8601, permet de traiter des dates incomplètes<br />
2 février<br />
février 2009<br />
11
Normalisation des EN (2/5)<br />
Comment normaliser avec Unitex ?<br />
Pour transformer 5 février 2009 en 20090205<br />
Traduire (transduction) certains constituants :<br />
5 en 05<br />
février en 02<br />
Réordonner les traductions en insérant des « » : 5 février 2009 20090205<br />
1 2 3 1<br />
2<br />
3<br />
Sous Unitex les variables ne permettent de mémoriser et de réordonner que des constituants<br />
strictement extraits du texte mais pas d’effectuer une transduction en même temps.<br />
Ainsi le graphe cidessous peut transformer 5 février 2009 en 2009février5<br />
Ordre<br />
Mais chaque constituant conserve sa forme initiale<br />
12
Normalisation des EN (3/5)<br />
Pour effectuer le traitement souhaité nous utilisons le mode morphologique<br />
d’Unitex qui permet de récupérer dans des variables les informations associées à<br />
une entrée d’un dictionnaire, dit dico morphologique.<br />
En particulier, de récupérer la forme canonique associée à une forme fléchie. Si<br />
$X$ est une variable morphologique, $X.LEMMA$ contient la forme canonique<br />
associée.<br />
Si nous traitons la phrase : « Les enfants chantent dans le jardin » à l’aide du dico<br />
morphologique et du graphe cidessous:<br />
Nous obtenons la concordance suivante:<br />
Les enfants chantent [chanter] dans le jardin<br />
chante,chanter.V:P1s:P3s:S1s:S3s<br />
chantes,chanter.V:P2s:S2s<br />
chantent,chanter.V:P3p<br />
Extrait de dico morphologique<br />
13
Normalisation des EN (4/5)<br />
Un dico morphologique dans lequel on considère les formes<br />
canoniques comme les formes normalisées et l’ensemble des<br />
variantes potentiellement présentes dans le texte comme des<br />
formes fléchies permet d’effectuer la normalisation souhaitée<br />
Extrait de dico morphologique<br />
Graphe de normalisation de dates<br />
Un traitement similaire permet de normaliser des unités monétaires que la valeur soit<br />
exprimée en chiffres ou lettres (norme ISO4217).<br />
dix mille yen, 10 000 yen ou 10000 ¥ 10.000 JPY<br />
Normalisation<br />
Graphe de normalisation d’unité monétaire<br />
14
Exemples d’EN normalisées<br />
Normalisation des EN (5/5)<br />
La normalisation de certains types d’EN facilite la<br />
comparaison, le tri et les requêtes sur ces données<br />
15
Évaluation valuation (1/2)<br />
• Corpus : 11 988 mots, un ensemble de dépêches d’agences portant sur les<br />
événements politiques en Côte d’Ivoire durant la période 20002003<br />
(corpus « CDI ») et un article de Wikipedia (corpus « endurance »)<br />
• Il contient 938 entités nommées réparties dans les catégories suivantes : 255<br />
Personnes, 327 Lieux, 300 Expressions Temporelles et 56 Expressions<br />
Numériques.<br />
• Schéma d’annotation : hiérarchie de types et soustypes<br />
16
Évaluation valuation (2/2)<br />
Nous avons donc calculé, pour chaque fichier ainsi que<br />
globalement, les taux de précision (quantité d’EN pertinentes<br />
parmi les EN relevées), de rappel (quantité d’EN pertinentes<br />
relevées par rapport à la quantité totale d’EN pertinentes du<br />
corpus) et la Fmesure (combinaison de la précision et du<br />
rappel).<br />
• 813 entités nommées détectées, parmi lesquelles 698 sont pertinentes, 66<br />
sont mal délimitées et 31 ont des erreurs de catégorisation dont 19 sont<br />
étiquetées avec le type supérieur. Enfin, 22 séquences nonpertinentes sont<br />
reconnues et 155 entités nommées sont oubliées.<br />
17
Conclusion et Perspectives<br />
• Système d’extraction et d’annotation d’EN en<br />
réutilisant autant que possible les ressources et outils<br />
existants, en particulier, ceux développés au sein de<br />
l’équipe d’Informatique Linguistique de l’IGM.<br />
• Traitement efficace de la normalisation d’EN avec<br />
Unitex.<br />
• Annotations par soustype spécifique fournies et<br />
bonne précision : une amorce fiable pour des<br />
systèmes d’apprentissage automatique.<br />
• Enrichissement des ressources, amélioration de la<br />
typologie (ex. soustypes d’événements), résolution<br />
de métonymie<br />
18
MERCI !<br />
19
Bibliographie (1/3)<br />
Allerton D. (1987), «The linguistic and sociolinguistic status of proper names », in Journal of<br />
Pragmatics, vol. 11 : 6192.<br />
Bikel D. M., Miller S. Schwartz R. et Weischedel R. (1997), «Nymble: a highperformance<br />
learning namefinder », in Proceedings of the 5th Conference on Applied Natural language<br />
processing, 31/0303/04 1997, Morgan Kaufman Publishers Inc., Washington, DC, pp. 194201.<br />
Chinchor N. (1998), « MUC7 Named Entity Task Definition (version 3.5) », in Proceedings of the<br />
7th Message Understanding Conference (MUC7), 19 April1 May 1998, Fairfax, VA.<br />
Constant M. (2004), « GRAAL, une bibliothèque de graphes : mode d’emploi », in Muller C.,<br />
Royeauté J. et Silberztein M. (éds), Cahiers de la MSH Ledoux 1, INTEX pour la linguistique et le<br />
traitement automatique des langues, Presse Universitaire de FrancheComté, Besançon : 321330.<br />
Courtois B. (1990), « Un système de dictionnaires électroniques pour les mots simples du français »,<br />
in Courtois B. et Silberztein M. (éds), Dictionnaires électroniques du français, Langue Française, n°<br />
87, Larousse, Paris : 1122.<br />
Daille B. et Morin E. (2000), « Reconnaissance automatique des noms propres de la langue écrite :<br />
les récentes <strong>réalisation</strong>s », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des<br />
Langues, vol. 41/3 : 601621.<br />
Dister A et Fairon C. (2004), « Extension des ressources lexicales grâce à un corpus dynamique »,<br />
in Lexicometrica, Paris, version électronique : http://www.cavi.univparis3.fr/lexicometrica/thema<br />
/thema7/TexteDister.pdf.<br />
Fourour N. (2002), « Nemesis, un système de reconnaissance incrémentielle des entités nommées<br />
pour le français », in Actes de la 9ème Conférence Nationale sur le Traitement Automatique des<br />
Langues Naturelles (TALN 2001), Nancy, vol. 1 : 265274.<br />
20
Bibliographie (2/3)<br />
Friburger N. (2002), Reconnaissance automatique des noms propres : Application à la classification<br />
automatique des textes journalistiques, Thèse de doctorat, Université de Tours, Paris.<br />
Grass T. (2000), « Typologie et traductibilité des noms propres de l’allemand vers le français à partir<br />
d’un corpus journalistique », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des<br />
Langues, vol. 41/3 : 643669.<br />
Gross M. (1981),« Les bases empiriques de la notion de prédicat sémantique », in Langages, n° 63,<br />
Larousse, Paris : 752.<br />
Hobbs J., Appelt D., Bear J., Israel D., Kameyama M., Stickel M. et Tyson M. (1996), «<br />
FASTUS : a cascaded finitestate transducer for extracting information from naturallanguage text»,<br />
in Roche E. et Schabes Y. (éds), Finite State Devices for Natural Language Processing, MIT Press,<br />
Cambridge, USA : 383406.<br />
Jacquemin C. et Bush C. (2000), « Fouille du Web pour la collecte d’entités nommées », in Actes de<br />
la 8ème Conférence Nationale sur le Traitement Automatique des Langues Naturelles (TALN 2000),<br />
Lausanne : 187196.<br />
Kleiber G. (1999), Problèmes de Sémantique, la polysémie en questions, Presses Universitaires du<br />
Septentrion, Lille (Sens et structures), 223 p.<br />
LE MEUR C., GALLIANO S. et GEOFFROIS E. (2004), « Conventions d’annotations en Entités<br />
Nommées », ESTER, http://www.afcpparole.org/ester/publis.html, pp. 610.<br />
Li H., SRIHARI R, Niu C et Li W. (2002), « Location normalization for information extraction », in<br />
Proceedings of the 19th International Conference on Computational Linguistics, vol. 1, Association<br />
for Computational Linguistics, Taipei, Taiwan : 17.<br />
Maurel D. et Piton O. (1999), « Un dictionnaire de noms propres pour Intex : Les noms propres<br />
géographiques », in Linguisticae Investigationes, vol. 22 : 277287.<br />
21
Bibliographie (3/3)<br />
Maurel D., Belleil C., Eggert E. et Piton O. (1996), « Le <strong>projet</strong> <strong>PROLEX</strong> : <strong>réalisation</strong> d’un<br />
dictionnaire électronique relationnel des noms propres du français », in Proceedings of GDRPRC<br />
Communication HommeMachine Séminaire Lexique, Grenoble : 164175.<br />
McDonald D. (1996), « Internal and External Evidence in the Identification and Semantic<br />
Categorisation of Proper Names », in Boguraev B. et Pustejovsky J. (éds), Corpus processing for<br />
lexical acquisition (Language, Speech and Communication), MIT Press, Cambridge, London : 2137.<br />
Paumier S. (2003), De la reconnaissance de formes linguistiques à l’analyse syntaxique, Thèse de<br />
doctorat, Université de MarnelaVallée.<br />
Poibeau T. (2005), « Le statut référentiel des entités nommées » in Actes de la conférence<br />
Traitement Automatique des Langues Naturelles (TALN 2005), Dourdan, France.<br />
Roche E. et Schabes Y. (1997), FiniteState Language Processing, Roche E. et Schabes Y. (éds),<br />
MIT Press, Cambridge, Mass./London (Language, Speech and Communication), 464 p.<br />
Sekine S. et Nobata C. (1998), « An Information Extraction System and a Customization Tool », in<br />
Proceedings of the New Challenges in Natural Language Processing and its Application, 2526 May<br />
1998, Tokyo, Japan.<br />
Sekine S., Sudo K. et Nobata C. (2002), « Extended Named Entity Hierarchy», in Proceedings of<br />
the Third International Conference on Language Resources and Evaluation (LREC 2002), Las<br />
Palmas, Canary Islands, Spain : 18181824.<br />
Tolone E. (2006), Rapport technique de stage en Master I d’Informatique, Université de Marnela<br />
Vallée, Paris, 39 p.<br />
Watrin P. (2006), Une approche hybride de l’extraction d’information : souslangages et lexiquegrammaire,<br />
Thèse de doctorat, Cental, Université de LouvainLaNeuve, Belgique.<br />
22
BACK UP
De la reconnaissance à l’extraction<br />
Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré<br />
a convoqué l’ambassadeur du Burkina à Abidjan, Émile Ilboudo<br />
Attribut Attribut<br />
EN<br />
Concordance<br />
nat nat<br />
fonction fonction fonction_suite fonction_suite<br />
Fonctions ministérielles<br />
Nom prenom de personne<br />
prenom<br />
<br />
<br />
entite nom nom entite<br />
<br />
Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré a convoqué<br />
•Délimiter l’EN: Identifier ses bornes<br />
Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré<br />
une a catégorie convoqué l’ambassadeur sémantique du non Burkina ambiguë à Abidjan<br />
•Associer éventuellement Abou Drahamane Sangaré les attributs présents<br />
Nom: Drahamane Sangaré<br />
Prénom: Abou<br />
Fonction: ministre des Affaires Étrangères<br />
Nationalité: ivoirien<br />
24
Ressources linguistiques (1/3)<br />
spécialisés (43 921 entrées)<br />
Nous utilisons des dictionnaires généraux (1 256 951 entrées)<br />
construits pour le corpus (1000 entrées)<br />
Type de dictionnaire Auteur Exemple Effectifs<br />
Prénoms Maurel et al. 1996 Caroline,.N+PR+Hum+Prénom:fs 24 291<br />
Toponymes Maurel & Piton 1999 Seine,.N+PR+Hydronyme:fs 6 107<br />
Pays, Capitales et Gentilés Maurel & Piton 1999 France,.N+PR+Toponyme+Pays+IsoFR:fs 3 093<br />
Adjectifs toponymiques Maurel & Piton 1999 parisiens,parisien.A+Toponyme+Ville:mp 3 407<br />
Noms de profession Fairon 2004 banquiers,banquier.N+Profession:mp 4 185<br />
Sigles et Abréviations Maurel et al. 1996 Solensi,Solidarité Enfants Sida.N+Sigle:fs 2 838<br />
Toponymes Africains Trouvés sur le Web Assinie,.N+PR+Toponyme+Ville:fs 400<br />
Organisations et Abréviations Elsa Tolone FMI,Fonds Monétaire<br />
International.N+Sigle+Org:ms<br />
Mots simples (DELAF) LADL / IGM praesidia,praesidium.N+HumColl:mp 984 723<br />
Mots composés (DELACF) LADL / IGM weekends,weekend.N+Tps+weekend:mp 272 228<br />
25<br />
500
Ressources Linguistiques (2/3)<br />
Dictionnaire morphologique du français (Système DELA)<br />
mots simples (DELAF): 984 723 entrées<br />
f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph<br />
praesidium,praesidium.N+HumColl:ms<br />
praesidia,praesidium.N+HumColl:mp<br />
présidium,présidium.N+HumColl+praesidium:ms<br />
présidiums,présidium.N+HumColl+praesidium:mp<br />
mots composés (DELACF): 272 228 entrées<br />
f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph<br />
weekend,weekend.N+Tps+weekend:ms<br />
weekends,weekend.N+Tps+weekend:mp<br />
26
Ressources Linguistiques(3/3)<br />
Dictionnaires spécialisés (<strong>projet</strong> <strong>PROLEX</strong>)<br />
Prénoms : 24 291 entrées<br />
Laurent,.N+PR+Hum+Prénom:ms<br />
Toponymes : 6 107 entrées<br />
Seine,.N+PR+Toponyme+Hydronyme:fs<br />
Pays, Capitales et Gentilés : 3 093 entrées<br />
France,.N+PR+Toponyme+Pays+IsoFR:fs<br />
Paris,.N+PR+Toponyme+Ville+Cap+IsoFR:ms:fs<br />
Français,.N+PR+Hum+Toponyme+Pays:ms:mp<br />
Abréviations et Sigles : 2 838 entrées<br />
Solensi,Solidarité Enfants Sida.N+Sigle:fs<br />
Professions : 4 185 entrées<br />
avocat d’affaires,.N+Profession:ms<br />
avocate d’affaires,avocat d’affaires.N+Profession:fs<br />
27