28.06.2013 Views

projet PROLEX : réalisation d'un dictionnaire…

projet PROLEX : réalisation d'un dictionnaire…

projet PROLEX : réalisation d'un dictionnaire…

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Annotation et normalisation<br />

des Entités Nommées<br />

Claude Martineau<br />

Takuya Nakamura<br />

Lidia Varga<br />

Stavroula Voyatzi<br />

@univ­mlv.fr<br />

28ème Colloque International sur le Lexique et la Grammaire<br />

Bergen, 30 septembre ­ 3 octobre 2009


Plan<br />

• Contexte de travail<br />

• Extraction d’Entités Nommées (EN)<br />

• Module d’Annotation d’EN<br />

• Normalisation d’EN<br />

• Évaluation<br />

• Conclusion et Perspectives


Pôle de compétitivité des<br />

Contexte<br />

contenus numériques<br />

(janvier 2006 – juin 2009)<br />

29 partenaires (PME, grands groupes, établissements<br />

publics);<br />

Financé par les partenaires ainsi que par la DGE et<br />

quelques conseils régionaux d’Ile de France;<br />

Étudier et proposer des prototypes logiciels de fonctions<br />

avancées d’analyse multimodale de données numériques.<br />

3


Projet Infom@gic<br />

• Sous­tâche ST2.11 : extraction d’information à<br />

partir de données textuelles<br />

Objectif :<br />

– fédérer les savoir faire de chaque partenaire dans le<br />

domaine de l’extraction d’information;<br />

– Permettre à d’autres partenaires du <strong>projet</strong> (ex.<br />

moteur de recherche sémantique sur le Web)<br />

d’utiliser cette information.<br />

4


Extraction d’Information<br />

Conversion du texte en données structurées répondant à des<br />

questions factuelles : Qui Fait quoi A qui Quand Où<br />

Comment …<br />

Le 3ème salon Naturel‘Monts va inaugurer et invahir les salles du nouveau<br />

Palais des Congrès de St Jean de Monts les 3 et 4 octobre 2009<br />

(www.autourdubio.fr, 2009)<br />

5


Extraction d’Entités d Entités Nommées<br />

La tâche d’Extraction d’Information a mis en évidence l’intérêt de<br />

reconnaître les Entités Nommées<br />

Qu’est­ce qu’on entend par Entités Nommées ?<br />

…tous les éléments du langage qui font référence à une entité unique et<br />

concrète, appartenant à un domaine spécifique (ie. social,<br />

économique, géographique, etc.);<br />

…noms propres au sens classique, noms propres dans un sens élargi<br />

mais aussi expressions de temps et de quantité;<br />

…unités permettant un accès particulièrement pertinent au contenu<br />

des documents. (MUC­7, Chinchor 1998)<br />

6


Typologie sémantique d’EN (1/2)<br />

Classes EN Exemples<br />

Personnes Laurent Gbagbo, Pascal Affi N’Guessan<br />

Lieux<br />

(expressions spatiales)<br />

Guinée­Bissau<br />

axe Bouaké­Yamoussoukro<br />

Organisations Mouvement patriotique de Côte d’Ivoire, MPCI<br />

Faits 25e sommet franco­britannique du Touquet<br />

Moyens Boeing 747­300<br />

Œuvres New Press, Le Nouveau Testament<br />

Dates & Heures<br />

(expressions temporelles)<br />

le 29 mars 2003, 10h00 GMT<br />

depuis jeudi matin<br />

Expressions numériques 400 kilomètres, 50%<br />

Coordonnées 01 56 40 13 72, appels.actu@rfi.fr<br />

7


Typologie sémantique d’EN (2/2)<br />

Chacune de ces classes est affinée par un ensemble de sous­<br />

classes et d’attributs qui spécifient :<br />

Attributs<br />

0, n<br />

Classe d’EN<br />

Types Attributs<br />

0, n 0, n<br />

Sous­types<br />

0,n<br />

Attributs<br />

0, n<br />

8


Module d’annotation (1/2)<br />

• Réutilisation, validation et adaptation des ressources<br />

linguistiques, développées au sein de l’équipe d’Informatique<br />

Linguistique à l’IGM, en vue de tâches et d’applications réelles<br />

(i.e. extraction d’entités nommées → moteur de recherche<br />

sémantique sur le Web)<br />

• Annotation fine: annotation et ajout d’informations sur le type<br />

de la sous­ classe et les attributs de l’entité nommée<br />

• Normalisation des expressions temporelles et numériques<br />

9


Module d’annotation (2/2)<br />

• Grammaires locales: écrites sous forme de RTN utilisant des<br />

informations morphosyntaxiques et sémantiques présentes dans les<br />

dicos<br />

• Élaborées au sein de l’IGM, les grammaires sont rassemblées et<br />

accessibles grâce au système Graalweb (Constant, 2004)<br />

• Dictionnaires généraux et spécialisés (ie. DELAF, toponymes,<br />

anthroponymes, sigles …)<br />

• Unitex (Paumier, 2003) : analyse des textes et traitement des<br />

ressources linguistiques<br />

Martineau, Claude; Tolone, Elsa et Voyatzi, Stavroula. 2007. « Les Entités Nommées :<br />

usage et degrés de précision et de désambiguïsation », In Catherine Camugli, Matthieu<br />

Constant et Anne Dister (éds.) Actes du XXVIe Colloque International Lexique et<br />

Grammaire, Bonifacio, Corse du Sud, 2­6 octobre 2007, pp. 105­112<br />

10


Normalisation des EN (1/5)<br />

Normaliser une EN consiste à associer à chaque forme qu’elle<br />

peut prendre dans le texte une représentation unique<br />

Ex: Toutes les EN de type Date suivantes :<br />

5/02/2009<br />

5 fév. 2009<br />

cinq février 2009<br />

Normalisation<br />

2009­02­05<br />

Le texte qui les contient est alors annoté ainsi:<br />

2/02/2009<br />

2 fév 2009<br />

deux février 2009<br />

La représentation choisie, la norme ISO8601, permet de traiter des dates incomplètes<br />

2 février<br />

février 2009<br />

11


Normalisation des EN (2/5)<br />

Comment normaliser avec Unitex ?<br />

Pour transformer 5 février 2009 en 2009­02­05<br />

­ Traduire (transduction) certains constituants :<br />

5 en 05<br />

février en 02<br />

­ Réordonner les traductions en insérant des « ­ » : 5 février 2009 2009­02­05<br />

1 2 3 1<br />

2<br />

3<br />

Sous Unitex les variables ne permettent de mémoriser et de réordonner que des constituants<br />

strictement extraits du texte mais pas d’effectuer une transduction en même temps.<br />

Ainsi le graphe ci­dessous peut transformer 5 février 2009 en 2009­février­5<br />

Ordre<br />

Mais chaque constituant conserve sa forme initiale<br />

12


Normalisation des EN (3/5)<br />

Pour effectuer le traitement souhaité nous utilisons le mode morphologique<br />

d’Unitex qui permet de récupérer dans des variables les informations associées à<br />

une entrée d’un dictionnaire, dit dico morphologique.<br />

En particulier, de récupérer la forme canonique associée à une forme fléchie. Si<br />

$X$ est une variable morphologique, $X.LEMMA$ contient la forme canonique<br />

associée.<br />

Si nous traitons la phrase : « Les enfants chantent dans le jardin » à l’aide du dico<br />

morphologique et du graphe ci­dessous:<br />

Nous obtenons la concordance suivante:<br />

Les enfants chantent [chanter] dans le jardin<br />

chante,chanter.V:P1s:P3s:S1s:S3s<br />

chantes,chanter.V:P2s:S2s<br />

chantent,chanter.V:P3p<br />

Extrait de dico morphologique<br />

13


Normalisation des EN (4/5)<br />

Un dico morphologique dans lequel on considère les formes<br />

canoniques comme les formes normalisées et l’ensemble des<br />

variantes potentiellement présentes dans le texte comme des<br />

formes fléchies permet d’effectuer la normalisation souhaitée<br />

Extrait de dico morphologique<br />

Graphe de normalisation de dates<br />

Un traitement similaire permet de normaliser des unités monétaires que la valeur soit<br />

exprimée en chiffres ou lettres (norme ISO4217).<br />

dix mille yen, 10 000 yen ou 10000 ¥ 10.000 JPY<br />

Normalisation<br />

Graphe de normalisation d’unité monétaire<br />

14


Exemples d’EN normalisées<br />

Normalisation des EN (5/5)<br />

La normalisation de certains types d’EN facilite la<br />

comparaison, le tri et les requêtes sur ces données<br />

15


Évaluation valuation (1/2)<br />

• Corpus : 11 988 mots, un ensemble de dépêches d’agences portant sur les<br />

événements politiques en Côte d’Ivoire durant la période 2000­2003<br />

(corpus « CDI ») et un article de Wikipedia (corpus « endurance »)<br />

• Il contient 938 entités nommées réparties dans les catégories suivantes : 255<br />

Personnes, 327 Lieux, 300 Expressions Temporelles et 56 Expressions<br />

Numériques.<br />

• Schéma d’annotation : hiérarchie de types et sous­types<br />

16


Évaluation valuation (2/2)<br />

Nous avons donc calculé, pour chaque fichier ainsi que<br />

globalement, les taux de précision (quantité d’EN pertinentes<br />

parmi les EN relevées), de rappel (quantité d’EN pertinentes<br />

relevées par rapport à la quantité totale d’EN pertinentes du<br />

corpus) et la F­mesure (combinaison de la précision et du<br />

rappel).<br />

• 813 entités nommées détectées, parmi lesquelles 698 sont pertinentes, 66<br />

sont mal délimitées et 31 ont des erreurs de catégorisation dont 19 sont<br />

étiquetées avec le type supérieur. Enfin, 22 séquences non­pertinentes sont<br />

reconnues et 155 entités nommées sont oubliées.<br />

17


Conclusion et Perspectives<br />

• Système d’extraction et d’annotation d’EN en<br />

réutilisant autant que possible les ressources et outils<br />

existants, en particulier, ceux développés au sein de<br />

l’équipe d’Informatique Linguistique de l’IGM.<br />

• Traitement efficace de la normalisation d’EN avec<br />

Unitex.<br />

• Annotations par sous­type spécifique fournies et<br />

bonne précision : une amorce fiable pour des<br />

systèmes d’apprentissage automatique.<br />

• Enrichissement des ressources, amélioration de la<br />

typologie (ex. sous­types d’événements), résolution<br />

de métonymie<br />

18


MERCI !<br />

19


Bibliographie (1/3)<br />

Allerton D. (1987), «The linguistic and sociolinguistic status of proper names », in Journal of<br />

Pragmatics, vol. 11 : 61­92.<br />

Bikel D. M., Miller S. Schwartz R. et Weischedel R. (1997), «Nymble: a high­performance<br />

learning name­finder », in Proceedings of the 5th Conference on Applied Natural language<br />

processing, 31/03­03/04 1997, Morgan Kaufman Publishers Inc., Washington, DC, pp. 194­201.<br />

Chinchor N. (1998), « MUC­7 Named Entity Task Definition (version 3.5) », in Proceedings of the<br />

7th Message Understanding Conference (MUC­7), 19 April­1 May 1998, Fairfax, VA.<br />

Constant M. (2004), « GRAAL, une bibliothèque de graphes : mode d’emploi », in Muller C.,<br />

Royeauté J. et Silberztein M. (éds), Cahiers de la MSH Ledoux 1, INTEX pour la linguistique et le<br />

traitement automatique des langues, Presse Universitaire de Franche­Comté, Besançon : 321­330.<br />

Courtois B. (1990), « Un système de dictionnaires électroniques pour les mots simples du français »,<br />

in Courtois B. et Silberztein M. (éds), Dictionnaires électroniques du français, Langue Française, n°<br />

87, Larousse, Paris : 11­22.<br />

Daille B. et Morin E. (2000), « Reconnaissance automatique des noms propres de la langue écrite :<br />

les récentes <strong>réalisation</strong>s », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des<br />

Langues, vol. 41/3 : 601­621.<br />

Dister A et Fairon C. (2004), « Extension des ressources lexicales grâce à un corpus dynamique »,<br />

in Lexicometrica, Paris, version électronique : http://www.cavi.univ­paris3.fr/lexicometrica/thema<br />

/thema7/Texte­Dister.pdf.<br />

Fourour N. (2002), « Nemesis, un système de reconnaissance incrémentielle des entités nommées<br />

pour le français », in Actes de la 9ème Conférence Nationale sur le Traitement Automatique des<br />

Langues Naturelles (TALN 2001), Nancy, vol. 1 : 265­274.<br />

20


Bibliographie (2/3)<br />

Friburger N. (2002), Reconnaissance automatique des noms propres : Application à la classification<br />

automatique des textes journalistiques, Thèse de doctorat, Université de Tours, Paris.<br />

Grass T. (2000), « Typologie et traductibilité des noms propres de l’allemand vers le français à partir<br />

d’un corpus journalistique », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des<br />

Langues, vol. 41/3 : 643­669.<br />

Gross M. (1981),« Les bases empiriques de la notion de prédicat sémantique », in Langages, n° 63,<br />

Larousse, Paris : 7­52.<br />

Hobbs J., Appelt D., Bear J., Israel D., Kameyama M., Stickel M. et Tyson M. (1996), «<br />

FASTUS : a cascaded finite­state transducer for extracting information from natural­language text»,<br />

in Roche E. et Schabes Y. (éds), Finite State Devices for Natural Language Processing, MIT Press,<br />

Cambridge, USA : 383­406.<br />

Jacquemin C. et Bush C. (2000), « Fouille du Web pour la collecte d’entités nommées », in Actes de<br />

la 8ème Conférence Nationale sur le Traitement Automatique des Langues Naturelles (TALN 2000),<br />

Lausanne : 187­196.<br />

Kleiber G. (1999), Problèmes de Sémantique, la polysémie en questions, Presses Universitaires du<br />

Septentrion, Lille (Sens et structures), 223 p.<br />

LE MEUR C., GALLIANO S. et GEOFFROIS E. (2004), « Conventions d’annotations en Entités<br />

Nommées », ESTER, http://www.afcp­parole.org/ester/publis.html, pp. 6­10.<br />

Li H., SRIHARI R, Niu C et Li W. (2002), « Location normalization for information extraction », in<br />

Proceedings of the 19th International Conference on Computational Linguistics, vol. 1, Association<br />

for Computational Linguistics, Taipei, Taiwan : 1­7.<br />

Maurel D. et Piton O. (1999), « Un dictionnaire de noms propres pour Intex : Les noms propres<br />

géographiques », in Linguisticae Investigationes, vol. 22 : 277­287.<br />

21


Bibliographie (3/3)<br />

Maurel D., Belleil C., Eggert E. et Piton O. (1996), « Le <strong>projet</strong> <strong>PROLEX</strong> : <strong>réalisation</strong> d’un<br />

dictionnaire électronique relationnel des noms propres du français », in Proceedings of GDR­PRC<br />

Communication Homme­Machine Séminaire Lexique, Grenoble : 164­175.<br />

McDonald D. (1996), « Internal and External Evidence in the Identification and Semantic<br />

Categorisation of Proper Names », in Boguraev B. et Pustejovsky J. (éds), Corpus processing for<br />

lexical acquisition (Language, Speech and Communication), MIT Press, Cambridge, London : 21­37.<br />

Paumier S. (2003), De la reconnaissance de formes linguistiques à l’analyse syntaxique, Thèse de<br />

doctorat, Université de Marne­la­Vallée.<br />

Poibeau T. (2005), « Le statut référentiel des entités nommées » in Actes de la conférence<br />

Traitement Automatique des Langues Naturelles (TALN 2005), Dourdan, France.<br />

Roche E. et Schabes Y. (1997), Finite­State Language Processing, Roche E. et Schabes Y. (éds),<br />

MIT Press, Cambridge, Mass./London (Language, Speech and Communication), 464 p.<br />

Sekine S. et Nobata C. (1998), « An Information Extraction System and a Customization Tool », in<br />

Proceedings of the New Challenges in Natural Language Processing and its Application, 25­26 May<br />

1998, Tokyo, Japan.<br />

Sekine S., Sudo K. et Nobata C. (2002), « Extended Named Entity Hierarchy», in Proceedings of<br />

the Third International Conference on Language Resources and Evaluation (LREC 2002), Las<br />

Palmas, Canary Islands, Spain : 1818­1824.<br />

Tolone E. (2006), Rapport technique de stage en Master I d’Informatique, Université de Marne­la­<br />

Vallée, Paris, 39 p.<br />

Watrin P. (2006), Une approche hybride de l’extraction d’information : sous­langages et lexiquegrammaire,<br />

Thèse de doctorat, Cental, Université de Louvain­La­Neuve, Belgique.<br />

22


BACK UP


De la reconnaissance à l’extraction<br />

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré<br />

a convoqué l’ambassadeur du Burkina à Abidjan, Émile Ilboudo<br />

Attribut Attribut<br />

EN<br />

Concordance<br />

nat nat<br />

fonction fonction fonction_suite fonction_suite<br />

Fonctions ministérielles<br />

Nom prenom de personne<br />

prenom<br />

<br />

<br />

entite nom nom entite<br />

<br />

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré a convoqué<br />

•Délimiter l’EN: Identifier ses bornes<br />

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré<br />

une a catégorie convoqué l’ambassadeur sémantique du non Burkina ambiguë à Abidjan<br />

•Associer éventuellement Abou Drahamane Sangaré les attributs présents<br />

Nom: Drahamane Sangaré<br />

Prénom: Abou<br />

Fonction: ministre des Affaires Étrangères<br />

Nationalité: ivoirien<br />

24


Ressources linguistiques (1/3)<br />

spécialisés (43 921 entrées)<br />

Nous utilisons des dictionnaires généraux (1 256 951 entrées)<br />

construits pour le corpus (1000 entrées)<br />

Type de dictionnaire Auteur Exemple Effectifs<br />

Prénoms Maurel et al. 1996 Caroline,.N+PR+Hum+Prénom:fs 24 291<br />

Toponymes Maurel & Piton 1999 Seine,.N+PR+Hydronyme:fs 6 107<br />

Pays, Capitales et Gentilés Maurel & Piton 1999 France,.N+PR+Toponyme+Pays+IsoFR:fs 3 093<br />

Adjectifs toponymiques Maurel & Piton 1999 parisiens,parisien.A+Toponyme+Ville:mp 3 407<br />

Noms de profession Fairon 2004 banquiers,banquier.N+Profession:mp 4 185<br />

Sigles et Abréviations Maurel et al. 1996 Solensi,Solidarité Enfants Sida.N+Sigle:fs 2 838<br />

Toponymes Africains Trouvés sur le Web Assinie,.N+PR+Toponyme+Ville:fs 400<br />

Organisations et Abréviations Elsa Tolone FMI,Fonds Monétaire<br />

International.N+Sigle+Org:ms<br />

Mots simples (DELAF) LADL / IGM praesidia,praesidium.N+HumColl:mp 984 723<br />

Mots composés (DELACF) LADL / IGM week­ends,week­end.N+Tps+weekend:mp 272 228<br />

25<br />

500


Ressources Linguistiques (2/3)<br />

Dictionnaire morphologique du français (Système DELA)<br />

mots simples (DELAF): 984 723 entrées<br />

f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph<br />

praesidium,praesidium.N+HumColl:ms<br />

praesidia,praesidium.N+HumColl:mp<br />

présidium,présidium.N+HumColl+praesidium:ms<br />

présidiums,présidium.N+HumColl+praesidium:mp<br />

mots composés (DELACF): 272 228 entrées<br />

f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph<br />

week­end,week­end.N+Tps+weekend:ms<br />

week­ends,week­end.N+Tps+weekend:mp<br />

26


Ressources Linguistiques(3/3)<br />

Dictionnaires spécialisés (<strong>projet</strong> <strong>PROLEX</strong>)<br />

Prénoms : 24 291 entrées<br />

Laurent,.N+PR+Hum+Prénom:ms<br />

Toponymes : 6 107 entrées<br />

Seine,.N+PR+Toponyme+Hydronyme:fs<br />

Pays, Capitales et Gentilés : 3 093 entrées<br />

France,.N+PR+Toponyme+Pays+IsoFR:fs<br />

Paris,.N+PR+Toponyme+Ville+Cap+IsoFR:ms:fs<br />

Français,.N+PR+Hum+Toponyme+Pays:ms:mp<br />

Abréviations et Sigles : 2 838 entrées<br />

Solensi,Solidarité Enfants Sida.N+Sigle:fs<br />

Professions : 4 185 entrées<br />

avocat d’affaires,.N+Profession:ms<br />

avocate d’affaires,avocat d’affaires.N+Profession:fs<br />

27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!