l'information numérique et les enjeux de la ... - smsi :: tunis 2005
l'information numérique et les enjeux de la ... - smsi :: tunis 2005
l'information numérique et les enjeux de la ... - smsi :: tunis 2005
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Colloque international:L'information <strong>numérique</strong> <strong>et</strong> <strong>les</strong> <strong>enjeux</strong> <strong>de</strong> <strong>la</strong> société d'information<br />
102<br />
Texte original<br />
Analyse<br />
morphologique<br />
(Formes fléchies) (catégorie syntaxique) (base lexicale) (variab<strong>les</strong>)<br />
fonctionne v fonctionner P13<br />
ORD<br />
ISU PST FOR<br />
selon P selon AAU FAI<br />
un D un MAS SNG NNU FAI<br />
cycle F cycle MAS SNG NOM FOR<br />
COM<br />
à P à APO LOC FAI<br />
<strong>de</strong>ux D <strong>de</strong>ux GRN PLU NUM<br />
temps * F temps MAS NBN NOM FOR<br />
COM<br />
lorsque * W alors FOR PRO<br />
…/…<br />
2.2 L’analyse « robuste »<br />
Données en entrée<br />
Le résultat <strong>de</strong> l’analyse morphologique se trouve en<br />
entrée <strong>de</strong> notre analyse linguistique robuste. On verra<br />
plus bas que seule une p<strong>et</strong>ite partie <strong>de</strong>s informations<br />
é<strong>la</strong>borées par l’analyseur morphologique <strong>de</strong> l’équipe,<br />
est conservée.<br />
Q que<br />
Caractérisation <strong>de</strong>s candidats <strong>de</strong>scripteurs en sortie<br />
<strong>de</strong> l’analyse robuste<br />
En sortie, l’analyse robuste a pour objectif <strong>de</strong> donner<br />
une liste <strong>de</strong>s candidats <strong>de</strong>scripteurs avec le repérage du<br />
passage <strong>de</strong> texte d’où ils ont été observés.<br />
Suivant un choix c<strong>la</strong>ssique, <strong>les</strong> candidats <strong>de</strong>scripteurs<br />
sont <strong>les</strong> groupes nominaux. Ici, <strong>la</strong> structure syntaxique<br />
complexe <strong>de</strong> groupe nominal est « édulcorée »,<br />
approchée, à l’ai<strong>de</strong> <strong>de</strong> <strong>la</strong> structure suivante adoptée pour<br />
<strong>les</strong> candidats <strong>de</strong>scripteurs.<br />
Règle 1 : <strong>les</strong> candidats consistent en un ou une séquence <strong>de</strong> lexèmes <strong>de</strong> catégorie NOM.<br />
Exemp<strong>les</strong> :<br />
Échappement candidat <strong>de</strong>scripteur réduit à un unique lexème NOM<br />
Tour/vilebrequin candidat <strong>de</strong>scripteur composé <strong>de</strong> <strong>de</strong>ux lexèmes NOM<br />
Règle 2 : chaque lexème NOM d’un candidat <strong>de</strong>scripteur peut avoir une liste d’adjectifs joints à lui.<br />
Exemp<strong>les</strong> :<br />
Gaz (brûlé) un lexème NOM avec un adjectif associé<br />
Moteur (alternatif) / combustion (interne) <strong>de</strong>ux lexèmes NOM avec chacun un adjectif<br />
Diesel (gros) / temps (<strong>de</strong>ux, marin) <strong>de</strong>ux lexèmes NOM avec respectivement 1 <strong>et</strong> 2 adjectif(s)<br />
2.3 Automate pour l’analyse robuste<br />
Nous utilisons pour réaliser l’extraction <strong>de</strong>s candidats<br />
<strong>de</strong>scripteurs un automate à nombre fini d’états. Les<br />
constituants qui définissent c<strong>et</strong> automate sont : le<br />
vocabu<strong>la</strong>ire en entrée, <strong>les</strong> états, <strong>les</strong> transitions <strong>et</strong> <strong>les</strong><br />
actions effectuées au passages <strong>de</strong>s transitions.<br />
Vocabu<strong>la</strong>ire en entrée<br />
L’ensemble <strong>de</strong>s symbo<strong>les</strong> pouvant apparaître dans <strong>la</strong><br />
chaîne en entrée est constitué par une sousdétermination<br />
<strong>de</strong>s catégories morpho-syntaxiques <strong>et</strong> <strong>de</strong>s<br />
valeurs <strong>de</strong> variab<strong>les</strong> issues <strong>de</strong> l’analyse morphologique.<br />
Seuls 5 symbo<strong>les</strong> sont distingués :<br />
♦ DET : Les déterminants<br />
♦ ADJ : Les adjectifs<br />
♦ NOM : <strong>les</strong> noms<br />
♦ Prep DE-A : Les prépositions DE <strong>et</strong> A<br />
♦ Divers : toutes <strong>les</strong> autres catégories : verbes,<br />
pronoms, re<strong>la</strong>tifs, conjonctions re<strong>la</strong>tives, subordonnées,<br />
ponctuation ramènent à l’état initial <strong>et</strong> composent<br />
l’ensemble Divers<br />
ISD, Tunis<br />
14-16 avril <strong>2005</strong>