01.06.2013 Views

l'information numérique et les enjeux de la ... - smsi :: tunis 2005

l'information numérique et les enjeux de la ... - smsi :: tunis 2005

l'information numérique et les enjeux de la ... - smsi :: tunis 2005

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Colloque international:L'information <strong>numérique</strong> <strong>et</strong> <strong>les</strong> <strong>enjeux</strong> <strong>de</strong> <strong>la</strong> société d'information<br />

102<br />

Texte original<br />

Analyse<br />

morphologique<br />

(Formes fléchies) (catégorie syntaxique) (base lexicale) (variab<strong>les</strong>)<br />

fonctionne v fonctionner P13<br />

ORD<br />

ISU PST FOR<br />

selon P selon AAU FAI<br />

un D un MAS SNG NNU FAI<br />

cycle F cycle MAS SNG NOM FOR<br />

COM<br />

à P à APO LOC FAI<br />

<strong>de</strong>ux D <strong>de</strong>ux GRN PLU NUM<br />

temps * F temps MAS NBN NOM FOR<br />

COM<br />

lorsque * W alors FOR PRO<br />

…/…<br />

2.2 L’analyse « robuste »<br />

Données en entrée<br />

Le résultat <strong>de</strong> l’analyse morphologique se trouve en<br />

entrée <strong>de</strong> notre analyse linguistique robuste. On verra<br />

plus bas que seule une p<strong>et</strong>ite partie <strong>de</strong>s informations<br />

é<strong>la</strong>borées par l’analyseur morphologique <strong>de</strong> l’équipe,<br />

est conservée.<br />

Q que<br />

Caractérisation <strong>de</strong>s candidats <strong>de</strong>scripteurs en sortie<br />

<strong>de</strong> l’analyse robuste<br />

En sortie, l’analyse robuste a pour objectif <strong>de</strong> donner<br />

une liste <strong>de</strong>s candidats <strong>de</strong>scripteurs avec le repérage du<br />

passage <strong>de</strong> texte d’où ils ont été observés.<br />

Suivant un choix c<strong>la</strong>ssique, <strong>les</strong> candidats <strong>de</strong>scripteurs<br />

sont <strong>les</strong> groupes nominaux. Ici, <strong>la</strong> structure syntaxique<br />

complexe <strong>de</strong> groupe nominal est « édulcorée »,<br />

approchée, à l’ai<strong>de</strong> <strong>de</strong> <strong>la</strong> structure suivante adoptée pour<br />

<strong>les</strong> candidats <strong>de</strong>scripteurs.<br />

Règle 1 : <strong>les</strong> candidats consistent en un ou une séquence <strong>de</strong> lexèmes <strong>de</strong> catégorie NOM.<br />

Exemp<strong>les</strong> :<br />

Échappement candidat <strong>de</strong>scripteur réduit à un unique lexème NOM<br />

Tour/vilebrequin candidat <strong>de</strong>scripteur composé <strong>de</strong> <strong>de</strong>ux lexèmes NOM<br />

Règle 2 : chaque lexème NOM d’un candidat <strong>de</strong>scripteur peut avoir une liste d’adjectifs joints à lui.<br />

Exemp<strong>les</strong> :<br />

Gaz (brûlé) un lexème NOM avec un adjectif associé<br />

Moteur (alternatif) / combustion (interne) <strong>de</strong>ux lexèmes NOM avec chacun un adjectif<br />

Diesel (gros) / temps (<strong>de</strong>ux, marin) <strong>de</strong>ux lexèmes NOM avec respectivement 1 <strong>et</strong> 2 adjectif(s)<br />

2.3 Automate pour l’analyse robuste<br />

Nous utilisons pour réaliser l’extraction <strong>de</strong>s candidats<br />

<strong>de</strong>scripteurs un automate à nombre fini d’états. Les<br />

constituants qui définissent c<strong>et</strong> automate sont : le<br />

vocabu<strong>la</strong>ire en entrée, <strong>les</strong> états, <strong>les</strong> transitions <strong>et</strong> <strong>les</strong><br />

actions effectuées au passages <strong>de</strong>s transitions.<br />

Vocabu<strong>la</strong>ire en entrée<br />

L’ensemble <strong>de</strong>s symbo<strong>les</strong> pouvant apparaître dans <strong>la</strong><br />

chaîne en entrée est constitué par une sousdétermination<br />

<strong>de</strong>s catégories morpho-syntaxiques <strong>et</strong> <strong>de</strong>s<br />

valeurs <strong>de</strong> variab<strong>les</strong> issues <strong>de</strong> l’analyse morphologique.<br />

Seuls 5 symbo<strong>les</strong> sont distingués :<br />

♦ DET : Les déterminants<br />

♦ ADJ : Les adjectifs<br />

♦ NOM : <strong>les</strong> noms<br />

♦ Prep DE-A : Les prépositions DE <strong>et</strong> A<br />

♦ Divers : toutes <strong>les</strong> autres catégories : verbes,<br />

pronoms, re<strong>la</strong>tifs, conjonctions re<strong>la</strong>tives, subordonnées,<br />

ponctuation ramènent à l’état initial <strong>et</strong> composent<br />

l’ensemble Divers<br />

ISD, Tunis<br />

14-16 avril <strong>2005</strong>

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!