Habib Smei

Habib Smei Habib Smei

infcom.rnu.tn
from infcom.rnu.tn More from this publisher
12.07.2015 Views

SYFAX : Un cache sémantique pour desdocuments pédagogique : l'utilisation desontologiesHabib SMEI*, Abdelmajid BEN HAMADOU*** ISET Radés -Laboratoire MIRACL, Habib.smei@isetsf.rnu.tn** ISIMS SFAX - Laboratoire MIRACL Abdelmajid.benhamadou@isimsf.rnu.tnRÉSUMÉ : Le Web est une gigantesque base de données utile pour les chercheurs et lesdécideurs. Toutefois, l’absence d’informations sur la sémantique des documents Web nepermet pas d’exploiter efficacement les informations disponibles sur le Web. En particulier,les programmes d’indexation et d’extraction automatique des méta-données sont trèsinefficaces, comparer à ce qu’un indexeur humain peut obtenir grâce à la connaissance de lasémantique des documents. Cet article présente SYFAX, un cache sémantique et portailcommunautaire offrant à une communauté d'utilisateurs des documents pédagogiques.Nous exploitons les méta-données et les ontologies pour l’interprétation sémantique desrequêtes utilisateurs pour améliorer la recherche d’informations. Le processus d’interprétationsémantique commence par dissocier le type de document recherché de son contenu enexploitant une ontologie du domaine pour les types des documents. Une fois le type deressources recherchées est connu, nous pouvons utiliser l'ensemble des mots clés utilisés dansla requête de recherche. Nous nous basons dans cette phase aussi sur une ontologie dudomaine qui nous permette d'enrichir le vocabulaire utilisé dans la requête pour étendre lechamp de recherche.MOTS CLÉS : Web ; sémantique ; requêtes, méta-données ; ontologies ; notification ; indexation ; entrepôt.

SYFAX : Un cache sémantique pour desdocuments pédagogique : l'utilisation desontologies<strong>Habib</strong> SMEI*, Abdelmajid BEN HAMADOU*** ISET Radés -Laboratoire MIRACL, <strong>Habib</strong>.smei@isetsf.rnu.tn** ISIMS SFAX - Laboratoire MIRACL Abdelmajid.benhamadou@isimsf.rnu.tnRÉSUMÉ : Le Web est une gigantesque base de données utile pour les chercheurs et lesdécideurs. Toutefois, l’absence d’informations sur la sémantique des documents Web nepermet pas d’exploiter efficacement les informations disponibles sur le Web. En particulier,les programmes d’indexation et d’extraction automatique des méta-données sont trèsinefficaces, comparer à ce qu’un indexeur humain peut obtenir grâce à la connaissance de lasémantique des documents. Cet article présente SYFAX, un cache sémantique et portailcommunautaire offrant à une communauté d'utilisateurs des documents pédagogiques.Nous exploitons les méta-données et les ontologies pour l’interprétation sémantique desrequêtes utilisateurs pour améliorer la recherche d’informations. Le processus d’interprétationsémantique commence par dissocier le type de document recherché de son contenu enexploitant une ontologie du domaine pour les types des documents. Une fois le type deressources recherchées est connu, nous pouvons utiliser l'ensemble des mots clés utilisés dansla requête de recherche. Nous nous basons dans cette phase aussi sur une ontologie dudomaine qui nous permette d'enrichir le vocabulaire utilisé dans la requête pour étendre lechamp de recherche.MOTS CLÉS : Web ; sémantique ; requêtes, méta-données ; ontologies ; notification ; indexation ; entrepôt.


I. IntroductionLe Web constitue aujourd’hui le principal véhicule de partage d’informations à l’échellemondiale. Il permet aux utilisateurs répartis d’accéder à une gigantesque base de données,concernant des sujets très variés. De nombreux outils de recherche et de filtrage (moteurs derecherche, systèmes de recommandation, portails communautaires) ont été proposés pourfaciliter l’accès aux informations disponibles sur le Web. Aucun de ces outils ne permet àune communauté d’utilisateurs, de disposer d’un véritable système d’informations dédié. Sinous considérons par exemple la communauté de personnes impliquées dans l’enseignementsupérieur et la recherche dans un pays, elles ont besoin de partager des informations relativesà leur domaine : programmes d’enseignement, bibliographies, notes de cours, tutoriaux,résultats d’enquêtes, rapports divers, etc.Cet article présente SYFAX, un système qui permet d’offrir à une communauté d’utilisateurs,la vue d’un cache Web sémantique distribué, qui a pour but d’améliorer la découverte etl’accès aux documents Web pertinents pour cette communauté d’utilisateurs. SYFAX assurela fouille du Web, l’extraction des données sémantiques (i.e, méta-données) concernant lesdocuments et les utilisateurs, et le stockage des documents et de leurs méta-données associées.SYFAX offre aux utilisateurs des mécanismes de coopération afin de leur permettre departager aussi bien leurs expériences que les informations à leur disposition. L’étude de casdevant guider la conception et la validation du système SYFAX est celle de la communautéuniversitaire. L’accent mis sur cette étude de cas ne signifie pas que SYFAX est dédié à cecas. La méthodologie proposée n’est pas restreinte au contexte pédagogique, elle est tout à faitapplicable à toute autre communauté d’utilisateurs. Le reste de l’article s’organise commesuit. Le paragraphe 2 présente l’architecture du système SYFAX. Le paragraphe 3 présentel'interprétation sémantique des requêtes utilisateurs, une méthode que nous proposons pouraméliorer le processus de recherche. La conclusion expose les perspectives de développementdu système.


II. Présentation de SYFAXLe système de cache repose sur un modèle Client/Serveur dans lequel chaque utilisateur estun client du cache qui collabore avec d’autres clients via le Serveur du cache.Un client est assimilable à un assistant personnel ; il tourne chez chaque utilisateur dusystème de cache. Le client du cache propose aux utilisateurs des interfaces de recherche, degestion de documents ainsi que des outils de filtrage collaboratif. Le serveur du cache gère lesdocuments et méta-données qui sont associées. Ils coopèrent pour offrir aux utilisateurs dusystème l’abstraction d’un cache Web sémantique distribué performant aussi bien en terme delatence d’accès que de pertinence des résultats de recherche. Ils offrent aux utilisateurs desoutils adaptés de recherche et de filtrage. Le filtrage se base essentiellement sur les avis desutilisateurs. En effet, chaque utilisateur peut donner son avis (aspect annotation) sur chaquedocument accédé. Les annotations des utilisateurs pour un document donné peuvent êtreconsultées par les utilisateurs et faire même l’objet de nouvelles annotations.Pour alimenter la base de données de documents du cache communautaire à partir du web(voir figure 1), le serveur du cache fait appel à un robot qui va parcourir le Web et ramener desdocuments, puis par une étape de préfiltrage on discrimine les documents non intéressants et quine correspondent pas au profil de la communauté (défini sous forme de caractéristiques à traversune méta-description de la communauté), ces documents présélectionnés vont passer par uneétape d’analyse et d’extraction de métadonnées (automatique ou semi-automatique). Ainsi onobtient une base de données contenant des documents et leurs métadonnées respectives, cettebase va être triée manuellement pour ne retenir qui intéresse réellement la communauté.WebPréfiltrageDocumentsprésélectionnésAnalyse etextractiondes…Profil de lacommunautéMétadonnéesDocumentsMétadonnéesTri manuelDocumentsFigure 1 : architecture du système filtrage des documents et du système l’extraction des métadonnées.


Le système de cache communautaire s’articule au tour de cinq services :- La prise en charge du profil utilisateur (saisie) lors de la phase d’inscription (voir figure 3).- L’hébergement des document et l’extraction de métadonnées (voir figure 4).- La recherche de documents par un système (par l'usage des ontologies).- Recommandation à base du système d’appariement profil utilisateur – métadonnées.- Outils communautaires (forums de discussion…).Injection automatique ou semi-automatiqueHébergementmanuelWeb…Cache communautaireMétadonnéesDocumentsRequêteRésultatsSaisie du profilutilisateurMoteur derechercheProfilsutilisateurForumsRecommandationPortail CommunautaireFigure 2 : architecture Globale du système de cache communautaireLors de la phase d’inscription au système, l’utilisateur doit saisir son profil utilisateur ainsique ses centres d’intérêt, ensuite lorsque cet utilisateur se connecte au système de cache il a lapossibilité d’héberger ses propres documents pour alimenter la base de données tout enajoutant les métadonnées pour chaque document (l’auteur est la personne la plus qualifié pourdécrire son document). Cette étape de description peut s’effectuer de trois manières :manuelle (par l’auteur du document), automatique (à travers un système d’extractionautomatique de métadonnées) ou semi-automatique (si après l’extraction automatique ilmanque des éléments, on va les compléter manuellement). La base de données de documentspeut être alimentée automatiquement ou d’une manière semi-automatique à partir du Web.On dispose d'une base de ressources pédagogique que l’utilisateur peut consulter pourrechercher les documents qui lui intéresse à travers un moteur de recherche basé sur lesmétadonnées, le profil utilisateur ainsi que sur l'usage d'ontologies.La communauté dispose aussi d’outils de communication et de collaborations comme les


forums afin de permettre aux membres de la communauté d'échanger des documents et desidées sur des thèmes spécifiques pour consolider l’esprit de la communauté.III. Interprétation sémantique des requêtes utilisateurs1. Principe de la méthode :Commençons par rappeler que nous intéressons aux documents pédagogiques dans ledomaine informatique.Nous partons d'une requête à l'état brut qui est formulée par un utilisateur voulant chercherdes documents pédagogiques. Cette requête va subir un processus de raffinement pourdissocier le type de document recherché de son contenu. En effet, dans SYFAX (notreplateforme expérimentale), les types des documents sont connus, ce qui facilite leursénumérations. Une fois le type de ressources recherchées connu, nous pouvons utiliserl'ensemble des mots clés de la requête pour la recherche dans l'entrepôt de SYFAX desdocuments répondant à ces mots clés. Nous nous basons dans cette phase aussi à uneontologie du domaine qui nous permet d'enrichir le vocabulaire utilisé dans la requête pourétendre le champ de recherche.Schéma de la stratégie :Requête initialeOntologie"Type des documents"SegmentationTypeContenuOntologie"domaine"Contenu enrichiType de documentconnuBase dedocumentsDocuments sélectionnésFigure 3 : Processus de recherche de documents pédagogiques.


2. Identification des conceptsa. Identification du type de documentsComme nous avons déjà expliqué plus haut, nous procédons à une décomposition de larequête initiale de l'utilisateur afin de dissocier le type des documents recherchés du reste desmots clés utilisés. Pour pouvoir identifier le ou les types de documents souhaités parl’utilisateur nous utilisons l’ontologie “type de documents” : une ontologie que nous avonscrée manuellement comportant les différents types de documents.Le processus d’identification commence par former des combinaisons à partir des différentsmots constituant la requête initiale. Puis confronter chaque combinaison trouvée à l’ontologie"type de documents" pour tenter d’identifier le type de documents désirés par l’utilisateur.Exemple :Examinons le cas de la requête suivante :" Tavaux dirigés SQL "Les Combinaisons possible générées à partir de cette requête sont :TravauxDirigésSQLTravaux dirigésTravaux dirigés SQLDirigés SQLTravaux dirigés SQLEn confrontons ces combinaisons à l’ontologie "type des documents ", la seule combinaison àretenir dans ce cas est : "Travaux dirigés" qui représente le type de documents souhaité parl’utilisateur.b. Identification des concepts du domaineLes utilisateurs cherchent des documents pédagogiques dans le domaine informatique ; doncles mots clés des requêtes sont en quelque sorte des concepts du domaine informatique. Pourdétecter ces concepts nous exécutons le même processus adopté pour l’identification du typedes documents, mais dans ce cas nous utilisons une ontologie pour le domaine informatique.L’ontologie que nous avons utilisé est construite automatiquement à partir d’un dictionnaireinformatique nommé FOLDOC [FOLDOC] (figure R-2) et ceci en utilisant le systèmeMecureo [Mecureo], c’est un système crée par Trent Apted [Apted] permettant de générerautomatiquement une ontologie dans le domaine informatique à partir du dictionnaireFOLDOC, ce système offre également un module permettant de lancer des requêtes surl’ontologie.


L’ontologie générée est un graphe pondéré dont les nœuds représentent des concepts dudomaine informatique et les liens représentent les relations sémantiques entre les concepts.SQL /S Q L/ An industry-standardlanguage for creating, updating and, querying {relationaldatabase management systems}.SQL was developed by {IBM} in the 1970s for use in {System R}.It is the {de facto standard} as well as being an {ISO} and{ANSI} {standard}. It is often embedded in general purposeprogramming languages.The first SQL standard, in 1986, provided basic languageconstructs for defining and manipulating {tables} of data; arevision in 1989 added language extensions for {referentialintegrity} and generalised {integrity} {constraints}. Anotherrevision in 1992 provided facilities for {schema} manipulationand {data administration}, as well as substantial enhancementsfor data definition and data manipulation.Figure 4 : Extrait du dictionnaire FOLDOC représentant la définition du mot "SQL".3. Expansion des requêtes utilisateurs :Nous avons opté pour une expansion automatique des requêtes utilisateurs. Après avoirdétecter les concepts du domaine informatique, Chaque concept est enrichit par des conceptsqui sont sémantiquement les plus proches de lui. Pour ce faire on va utiliser le moduleFoldoccmd du système Mecureo.Ce module permet de lancer des requêtes sur l’ontologie en recevant comme paramètres de larequête : le concept sujet de la requête, la profondeur souhaité. ce dernier paramètre permet delimiter la taille du graphe résultant de la requête . (la figure R-3 représente un exemple d’unerequête lancé sous Foldoccmd pour le concept "SQL" avec une profondeur égale à 5).Le graphe obtenu est formé par le concept en question et les nœuds (les concepts) qui sontles plus proches de lui, ce graphe peut être représenté dans un format RDF [RDF] (la figureR-4 représente le résultat de la requête lancé sous Foldoccmd dans un format RDF) ou dansle format DOT [DOT] .( figure R-5 représente le résultat de la requête lancé sous Foldoccmd"gif" généré à partir du format DOT).C:\mec2>java foldoccmd.QuickDot "ontologie.fdg" SQL 5 >exemple1.DOTLoading dictionnaire.fdg10%...20%...30%...40%...50%...60%...70%...80%...90%...100%Read in 13690 nodes.Read in 177213 links.Query size is 5 nodesOutputting DOT...Figure R –3 exemple d’une requête exemple d’une requête lancé sous Foldoccmd pour le concept "SQL" avec une profondeur égale à 5


Références :[Apted] http://www.ug.cs.used.edu/~taped/.[Aussenac, 02] N. Aussenac, Support de cours conçu par N. Aussenac-Gilles, J. Charlet, P.Laublet et B. Bachimont. Cours sur les Ontologies, les Terminologies et les Bases deConnaissances Terminologiques : http://www.irit.fr/GRACQ , (2002).[Baziz, 02] M. Baziz, « Application des Ontologies pour l’Expansion de Requêtes dans unSystème de Recherche d’Informations », Rapport de DEA 2IL Irit, (juin 2002).[DOT] an open source graph visualisation tool, at http://www.research.att.com/sw/tools/graphviz/.[FOLDOC] the free On-Line Dictionary Of Computing[© 1993 by Denis Howe, updatedregulary], at http://foldoc.doc.ic.ac.uk/foldoc/contents.html.[Mecureo] http://www.it.usyd.edu.au/~tapted/projects.html#Mecureo[Guarino & al, 99] Nicola Guarino, Claudio Masolo, and Guido Vetere. “OntoSeek :contentbased access to the web”. IEEE Intelligent Systems, (1999).[Gonzalo, 98] Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing withwordnet synsets can improve text retrieval. In Proceedings of the COLING/ACL '98Workshop on Usage of WordNet for NLP, pages 38-44, Montreal, Canada, (1998).[Michard 99] A. Michard.- XML langage et applications.- Paris : Eyrolles, 1999.- 361p.[Salton 71] Salton (Gerald). – The SMART retrieval system: experiments in automaticdocument processing. – Prentice Hall, 1971.[Salton 83] Salton (Gerald) et McGill (Michael J.). – Introduction to Modern InformationRetrieval. – McGraw-Hill, Janvier 1983.[Navigli et al 2003]. An Analysis of Ontology-based QueryExpansion Strategies. RobertoNavigli and PaolaVelardi.Workshop on Adaptive Text Extraction and Mining (ATEM2003),in the 14th European Conference on Machine Learning(ECML 2003).[RDF] Resource Description Framework, at http://www.w3.org/1999/02/22-rdf-syntax-ns#[SFX1] H. SMEI, M. MAKPANGOU, A. BEN HAMADOU, SYFAX : Un système de cacheWeb Sémantique pour des communautés Distribuées, Conférence Internationale – MediaNet2002 – Juin 2002 – Sousse – Tunisie[SFX2] H. SMEI, M. MAKPANGOU, A. BEN HAMADOU, Vers un SYstème de FouilleAutomatique et d’eXtraction d’information : SYFAX, Cas de l’enseignement. GEI 2002 –Mars 2002 – Hammamet – Tunisie.[WN] http://www.cogsci.princeton.edu/~wn/.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!