Axe système d'information et interface : conception, organisation et représentation

Richard Bouché

responsable

 

I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I

membres

Salah Dalhoumi, Nabil Gader, Mohamed Hassoun,

Omar Larouk, Jean-Marc Proust.

membres associés

Laïd Bouzidi, Michel Le Guern.

étudiants doctorants

Wigdan Abbas, Muriel Amar, Tahar Amrane, Samba Aw,

Mohamed Belkheir, Nabil Ben Abdallah, Laurence Favier, Malek Guenima, Rosa Issolah,

Madjid Ihadjadene, Helio Kuramoto, Thiendou Niang, Riadh Ouersighni,

Sami Oueslati, Kathy Porte, Nadia Senouci, Sahbi Sidhom,

Faouzi Tchenar, Mohamad Tout, Riadh Zaafrani.

Présentation de l'axe

I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I

Cet axe a pour objectifs la conception de systèmes d'information de type documentaires. Dans cet objectif sont compris à la fois :

 

On peut distinguer dans l'axe les sous ensembles suivants :

1. le groupe qui travaille sur les systèmes concernant la langue arabe, à la fois dans une perspective documentaire (principalement indexation) et une perspective multilingue(responsable Mohamed Hassoun),

2. le groupe TALSIC (Traitement automatique des langues, systèmes d'information, cognition) qui s'intéresse aux modèles linguistiques du français et du portugais dans une perspective d'indexation automatique (sous la responsabilité du Professeur Michel Le Guern et d'Omar Larouk),

3. le groupe qui travaille sur l'accès aux catalogues et aux documents numérisés dans une bibliothèque (responsable Richard Bouché),

4. un groupe de chercheurs concernés par certains aspects de veille technologique.

 

Projets et contrats

I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I

OUTILS POUR LE TRAITEMENT AUTOMATIQUE DE LA LANGUE ARABE

 

Responsable scientifique : Mohamed Hassoun

Avec Wigdan Abbas, Nabli Gader, Malek Guenima, Riadh Ouersighni, Sahbi Sidhom, Mohamad Tout et Riadh Zaafrani.

L'objectif premier des travaux de recherche menés au CERSI à l'enssib est la réalisation d'un système d'indexation automatique des documents écrits en arabe et la réalisation d'une base de données documentaires multilingue.

Les recherches au sein de l'équipe ont permis le développement d'un certain nombre d'outils de traitement automatique de la langue indispensables pour arriver à cet objectif. La diffusion de produits résultant de ces outils, moyennant quelques adaptations, est parfaitement envisageable dans un avenir proche.

Ces outils sont : Le conjugueur, l'analyseur morphologique, l'interface de saisie de la base de données lexicales, le Dictionnaire Informatisé de l'Arabe DIINAR, le vérificateur d'orthographe.

le conjugeur

Développé pour les besoins de la base de données lexicales, il permet de conjuguer les quelques 21 000 verbes de la langue arabe. Il est actuellement utilisé dans un système de traduction de l'anglais vers l'arabe à l'IRSIT (Institut Régional en Sciences de l'Informatique et des Télécommunications) de Tunis.

l'analyseur morphologique

Conçu pour les différentes applications en cours de réalisation, cet analyseur permet de traiter des textes indépendamment de leur degré de vocalisation.

l'interface de saisie

Développée avec le système de gestion de bases de données relationnelles CLIPPER, elle a permis la saisie de la base de données lexicales DIINAR 1. Cette interface a été conçue d'une façon suffisamment générale pour pouvoir être utilisée pour la saisie d'autres dictionnaires de même type tels que les dictionnaires terminologiques.

la base de données lexicales DIINAR 1

Pour répondre aux besoins de l'équipe, il a été question de concevoir et de réaliser une base de données lexicale relative aux bases nominales et verbales. Cette base contient, à la date d'aujourd'hui, environ 21 000 verbes correspondant à 5 700 racines et environ 40 000 noms sur 60 000 prévus (fin 1996). L'IRSIT a participé activement à cette réalisation.

Des programmes de synthèse permettant de générer à partir de cette base de données un ensemble de lexiques différents selon le type de traitement envisagé sont en cours de réalisation par les chercheurs concernés.

le vérificateur orthographique

Reposant sur une version simplifiée de l'analyseur morphologique, il utilise un lexique de 200 000 entrées pour la détection des mots erronés. Un module de correction, en cours de développement, permettra de trouver les mots candidats à la correction.

Sachant que certains de ces outils ont été réalisés en collaboration avec d'autres partenaires français et étrangers, il serait important d'identifier les moyens de diffusion possibles auxquels nous pouvons recourir pour faire bénéficier de ces outils un plus large public.

 

PROJET EUROPEEN : DIINAR-MBC DICTIONNAIRE INFORMATISE DE L'ARABE - MULTILINGUE BASE SUR CORPUS.

 

Coordinateur pour l'enssib : Mohamed Hassoun

La commission européenne à Bruxelles a donné un avis favorable sur le projet européen DIINAR-MBC qui a été déposé en septembre 1996 par l'enssib et ses partenaires : L'Université Lumière-Lyon 2, l'IRSIT du Tunis, l'Université Catholique de Nimègue, l'Institut National de Recherche Électronique du Caire en Egypte et l'Institut d'Etude et de Recherche et d'Arabisation de Rabat au Maroc.

La durée prévue du projet est de deux ans à partir de septembre 1997.

objet de la recherche

Les objectifs des activités de recherche proposées sont la création d'une base de données lexicale multilingue (Arabe - Anglais - Français) sur la base d'un grand corpus de données linguistiques, ainsi que le développement d'outils pour l'exploitation de cette base d'une manière conviviale.

Dans ce but, certaines activités doivent être réalisées antérieurement à la réalisation de l'objectif principal. Parmi ces activités il y a : la standardisation et l'harmonisation de la forme et du contenu (selon les normes les plus courantes comme TEI et MULTEXT) du corpus de textes arabes déjà disponibles et l'extension de ce dernier à 10 millions de mots ; la compilation d'un corpus arabe de référence d'un million de mots ; la création, l'affinage et la mise à jour des analyseurs morphologiques et syntaxiques déjà disponibles ; l'extension de l'analyseur morpho-syntaxique à l'aide d'un composant sémantique ; le test et la correction des analyseurs sur les données du corpus textuel ; l'analyse des données textuelles ; la sauvegarde des données analysées ; l'arabisation de la base de données linguistiques orientées anglais déjà disponible ; le développement et l'implémentation d'interfaces pour l'exploitation du corpus ainsi mis a jour en vue d'extractions lexicales ; le développement et la mise en oeuvre d'interfaces pour l'exploitation de la base de données multilingue ; l'harmonisation des outils utilisés par les différents partenaires du projet ; l'enregistrement du corpus ; de la base de données lexicale et des outils ; la génération de rapport et de documentation.

Ces activités exécutées par 5 partenaires et un sous-traitant d'Europe et du Moyen-Orient ayant une longue expérience dans ces domaines de recherche conduiront au développement d'outils de production de ressources pour les besoins du multilinguisme, y compris ceux de l'arabe.

 

PROJET AUPELF : LA MISE EN PLACE D'OUTILS DE CREATION DE BASES DE DONNEES TERMINOLOGIQUES ARABE-FRANÇAIS

 

Coordinateur de l'enssib : Mohamed Hassoun

Projet présenté par l'enssib et ses partenaires : l'Université Lumière-Lyon 2 et l'IRSIT de Tunis au Réseau FRANCIL de l'AUPELF (Agence francophone pour l'enseignement supérieur et la recherche).

Le projet a débuté en janvier 1996 pour une durée de trois années.

objet de la recherche

Ce projet de recherche a pour objectif la mise en place d'outils de création de bases de données terminologiques arabe-français et leur expérimentation dans le domaine de l'optique. Ce projet a été accepté et l'AUPELF le finance pour trois ans à raison de 40 000 francs par an.

valorisation

Une communication a été présentée par l'équipe aux journées Scientifiques et Techniques (JST) de Francil à Avignon, 13-16 Avril 1997.

soutenance de thèse

Dans le cadre de travaux de recherche de l'équipe, une thèse de doctorat a été soutenue par Samia EZZAHID sous la direction de Joseph DICHY et Mohamed HASSOUN, Méthodologie d'élaboration des entrées d'une base de données lexicale de l'arabe, soutenue à l'Université Lumière-Lyon 2, le 25 Novembre 1996.

participation aux colloques et aux journées d'étude

Les outils réalisés résultant d'une collaboration avec d'autres partenaires français et étrangers, il serait important d'identifier les moyens de diffusion possibles auxquels nous pouvons recourir pour faire bénéficier de ces outils un plus large public.

 

 

GADER, Nabil, Towards morphological analysis of unvoweled, partially voweled and totally voweled Arabic, Proceedings of 5th ICEMCO, International Conference and Exhibition on Multi-lingual Computing, 11-13 Avril, Cambridge, Angleterre, pp. 3.15.1-3.15.8.

GHENIMA, Malek, Morpho-syntactic analysis of arabic language based on Tree Adjoining Grammar formalism, Proceedings of DIALOGUE'96, International Workshop on computational linguistics and its applications, 4-9 Mai à Puschino, Russie, pp. 73-82.

HASSOUN, Mohamed, GADER, Nabil, GHENIMA, Malek, Base de données lexicale en vue du traitement automatique de l'arabe, EURALEX'96, Göteborg University, Departement of Swedish, Août 1996.

La collaboration est très active avec des équipes de l'université Lumière Lyon 2, l'IRSIT à Tunis et l'université de Nimègue. Le groupe a participé à la conception d'une réponse à un appel d'offre européen dont le financement a été accepté.

 

LE GROUPE TALSIC

 

Le travail d'Omar Larouk concerne le traitement automatique des documents écrits dans le cadre des systèmes d'informations documentaires. Il fait appel aux techniques d'extraction et de représentation des connaissances en se basant sur les méthodes d'analyses linguistiques et sur les mathématiques quantitatives (Théorie des ensembles, Logiques, Statistiques, etc.).

Vue l'importance statistique des signes de ponctuation dans les documents textuels (dépêches A.F.P. et articles de Communications of A.C.M.), un travail est mené pour la mise en place de " mesures linguistico-mathématiques " qui mettent en rapport des signes typographiques et des mots du texte (calcul des valeurs des virgules, calcul des positions, indices de correction, etc.).

L'analyse de prétraitement fait appel à des algorithmes textuels de filtrage. Cette perspective de détection automatique permet de repérer les signes de ponctuation et donc de corriger leurs valeurs réelles par rapport aux conjonctions de coordination avant toute analyse syntaxique. Pour présenter les différents travaux du projet TALSIC, un séminaire a été organisé sur le " Filtrage des données textuelles pour les systèmes d'information ".

Helio Kuramoto travaille sur la construction d'un système d'indexation et de recherche d'information appliqué au Portugais et ayant les syntagmes nominaux comme moyen d'accès à l'information.

Pour cela il lui faut développer :

 

valorisation

KURAMOTO, Helio, "Uma abordagem alternativa para o tratamento e recuperação de informação textual : os sintagmas nominais", (Une approche alternative pour le traitement et la recherche d'information textuelle : les syntagmes nominaux), Revista Ciência da Informação, Brasilia, 1997, vol. 25, n° 2, p.182-192.

LAROUK, Omar, "Quantitative Mathematics (Set theory, Logics, and Statistics) applied on textual data in Information Retrieval : Some Linguistic measures"; The Third International Conference on Quantitative Linguistics (QUALICO-IQLA '97), University of Helsinki, Finland, August 26-30, 1997.

communications proposées

KURAMOTO, Helio, "An alternative approach to processing and retrieving textual information: the nominal syntagms". (communication envoyée au Workshop NLDB'97).

LAROUK, Omar, "Calcul des relations inter-textes dans un système de recherche d'information à l'aide de la logique de présupposition : Filtrage orienté des demandes des usagers"; (Knowledge Filtering with Presupposition Logic in IRS : Filtering Oriented of user needs ).

LAROUK, Omar, "Les algorithmes de filtrage des données textuelles pour un système documentaire".

LAROUK, Omar, "Les mesures linguistico-mathémaques pour le traitement du document écrit".

rapports d'études

KURAMOTO, Helio, Une comparaison entre l'approche adoptée par Jean Paul Metzger (1988) et celle adoptée par Simone Vieira (1994) pour la catégorisation de mots qui appartiennent à un syntagme nominal, N° 01/95.

KURAMOTO, Helio, Une comparaison entre les syntagmes nominaux extraits sur le principe du modèle linguistique du français développé par le groupe et les termes d'un thesaurus en sciences de l'information, N° 02/95.

KURAMOTO, Helio, Etude était sur l'omission de déterminant dans quelques SN en langue portugaise, N° 01/96.

Rapport d'étude en cours concernant la construction d'un modèle de la langue portugaise permettant le développement d'un système d'extraction des SN dans un corpus en langue portugaise.

 

ACCES AUX CATALOGUES ET AUX DOCUMENTS NUMERISES

 

Les travaux dans ce groupe concernent l'examen des différents moyens d'accès faisant appel aux classifications et aux fichiers d'autorités pour le repérage de documents dans un catalogue ou dans une collection numérisée.

Un rapport d'étude a été fait sur la façon d'enrichir les catalogues en ligne à l'aide des tables des matières. Cette étude examine l'intérêt d'enrichir les notices bibliographiques pour améliorer la recherche en donnant des informations plus complètes sur le contenu d'un document. On montre que les tables des matières pourraient très bien jouer ce rôle. Le rapport passe en revue les différents travaux effectués dans ce sens.

Les travaux sur la réalisation d'une interface permettant de naviguer dans une classification ou dans une liste d'autorités matières afin de déterminer plus facilement les termes d'une interrogation ont nécessité une enquête par questionnaire sur les façons d'accéder aux OPACs dans les bibliothèques. Cette enquête est encours de dépouillement et doit donner lieu à une publication. D'autre part, depuis décembre 1996 et jusqu'en mai 1997, un enregistrement informatique des sessions d'interrogation par le Web du catalogue de la bibliothèque de l'enssib procure un volume important de données à analyser pour mieux connaître le comportement des usagers. Des résultats de l'enquête et de l'analyse des données collectées, on doit définir un cadrage plus pertinent pour la définition des procédures d'accès.

Le groupe a participé à un certain nombre de réunions avec la Bibliothèque nationale de France sur le développement de ces procédures d'accès. Il s'agissait successivement de participer au projet MEMORIA2 qui n'a pas été retenu par l'Union Européenne, puis de préparer un projet de réponse commune à l'appel d'offre "Télématiques et Bibliothèques" de 1997. La BnF a renoncé à déposer un projet mais les réunions de travail doivent continuer en vue de se focaliser sur les usages que les lecteurs feront de la maquette de préfiguration de l'accès à la collection numérisée du XIXe siècle qui doit être prochainement réalisée.

La prise en compte des usagers a donné lieu à des réunions périodiques animées par Salah Dalhoumi dans le cadre de l'axe (6 réunions avec en moyenne 8 participants). Ces réunions avaient pour objet de faire coopérer des chercheurs qui ont souvent des visions très différentes du systèmes d'information (point de vue de l'informaticien, point de vue du spécialiste des listes d'autorité, sociologue préoccupé par les usagers, etc.). Ces réunions ont permis d'ajuster les points de vues et de démarrer des études du type "état de l'art" sur les différents travaux mais adoptant la même perspective de conception de systèmes mettant l'accent premier sur l'usager.

Dans le cadre de son étude sur les usagers séjourneurs en bibliothèque, Salah Dalhoumi a rassemblé 250 interviews dans les bibliothèques municipales de Fresnes, de Lyon et de Villeurbanne. Ces interviews sont en cours de dépouillement.

rapports d'études

IHADJADENE, Madjid, PORTE, Kathy, Enrichir les catalogues en ligne à l'aide des tables des matières, ENSSIB-CERSI, octobre 1996, 35p.

IHADJADENE, Madjid, PORTE, Kathy, Les tables de matières et les catalogues en ligne, Centre de documentation de l'ENSSIB, 1996.

DALHOUMI, Salah, Analyse des postes de travail dans les bibliothèques, ENSSIB-CERSI, novembre 1996.

Deux articles doivent être publiés dans le nouveau volume de "Mosaïques", à paraitre en 1997 aux éditions de l'ADBS :

BOUCHÉ, Richard, "Les documents numérisés : production, traitement et accès", contribution à Mosaïque, ADBS, à paraître en 1997.

IHADJADENE, Madjid, "Hypertexte et Vocabulaires contrôlés", contribution à Mosaïque, ADBS, à paraître en 1997.

 

 

participation à des jurys ou à des commissions

 

Richard Bouché a présidé le jury de la thèse de Daniel Confland : Economie de l'information spécialisée : revue des problématiques et des questions vives,Paris, 8 juillet 1996.

Richard Bouché a également présidé le jury d'habilitation à diriger des recherches de Luc Quoniam  : Les productions scientifiques en bibliométrie, Marseille, 3 - 15 mars 1996.

Richard Bouché a été élu premier vice-président au Comité National des Universités, section 71 (Sciences de l'information et de la communication).

Richard Bouché a été nommé à la commission recherche de la SFSIC.

 

VEILLE TECHNOLOGIQUE

 

Les travaux effectués dans ce cadre concernent les thèses en cours de Favier Laurence, Niang Thiendou, Rosa Issolah et Aw Samba.

Laurence Favier travaille dans le cadre d'une Convention CIFRE au Pôle Européen de Plasturgie. Elle a dû étudier les processus d'information des entreprises de plasturgie qui dépendent de ce pôle. Elle propose un moyen d'accès à l'information, qui doit être mis à la disposition des ingénieurs du pôle et qui conjugue recherche bibliographique et analyse des données. Cet outil baptisé "Biblioscope" est réalisé en collaboration avec une équipe de l'INSERM de la faculté de médecine de Rennes.

Laurence Favier a présenté ses travaux sous forme de poster au cinquantenaire de l'INRA qui s'est tenu à Tours en septembre 1996. Elle a fait une communication à l'UCLA en février 1997. La thèse est en cours de rédaction.

Niang Thiendou travaille sur l'apport de la veille technologique pour le développement des PME dans le domaine de l'agro-alimentaire dans les pays de l'UEMOA (Union Economique et Monétaire de l'Ouest Africain). Sauf imprévus, la thèse sera soutenue en octobre 1997.

Rosa Issolah travaille sur le réseau d'information dans le domaine de l'agriculture en Algérie. La soutenance est également prévue pour la fin de l'année 1997.