Le circuit du document électronique :
l'exemple de l'INRIA

par Denis SILVESTRE

Version électronique d'un mémoire d'étude

Diplôme de conservateur de bibliothèque

Ecole nationale supérieure des sciences de l'information et des bibliothèques

1995


ATTENTION : les liens distants peuvent pointer vers des documents déplacés, ou qui n'existent plus

SOMMAIRE

1-INTRODUCTION
1.1. Les lieux du stage
1.2. Les documents électroniques
2. ACQUISITION
2.1. Edition électronique
2.2. Numérisation
2.3. Sources en ligne
3. TRAITEMENTS
3.1. Traitement physique
3.2. Traitement intellectuel
3.3. Manipulations du document
4. DIFFUSION
4.1. Accès aux références
4.2. Accès aux documents
5. CONCLUSION
5.1. L'avenir du document
5.2. L'avenir du bibliothécaire
5.3. L'avenir de la bibliothèque


INTRODUCTION

L'informatique a d'abord été dans la bibliothèque, grâce aux catalogues informatisés, un outil d'accès à l'information. Puis, avec l'avènement des logiciels, CD-ROM et réseaux, elle en est devenue le support, en complément ou en substitution de l'imprimé : le document électronique est aujourd'hui une réalité.

La bibliothèque doit apprendre désormais à gérer une nouvelle chaîne documentaire. Plus encore que l'imprimé, le document électronique réclame la maîtrise de techniques précises : sa seule mise à disposition nécessite des techniques de restitution que la bibliothèque doit dominer.

LES LIEUX DU STAGE

Pendant l'été 1995, le stage accompli au centre de documentation de l'INRIA , en collaboration avec le service de communication de l'UCIS, avait pour objet la substitution de rapports électroniques aux sources papier. Il a bien évidemment été l'occasion d'expérimenter et de mettre en pratique le sujet du présent mémoire, d'autant que la préoccupation était d'actualité : le rapport d'activité de 1994 préconisait en effet " une réflexion avec les autres centres de documentation pour intégrer de nouveaux types de documents électroniques, et les rendre accessibles aux utilisateurs. "

INRIA

L'Institut National de Recherche en Informatique et en Automatique est un établissement public à caractère scientifique et technique placé sous la double tutelle des ministères de la recherche et de l'industrie. Il est réparti sur cinq sites en France : Lorraine, Rennes, Sophia-Antipolis, Grenoble, et enfin Rocquencourt, le siège et le lieu du stage; y travaillent près de 1300 personnes, dont 304 chercheurs et 150 Ingénieurs.

L'institut entreprend des recherches dans 6 voies appelées " programmes " et approchant notamment les domaines des architectures parallèles, des réseaux, de la robotiqueÖ Dans chacun de ces programmes sont menés de front des projets répondants à des noms sympathiques tels CHLOE ou PARADIS, et regroupant autour d'un responsable scientifique des chercheurs, étudiants en thèse et ingénieurs. Les projets qui retiendront ici particulièrement notre attention sont les projets OPERA, sur la manipulation des documents, et VERSO , qui dans le cadre de recherche sur les bases de données orientées objets s'intéresse aux bases de documents électroniques.

La diffusion de ses savoirs et savoirs-faire est une des missions de l'INRIA . Cette priorité est perceptible à travers certaines activités de formation, de relations industrielles, de collaborations internationales, et de développement du WWW . Le CERN, qui a mis au point le WWW pour faciliter les communications entre scientifiques et s'en est retourné depuis à sa vocation originelle, a demandé à l'INRIA de le relayer dans ses travaux de développement. Le rôle du WWW dans la diffusion de l'information scientifique est donc aussi essentiel que celui des rapports de recherche (l'INRIA participe activement au réseau GRISELI) ou celui du centre de documentation.

LE CENTRE DE DOCUMENTATION

L'environnement technologique du centre de documentation de l'INRIA en fait un terrain d'analyse privilégié pour l'étude des documents électroniques; au service d'un centre de recherche, il doit favoriser la communication rapide de rapports de recherche; spécialisé en informatique, il bénéficie des acquis les plus actuels .

Son fonctionnement est assuré par une équipe de 17 personnes - dont quelques unes à temps partiel - au service d'un public relativement restreint. Le centre est plus longuement ouvert aux chercheurs de l'INRIA , mais on compte tout de même 4280 lecteurs extérieurs en 1994. Pour être plus précis dans les chiffres, on comptait cette année-là 2050 inscrits au prêt ayant emprunté 10 900 ouvrages, 42 % du total étant réalisé par les chercheurs INRIA . En fait, de nombreux documents sont délivrés à distance par le prêt entre bibliothèques et la fourniture de photocopies. L'alternative de documentation électronique, esquissée par le serveur WWW du centre de documentation, faciliterait cette diffusion.

Spécialisé en informatique et en mathématiques appliquées, le fonds de Rocquencourt est le plus riche des centres INRIA ; sa force, dans un milieu oú l'information doit circuler et être renouvelée rapidement, repose sur un nombre appréciable d'abonnements à des revues :
Ouvrages Grenoble Lorraine
      Rennes
        Sophia
Monographies 7890 2100
      5400
        6400
Rapports 24890 1740
      16100
        9600
Conférences 3690 2060
      2600
        3800
Thèses 8470 1600
      2400
        5300
Abonnements 400 240
      190
        310
          575

 

L'existence de plusieurs centres INRIA laisserait supposer l'existence d'un réseau documentaire permettant la mise en commun des informations et de compétences; or, même si l'interrogation commune des fonds est possible -via WAIS - il n'existe pas de catalogage partagé. Depuis 1993 est esquissée une collaboration plus active; déjà, les 5 centres ont adopté un logiciel de gestion unique - LORIS - ce qui permettra peut-être à terme un catalogue unique, dans lequel les ouvrages seront localisés à travers la France. Le centre de Grenoble, jumelé avec l'IMAG, travaille d'ailleurs au projet CALLIMAQUE de bibliothèque virtuelle oú sont consultables des documents géographiquement dispersés.

L'UCIS

Le centre de documentation de l'INRIA partage la mission de diffusion de l'information scientifique avec l'UCIS, dont les initiales signifient justement " Unité de Communication et d'Information Scientifique ". Historiquement, les deux services étaient présents dans l'ancien SEDIS (service d'édition et de diffusion d'information scientifique), d'oú ils se sont séparés sur critères fonctionnels : le centre de documentation recueillait la documentation externe et la mettait à disposition des chercheurs de l'INRIA , le service de communication de l'UCIS recueillait la documentation interne et la mettait à disposition de l'extérieur. Pourtant, avec l'émergence des réseaux, de la délocalisation de l'information, du partage des ressources documentaires, ces services tendent à se rapprocher (parfois à se confondre) sans qu'il n'existe encore de structures fédératrices. L'UCIS est partagée entre plusieurs services : audiovisuel, diffusion, imprimerie, qui assurent la production et la communication des documents papiers et vidéos; la diffusion de l'information électronique est confiée au service de la communication électronique.

Ce petit service - 3 à 4 personnes - est né en 1993 d'une réorganisation fonctionnelle du service vidéotext, mais aussi de l'émergence de nouveaux modes de diffusion électronique - l'Internet y a évidemment pris racine, étant un outil privilégié de diffusion de l'information.

L'UCIS collecte au sein de l'INRIA l'information sous sa forme numérique, et, afin d'en assurer la cohérence quel que soit le canal de diffusion, approvisionne une base de données (O2) qui alimente à son tour plusieurs canaux d'information :

LES DOCUMENTS ELECTRONIQUES

L'ISO définit le document comme " l'ensemble d'un support d'information et des données enregistrées sur celui-ci sous une forme en général permanente et lisible par l'homme ou par une machine ". C'est cette dernière alternative qu'on retiendra pour définir le document électronique comme un ensemble d'informations numériques.

Aujourd'hui, on peut dire qu'un document est un assemblage d'objets documentaires liés tant au niveau de la forme que du sens. La numérisation permet d'intégrer tous ces objets (texte, son, dessin) sous un format unique, et sur un support indépendant de la nature de l'information, intégration qui lui permet de circuler dans tous les canaux numériques et d'être disponible sans contrainte géographique. Ces quelques traits suffisent déjà à les distinguer de leurs " ancêtres " papier.

LES RAPPORTS DE RECHERCHE

Les rapports scientifiques se prêtent parfaitement à l'étude des possibilités ouvertes par les documents électroniques. En effet, le format numérique est presque toujours leur format d'origine; ce sont ensuite des documents " vivants " en ce sens qu'ils circulent dans les systèmes documentaires, tant en interne qu'en externe; leur vocation est même la circulation rapide entre chercheurs, qui échangent ainsi leurs expériences. Cette circulation est favorisée par leur appartenance à la littérature grise : libéré des contraintes des droits d'auteurs, gratuits par principe, ils sont plus à même d'emprunter les nouvelles voies de circulation électronique.

Ce sont ces perspectives qui ont amené l'INRIA à s'intéresser aux rapports sous forme numérique. Pour le centre de documentation, il s'agit d'utiliser ces atouts pour favoriser la diffusion de rapports en substituant la version électronique à l'imprimé, même si les rapports de recherche tiennent encore une place restreinte dans les communications de documents.

Pour l'UCIS, il s'agit d'une part de traiter la documentation interne sous forme électronique, et d'autre part d'entreprendre un recensement de rapports dans le cadre du projet GRISELI.

CIRCUIT OU CIRCULATION ?

Les processus ici étudiés ne se résument pas à ce qu'on appelle désormais la gestion électronique de documents, ou GED . Celle-ci est fonctionnellement marquée, par ses utilisateurs (bureaux, entreprises), par ses documents (courriers, fichiers informatiques), par ses usages (internes, à court terme)... propriétés qui ne sont pas celles des documents traités par les bibliothèques. De plus les ouvrages consacrés à la GED en parlent d'avantage comme d'un système de numérisation de document qui permet de restituer une impression en sortie : le papier est donc au deux bouts de la chaîne, l'électronique n'étant qu'un moyen de gestion de l'information.

Dans le cadre de la bibliothèque, il conviendrait d'ailleurs de parler de gestion de documents électroniques. Son objet n'est plus ici, comme la GED , leur circulation entre les différents composants d'un système documentaire, mais bien le circuit qu'ils accomplissent entre l'origine et le terme de ce système, circulation pleinement identifié dans une bibliothèque à la chaîne documentaire.

ACQUISITION

Les modalités d'acquisition du document électronique recoupent peu celles de l'imprimé, tributaire uniquement d'un mode de distribution institutionnelle. Ni le contenu, ni le support, qui peut se modifier au gré des transferts, ne dictent ces particularités; elles sont imposées par la nature même de l'information, puisque acquérir un document électronique, c'est d'abord se procurer des données numériques.

EDITION LECTRONIQUE

Cette première filière d'acquisition s'apparente à celle des documents papiers, qui en sont d'ailleurs parfois un sous-produit; on peut parler aujourd'hui sans réticence d'édition électronique pour qualifier la production originelle des documents sous cette forme.

LA FILIèRE éDITORIALE

Le monde de l'édition a récemment été transformé par l'avènement des nouvelles technologies au sein de la chaîne éditoriale. Initialement dévolus au contrôle des machines d'imprimerie, les ordinateurs se sont introduits dans toutes les étapes de la production : d'abord la saisie (traitement de texte) puis le formatage ( PAO ). Ainsi, on peut avancer qu'aujourd'hui tout document existe à un moment ou un autre sous forme numérique à un stade de sa production.

Cette affirmation est d'importance si l'on ajoute que ce document devrait recouvrir cette même forme à un stade quelconque de sa diffusion : le support papier devient une étape inutile de la vie d'un document. On a vu quelques produits, initialement compléments de l'imprimé, se substituer totalement à leur parent, essentiellement des banques de données ou des répertoires, qui bénéficient d'une grande rapidité de mise à jour.

LES JOURNAUX éLECTRONIQUES

Récemment a émergé ainsi une nouvelle forme de publication, celle des journaux électroniques; certains n'existent même que sous cette forme, profitant de la souplesse que leur donne leur distribution numérique : le New York Herald Tribune est composé aux Etats-Unis et distribué dans divers pays pour lesquels des données locales sont ajoutées; The Daily Me, quant à lui, permet de souscrire à certaines rubriques de plusieurs journaux par abonnement...

La plupart de ces journaux sont accessibles en-ligne, via Internet, sur abonnement comme leurs homologues papiers, ou à l'usage (comme le minitel, au temps de consultation). Les éditeurs scientifiques,

Springer ou Elzevier , en ont été les premiers fournisseurs. Ce déplacement a été rendu possible par l'absence de droits d'auteur sur les articles scientifiques, et nécessaire par la croissance de leur nombre, passé en un siècle de quelques centaines à 130 000.

Les avantages de ce mode d'acquisition par rapport à l'imprimé sont multiples pour la bibliothèque : réduction des échanges de photocopies, rapidité d'accès, identification précise des nouvelles publications, suppression des frais de stockage, automatisation de l'acquisition... Mais l'avantage n'est pas nécessairement économique. Le coût ne se trouve pas réduit du fait de l'absence de frais d'impression et de diffusion : l'informatique a amené une nouvelle logique économique qui justifie un alignement des prix quel que soit le canal utilisé; on paie désormais non pour accéder au document, mais à l'information.

Traditionnellement, l'acquisition de documents électroniques par une bibliothèque se fait par l'achat du support ( CD-ROM , disquettes). Mais avec l'émergence d'Internet, certains produits sont disponibles en ligne sur abonnement.

NUMéRISATION

La numérisation, conversion numérique d'un document originellement analogique, est une entreprise appelée à se raréfier en bibliothèque du fait que la plupart des documents contemporains sont crées sur ordinateur : leur format natif est déjà électronique.

LA SAISIE

La numérisation peut être l'ouvrage d'un opérateur humain. Cette option, la première historiquement, s'utilise encore pour l'acquisition de textes ou dessins dont la qualité ne permet pas une récupération automatisée, notamment l'écriture manuscrite. La saisie est aujourd'hui facilité par une palette logicielle qui gère de nombreux formats, et non plus seulement du texte, mais cette multiplicité de formats freine paradoxalement la circulation du document ainsi crée. Il faut sans cesse convertir d'un format à l'autre, en utilisant par exemple les filtres des traitements de texte, ou recourir à des formats pivots. Le format texte, suite de caractères informatiques lisibles par la plupart des machines et des logiciels, mais n'admettant pas d'enrichissement du texte ou de mise en forme, laisse la place au DIF, qui joue dans ce domaine un rôle d'échange analogue à celui d'Intermarc dans le monde de catalogueurs.

LE SCANNER

Le scanner (ou scanneur) est l'autre possibilité d'acquisition numérique d'un document analogique. Au lieu d'être saisi par un opérateur, le document est simplement capturé par une machine à l'aide de capteurs CDD (Charged Coupled Device) qui découpent la page en points élémentaires et délivrent en sortie des signaux différents selon que la surface est noire ou blanche : on obtient ainsi une représentation binaire du document, semblable à un fac-similé

Acquisition de l'image

En vérité, seule l'image du document est ainsi capturée. C'est elle, et non l'information qu'elle contient, qui réfléchit vers les capteurs les variations lumineuses. Le format normal de sortie d'un scanner est donc une simple image, représentation matricielle de la page. Si l'aspect originel de la page est préservé, de nombreux griefs pèsent traditionnellement sur le mode image : sa dépendance des périphériques de restitution, son encombrement des mémoires informatiques, et surtout, la nécessité de consulter ou d'imprimer le document pour en extraire l'information.

Acquisition du texte

Les caractères contenus dans le document ne sont perçus que comme des images de caractères, non porteurs de sens. C'est le rôle des logiciels d'OCR, dits " de reconnaissance de caractères " de leur donner sens.

Ces logiciels donnent la représentation ASCII des caractères. Cette tâche se heurte à un grand nombre de difficultés, dues à la structure et à la mise en page du document, mais surtout au dessin des lettres. Outre l'existence de multiples polices, certains caractères se ressemblent au sein d'une même police (le chiffre 1 et la lettre l, par exemple). La difficulté est multipliée dans le cas de l'écriture manuscrite, du fait que les lecteurs optiques, identifiant comme signe un caractère entre deux blancs, ne gèrent pas les ligatures.

Les progrès accomplis dans ce domaine sont si significatifs qu'on parle à présent d'ICR (pour Intelligent Character Recognition). Des logiciels performants utilisent des algorithmes d'apprentissage et de traitements linguistiques pour estimer la pertinence d'apparition d'une lettre ou d'un mot. Mais, en plus des inconvénients classiques de fiabilité de l'automate ou du temps d'apprentissage, la relecture humaine reste encore la seule solution pour évacuer toute erreur.

En sortie d'un logiciel de reconnaissance de caractères, on se retrouve donc avec un texte. Le codage du texte communément désigné par le terme de fichier ASCII signifie que toutes les parties textuelles d'un document électronique sont codées en mode caractère plus un certain nombre de d'éléments de présentation du texte tels que la ponctuation ou les retours à la ligne qui marquent un paragraphe. C'est ce type de codage qui permet la recherche documentaire par extraction de chaînes de caractères.

Acquisition de la structure

Un document ayant été défini comme un ensemble d'objets, il ne saurait se résumer à un simple texte. Pour preuve, il existe des documents sonores, audiovisuels, et, ce qui nous intéresse davantage, des documents complexes intégrant des textes, des graphiques, des formules et autres, liés par une mise en page. C'est l'avantage de l'acquisition en mode image plutôt qu'en mode texte que de conserver la structure physique du document, porteuse elle aussi d'information. La restitution de cette structure autorise l'échange du document, rendu plus conforme, voire identique, à l'original.

Ces manipulations appartiennent à la reconnaissance automatique de document (ARD). Une expérience menée par le projet GRAPHEIN à l'INRIA de Nancy montre l'intérêt de ces manipulations pour les bibliothèques :

L'exemple le plus marquant [de l'utilisation de l'ARD] est sans doute celui des bibliothèques, qui sont confrontées à la conversion rétrospective de leurs catalogues dans un format bibliographique lisible et accessible à tous. L'organisation informatique des notices conduit à disposer d'enregistrements accessibles par rubrique, facilitant ainsi la recherche bibliographique (Belaïd, 1994).

L'expérience a été concluante pour la rétroconversion du catalogue de la Bibliothèque Royale Albert Premier en Belgique, extrait par ARD des fiches bibliographiques, mais impossible pour des notices moins structurées ou manuscrites, comme celle de la bibliothèque Nationale de France.

Le principe technique de ce que j'appellerais OSR, pour reconnaissance optique de structure, est le couplage d'un scanner avec un logiciel de segmentation physique qui découpe automatiquement la page en blocs et affecte à chacun une étiquette de contenu (texte, graphique). Puis, à l'issue du processus, la mise en page est reconstruite par reconnaissance des axes principaux délimités par des blancs. Les enrichissements des caractères (graisse, taille) peuvent être aussi restitués, complétant la structure physique.

La numérisation constitue un remarquable atout pour l'exploitation d'informations, souvent employé en bibliothèque pour la constitution de revues de presse. Le centre de documentation de l'INRIA l'utilise désormais pour produire chaque semaine " L'INRIA thèque ", fascicule recueillant le sommaire des dernières revues et conférences. La mise en oeuvre manuelle de la version papier en était, sinon coûteuse, du moins lourde à gérer : photocopie, découpage, mise en page, annotation manuscrite des cotes, reliure. La numérisation demande une charge de travail à l'évidence moindre.

Mais l'automatisation complète de la numérisation est, dans l'état actuel de la technique, irréalisable. C'est ce qui explique par exemple que les bibliothèques y recourant, comme celle de la Part-Dieu à Lyon pour le fonds de périodiques régionaux (Ducharme, 1995), préfèrent la numérisation en mode image, beaucoup moins exigeante (il n'est pas nécessaire de relire et corriger les informations). Le choix est d'autant plus pertinent que la presse adopte une mise en page très complexe et une typographie de qualité moyenne. L'accès à ces documents se fait alors par une indexation manuelle, comme pour tout autre document : on perd là un réel avantage du document électronique. La Bibliothèque Nationale a, elle, réalisé un compromis en prévoyant la numérisation d'un dixième des ouvrages, principalement de références, en mode texte.

Au centre de documentation de l'INRIA , le choix s'est posé entre les deux modes d'acquisition. L'intérêt particulier d'une recherche dans le corps des sommaires semble, à l'heure oú j'écris ces lignes, avoir orienté le choix en faveur d'une acquisition en mode texte; ce choix a été facilité par les performances des matériels et logiciels utilisés (ScanWorks sous UNIX) et par la quantité restreinte de documents à traiter, environ huit par semaine. Pour rattraper les informations de mise en page et de mise en forme perdues, il est envisagé d'intégrer aussi, sans autre charge de travail puisqu'il s'agit du format originel, la forme image.

SOURCES EN LIGNES

La " virtualité " du document électronique, c'est-à-dire sa propriété d'exister ailleurs qu'à l'endroit de sa consultation, consacre l'utilisation des réseaux comme espace de diffusion de l'information. Cette délocalisation rend l'information accessible de n'importe oú; et, dans une perspective de recensement, une bibliothèque doit apprendre à utiliser de nouveaux outils.

Lorsqu'il s'est agi d'acquérir des rapports de recherche, le choix s'est naturellement porté sur cette forme d'acquisition puisque de nombreuses institutions - universités, laboratoires - mettent ainsi leurs rapports à disposition via FTP .

REPéRAGES

Internet est une constellation de réseaux locaux oú chaque serveur met des ressources à la disposition de ses hôtes. Ces ressources peuvent être de la simple puissance de calcul, des périphériques, des bases de données, des programmes et, bien évidemment, des documents électroniques. Ces ressources documentaires sont a priori d'un accès facile : il suffit de pointer sur le fichier qui les contient pour les lire, les imprimer, ou les récupérer. Toutefois, la profusion de sources d'information nuit à l'efficacité du système. Le nombre élevé et toujours croissant de serveurs Internet dans le monde pose le problème de localiser et de retrouver le document souhaité.

Many librarians react negatively to the chaotic disorganization of the Internet. Because anyone can be a publisher with WWW , the lack of organization is a real problem except to those of us, who like to browse rather than do narrow, targeted searches (Polly, 1994).

Ou, dans notre langue :

Sans éditeurs, relecteurs ou critiques, Internet est devenu un terrain vague peuplé d'informations non filtrées (Stoll, 1995).

C'est pour recenser les richesses de ce monde virtuel, et d'en permettre l'accès aux utilisateurs, qu'ont été développés divers outils de recherche sur Internet, appelés " agents intelligents " (WebCrawler et autres moteurs de recherche), qui indexent automatiquement les pages WWW et y recherchent des chaînes de caractères entrées en opérandes. Le système est tellement efficace qu'il génère du bruit, qu'on peut tenter d'atténuer par des équations de recherche complexes. Par exemple, on a pu retenir les descripteurs suivants pour repérer les rapports de recherche en informatique et mathématique :
Opérateurs ANGLAIS
Type de document... technical or
or research or
and reports or
Domaines couverts... and computer or
or mathemati*
       

La complexité de cette équation, qu'il est impossible d'automatiser et de répéter chaque semaine sur chaque serveur différent, dénonce ces outils de recherche comme inadaptés à une exigence professionnelle et exhaustive.

A l'heure actuelle, les principes de navigation sur Internet, à l'image des liens hypertextes des pages WWW, manquent encore de maturité; on peut prétendre que dans cette masse d'informations se trouve indiscutablement celle qu'on recherche, mais que l'accès en est justement masqué par cette profusion.

SéLECTION

L'autre possibilité - plutôt que de se lancer dans une interrogation hasardeuse des bases existantes - est de sélectionner directement des documents dont on sait qu'ils existent, et à quel endroit les trouver. Ce choix à été celui de la bibliothèque de l'INRIA .

En effet, il est apparu au cours d'expériences que le domaine des rapports de recherche en informatique et en mathématiques était trop riche pour qu'on puisse prétendre à l'exhaustivité. De plus, les rapports n'étant pas soumis à référé, beaucoup ont une valeur scientifique minime.

La stratégie retenue se fonde alors sur une sélection a priori des rapports en fonction de la renommée des sites qui les hébergent, et dont on connaît la rigueur scientifique. Mais d'autres critères de sélection sont envisageables :

Le fait de se brancher sur ses sites présente en outre l'avantage d'utiliser les liens qu'ils ont tissés vers d'autres sites de même vocation pour couvrir plus largement une question, et donc de favoriser un certain partage de ressources documentaires.

RéCUPéRATION

Une fois le document identifié et repéré, son exploitation amène une autre question : Doit-on le télédécharger sur des machines locales, ou seulement " pointer " vers lui des liens informatiques ? Autrement dit, sera-t-il seulement accessible à distance ou au contraire intégrera-t-il le centre documentaire ?

Le problème est typique de la nouvelle identité du document à l'ère virtuelle. Les partisans de la récupération physique mettent en avant la fragilité du lien informatique qui relie le système local au document distant : en effet, chaque serveur organisant sa propre gestion, il peut déplacer, voire supprimer la cible : le lien pointe alors sur rien ou, pire encore, sur une autre information. De plus, lors de la consultation, le traitement de décompression et de visualisation du document s'accomplit à distance, ce qui allonge parfois considérablement le temps d'accès; dans une perspective de sécurité, on peut aussi reprocher à la délocalisation d'autoriser l'utilisateur à sortir du domaine grâce aux liens contenus dans les pages consultées.

A l'inverse, les partisans d'un lien logique opposent, sur le plan technique, la multiplication des lieux de stockage d'un même rapport; ce n'est pas tant l'encombrement des mémoires informatiques qui est invoqué que l'impossibilité de constituer une bibliothèque virtuelle globale : le télédéchargement récupère une version du document, et abandonne ainsi toute mise à jour ultérieure. Celui-ci peut exister en de multiples endroits, sans jamais être absolument le même, d'oú des problèmes d'authenticité et de cohérence.

Une solution à ce choix a été avancée dans la voie du " juste milieu ". Il a été proposé de pointer systématiquement à distance sur les URL des rapports inventoriés, et de rapatrier automatiquement ceux ayant été consultés au moins une fois, sachant qu'ils auront de plus fortes probabilités d'être redemandés. En activant le lien qui le relie à la cible, l'utilisateur rapatrie le document sur la machine locale, d'oú il sera plus accessible aux autres utilisateurs, et contribue malgré lui au service rendu aux autres utilisateurs.

TRAITEMENTS

Aucun document ne peut être remis dès son acquisition à la disposition du public sans faire l'objet d'un traitement. Ce dernier a pour objectif d'en préparer et d'en faciliter la circulation, et est observable selon plusieurs niveaux : un niveau physique - on parle volontiers dans la bibliothèque d'équipement, bien que ce terme soit peu adapté à l'immatérialité du document électronique - et un niveau intellectuel qui concerne par exemple son indexation.

La forme particulière du document électronique suppose évidemment des spécificités de traitement. Leur classement, c'est-à-dire la disposition méthodique à un emplacement, selon une logique déterminée qui en facilite l'accès, n'a par exemple aucune raison d'être puisque l'ordre chronologique, alphabétique, systématique ou numérique est restitué sur demande par le système. A l'inverse émergent d'autres possibilités de traitement, telles les manipulations de structures.

TRAITEMENT PHYSIQUE

La dématérialisation du document apportée par l'électronique, et consacrée par la délocalisation de l'information sur de gigantesques serveurs, n'exclut pas encore l'existence du document électronique comme objet :

Les documents électroniques, dès lors qu'ils prennent la forme physique d'un CD-ROM , trouvent leur place sur les étagères aussi simplement que les documents papiers. L'emballage et la présentation des CD-ROM ne demandent pas moins des soins particuliers (Dupoirier, 1994).

L'existence du support qui matérialise l'information appelle en effet des particularités de traitement.

STOCKAGE

Si les documents traditionnels ne connaissent guère que le papier pour support, les nouveaux documents peuvent être archivés sur tout support autorisant l'écriture de valeurs numériques, qui prend alors le qualificatif de " mémoire ".

Les supports

Le développement technologique des mémoires a, depuis quelques années, libéré les choix de stockage d'impératifs techniques, tant en terme de temps d 'accès que de capacité. Deux grandes familles peuvent aujourd'hui être rapidement distinguées : les mémoires optiques, qui utilisent les propriétés lumineuses du laser, et les mémoires magnétiques, qui enregistrent les informations binaires sur un disque magnétique à l'intérieur de pistes concentriques. Les disques magnéto-optiques représentent un compromis entre ces deux technologies.

Le choix entre ces modes est fonction de l'utilisation des documents; les supports optiques, d'accès plus lents, de capacité supérieure, et encore souvent non réinscriptibles, sont en général réservés à l'archivage, tandis que les supports magnétiques sont utilisés pour des mises à jour, supportant des accès fréquents en écriture comme en lecture.

Ces contraintes règlent par exemple le choix du Disque optique numérique (DON) par les bibliothèques pour l'archivage des documents qu'elles numérisent. Etant un support à écriture unique, les données y sont facilement transférées sans y être altérables. Ces impératifs d'ordre bibliothéconomique ne suffisent pas toujours à orienter les choix, dirigés alors par l'environnement technologique : dans la fédération de serveurs qui constituent le réseau de l'INRIA , le choix magnétique s'est naturellement imposé.

Le volume

Tout fonds documentaire représente non seulement un ensemble intellectuel, mais aussi un certain volume d'archives. La bibliothèque a souffert de l'accroissement exponentiel des ressources documentaires, qui obligent à une sélection de plus en plus sévère ou à une reconfiguration de l'environnement physique. La numérisation est une alternative efficace pour réduire le volume des fonds, nécessairement coûteux en entretien et surveillance, sans sacrifier l'information. En effet, un récent calcul montre qu'un CD-ROM représente jusqu'à huit mètres d'archives linéaires, et l'emprise des rapports de recherche sur le site du centre de documentation de l'INRIA n'est pas étrangère au choix électronique.

Toutefois, même réduites sous forme numérique, les données occupent au sein des espaces de stockage un volume qui dépend d'abord de leur format : Pour les sommaires de conférences, la différence de volume entre les acquisitions en mode image et en mode texte est de 1 à 10. L'ordre de grandeur de ces chiffres impose le recours à la compression pour réduire le coût et le volume des unités de stockage. Ce traitement doit être préparé par la bibliothèque, et le choix des algorithmes de compression est fonction des nuisances supportées. Le principe général, dit de " Run Length Coding ", est de repérer et coder les informations redondantes d'oú est extraite une représentation statistique des occurrences rencontrées. Dans ce codage d'occurrence, plus la chaîne est fréquente, plus son code est court (loi de Huffman). Or chaque mode de codage apporte ses inconvénients : les uns sont dits " destructifs " car ils acceptent une légère dégradation du signal au profit d'une compression maximale. D'autres augmentent considérablement les temps d'accès, ce qui pénalise l'utilisateur; d'autres encore, codant l'information, ne permettent plus de recherche dans le corps du document. La bibliothèque doit donc étroitement cerner les modalités et la fréquence de son utilisation avant d'en choisir l'algorithme de compression.

CONSERVATION

Le document électronique pose de nouveaux problèmes, jamais aperçus, en matière de conservation. C'est un phénomène patrimonial sur lequel se penchent les institutions, Archives Nationales ou BNF, mais aussi les producteurs d'informations techniques soucieux de suivre l'évolution de leur documentation.

Le contenu

Le phénomène amené par l'électronique est la création d'un effet que j'appellerai " palimpseste ". En effet, comme ces parchemins grattés pour recevoir une nouvelle écriture, les documents électroniques sont éphémères, chaque version de mise à jour se substituant à la précédente. Ce phénomène est très aigu dans le cadre de la documentation technique, nécessairement évolutive, mais exigeant le repérage de tous les stades de développement d'une machine ou l'identification des dysfonctionnements, afin de pouvoir revenir à un stade antérieur.

La conservation des versions successives semble irréalisable, pour des raisons de gestion de l'information et de coûts de stockage. Néanmoins, les concepteurs du Grif - ce logiciel développé par des chercheurs de l'INRIA - ont élégamment surmonté la contradiction : au lieu de cumuler les versions, ou au contraire de les effacer, les mises à jour alimentent un fichier " historique " des révisions; il est alors possible de revenir provisoirement à une version antérieure :

Le fichier de différences est vu comme un ensemble de commandes d'édition structurales à appliquer à la version de référence pour obtenir une autre version (André, 1993).

Dans le domaine des traitements de texte - aujourd'hui les plus fertiles producteurs de documents électroniques - Lotus a choisi avec la nouvelle version de WordPro l'enregistrement des versions au sein du fichier, afin d'établir des comparaisons et de marquer la contribution de chaque intervenant. Ces initiatives préservent un historique et une mémoire des documents électroniques.

Le contenant

L'informatique est favorablement perçue comme un vecteur de préservation de l'information. En effet, comme les pierres gravées qui nous sont parvenues de l'antiquité, elle fixe les données sur un support minéral garant, sinon d'éternité, du moins de longévité.

La GED permet de résoudre de manière satisfaisante le vieux conflit conservation / communication, hantise des bibliothécaires [...] tout à la fois responsables de fonds patrimoniaux et confrontés, de par leur mission de service public et de mise en valeur des fonds, à la nécessité de laisser le public accéder à ces fragiles trésors (Goldwaser, 1993).

Sans vouloir entrer dans un paradoxe qui verrait la lecture comme l'ennemi du livre, étant un vecteur de destruction par l'usage, on peut remarquer les atouts de l'électronique qui fait circuler de l'information, et non pas un document. Distant, l'accès à celui-ci n'est pas destructif.

Ces idées admises méritent pourtant d'être modérées : la tête magnétique d'un lecteur peut fort bien dégrader des données, et l'éternité n'appartient peut-être pas non plus aux supports optiques. Les études de durée de vie sont essentiellement expérimentales et portent sur un " vieillissement accéléré " dans un laboratoire oú les supports sont soumis à quelques désagréments à base de champs magnétiques, d'humidité, ou d'écarts de températures. La durée de vie garantie s'est ainsi abaissée de cent à trente ans, mais de nouveaux supports de verre réputé inaltérables sont expérimentés.

L'atout essentiel de conservation des documents électroniques ne repose donc pas sur la fiabilité des supports. De plus, une bibliothèque confrontée aux comportements de ses usagers doit envisager d'autres risques de destruction de données, des virus aux intrusions illicites. Elle doit donc, en plus d'élaborer une stratégie de protection par verrouillage de lecteurs et limitations d'accès, utiliser d'abord la facilité de reproduction de ce type de document : à la différence du livre, la copie est strictement identique à l'original. On dit qu'il est reproductible sans dégradation et cette faculté de clonage abolit la notion même d'original. Mais, autre différence, l'altération des supports est moins manifeste, puisqu'elle n'est décelable que par une machine, et souvent trop tard. C'est pourquoi l'AFNOR a établi deux avants-projets de normes recommandant la lecture périodique des zones sensibles du disque, qu'il convient alors de sauvegarder.

Les formats

La destruction physique n'est qu'un des périls menaçant les données électroniques. Beaucoup d'autres sont d'ordre logique, et résultent de l'inscription et de la restitution des données. L'auteur du présent mémoire conserve toujours la disquette d'un ancien travail accomplit avec le traitement de texte REDACTEUR 3 sous machine ATARI. Or, si le support demeure en bon état, il est néanmoins inutilisable sans les outils adéquats de restitution. Et même si le PC pouvait lire des disquettes au format ATARI, comme c'est le cas pour les disquettes MACINTOSH, les données en seront sans doute illisibles car différemment codées.

La mémoire de toute notre époque est menacée. Les pertes irrémédiables ont été rares jusqu'à présent, mais comment lira-t-on des documents numériques que nous n'archivons pas lorsque l'histoire les aura rendus importants? Si nous ne prenons pas dès aujourd'hui les mesures nécessaires à leur sauvegarde, le contenu et la valeur historique de milliers de documents seront définitivement inaccessibles aux générations futures. Malheureusement, la plupart des méthodes d'archivage des documents imprimés ne sont pas applicables aux fichiers informatiques (Rothenberg, 1995).

Le premier problème posé par l'exemple précédent est celui des outils de lectures, des machines en l'occurrence. On peut dire aujourd'hui qu'après l'explosion de l'informatique, et surtout de la micro-informatique, qui a vu se multiplier les architectures, le marché a imposé des standards (dont le PC), lesquels assurent toujours la compatibilité avec les machines antérieures.

Ensuite intervient le codage des données. Elle peut différer sur un même matériel, et qui a ouvert sous Windows un document conçu sous DOS a fait l'expérience des différences dans les caractères étendus entre les codes ASCII et ANSI. Si ce premier code s'impose comme standard pour l'échange de données textuelles, il évolue également, et est par exemple élargi aujourd'hui à l'unicode.

Troisième problème, celui de format de fichier. On ne compte plus les formats de fichiers générés aujourd'hui par les logiciels, dont certains disparaissent rapidement. Mais outre la loi du marché qui impose certains standards - POSTSCRIPT - des normes ont pris place pour l'échange de documents entre logiciel - TIFF pour les images par exemple.

En réponse à ce problème un projet du service de dépôt légal de la BNF est d'intégrer sur le CD-ROM oú est stocké le document à conserver le logiciel qui peut le lire, voire le système d'exploitation nécessaire pour faire tourner ce logiciel. Il est techniquement possible d'étendre ce principe à la conservation des ordinateurs de lecture, comme ces machines virtuelles du DOS dont Windows assure l'émulation.

TRAITEMENT INTELLECTUEL

L'existence matérielle de tout document est subordonnée à une identification précise qui en autorise le repérage et l'accès; c'est pourquoi l'informatique a facilité, si ce n'est renouvelé, les moyens traditionnels d'accès à l'information.

CATALOGAGE

Le catalogage est l'attribution à un document de caractéristiques qui l'identifient de manière univoque; en ce sens, le passage à l'ère électronique apporte peu de modifications tant que l'on s'intéresse au support de l'information. Mais ces modifications sont néanmoins appréciables si on considère que ce type de catalogage ne peut avoir lieu " document en main ", que ces documents sont beaucoup plus nombreux et divers, en forme comme en fonds, que leurs homologues papiers. L'AFNOR prépare d'ailleurs une norme particulière pour le catalogage des documents électroniques, appelée depuis plusieurs années par nos plus grands professionnels :

Il est indéniable qu'un troisième tome [de normes] sera vite nécessaire pour préparer les élèves à un univers dans lequel s'ajoutent, se substituent, ou fusionnent même avec le livre ou le périodique, les autres ou " nouveaux " supports de l'information, pour aboutir au " multimédia " (Proust, 1993).

La première commodité est l'automatisation envisageable du catalogage. L'idée principale repose sur une normalisation des informations sur le document, d'oú une notice pourrait être extraite. Le principe, assimilable aux pré-notices des livres ou au catalogage à la source, à cette différence que l'auteur ne maîtrise pas nécessairement les formats MARC ou l'ISBD, est appliquée à l'INRIA par l'UCIS; la première page d'un rapport contient dans des zones prédéfinies les noms des auteurs, le titre, le résumé... qui en sont extraits pour construire la page de titre et alimenter une notice descriptive. D'autres informations plus formelles, comme le volume du rapport, sont prélevées dans le document lui-même. Puis ces éléments alimentent à leur tour une base bibliographique, sous Texto. On peut envisager à terme une confusion des documents primaires et secondaires.

Bien sûr, il s'agit là d'une initiative locale, même si elle semble destinée à faire école; L'avenir semble être à une normalisation de présentation qui intégrerait la notice dans le document. Cela est d'autant plus nécessaire qu'il est difficile d'avoir accès au contenu. Assimilable à un fichier, le document doit être d'abord chargé sur une machine, puis ouvert par un logiciel approprié, puis enfin converti dans un format lisible...

INDEXATION

Puisque la description physique du document est hors de propos, celui-ci n'étant qu'un ensemble d'informations, c'est son contenu qui appelle les efforts de traitement - étant entendu que dans cette acception, le terme contenu qualifie non les éléments composants - tel les textes, dessin, tableau - mais l'ensemble des informations. Là encore, du fait de la forme numérique, le contenu peut être automatiquement désigné.

Il convient de distinguer ici les documents textuels - oú le " texte fait sens " - des documents dits " multimédias " dont les significations ne sont pas objectivement extractibles. Il reste à inventer une sémantique du contenu qui permette par exemple d'attribuer automatiquement du sens à une image ou à un son.

Les images nécessitent des techniques de représentation qui ne permettent pas d'apprécier leur sens. Il est encore très difficile d'espérer donner un sens à un fichier de pixels ou de vecteurs. Les techniques de reconnaissance de formes qui mettent en oeuvre des mécanismes d'intelligence artificielle sont encore loin d'offrir cette possibilité. A partir du moment oú il n'est pas possible d'apprécier le contenu des documents parce que leur codage ne permet pas de retrouver le sens, il faut utiliser des techniques de description. Elles associent à chaque document un [ou des] descripteur[s], une sorte de carte d'identité du document (Dupoirier, 1994).

Cette dernière méthode est exactement applicable à tout type de document, oú des descripteurs sont attribués pour signifier l'information. Mais d'autres traitements sont possibles dans le cas de texte. Par exemple, s'il s'agit d'un document structuré, comme nos rapports d'activité INRIA , l'extraction de mots-clés à partir des parties riches - sommaire, résumé - est possible. Cette indexation peut-être elle même structurée par l'usage d'algorithmes qui articulent entre eux les descripteurs, y ajoutant par exemple la notion d'origine, de manière, de cause. Plus généralement, on met en oeuvre trois méthodes d'analyse du texte (Gachot, 1995) :

En complément de cette analyse linguistique, d'autres analyses sont disponibles :

En fonction de leur contenu, décrit par un ensemble de mots-clés normalisés, les documents sont automatiquement classés par similarités de profils, sur lesquels s'appliqueront les opérations de recherche. Ces analyses sont bien entendues cumulables, souvent complémentaires, pour un même document. Mais il est reconnu que :

La representation de textes par des structures plus élaborées que les simples mots-clés n'apparaît aujourd'hui viable que sur des textes techniques, c'est-à-dire des domaines restreints (Dachelet, 1990).

De nombreux outils sont utilisés pour l'indexation de documents électroniques. Le logiciel SPIRIT permet toute ses analyses linguistiques; quant à WAIS , un outil très utilisé sur Internet pour la consultation de bases bibliographiques, il n'est pas réservé aux documents électroniques mais leur est très bien adapté : il peut indexer automatiquement un texte intégral, et, au-delà de la notice, pointer sur le document lui-même.

RELATIONS

Une originalité du document électronique est de s'insérer dans un réseau de connaissances, connaissances perçues comme une unité parcourue de liens. Traiter un document revient non seulement à l'indexer sur le sens qu'il recèle, mais aussi sur les relations qu'il entretient avec d'autres informations complémentaires. On parle alors d'"hyperdocument".

La démarche la plus répandue est celle de l'hypertexte Dans la version HTML de ce mémoire, l'activation par la souris du renvoi précédent signalé par une mise en forme particulière affiche les informations sur l'hypertexte en tant que mode de recherche dans la page 39, et l'activation du mot " HTML " affiche la définition de ce mot telle que retenue dans le glossaire. Ce langage HTML , utilisé pour les serveurs WWW , est un langage de présentation qui, comme son nom l'indique, gère les liens entre informations. Des balises disposées dans le document intègrent des commandes de formatages ou des renvois. Ceux-ci peuvent être internes ou externes à ce document, voire pointer sur un autre serveur, et les fichiers ainsi pointés contenir du texte, des images ou du son.

Une autre approche utilisée pour l'établissement des liens, ici dans le domaine des bases de données, est la " clustérisation ", qui regroupe en classes des documents susceptibles d'être pertinents pour une même requête. La description est alors attribuée au groupe entier et la sollicitation d'un document appelle toute la classe qui lui est associée.

MANIPULATIONS DU DOCUMENT

 

L'apport principal de l'électronique semble, du point de vue du traitement de l'information, de libérer le document de sa forme originelle.

Il importe de pouvoir gérer les documents acquis sous un format pour les diffuser sous un autre. Le développement du multimédia propose ainsi, à l'intention d'utilisateurs handicapés, des sorties d'un même document sous forme sonore ou en braille, opportunités qu'il appartient à la bibliothèque de maîtriser.

Ces organismes [de documentation] ne seront plus maîtres des types de codage des documents reçus et ils vont devoir assurer à leurs utilisateurs un maximum de confort pour traiter tous les formats et codages d'information de la manière la plus transparente possible [Lupovici, 1994].

Cet apport a été rendu possible par l'exploitation de structures manipulables. L'articulation intellectuelle d'un document (structure logique) est représentée par une mise en page spécifique (structure physique). Ainsi, les paragraphes de ce mémoire découpent l'information en chapitres et sections amenés chacun par un titre ayant une typographie spécifique, et chaque grande partie(niveau logique) crée un saut de page (niveau physique).

Pourtant, les manipulations ne peuvent s'appliquer à tous les documents. Les rapports de recherche n'ont pas de structures communes qui puisse être validées par une DTD de SGML (ce qui veut dire très exactement une structure identique pour tous les documents de même type). Sous l'impulsion de l'UCIS, qui impose par une chartre graphique une présentation unique pour les rapports de recherche de l'INRIA , l'INIST envisage de généraliser ce processus à l'ensemble de la littérature grise dans le cadre de GRISELI.

PRéSENTATION

Le plus évident usage qui peut être fait d'un document est sa consultation, mais il peut arriver que celui-ci ne soit pas physiquement structuré, par exemple s'il a été acquis par OCR . Seule est alors offerte à la lecture une succession de caractères ASCII . Il peut aussi arriver qu'un document destiné à l'impression soit visualisé sur un écran, ce qui pose des problèmes de lisibilité immédiatement perceptibles par la curieuse orientation horizontale de l'écran (ou, au choix, par la curieuse orientation verticale de la page). Un travail doit être accompli dans le corps du texte pour lui restituer une présentation validée par les règles de mise en page et de typographie. Ce travail est proche de la PAO qui segmente le document en objets numériques, intégrés dans des " blocs " et reliés entre eux par " chaînage ".

Mais, avec l'apparition de structures, l'organisation logique de la page peut dicter ses règles de présentation, et rendre ainsi le document plus lisible. L'image présentée pendant l'édition peut se construire automatiquement d'après la structure logique, car des règles de présentation spécifient la façon dont chaque type d'élément doit être affiché ou imprimé.

HTML , nous l'avons dit, est surtout un langage de présentation; il offre un format au document par le marquage de ces composants auquel il assigne des attributs; il est aisé, pour un paragraphe, de modifier la casse ou la graisse du texte (la balise /b formate un mot en caractères gras).

Plus encore, dans le monde de l'information, cette utilisation des structures logiques pour exprimer l'organisation physique permet de personnaliser les présentations. On peut, selon le profil de l'utilisateur, limiter ses accès à certaines parties d'un document, comme pour un étudiant qui ne verrait que les plus importantes articulations d'un texte, les parties plus fines ou les notes étant réservées aux chercheurs. De nombreux systèmes, dont Grif, proposent un mécanisme de vues qui permet de montrer le même document sous des aspects différents (André, 1993).

CONVERSIONS

Certains formats de récupération sont notoirement insuffisants; l'IEEE propose bien des CD-ROM de rapports (base HIPO) mais uniquement sous forme d'image, d'oú des limites en taille de fichiers et en facilité de visualisation; et la plupart des rapports sur FTP sont encore en POSTSCRIPT , format certes facilement généré et multi plate-forme, mais ne restituant malgré tout qu'une image physique du document.

Les possibilités de conversions, à partir d'un format pivot tel SGML , présentent de nombreux avantages pour les bibliothèques. Leur rôle est aussi maintenant la matérialisation du document électronique afin d'en assurer la diffusion, et, par la grâce de l'informatique, elles peuvent se satisfaire d'un seul exemplaire pour alimenter toute la chaîne de l'information et favoriser l'échange de documents. Cela permet en outre un allégement de la chaîne éditoriale telles que reconstituée à l' INRIA :

 

Les avantages de structures apparaissent clairement dans le cas des sorties vidéotext, puisque seules y sont exportées les sections les plus pertinentes.

La bibliothèque peut multiplier ses formats de diffusion en fonction de l'usage du document, et rendre disponible une même information sur papier, disquette, minitel et serveur Internet.

COHéRENCE DES INFORMATIONS

La chaîne précédemment décrite, bien que séduisante, laisse apparaître un risque majeur né du divorce entre l'information et le document. En effet, une modification apportée dans un document de destination n'est pas systématiquement répercutée dans les autres, surtout si à la suite d'une conversion il n'est plus possible de remonter vers la source - le fichier LateX dans ce cas... Donc, un même document peut être porteur d'informations différentes, voire contradictoires. En bureautique, et plus précisément dans le monde PC, les normes d'échanges OLE et DDE permettent ces mises à jour de données entre documents, mais dans un environnement non sécurisé et avec les limites apportées par un travail individuel. A leur échelle, et pour le public qui est le leur, les nouveaux systèmes d'exploitation imposent de plus en plus une vision de l'informatique orientée document, et non plus application. Le document, substitué dans la terminologie au "fichier", est vu tel que nous avons pu le définir, comme une intégration d'objets originaires parfois de plusieurs sources, qu'il faut organiser.

L'UCIS gère conjointement plusieurs sources d'information, et il lui faut assurer la cohérence entre toutes. La mise à jour du nom d'un responsable de projet, par exemple, implique le repérage de toutes ses occurrences pour les changer, avec le risque d'erreurs supposé. C'est pourquoi l'UCIS exploite la base de données O2 développée par des chercheurs de l'INRIA et attachée aujourd'hui au projet VERSO . Toutes les données locales y sont stockées et insérées en tant que champs dans les documents, la mise à jour des cibles ayant lieu de façon sécurisée directement à partir de la base.

DIFFUSION

La nature numérique des documents électroniques présente la propriété, fondamentale, de pouvoir être intégrée aux réseaux du même type; leur diffusion en est alors grandement facilitée, selon des modalités d'autant plus intéressantes à observer que la bibliothèque de l'INRIA est géographiquement décentrée - à Rocquencourt - et que son manque d'accessibilité, jusque là couvert par les PEB ou les demandes de photocopies, pourrait trouver une solution dans la constitution de réservoir de documents électroniques.

ACCèS AUX RéFéRENCES

Cet accès constitue la première approche de l'information, si l'on excepte bien évidemment le mode " feuilletage " ou " butinage ", privilégié dans les bibliothèques en libre accès et qui souffre de nombreuses difficultés d'application en informatique.

MULTIPLICATION DES ACCèS

Mais l'informatique permet de nombreux autres accès. C'est un atout que l'on trouve par exemple aux catalogues informatisés, qui multiplient les points d'accès par rapport aux traditionnels fichiers cartonnés auteur-titre-matière, ou encore à la version électronique d'une publication comme l'INRIA thèque qui ne contraint plus à parcourir de volumes antérieurs pour affiner une recherche rétrospective.

Extra-texte

Ce point d'accès est externe au document et en donne une information descriptive, prélevée dans ses parties signalétiques (auteur, titre) ou ajoutées par le documentaliste (indexation). On remarque que ce mode de recherche n'est en rien spécifique aux documents électroniques, mais que leur traitement est grandement facilité par l'automatisation possible de l'indexation et du catalogage.

Intra-texte

Le mode de recherche que j'appelle ainsi est au contraire particulier à cette classe de document. Son objet est la recherche lexicale ou syntaxique au sein du texte intégral, par exemple la présence d'un terme ou sa proximité avec un autre, c'est-à-dire dans la partie rédactionnelle opposée à la partie signalétique vue précédemment. La limite d'efficacité est la nature textuelle de l'information oú s'opère la recherche, mais l'existence d'algorithmes de reconnaissances de formes ou de prospection par objets permet déjà de l'étendre à d'autres natures (sonores, visuelles...)

Supra-texte

L'information n'est pas accessible par son contenu, mais plutôt par son inscription et son emplacement dans une structure particulière. A l'INRIA , le projet VERSO s'intéresse à cette approche :

Un langage de requête déclaratif est proposé qui permet d'interroger un document structuré par structure et par contenu. Le langage permet l'utilisation d'opérateurs textuels (à la SRI ) et une navigation à travers les structures d'un document (

VERSO , 1994).

L'outil privilégié pour accéder à l'information devient alors une base de données - O2 ici - qui stocke les documents et mémorise leur architecture interne.

Cette ressource est rendue possible par des langages tels SGML dont les DTD correspondent à chaque classe de document. Selon qu'on est en présence d'une norme, d'un article, ou d'un texte de loi, on recherche les informations pertinentes d'après leur situation générique dans cette classe - l'alinéa d'une loi par exemple. Le déplacement de l'utilisateur dans l'arborescence de la structure logique peut être vu comme un substitut efficace au feuilletage d'un livre, comme l'illustre cette double vue d'un document électronique récupéré sur CALLIMAQUE :

Hypertexte

L'hypertexte (j'emprunte ici le mot à Ted Nelson, et l'idée originelle à Vannesar BUSH) renouvelle la question de la recherche documentaire. Vannesar BUSH constatait dans un article célèbre de 1945 que les systèmes d'indexation séquentiels des bibliothèques n'étaient pas adaptés à notre pensée, laquelle fonctionne par association d'idées. Il s'agit donc pour le lecteur de " naviguer "au sein d'un corpus de documents grâce à des liens éventuellement définis par le documentaliste lors de la phase d'indexation.

Ordonnateur, ordinateur de textes, l'informatique permet, autorise presque le démembrement des volumes, reliures, séries, collections, pour s'ouvrir, à partir de ces matériaux, sur une recomposition, de nouveaux liens, de nouvelles circulations hypertextuelles (Maignien, 1995).

Ce mode de recherche possède le premier avantage d'être plus proche de notre système de pensée, réputée moins cartésienne que les systèmes d'indexation. Ensuite, les champs de la connaissance ne sont plus cloisonnés, mais ouverts l'un sur l'autre de telle façon qu'on peut regarder " l'ensemble des documents comme composante d'un même métadocument qui serait l'espace virtuel tout entier ( Le Crosnier, 1995) ". Enfin, l'interrogation ne demande plus la maîtrise d'un langage de requête parfois aussi hermétique que l'invite de DIALOG, puisque la navigation s'accomplit le plus souvent avec une souris sur un terminal d'ordinateur. La recherche se rapproche pour la bibliothèque du "butinage" dans les rayons.

L'hypertexte traduit et généralise sous forme informatique des notions déjà largement employées dans l'édition traditionnelle : les notes de bas de page et les références à d'autres parties du même document ou d'autres documents (par ex. bibliographie), utilisent les mêmes types de liens.

Mais qui a déjà navigué dans un ensemble hypertextuel comme le WWW connaît les limites de ce mode de recherche. En effet, par " la déconstruction structurelle du texte et les associations indépendantes des constructions intellectuelles" , on arrive rapidement à une perte des repères logiques qui nous soutiennent dans toute démarche d'information. Les nouveaux outils de repérage permis par les logiciels - cartes de navigation ou historique des lieux visités - ne font pas oublier que l'hypertexte ne possède pas encore de grammaire, et utilise des liens prédéfinis dont l'utilisateur ne détient pas toujours la clé.

NOUVEAUX MODES DE RECHERCHE

Ces nouveaux modes d'accès à l'information supposent une redéfinition des stratégies traditionnelles de recherche. Du fait de l'inscription de toute information dans un système documentaire plus large, on doit à présent " trouver, sans le connaître, un document dont on a besoin dans le cadre d'une recherche (Maignien, 1995) " et non plus simplement localiser ce qu'on connaît déjà.

De nouvelles requêtes

Les opérateurs habituels de la recherche documentaire, depuis que l'informatique l'a libéré de son rigoureux ordre séquentiel, sont booléens. Ces opérateurs, parfaitement adaptés à l'ordinateur puisqu'ils en copient la syntaxe logique, ont rapidement été ressentis comme insuffisants au contact d'une grande étendue d'information, telle celle amenée par les documents électroniques, qui proposent en outre de multiples moyens pour y accéder.

La première réserve est d'ordre " lexicale " et repose plutôt sur le choix des descripteurs. Les progrès de l'intelligence artificielle amène un relatif appariement du vocabulaire des requêtes et des documents, qui, s'ils n'utilisent pas exactement un même lexique, sont mis en convergence par un analyseur de requête; certains sont capables de comprendre le " langage courant " et de le retranscrire en langage documentaire. CALLIMAQUE propose aussi, grâce au moteur XDOD de XEROX, la traduction automatique et transparente des interrogations en anglais et français : un utilisateur posant " network " comme requête obtiendra en réponse des documents français sur les réseaux . Le projet donne même de nouvelles orientations à la recherche documentaire :

Callimaque est du point de vue de la recherche documentaire un modèle riche de bibliothèque virtuelle. Les questions de résolution du problème de pertinence de l'information collectée sont l'ancrage du projet (Beltrametti, 1995).

La seconde réserve peut-être qualifiée de " syntaxique ", car elle est due à l'articulation des descripteurs, organisés mathématiquement. Les opérateurs booléens sont par nature tout bruit ou tout silence, ne renvoyant que les valeurs vraies ou fausses. Les réponses aux requêtes méritent pourtant d'être nuancées par des pondérations qui dépassent enfin le fameux oui/non informatique. L'affectation d'un poids à chaque mot de la requête repéré dans le document, selon le nombre et la position de leurs occurrences, sert à définir le taux de pertinence de ce document.

Ce système de pondération est accompli par le logiciel WAIS , qui assure également l'apprentissage de la recherche à partir de requêtes initiales. Les documents récupérés lors d'une première interrogation sont utilisés comme paramètres pour d'autres requêtes. D'autres logiciels mémorisent et adaptent, sous le nom de Query By Example, la stratégie de recherche.

Personnalisation

L'adaptation de l'interrogation au profil de l'usager peut dépasser le stade de son langage courant, pour s'adapter à l'individu :

Un utilisateur occasionnel, ayant une connaissance incomplète du fonds documentaire, se trouve dans une situation difficile : la demande d'information, exprimée par une requête, constitue une description imprécise de ses besoins. Plusieurs méthodes d'accès aux informations ont été développées en fonction du degré de connaissance de l'utilisateur.(Maignien, 1995)

Ces méthodes d'accès personnalisées peuvent être amenées sur l'initiative de l'utilisateur : dans l'expérience des postes de lecture assistées par ordinateur, le lecteur gère ses modes de recherche et structure sa bibliothèque personnelle, l'informatique permettant l'enregistrement et le paramétrage de ses requêtes; mais elles peuvent aussi relever de l'initiative du fournisseur de documents, notamment en ligne, qui définissent le profil de l'utilisateur en fonction de son niveau, de ses centres d'intérêt, voire de sa langue en lui proposant un service d'alerte : dès qu'un document entrera en coïncidence avec son profil, il sera averti de sa disponibilité. On parle désormais de diffusion sélective d'information et la forme électronique du document reçu rend l'utilisateur maître du processus d'acquisition : il en passe commande près du producteur et l'imprime s'il le souhaite.

Rappelons que ces requêtes peuvent s'adapter à tout document, mais qu'elles trouvent une justification, un intérêt manifeste, avec les documents électroniques :

La navigation dans un grand système d'information électronique est l'un des grands problèmes de l'informatique documentaire dans la mesure oú il s'agit d'un espace virtuel dont il n'est pas possible d'avoir une vue d'ensemble; Or, l'inscription dans la base par l'utilisateur de ses propres parcours et, plus généralement le développement des possibilités d'appropriation personnelles du contenu et de l'organisation est sans doute le meilleur moyen pour transformer l'espace documentaire virtuel en espace documentaire habité (Maignien, 1995).

ACCèS AUX DOCUMENTS

La diffusion du document électronique dispose d'un attrait majeur par rapport à sa version imprimée, la quasi-simultanéité des accès à l'identification et à l'information. Si les catalogues collectifs proposent bien une localisation pour repérer géographiquement le document, celui-ci reste distant, nécessitant soit son déplacement (prêt, photocopie) soit celui de l'utilisateur. L'électronique abolit la distance entre les deux. La localisation d'un document en ligne n'est plus assimilable à une " cote ", mais à une adresse indiquant son emplacement physique sur un serveur. L'intégration de cette adresse à la notice (fréquemment par un champ HTML qui indique l' URL de destination) assure la disponibilité complète du document, accessible par une simple manipulation.

CONSULTATION

Les usages du document ont été diversifiés par l'électronique. L'utilisateur ne se retrouve plus nécessairement face à un imprimé, mais en possession d'informations qu'il peut exploiter, sous réserve que les formats de récupération autorisent ces manipulations.

Impression

L'impression demeure néanmoins la principale finalité d'un document électronique - qui y perd sa qualité immatérielle. Aux facteurs techniques imposés par le format - un fichier POSTSCRIPT , format encore majoritaire, est destiné à l'impression - s'ajoutent des contraintes culturelles. La matérialisation de l'information, surtout à une époque de doute de la fiabilité de l'ordinateur, est un geste rassurant. De plus, des études ont montré que la lecture de l'imprimé est de 30 à 50% plus rapide que la lecture à l'écran. Sans citer d'autres études, il suffit de s'en remettre à l'expérience de chacun pour confronter la facilité d'utilisation ou de mobilité d'un livre à celle d'un ordinateur.

Le phénomène doit être appréhendé par la bibliothèque. La destination d'un document demeure la reproduction aux fins de consultation, à cette différence qu'il convient désormais de gérer un parc d'imprimantes plutôt que de photocopieurs. Le rythme des reproductions est amené naturellement à s'accroître, du fait qu'une simple consultation commande une impression. La tendance est actuellement de se décharger sur l'usager des frais d'impression, et cela d'autant plus facilement qu'elle peut avoir lieu hors des murs de la bibliothèque. Une autre solution proposée est la conservation d'un exemplaire imprimé dans la bibliothèque, que l'utilisateur peut consulter sur place : l'avantage est double, pour l'usager d'abord qui s'assure de la pertinence du document sans devoir être financièrement pénalisé, pour la bibliothèque ensuite qui trouve dans la conservation une légitimation de son existence.

La micro-édition a également optimisé la gestion des exemplaires, celui-ci étant unique dans les rayons, et aisément reproductible en cas de détérioration. L'UCIS reproduisaient chaque rapport à 400 exemplaires, diffusion maximale pour ce type de document. La diffusion de chacun étant inégale, des stocks inutiles s'amoncelaient tandis que d'autres rapports, épuisés, faisaient l'objet de retirage coûteux. Le prix à payer était donc double : stockage ou pilon des excédents, réimpression des manques. Le choix électronique a déjà permis de ramener la production à 250 exemplaires, sachant que bientôt tout usager devra gérer lui-même l'édition de ses documents.

Ecran

Sur un écran, le document est consultable de plusieurs façons selon son format originel - renvois hypertextes pour HTML , arborescence de structure pour SGML - contre le seul mode séquentiel de l'imprimé. Mais c'est l'appréhension de l'information qui se trouve modifiée par cette " lecture virtuelle ".

Passant par l'écran, l'écrit est dématérialisé. La notion classique de page n'existe plus. On a quelque chose d'inachevé. La page illusoire de l'écran ou, selon les termes de Jacques Anis " sa mémoire volatile ", désacralise l'écrit en dédramatisant la faute, car, au contraire de la page papier, elle n'en garde pas mention (Le Saux, 1992).

De fait, l'écran abolit tout contact physique avec l'ouvrage. Le phénomène n'est pas réductible à une position culturelle, presque affective, qui voudrait dater un livre au seul jaunissement de ses pages : c'est l'information qui se trouve perturbée par cette approche. Ainsi, l'écran n'offre pas de vue d'ensemble du document, sauf lors des restitutions de structures entreprises par le projet CALLIMAQUE ( Voir Supra-texte, p38).

La bibliothèque se heurte à d'autres difficultés pour assurer ce mode de consultation. Afin d'assurer un confort de lecture optimale, l'interface doit être soigneusement calibrée et l'affichage de qualité. Taille, résolution, balayage, de l'écran, mais aussi puissance de la machine pour les opérations de décompression et rapidité des accès réseaux, sont autant d'éléments favorisant le confort de lecture. La difficulté est ici moins technique que financière, puisque cet impératif qualitatif est doublé par un impératif quantitatif. Si plusieurs usagers se partagent la même imprimante, on ne peut concevoir qu'ils partagent le même écran que chacun monopolise assez longuement, même en assimilant ce périphérique à un espace de consultation plus que de lecture.

Fichier

L'affichage et l'impression ne sont finalement qu'une même forme de consultation du document, celle de sa visualisation. Ici l'électronique rejoint si bien l'imprimé qu'il y perd toute singularité. Disposer du format originel offre davantage de ressources et identifie l'existence du document à celle d'un fichier traité par l'ordinateur.

Les didacthèques, que l'on trouve à la médiathèque de la Villette et maintenant à la BPI, sont un terrain d'expérience pour ce mode de consultation. Mais l'exécution de logiciels évoque plus l'utilisation d'un outil que d'un document, exception faite de didacticiels interactifs ou d'encyclopédies numériques.

L'option a également été retenue pour les postes de lecture assistées par ordinateur, qu'on trouvera à la BNF. L'utilisateur accède à un document pour le travailler et l'enrichir, à l'image des manipulations accessibles dans un logiciel de traitement de texte ou d'image : découpage, rotation, sélection, annotation, marquage, agrandissement... il y a donc appropriation complète du contenu, qui se transforme pour composer un nouveau document parfaitement adapté à son utilisateur, voire appropriation du document lui-même puisqu'il peut être récupéré sur disquette ou par réseau en vue de manipulations ultérieures : lieu d'une créativité partagée, le poste de lecture se fait poste d'écriture.

DISPONIBILITé

L'information libérée

La diffusion des documents électroniques est grandement facilitée par leur nature numérique, et fait apparaître par contraste les lacunes de l'imprimé : ce dernier est géré par exemplaire, alors qu'un document électroniquement consulté demeure disponible pour d'autres lecteurs; le livre peut être épuisé, ou détruit; sa forme est figée; sa reproduction demande des manipulations...

Mais l'apport fondamental est sans contexte la circulation au sein des réseaux, qui lui permet de s'affranchir des supports. Le document emprunte des chemins qu'on qualifie justement d'autoroutes de l'information, d'oú il est partout disponible indépendamment de sa localisation physique - sous réserve que l'utilisation des réseaux RNIS ou de la fibre optique résolvent les actuels encombrements de ces autoroutes.

Pour la bibliothèque, il s'agit d'abord d'une opportunité d'acquisition, mais aussi de diffusion. L'échange de documents repose traditionnellement sur deux activités : le Prêt entre bibliothèques et les photocopies (qui occupent deux personnes au centre de documentation de l'INRIA ). La numérisation et la fourniture par réseaux, dans le cadre des projets FOUDRE puis EDIL, se substituent à ces deux activités en assurant un service d'autant meilleur que les documents reçus bénéficient de tous les avantages du format électronique. Aux Etats-Unis, le programme CUPID (Consortium for Univertity Printing and Information Distribution ) assure une passerelle de diffusion d'ouvrages numérisés entre bibliothèques universitaires, lesquels sont imprimés à la demande. Fortement intégrées dans le développement des réseaux d'information, et depuis leur origine, les bibliothèques participent à la normalisation des protocoles d'échange de PEB - le protocole DP 10160 repose sur le modèle OSI (Open System Interconnection) - et militent en faveur d'un format unique de données. La fonction d'échange de ce format pivot, sans doute SGML , correspondrait à celui de MARC pour les notices.

En généralisant le principe de diffusion par réseau, la bibliothèque devient fournisseur à distance d'information, profitant par exemple de la possibilité de cibler le public destinataire :

Au niveau de la diffusion d'informations, le réseau est un outil dont la souplesse permet de segmenter le public visé. L'utilisation de listes de diffusion permet d'atteindre un groupe spécifique d'individus, l'ensemble des thésards par exemple. Il est aussi possible de sélectionner l'espace géographique, la communauté IMAG, la France, le monde. Le premier but à atteindre au niveau local est l'automatisation de la diffusion sélective de l'information. (Renzetti, 1992)

La tentation est alors grande de se décharger des opérations techniques sur l'automatisation d'une part, sur l'utilisateur d'autre part. Il appartient à ce dernier de rechercher les informations pertinentes et de les télédécharger, la bibliothèque se satisfaisant d'un rôle de mise à disposition des ressources documentaires.

Les limites

Nous avons vu que la technique favorisait les modes de diffusion du document électronique. Mais elle exprime, aujourd'hui du moins, ses propres limites : le projet de constituer une base intégrale de rapport s'y est déjà heurté, le débit des réseaux n'étant pas suffisant pour assurer, dans une situation de confort acceptable par l'usager, la diffusion en temps réel d'un document distant.

De plus, la technique impose une vue réductrice; elle est par exemple dépendante de freins économiques, qui pèsent autant sur les bibliothèques que sur toute institution. Le livre ne demande, à vrai dire, que le financement de son achat, de son équipement, de sa mise à disposition. Le document électronique est beaucoup plus exigeant. La seule mise à disposition nécessite un équipement de plus en plus puissant, donc coûteux : ordinateurs, écrans, imprimantes, qu'il faut régulièrement renouveler sous la poussée technologique.

Cette mise à disposition implique d'autres limites, juridiques cette fois, qu'il faudra bien résoudre prochainement. L'hésitation juridique est due à la nature électronique, perçue comme immatérielle, de l'information, à laquelle s'adapte difficilement le cadre du droit d'auteur : la preuve en est que les grands projets de numérisation, comme celle de l'Association des Bibliothécaires Universels (ABU) pour les oeuvres classiques, ou encore les rapports de recherche, concernent des documents qui n'y sont pas soumis. Or, il est techniquement possible aujourd'hui de contrôler la circulation des documents, donc de rémunérer les auteurs en fonction de l'usage qui en est fait, et cela encore plus sûrement qu'avec la photocopie. On pourrait par exemple envisager l'extension du système de droit de copie à l'impression ou à l'affichage d'un document électronique, système qui serait géré par un organisme équivalent au CFC (Centre Français d'exploitation du droit de Copie). Le Syndicat National de l'Edition a déjà obtenu le versement d'une redevance liée à la manipulation des livres sur écrans à la BNF, et milite pour aligner les prix sur ceux de la photocopie. Le fond du problème n'est pas d'ordre financier : on relève d'ailleurs qu'il se pose pour les articles de revues scientifiques, dont les auteurs ont pourtant abandonné les droits :

De tels journaux électroniques sont appelés à se multiplier dans les années à venir. Les quelques limitations techniques encore gênantes sont en passe d'être dépassées. Le problème de respect du droit d'auteur se pose de façon beaucoup plus simple que dans le cas de l'édition commerciale, celui-ci ne représentant qu'un droit moral à la paternité des oeuvres originales, et non le fondement d'un mécanisme de rétribution des auteurs (Michard, 1995).

La question est bien d'ordre moral : le mot manipulation est négativement connoté (surtout celles des images dans l'audiovisuel en ce moment). Or, en raison de leur nature numérique, les documents peuvent être totalement manipulés, et même détournés. Ce point, qui n'a pas attendu l'électronique pour sévir, nous intéresse davantage ici parce que, techniquement, sa résolution suppose qu'un document ne soit plus manipulable, et donc qu'il perde un de ses principaux attraits : il est tentant de voir dans cette solution l'explication du nombre élevé de documents mis à disposition sous format POSTSCRIPT , format réservé à l'impression et qui ne peut faire l'objet de manipulation.

Les limites sont aussi culturelles, la demande ou la consultation de documents électroniques n'ayant rien de précisément naturelles. Il a été observé que l'existence parallèle de rapports sous forme électronique et sous forme papier fait fortement pencher l'utilisation vers cette dernière, et que la finalité des premiers reste l'impression. Mais là encore, la nuance doit être apportée en raison de la jeunesse du média, qui nécessite sans doute un apprentissage culturel, individuel ou social, déjà initié par le Minitel ou la micro-informatique : le livre, ne l'oublions pas, connaît encore des réserves, et des tabous.

CONCLUSION

L'inscription du document électronique comme partie intégrante du fonds de la bibliothèque amène des questions plus larges qu'une simple problématique technique. Rares sont les époques que le contemporain peut qualifier à juste titre de charnière. Nous pressentons pourtant aujourd'hui une rupture, celle de la substitution de l'électronique au papier millénaire comme support de l'information. Cette rupture paraît engagée depuis quelques années au moins, car c'est un phénomène récent qui admet peu de recul historique.

L'AVENIR DU DOCUMENT

Le document était auparavant électronique par " accident ", traversant cet état au cours d'une des multiples manipulations et conversions qui l'amenaient jusqu'à l'utilisateur. Ce format est désormais son format originel, poursuivi d'un bout à l'autre de la chaîne documentaire, de la production par traitement de texte à la consultation sur écran. C'est la définition même du document qui est remis en cause : initialement perçu comme un ensemble organisé d'informations, il est à présent démembré en éléments que le langage informatique qualifie justement de " données ". Le terme même de document est en passe d'être dépassé par le développement des systèmes hypertextes ou de recherche par arborescence de structures qui extraient l'information indépendamment de son origine (d'oú une perte substantielle d'informations délivrées par le contexte). Le phénomène s'est accentué avec l'apparition des " hyperdocuments ", constitués d'informations de toute nature et de toute origine, qui amènent à considérer la fédération de serveurs Internetcomme un seul document.

Si l'électronique enlève au document sa cohérence interne, elle le fait enfin accéder à une mobilité essentielle pour circuler dans un système documentaire. Libéré du statisme de l'imprimé, converti en de multiples formats favorisant sa diffusion, puis en un quelconque paquet de bits en transit sur un réseau, il s'intègre désormais à un mouvement d'échange. Il appartient aux bibliothèques de conjuger cette circulation du document électronique avec la chaîne documentaire, sachant que leur objet n'est plus le traitement du document, mais bien celui de l'information qui en représente un état provisoire.

Singulier dans sa forme, le document électronique l'est peut-être aussi dans son contenu. S'il est encore souvent une simple transcription, parfois un sous-produit, de l'imprimé, il exprime de plus en plus d'autres approches de la même information. Ainsi, certains modèles génériques utilisés pour le formatage de documents structurés imposent à l'écriture des règles plus rigides que les trois unités de la tragédie classique. Leur production est également guidée par des contraintes formelles, comme la visualisation limitée à l'écran ou l'usage du couper/coller.

Maintenant, chaque fois que j'écris un mot, je le vois soumis à la centrifugeuse du cerveau électronique, rangé ensuite dans le classement par fréquence à coté d'autres mots (Italo Calvino, Si par une nuit d'hiver un voyageur ..., cité par (Bodin, 1992)).

La production du document doit en outre tenir compte de sa finalité, la restitution future : selon son mode de diffusion, ou son public de destination, un même rapport de recherche adopte des vues différentes qui ne sont pas seulement des réorganisations de sa présentation physique; il serait inopportun pour l'auteur et onéreux pour l'utilisateur d'alourdir la version vidéotext des mêmes informations qu'à l'impression. Enfin, une créativité exploitant les nouvelles ressources technologiques a récemment émergé, sous le nom de multimédia, mais qui, à l'encontre du dicton prétendant qu'un dessin vaut mieux qu'un discours, évoque encore davantage un art ou un loisir qu'un pertinent moyen d'information.

L'AVENIR DU BIBLIOTHéCAIRE

Cette évolution du concept de document ne peut qu'inquiéter ceux qui ont la charge de le traiter. De fait, la disparition du document au profit de l'information qu'il recèle paraît légitimer à court terme la disparition du bibliothécaire, tout comme l'informatique a précipité l'extinction de professions dites " de médiation ". Ce constat assez répandu est résumé de manière volontairement provocante par le sujet d'un concours d'inspecteurs de magasinage :

En l'an 2000, quand se sera implanté un réseau de communication interrogeable de tous les points du globe et à même d'assurer à tous un accès rapide à une partie considérable des connaissances indispensables, les bibliothécaires auront subi le sort des brontosaures (cité par Belbenoit-Avich, 1993).

Le traitement traditionnel du document qu'ils assuraient n'a plus de raison d'être dans cette bibliothèque du futur; le traitement intellectuel même, s'il est encore nécessaire, est automatisable, et les tâches associées à la constitution physique des collections, à leur identification, sont rendues inutiles par l'existence d'une seule et vaste ressource documentaire.

Depuis quelques années, la littérature professionnelle propose aux bibliothécaires des voies d'adaptation pour leur éviter le sort des brontosaures. Certains voient leur avenir en " Conseillers en information (Belbenoît-Avich, 1993) ", en " accoucheurs de signification (Guédon, 1994) "ou " en metteurs en scène de l'information (ibid.)". Il ressort de ces prospectives que la réorientation professionnelle du bibliothécaire le maintiendra dans un de ces rôles, somme toute traditionnels :

De l'informaticien spécialiste en bases de données et en interface, à l'herméneute rompu à toutes les subtilités de la production du sens, se situe une gamme de talents que le bibliothécaire, mobilisera et coordonnera dans le but de constituer les noeuds informationnels de l'avenir (Guédon, 1994).

De ces prospectives se dégage, pour le sujet qui nous intéresse ici, cette opinion que le rôle du bibliothécaire n'est plus déterminé par son rapport au document. Tout au plus pourrait-on dire que, face à l'afflux d'informations, il acquière une fonction de sélection, évaluant la pertinence de cette masse de documents électroniques, que ses connaissances techniques lui permettent ensuite de matérialiser dans sa bibliothèque.

L'AVENIR DE LA BIBLIOTHèQUE

La disparition des " boîtes à livres "( dixit l'étymologie) a été également annoncée, du fait de la substitution du document électronique au livre.

Nous sommes à l'aube de l'après livre ! Il y a eu les manuscrits médiévaux, puis est venue la Révolution Gutenberg [par] laquelle le livre a cessé d'être un objet unique, archi-élitiste, la prochaine étape verra la disparition du livre comme tel mais pas du texte, évidemment (Michel Butor cité par (Dupoirier, 1994)).

Si la vocation de la bibliothèque était la seule distribution de documents, une base de données y suppléerait en effet. Mais la bibliothèque y ajoute un service, et surtout elle traite un objet qui, à notre sens, demeurera, avec la richesse de sa présentation, de sa typographie : le livre; le développement du document électronique ne se fait pas aux dépens du livre. Leurs fonctions sont différentes, car on peut dire d'un livre qu'il traite du savoir et de la culture, alors qu'un document traite de l'information. C'est pourquoi les centres documentaires seront (sont déjà) inégalement touchés par la mutation qui s'annonce. Les bibliothèques patrimoniales ne voient guère dans la numérisation qu'un outil de conservation de leur fonds. Quant aux bibliothèques publiques, mise à part l'intégration marginale du multimédia ou des logiciels à leur fonds, elles n'ont guère de raison de substituer l'électronique au livre. Il y a même, dans cette permanence du livre, une vocation de la bibliothèque à être une place de résistance au document électronique et un lieu de mémoire.

Les centres de recherche, eux, sont pleinement concernés, car ils traitent de l'information (et non de la culture pour reprendre la distinction précédente), donc des documents, que l'électronique libère de contraintes physiques.

Les grandes bibliothèques à l'avenir, dans leurs stratégies, sont vouées, par la grâce de la numérisation à une économie de flux plus que de stock, de communication plus que de conservation, de réseau plus que de volonté patrimoniale (Maignien, 1995).

L'interrogation sur leur avenir est pertinente; d'abord, le marché de l'information n'a plus comme fournisseur exclusif la bibliothèque, qui découvre l'univers concurrentiel. Les producteurs et leurs principaux relais, comme le CARL (Colorado Alliance Research Libraries ) qui numérise et distribue des articles à la demande, délivrent l'information plus vite et souvent moins cher; à l'autre bout de la chaîne documentaire, le particulier a la possibilité de créer sa propre collection sans utiliser la médiation traditionnelle de la bibliothèque.

Le centre de documentation de l'INRIA ressent bien son exclusion progressive du circuit habituel de diffusion; son public de chercheurs en informatique échange des informations par messagerie ou exploite directement les bases de l'Internet. Mais l'expérience ici relatée est bien évidemment conditionnée par la technicité de ce public spécifique, et rien n'indique encore qu'elle puisse être généralisable à d'autres publics :

L'introduction et la croissance rapide des réseaux informatiques a opéré une révolution sur la nature des communications utilisées par la communauté scientifique mondiale. Les réseaux n'ont pas été pensés pour des utilisateurs étrangers aux systèmes informatiques mais pour des spécialistes du domaine; Aussi la communauté des chercheurs en mathématiques appliquées et en informatique a-t-elle été la première impliquée dans l'innovation (Renzetti, 1992).

Les réseaux offrent aussi aux usagers du centre de documentation une parfaite accessibilité à ses ressources depuis l'extérieur, ce qui n'est pas à négliger du fait de son (relatif) isolement géographique dans l'ouest parisien.

Les autoroutes de l'information devraient, au fur et à mesure de leur déploiement (...) doter les bibliothèques d'un don d'ubiquité qui est la clé de leur rayonnement futur (Théry,1994)

Pour l'instant, seules les références aux documents sont accessibles depuis l'extérieur par Internet ou Minitel, le déplacement physique de l'utilisateur (ou du document dans le cadre du PEB) restant nécessaire. La généralisation des ressources électroniques, donc de l'accès distant au document, amputera la bibliothèque de son inscription géographique. Une bibliothèque est d'abord un bâtiment, parfois monumental, oú l'usager entreprend une démarche vers l'information. Or, on n'hésite plus à évoquer aujourd'hui l'existence future de bibliothèques sans murs, comme on parle déjà de banques sans guichets; la contradiction qu'on peut apporter à cette prospective peu engageante, si l'on exclue la situation particulière de la lecture publique qui demande un lieu de rencontre, de convivialité, voire de mise en scène, est une simple considération économique. La fonction du bâtiment est la centralisation physique des ressources documentaires; les particuliers ne demandent qu'un accès ponctuel à des sources d'information dont les tarifs d'abonnements sont élevés; et rares sont ceux qui peuvent investir à titre individuel dans des connexions réseaux ou des périphériques adéquats de matérialisation du document

Cette pertinence d'un ancrage physique n'empêche pas la délocalisation future des bornes d'accès à l'information hors de la bibliothèque - à la manière des distributeurs de billets de trains sortis des gares. Déjà, les ressources recensées ne sont plus nécessairement internes, mais existent sous la forme logique d'un lien pointant sur une information distante. Ce partage global de ressources délocalisées, au sein de ce qu'Hervé Le Crosnier appelle " un méta-document ", est à l'origine de l'expression " bibliothèque virtuelle "; cette expression, reprise entre autres par le projet Callimaque , qualifie un centre documentaire oú l'information électronique serait traitée de manière délocalisée et immatérielle. Mais à l'heure actuelle, du fait d'une multiplicité de freins culturels, économiques, et surtout techniques, le mot de virtualité évoque, plus qu'une immatérialité, une simple possibilité future.