III. Organisation du catalogue et catalogage
1. Du format bibliographique
2. Description et intégration au catalogue des ressources en réseau
3. De nouveaux outils pour le catalogage partagé
Le catalogue accessible en réseau, parce qu'il modifie la conception traditionnelle des rapports entre l'usager et la bibliothèque, est le point de départ privilégié pour une transformation radicale de son contenu et des modalités de son élaboration ainsi que des services qui doivent lui être associés.
L'accès à distance semble en mesure d'impulser les transformations qui n'ont pas vraiment accompagné la phase d'informatisation des bibliothèques. Il a en effet été souligné (Bertrand, 1991) à quel point la conception du catalogue, malgré les possibilités offertes par le développement des nouvelles technologies, était restée prisonnière des schémas historiques initiaux. La consultation des catalogues de bibliothèques par le biais d'Internet nous contraint dès lors à repenser l'organisation de leur contenu ainsi que les modalités du catalogage partagé.
Il a déjà été fait mention de la relative impropriété à la description bibliographique des interfaces Web développées pour la consultation du catalogue.
Si la norme Z39.50 permet d'exploiter la richesse de bases structurées dans un format bibliographique donné, la plupart des établissements qui développent un serveur conforme à ce standard offre en parallèle, grâce à une passerelle HTTP-Z39.50, un accès aux usagers disposant d'un simple navigateur Web. Vis-à-vis du format traditionnel utilisé pour les notices (MARC), plusieurs solutions sont à envisager :
* le développement des logiciels clients Z39.50 sur une vaste échelle.
* l'amélioration des possibilités d'adaptation des interfaces Web aux normes bibliographiques. Les différentes versions de la norme HTML, qui pourraient présenter une avancée significative à ce niveau, se suivent à un rythme soutenu et obéissent plus à des impératifs commerciaux qu'à un processus de standardisation concerté. Des possibilités d'interaction avec le serveur sont susceptibles d'être enrichies par des extensions de type Java (Sun Microsystems) dont on a vu qu'elles pourraient éventuellement suppléer à une absence de logiciel client Z39.50. Dans cette optique, il sera nécessaire d'aboutir à un consensus : soit chaque bibliothèque développe l'interface qui lui semble le plus adaptée à son catalogue et le public qu'elle vise, soit l'on définit à un niveau national, voire international, des normes d'organisation et de présentation des enregistrements bibliographiques sur le Web.
* l'adaptation de la description bibliographique aux contraintes d'un affichage selon le format HTML. Ce n'est guère une solution véritablement envisageable au regard de la relative instabilité de ce langage en constant développement. En revanche, elle a le mérite de poser le problème de l'adaptation des règles traditionnelles de catalogage au partage des ressources en réseau. Il est vrai que le format MARC peut apparaître encore adapté pour la description, la localisation et la fourniture d'accès à des documents en réseau. Grâce à l'introduction du champ 856[10] qui fournit un lien hypertexte entre l'enregistrement MARC et le texte électronique qu'il décrit, c'est devenu un standard plausible pour la recherche et la récupération de ressources sur Internet. Il est important de noter que le champ 856 ne prend sa juste valeur que dans un catalogue hypertextuel. A la bibliothèque de l'université Laval, l'URL des périodiques électroniques catalogués est donc précisée de manière plus explicite en note dans le champ 500 afin que celle-ci apparaisse à l'affichage public.
Cependant, de nouveaux modèles commencent à être proposés qui mettent l'accent sur la recherche documentaire et le partage des enregistrements plutôt que sur le rôle descriptif attribué traditionnellement au catalogue. Ont ainsi été étudiées (Heaney, 1995) les modalités d'un catalogage "orienté objet", basé sur la notion de "classe", permettant aux objets qui la composent d'hériter l'ensemble de ses attributs. L'accent sera notamment mis sur "une oeuvre", indépendamment des avatars de ses différentes manifestations. Dans le cadre de la recherche documentaire en réseau, il serait alors bénéfique de restructurer le format MARC afin de profiter des avantages propres aux bases de données orientées objet.
* l'utilisation du balisage SGML afin de fournir un format commun aux notices bibliographiques et aux différents documents hypertextuels et multimédias auxquels elles renvoient éventuellement. Si la plupart des éditeurs stockent déjà à un moment donné les documents sous la forme SGML (ce qui signifie en passant, qu'il existe de cette manière de gigantesques bases de données structurées complètes), l'utilisation de ce langage de description logique pour les références bibliographiques fait l'objet d'études de plus en plus détaillées. La Bibliothèque du Congrès a ainsi réalisé la DTD[11] correspondant au format USMARC. Elle considère en effet qu'elle sera amenée de plus en plus à vendre des données aussi bien en SGML qu'en USMARC. Un projet européen travaille également actuellement au développement d'une DTD pour le format UNIMARC. La convergence entre MARC et SGML apparaît donc imminente. Certaines bibliothèques ont déjà choisi SGML afin d'encoder leurs données bibliographiques. Cette solution a ainsi été adoptée dans le cadre du catalogue collectif belge car elle permet d'inclure des éléments descriptifs issus aussi bien du format MARC que d'autres types formats ; elle facilite également la production du CD-Rom annuel. SGML favorise l'intégration des différents services proposés par une bibliothèque en permettant entre autres de structurer les messages électroniques utilisés pour le prêt entre bibliothèques ou de créer des liens entre les enregistrements du catalogue et une base de périodiques électroniques. Il devient par ailleurs possible d'avoir accès à de l'information balisée avec SGML à partir d'un lien dans l'environnement Web grâce à des visualiseurs externes, tel Panorama, développé par la société SoftQuad[12].
Par ailleurs se pose le problème des documents disponibles directement sur les réseaux et de leur éparpillement anarchique. Leur description bibliographique peut-elle suivre le modèle traditionnel ? S'agit-il de les intégrer au catalogue de la bibliothèque ou doivent-ils faire l'objet d'un regroupement séparé ?
Une initiative importante a été lancée au cours d'ateliers consacrés aux "métadata", concernant la description bibliographique des ressources électroniques en réseau, en mars 1995 (Weibel, 1995) et avril 1996 (Weibel, 1996). Il s'agissait d'aboutir à un ensemble d'éléments qui permettraient aux auteurs et aux fournisseurs d'information de décrire, à la source, leurs documents et de faciliter ainsi l'interopérabilité entre les différents outils de recherche. Treize éléments ont ainsi été définis, le Dublin Core Metadata Element Set (ou Dublin Core) dont la souplesse leur permet d'être modifiés et étendus selon certaines modalités. Ils devraient faciliter la récolte et l'indexation des ressources en réseau en fournissant une solution intermédiaire entre l'indexation en texte intégral effectuée par les outils de recherche sur le Web et les descriptions complexes de type MARC. L'atelier de Warwick a spécifié une syntaxe pour le Dublin Core, exprimée par une DTD SGML, le développement de lignes directrices pour l'application du Dublin Core et une structure de base (Warwick Framework) aux métadata qui favorise des paquets de données de description modulaires, accessibles indépendamment du document et facilement modifiables. L'une des premières applications est l'intégration de ces données secondaires à la syntaxe des documents HTML disponibles sur le Web, permettant leur description à la base par les auteurs et fournisseurs de ressources sur Internet.
Par définition, les formes d'encodage du Dublin Core ne seront jamais standardisées de manière aussi stricte que les formats bibliographiques traditionnels mais il est fort probable que les systèmes de bibliothèque sauront s'adapter afin d'importer et de développer leurs éléments en enregistrements MARC complets. Les bibliothécaires ne sont en effet pas prêts à renoncer à leurs formats... Il est à ce propos paradoxal et significatif que ceux-ci cherchent encore à vouloir appliquer au traitement de ressources originales leurs usages traditionnels alors que leur rendement apparaît déjà extrêmement faible dans le cadre de l'accès aux collections locales de la bibliothèque. Il est intéressant de noter qu'au moment même où de nombreux professionnels se plaignent de plus en plus de la lourdeur et de l'inefficacité de pratiques bibliographiques ancestrales, les fournisseurs d'information sur Internet, face à la pagaille accompagnant l'augmentation exponentielle des documents s'y accumulant, se tournent vers les bibliothécaires en reconnaissant enfin la valeur d'une description structurée et détaillée.
Cela dit, si une description très complète du document s'avère moins pertinente dans la mesure où celui-ci se trouve pour ainsi dire à "portée de main", elle apparaît jouer un rôle fondamental lorsque l'usager distant ne peut établir un contact physique avec l'ouvrage dans sa totalité, soit que celui-ci ne soit pas disponible sous forme électronique, soit que son obtention soit assujettie à une tarification spécifique.
Le problème des ressources accessibles par le biais d'Internet reste leur richesse même. L'essentiel y côtoie le plus inutile. Dans ces conditions, quels mécanismes permettront d'une part de draguer l'ensemble des documents disponibles, d'autre part de sélectionner ceux qu'il est pertinent de répertorier ?
Un autre aspect délicat est la volatilité des informations stockées sur un site Web. Même s'il existe des robots capables de vérifier à intervalles réguliers la validité de liens inclus dans une notice hypertextuelle, l'on peut s'interroger sur la rentabilité d'effectuer une description détaillée d'un document voué à disparaître au bout de quelques mois. Concernant la mobilité des URLs affectées à un document sur le Web, il a été adopté afin de remédier à ce problème, le terme d'URN (Uniform Resource Name) qui identifie une ressource ou une unité d'information indépendamment de sa location, jouant en quelque sorte le même rôle que l'ISBN pour les monographies traditionnelles. Les URNs sont, de manière universelle, uniques, persistantes et accessibles sur le réseau. Une URC (Uniform Resource Characteristic) a également été proposée pour servir de connexion entre les URNs et les URLs. Si une URL change, les usagers autorisés peuvent la modifier à l'intérieur du service URC. Celui-ci inclurait des capacités de recherche bibliographique et dans le futur, il pourrait être possible de se connecter à une variété de serveurs URC en mesure d'assister les bibliothécaires dans le catalogage et l'archivage d'informations de qualité.
De nombreuses questions restent malgré tout encore en suspens : comment par exemple traiter les différentes versions d'un document sous une même URL ? L'information diffusée sur le Web apparaît en effet souvent versatile et une description bibliographique trop détaillée risque de précipiter son obsolescence. La liste de diffusion Intercat[13], qui regroupe les participants au catalogage des ressources sur Internet piloté par OCLC, est le lieu privilégié où se résolvent au jour le jour les difficultés toujours inédites propres à ce projet.
Enfin, il peut être judicieux de s'interroger sur la pertinence d'intégrer dans le catalogue accessible à distance d'une bibliothèque les enregistrements pointant vers des ressources électroniques particulièrement intéressantes. En effet, à partir du moment où un OPAC se trouve mis en réseau, l'on est en droit de redéfinir ses fonctions.
"The library catalog is a finding aid. More specifically, it is a tool designed to help a defined set of people locate information in a comprehensive collection of data. As we improve the functions of our OPAC software, this finding tool will also become an access tool. This position can be contrasted with the idea of a library catalog as a list of things owned by a library and held within a library's walls"[14] (Morgan, 1995).
Il est également probable que si les bibliothèques n'offrent pas ce genre de prestations, des services commerciaux s'en chargeront à plus ou moins long terme. Cependant, dans la mesure où, par définition, les ressources disponibles sur Internet le sont pour tous, il apparaît inutile que chacun se mette à les cataloguer de son côté. Une récupération intégrale des notices pointant vers des documents couvrant le domaine de spécialisation d'une bibliothèque serait d'autant plus facilitée que la localisation s'avère nécessairement unique (si l'on excepte le fait qu'il puisse exister des sites "miroirs" qui proposent une copie de ressources disponibles par ailleurs mais pour lesquelles le grand nombre de connexions sollicitées rend l'accès difficile).
Il est possible d'imaginer qu'un catalogue dédié à cet effet, tel Intercat[15] actuellement, puisse être accessible soit par la même "porte d'entrée" de la page Web concernée, soit, grâce à l'implémentation de Z39.50 au niveau de la base, par une recherche couvrant simultanément d'autres catalogues. OCLC a également développé un service à accès réglementé, NetFirst[16], qui répertorie, selon les normes de catalogage anglo-américaines, des ressources disponibles sur Internet, comprenant outre des articles complets, des journaux électroniques, des newsletters, des sites Gopher et des catalogues de bibliothèques. Les enregistrements contiennent des informations bibliographiques dont les URLs, les adresses électroniques ("e-mails") et les noms de groupes d'intérêt ("newsgroups") entre autres sont formatés en liens hypertextes. Ils incluent également indexation, classification et résumé original.
Une fois de plus, l'intégration de l'ensemble des ressources, quelle que soit leur origine, que peut offrir une bibliothèque semble la solution la plus satisfaisante.
L'inclusion de la description de ressources électroniques au catalogue de la bibliothèque perpétue actuellement la distinction entre la base bibliographique et l'ensemble des documents auxquels les enregistrements se réfèrent. La ligne de partage s'atténue d'autant plus que le passage de l'un à l'autre s'automatise. Il ne paraît pas totalement fantaisiste d'imaginer que la description du document s'effectuant à la source, notamment au moyen du balisage SGML, la recherche puisse être menée directement dans la base de documents. Il est par ailleurs possible d'inclure dans un document en texte intégral structuré un en-tête également codé en SGML où l'on enregistre la description bibliographique. Ce n'est pour l'instant principalement envisageable que dans le cas de textes assez courts, fortement structurés et d'une durée de vie relativement longue. De telles bases sont déjà particulièrement développées au niveau de la documentation industrielle, juridique et gouvernementale.
L'accès aisé à un nombre croissant de catalogues par le biais d'Internet semble également en mesure de remettre en question les pratiques traditionnelles de catalogage en réseau.
Actuellement, beaucoup de notices sont dérivées de bases bibliographiques pour lesquelles une bibliothèque contracte un abonnement. La liberté d'accès à un catalogue riche en enregistrements dans un domaine particulier présente à cet égard un attrait particulier. Il est vrai qu'aucune procédure de déchargement structuré n'est intégrée à la consultation d'un catalogue au moyen d'une connexion Telnet ou dans l'environnement Web. L'on pourrait certes concevoir, dans le cas d'un recours intensif à un catalogue, un programme permettant le transfert des informations obtenues dans le format bibliographique utilisé localement. Il semble cependant que l'accès à certains catalogues de bibliothèques par Internet est actuellement surtout exploité pour vérifier certains champs délicats (les vedettes-matière, par exemple). Toutefois, la Bibliothèque Nationale du Québec projette de développer, en partenariat avec la société Bestseller dont elle utilise le système d'information, une option permettant de dériver ses notices à partir de la consultation de son OPAC sur le Web. Les bibliothèques ayant contracté l'abonnement correspondant disposeraient d'un "panier" personnel sur le serveur de la BNQ. Les notices récupérées lors de la recherche dans le catalogue y seraient stockées puis récupérées à intervalle régulier au moyen du protocole FTP (File Transfer Protocol).
Il n'en reste pas moins que tous les catalogues accessibles par Telnet ou WWW n'offrent pas un affichage bibliographique complet. Les notices contenues dans les bases indexées par WAIS sont également appauvries lors de leur exportation. A la bibliothèque de l'université Laval, le format MARC des notices du catalogue Ariane peut être obtenu au moyen d'une commande précise, non efficiente lors de l'accès par Internet. Malgré toutes ces limitations, il a pu être observé que certaines bibliothèques restaient, tout au long de la journée, connectées en permanence à son catalogue.
La norme Z39.50, parce qu'elle exploite la richesse de bases structurées dans un format bibliographique, semble promettre plus de souplesse dans le traitement des notices obtenues à partir d'une recherche effectuée dans un ou plusieurs catalogues. C'est pourquoi les fournisseurs de certaines bases de données s'inquiètent du fait que des bibliothèques puissent utiliser la fonction de recherche du Z39.50 pour acquérir des fiches au lieu d'utiliser les services de téléchargement qui leur imposent des frais spéciaux. L'accent est mis sur la nécessité pour le système d'être en mesure de distinguer le transfert d'une fiche à un usager du téléchargement qui, lui, transfère des fiches aux fins d'utilisation dans une application locale.
Si les pratiques actuelles de catalogage en réseau sont destinées à être totalement reconsidérées en fonction des possibilités d'accès distribué aux catalogues de bibliothèques par le biais de Z39.50, il sera alors nécessaire d'aboutir à un consensus sur une éventuelle tarification des téléchargements de notices. Ce pourrait être un moyen de redistribuer les coûts supportés par les différentes bibliothèques en matière de catalogage.
Il est important de souligner que ces facilités de téléchargement et les procédures de contrôle qu'elles imposeront seront à même de modifier radicalement le principe de liberté qui règne actuellement dans l'accès aux catalogues par Internet. La maintenance d'un point d'entrée par le Web permettrait dans ces conditions d'assurer une consultation sans restrictions.
La Bibliothèque Nationale du Canada, après la mise sur le Web de son catalogue, se propose à terme de fournir un accès à la base AMICUS qui englobe son propre catalogue ainsi que les enregistrements d'autres établissements. Il s'agit d'offrir une interface unique tout en contrôlant et facturant les services en fonction de leur degré d'utilisation. Deux niveaux devront être considérés : le statut de l'usager (simple utilisateur ou professionnel) et l'étendue de la base exploitée (les enregistrements propres à la Bibliothèque Nationale ou les notices versées par d'autres institutions). L'un des problèmes majeurs afférent à une mise en accès public d'une telle base est la notion de propriété d'une notice. Quels sont les droits d'un organisme sur un enregistrement qu'il a créé et dans quelle mesure un établissement peut-il vendre un accès à des notices versées par un tiers ? Devra-t-il intégrer des frais de dédommagement, une sorte de droits d'auteur pour le site source ?[17]
L'équilibre reste délicat à définir entre les deux extrêmes qui commencent à être dénoncés dans l'édition électronique, à savoir l'abdication totale par les auteurs de tous leurs droits et la taxation systématique de l'utilisation d'un document, sous quelque forme que ce soit (impression, déchargement ou même simple lecture).
L'enjeu est de taille : en effet, la possibilité pour les bibliothèques de gérer elles-mêmes un accès partagé à une multitude de catalogues disparates semble en mesure de court-circuiter les grands fournisseurs commerciaux de bases bibliographiques, très coûteux pour les bibliothèques. Une telle perspective n'est pas sans ressemblance avec la révolution que représente le développement de la presse électronique pour les éditeurs traditionnels ; de la même manière qu'elles pourront envisager à terme de publier en leur sein les articles de chercheurs et enseignants employés par les universités auxquelles elles sont rattachées, les bibliothèques se verront peu à peu en mesure de gérer leurs échanges bibliographiques de manière autonome. Éditeurs et fournisseurs bibliographiques ne s'y sont d'ailleurs pas trompés et développent déjà de nouvelles pratiques basées sur les technologies de pointe et les standards internationaux afin de conserver leur place au coeur des réseaux d'information de demain.
[10] cf. Guidelines for the use of field 856. [en ligne].http://lcweb.loc.gov/marc/856guide.html
[11] Les relations entre les différentes composantes d'un document identifiées par des balises SGML et leur définition sont déclarées dans la DTD (Définition du Type de Document) qui décrit la strucure logique d'une classe de documents.
[12]http://www.sq.com/products/panorama/
[13] LISTSERV@oclc.org
[14] "Le catalogue de bibliothèque est une aide à la découverte. Plus spécifiquement, c'est un outil conçu pour aider un ensemble défini de personnes à repérer de l'information dans une collection complète de données. Dans la mesure où nous améliorons les fonctions de notre OPAC, cet outil de découverte deviendra aussi un outil d'accès. Une telle position peut être en contraste avec l'idée d'un catalo
[15]http://www.oclc.org:6990
[16]http://www.oclc.org/oclc/netfirst/netfirst.htm
[17] Une Directive sur l'harmonisation de la protection des bases de données, adoptée en 1996 par l'Union Européenne, outre le fait qu'elle envisage la protection par le droit d'auteur des bases de données "originales" dans des termes presque identiques à ceux employés par la législation des Etats-Unis, prévoit un nouveau droit d'empêcher l'extraction non autorisée des informations contenues dans la base de données, et ce indépe