Les archives des Bulles

Archiver le web, il devient temps d’y penser

jeudi 5 avril 2007, par François Schreuer

Insensiblement, beaucoup d’informations qui circulaient et étaient très majoritairement stockées jusqu’il y a peu sur des supports matériels — au premier rang desquels se trouve bien sûr le papier — sont en train de se retrouver de plus en plus souvent sur des pages web, souvent même en priorité par rapport à d’autres supports. C’est évidemment le cas des publications scientifiques — jusqu’aux encyclopédies — dont les éditions électroniques se multiplient, mais aussi du travail de bon nombre d’associations ou encore, de plus en plus, de la presse, dont les éditions électroniques sont souvent beaucoup plus réactives que les éditions papier [1] ; c’est vrai aussi des débats politiques, ainsi qu’en attestent les campagnes électorales récentes ou en cours, dont une part de plus en plus substancielle, une part qui n’est plus marginale, se déroule désormais sur le web. Même si les mass-médias audiovisuels restent bien évidemment dominants (mais dans un rôle de plus en plus ouvertement propagandiste et décérébrant) tandis que la presse continue à jouer un rôle important, on peut sans doute penser que la plus grande partie du domaine de l’interpellation et du débat citoyen se trouve désormais en ligne. Ce n’est évidemment pas un fait banal ; particulièrement quand on s’interroge sur la manière de conserver une trace des évolutions que connaissent aujourd’hui nos sociétés.

Ce transfert, la démocratisation du web — quoiqu’encore très insuffisante sans doute —, le phénomène des blogs (pour le meilleur et pour le pire), le fait que la production du contenu est de plus en plus décentralisée [2], l’inflation constante de la production de contenu en ligne, entre autres choses, font donc qu’il semble désormais impossible de négliger le web, ou de le considérer comme un simple avatar d’autres moyens de diffusion. On trouve sur le web un abondant contenu disponible nulle part ailleurs et proposé sous des formes de plus en plus variées : au texte — qui se décline lui-même en diverses formes — se sont ajoutés des contenus multimédias.

Parmi les nombreuses questions que pose cette évolution, celle de l’archivage du web me semble donc ne pas faire partie des moindres, très loin s’en faut. En ma quintuple condition de 1) gestionnaire d’un service d’hébergement web associatif, 2) d’animateur d’un portail d’information qui m’amène à faire de très nombreux liens vers des pages web et à me préoccuper de leur pérennité, 3) de webdesigner — souvent amené à conseiller des utilisateurs plus ou moins débutants du web et à garder un oeil plutôt attentif aux évolutions du web et aux différentes technologies qui y sont disponibles et parfois utilisées —, mais aussi de 4) bientôt diplômé — du moins je l’espère — d’une faculté de lettres et, enfin, 5) de bibliophile maniaque, frappé pour tout dire du virus de l’encodage de toutes sortes d’informations [3] dans des bases de données, et bien que je ne sois pas un expert des questions que j’aborde ici, il me semble qu’il devient urgent de se préoccuper de la manière dont il sera possible de conserver les innombrables données intéressantes qui se trouvent en ligne — et en disparaissent bien souvent fort vite sans qu’aucune forme d’archivage sérieux n’ait pu être entreprise. Cette question commence certes à être abordée par différents spécialistes, je pense notamment aux initiatives prises par la BNF et son très énergique directeur, qui semblent avoir bien pris conscience de l’enjeu, mais on est très loin — très très loin — d’atteindre à l’équivalent des dispositifs mis en place pour préserver la mémoire des imprimés ou, dans une moindre mesure, de la production audiovisuelle, mesures au premier rang desquelles il faut bien entendu placer le dépôt légal, dépôt légal dont l’instauration d’un équivalent pour le web (pratiquement instauré en France, mais ne concernant qu’une infime partie du web) pose cependant de lourdes difficultés et à plus forte raison pour d’autres formes de diffusion publique de contenu utilisant d’autres protocoles de l’internet [4].

Ce texte ne concerne pas les grosses institutions auxquelles les pouvoirs publics commencent tout doucement à demander d’assurer une conservation de ce qui sera peut-être demain le premier matériau de travail des historiens qui étudieront la période que nous vivons aujourd’hui. Ces grandes institutions connaissent leur métier bien mieux que moi ou recruteront des personnes disposant des qualifications requises. Mon propos s’adresse plutôt ici au webmestre amateur qui monte le site d’une association ou d’un parti politique, qui publie des textes qui pourraient avoir demain un intérêt historique ou historiographique. J’ai le sentiment que ces nombreux webmestres qui ont fait (bien plus que les multinationales ou les startup du web 2.0) que le web est aujourd’hui le moyen le plus facile pour diffuser des idées ; ces webmestres, dis-je, seraient bien inspirés d’adopter une série de comportements qui permettront demain cet archivage mais aussi qui permettront que les données qu’ils publient restent disponible au-delà du court terme qui constitue trop souvent aujourd’hui la durée de vie d’un site web. Voici donc une série de principes simples que je suggère à tout ceux qui publient des sites web d’adopter. Cela représentera un peu de travail au moment de la mise en place du site, mais en fera gagner beaucoup par la suite.

Avant d’en venir aux quelques recommandations techniques que j’aimerais modestement formuler, je me permets de signaler aux lecteurs éventuellement rebutés par ce genre de littérature par trop ésotérique que je comprendrai bien sûr qu’ils arrêtent ici la lecture mais que, malgré tout, comme souvent, négliger les questions techniques quand leur portée politique est évidente présente souvent un risque et que si tout le monde se permet de négliger ces aspects proprement éthiques de cette activité hautement technicienne que constitue la publication sur le web, il n’est pas impossible que nous ayions à le regretter par la suite. Cela étant dit, voici la liste promise.

Principe d’indépendance technologique. Tout d’abord, peu importe le moyen technique retenu pour publier des pages web, vous devez être certain qu’il vous sera possible de conserver l’accès à vos données sur le long terme. Sur le plan le plus basique, ceci implique le choix de standards ouverts [5], dont la pérennité est assurée : il est ainsi nettement préférable d’archiver des documents au formats .odt ou .pdf plutôt qu’au format .doc de Microsoft, dont rien ne garantit qu’il sera encore lisible dans 15 ans. Idem pour les formats images ou les formats sonores (.ogg, dont la pérennité est garantie, plutôt qu’un format propriétaire) et, dans la mesure du possible, pour les formats vidéos. Concernant le texte, le mieux est sans doute de le stocker dans système de gestion de base de données (SGBD), codé de façon à ce qu’il soit possible de l’exporter facilement sous d’autres formes par la suite. Selon cette même logique (et pour de nombreux autres arguments qui suivront), on banira strictement le logiciel flash.

Principe de référencement. Il est plus que souhaitable de dater systématiquement les documents publiés, d’indiquer les dates de modifications éventuelles, de fournir systématiquement avec chaque document un ensemble de méta-données le plus complet possible (source, mots-clés, auteur, date d’écriture, date d’une éventuelle publication papier, date de mise en ligne, dates de modifications, etc). Des données dont on ignore d’où elles viennent ou quand elles ont été produites perdent souvent une grande partie de leur valeur pour les historiens ou simplement pour les utilisateurs potentiels de ces données.

Principe de sobriété. Pour rendre pérenne des données, il vaut beaucoup mieux produire peu et bien que beaucoup et de façon chaotique. En particulier, il est absolument indispensable de séparer très nettement le contenu original du contenu « copié-collé », ce dernier étant a priori beaucoup moins précieux que le premier. À l’égard de la pertinence de multiplier les copié-coller (quand les licences le permettent), celui-ci ne me semble souhaitable que si la source originale ne semble pas fiable et pérenne.

Principe de cohérence structurelle des données. Ceci concerne les bases de données elle-mêmes dont la structure doit être conçue pour durer longtemps. Il est en effet extrêmement affligeant de voir de très nombreux sites web « repartir à zéro » épisodiquement, perdant au passage toutes leurs archives, que la mauvaise conception ou l’incompétence d’un webmestre ont fait décider de jeter aux orties. C’est notamment là une maladie chronique dont souffrent la plupart des sites des partis politiques en Belgique : tous les deux ou trois ans, un nouveau site est créé de toutes pièces, qui, la plupart du temps, ne reprend tout simplement pas le contenu du précédent, ce dont on imagine que les graphistes qui ont été chargés de la création du nouveau site « qui foit flasher » se foutent éperdument. J’ignore si ce comportement est délibéré de leur part ; il est en tout cas hautement regrettable car s’il vaut sans doute parfois mieux laisser « oublier » certaines promesses ou prises de position dans le chef d’une organisation politique, l’impossibilité de retracer facilement sur le long terme les prises de position d’un parti sur telle ou telle question sont une véritable perte sur le plan démocratique. Cela favorise une politique de court terme, dans laquelle les positions peuvent se modifier fondamentalement sans qu’il soit besoin de rendre compte du pourquoi et du comment de ce changement de position. Cela favorise pour tout dire une politique spectacle dans laquelle la constitution d’une documentation de fond n’a guère d’importance et où on se contente souvent d’aligner des communiqués de presse pondus « sur la brèche », parce que, bien entendu, « c’est l’actu qui compte, coco ».

Principe d’unicité de la localisation de l’information. On peut formuler ce principe de la façon suivante : « À chaque url correspond une seule information et à chaque information correspond une et une seule url. » Les éventuelles urls faisant doublons (par exemple pour une page d’impression), qu’il faut limiter au maximum ; seront bannies du référencement par un fichier robots.txt. Ceci implique aussi le banissement des domaines aliassés les uns sur les autres, de l’usage du « www » en alias avec l’url du site sans cet attribut historique, etc. Bref, il est souhaitable de forcer l’usage d’un et d’un seul nom de domaine pour accéder à un site donné.

Pour ce faire, petit truc technique utile, les utilisateurs du logiciel serveur http Apache pourront utiliser la directive suivante dans le fichier .htaccess se trouvant à la racine de leur site (en remplaçant évidemment le nom de domaine du présent site par celui qui va bien), qui force la redirection sur un seul domaine :

RewriteEngine On
RewriteCond %{HTTP_HOST} !^bulles.agora.eu.org$
RewriteRule ^(.*) http://bulles.agora.eu.org/$1 [QSA,L,R=301]

Principe de permanence des urls. Un url ouvert ne sera jamais fermé (mais sera éventuellement redirigé). Ceci est extrêmement important, il s’agit peut-être de la clause la plus importante car c’est celle qui évite que soient cassés des liens le jour où on changera, par exemple, le système de gestion de contenu du site. Bien sûr, il sera très souvent possible d’assurer une redirection des urls vers les nouveaux emplacement des ressources, mais parfois au prix de développements pénibles et d’un travail de programmation coûteux donc incertain. Autrement dit, si l’on veut garantir la permanence de ses urls, il est hautement souhaitable de les rendre non seulement totalement indépendants des technologies utilisées pour générer du contenu mais aussi suffisamment logiques pour perdurer.

Quelques exemples valant mieux qu’un long discours, en voici quelques uns à ne pas suivre :

1. Le site de La Première

L’impression d’uzine à gaz que donne ce site au premier abord est confirmée à la lecture des urls, particulièrement charmantes, par exemple celle-ci tout à fait typique, qui contient de très nombreuses informations inutiles, notamment celles qui indiquent la technologie utilisée (« cgi ») :

2. Le site du Parti socialiste

Même syndôme : sous prétexte sans doute de « faire pro », les auteurs de ce site révèlent des lacunes assez graves chez un webmestre en négligeant complètement de se préoccuper de faire des urls propres.

3. Le site d’Ecolo

C’est déjà mieux (c’est plus simple, dont plus facile à rediriger par la suite), mais ça reste problématique à deux égards : il n’y a absolument aucune raison d’utiliser le préfixe « web4 » pour le site principal d’un parti politique et les urls n’ont pas à contenir la mention des technologies utilisées (en l’occurrence « spip » et « php »), lesquelles changeront inévitablement un jour ou l’autre.

Et ainsi de suite. Il existe pourtant des exemples d’urls logiques. Par exemple le site principal de la RTBF :

Autre exemple de bonne pratique, la revue Politique, revue de débats :

Notons au passage que les bons urls sont des urls courts (moins de 80 signes) pour pouvoir être écrits dans des courriels au format texte sans être coupés.

Principe de minimisation des coûts. À première vue, il est tentant de considérer que la mise en ligne d’un contenu « ne coûte rien ». C’est à la fois vrai et pas vrai. Il est exact qu’il est potentiellement possible de diffuser via le web une information vers un très grand nombre de personnes pour des coûts beaucoup plus réduits qu’avec du papier. On néglige cependant trop souvent les coûts très conséquents que peut représenter la mise à disposition du public d’un site web dans le long terme. C’est que la quantité de données qui s’accumule finit souvent par occuper beaucoup d’espace, à générer éventuellement un grand nombre de visiteurs, etc. Tout va bien tant que l’organisme éditeur est en phase de croissance, mais que se passe-t-il quand une association réduit ou cesse son activité ? Il serait regrettable que le site web ne soit pas conservé faut de moyens. À cet égard, un fait assez frappant concerne la multiplication des noms de domaines « de premier niveau » (directement sous les « TLD » que sont « .org », « .be ») alors qu’il est facilement possible d’ouvrir des sous-domaines, comme je l’ai expliqué dans un précédent billet.

J’arrête ici cette litanie, en espérant qu’il se trouvera quelques lecteurs pour l’avoir bue jusqu’à la lie. Il ne s’agit bien sûr que d’une série de conseils quelques peu épars qui mériteraient très certainement d’être mieux réfléchis et organisés. Je serai d’ailleurs très heureux de lire d’éventuels commentaires à ce petit texte. Je précise aussi que ceci ne concerne que le web, sans doute le protocole le plus « public » de l’Internet, ou à tout le moins le plus utilisé. Des raisonnement similaires pourraient (et sans doute devbraient) être menés pour les contenus véhiculés via certains autres protocoles du réseau. Notamment, chacun devrait sans doute accorder plus d’importance qu’on n’en accorde aujourd’hui en moyenne à la conservation du courrier électronique, extrêmement fragile et parfois précieux.

Si je m’excuse du caractère aride et mal ficelé de ce texte, j’insiste cependant encore une fois pour conclure sur le fait qu’il est souhaitable de se préoccuper de ces questions à présent, ne serait-ce parce que nous avons tout intérêt à nous donner les moyens d’une mémoire, qui est bien souvent la condition sine qua non de certaines luttes politiques.

Notes

[1Même si — et c’est intéressant de le constater — l’usage veut que ce soit toujours l’édition papier qui fasse référence.

[2Ce que quelques fats aux gros appétits commerciaux désignent pompeusement sous le terme de « web 2.0 ».

[3En ce compris le nombre de pages de chacun de mes bouquins ou des milliers d’articles de presse.