Insensiblement, beaucoup d’informations qui circulaient et étaient très majoritairement stockées jusqu’il y a peu sur des supports matériels — au premier rang desquels se trouve bien sûr le papier — sont en train de se retrouver de plus en plus souvent sur des pages web, souvent même en priorité par rapport à d’autres supports. C’est évidemment le cas des publications scientifiques — jusqu’aux encyclopédies — dont les éditions électroniques se multiplient, mais aussi du travail de bon nombre d’associations ou encore, de plus en plus, de la presse, dont les éditions électroniques sont souvent beaucoup plus réactives que les éditions papier [1] ; c’est vrai aussi des débats politiques, ainsi qu’en attestent les campagnes électorales récentes ou en cours, dont une part de plus en plus substancielle, une part qui n’est plus marginale, se déroule désormais sur le web. Même si les mass-médias audiovisuels restent bien évidemment dominants (mais dans un rôle de plus en plus ouvertement propagandiste et décérébrant) tandis que la presse continue à jouer un rôle important, on peut sans doute penser que la plus grande partie du domaine de l’interpellation et du débat citoyen se trouve désormais en ligne. Ce n’est évidemment pas un fait banal ; particulièrement quand on s’interroge sur la manière de conserver une trace des évolutions que connaissent aujourd’hui nos sociétés.
Ce transfert, la démocratisation du web — quoiqu’encore très insuffisante sans doute —, le phénomène des blogs (pour le meilleur et pour le pire), le fait que la production du contenu est de plus en plus décentralisée [2], l’inflation constante de la production de contenu en ligne, entre autres choses, font donc qu’il semble désormais impossible de négliger le web, ou de le considérer comme un simple avatar d’autres moyens de diffusion. On trouve sur le web un abondant contenu disponible nulle part ailleurs et proposé sous des formes de plus en plus variées : au texte — qui se décline lui-même en diverses formes — se sont ajoutés des contenus multimédias.
Parmi les nombreuses questions que pose cette évolution, celle de l’archivage du web me semble donc ne pas faire partie des moindres, très loin s’en faut. En ma quintuple condition de 1) gestionnaire d’un service d’hébergement web associatif, 2) d’animateur d’un portail d’information qui m’amène à faire de très nombreux liens vers des pages web et à me préoccuper de leur pérennité, 3) de webdesigner — souvent amené à conseiller des utilisateurs plus ou moins débutants du web et à garder un oeil plutôt attentif aux évolutions du web et aux différentes technologies qui y sont disponibles et parfois utilisées —, mais aussi de 4) bientôt diplômé — du moins je l’espère — d’une faculté de lettres et, enfin, 5) de bibliophile maniaque, frappé pour tout dire du virus de l’encodage de toutes sortes d’informations [3] dans des bases de données, et bien que je ne sois pas un expert des questions que j’aborde ici, il me semble qu’il devient urgent de se préoccuper de la manière dont il sera possible de conserver les innombrables données intéressantes qui se trouvent en ligne — et en disparaissent bien souvent fort vite sans qu’aucune forme d’archivage sérieux n’ait pu être entreprise. Cette question commence certes à être abordée par différents spécialistes, je pense notamment aux initiatives prises par la BNF et son très énergique directeur, qui semblent avoir bien pris conscience de l’enjeu, mais on est très loin — très très loin — d’atteindre à l’équivalent des dispositifs mis en place pour préserver la mémoire des imprimés ou, dans une moindre mesure, de la production audiovisuelle, mesures au premier rang desquelles il faut bien entendu placer le dépôt légal, dépôt légal dont l’instauration d’un équivalent pour le web (pratiquement instauré en France, mais ne concernant qu’une infime partie du web) pose cependant de lourdes difficultés et à plus forte raison pour d’autres formes de diffusion publique de contenu utilisant d’autres protocoles de l’internet [4].
Ce texte ne concerne pas les grosses institutions auxquelles les pouvoirs publics commencent tout doucement à demander d’assurer une conservation de ce qui sera peut-être demain le premier matériau de travail des historiens qui étudieront la période que nous vivons aujourd’hui. Ces grandes institutions connaissent leur métier bien mieux que moi ou recruteront des personnes disposant des qualifications requises. Mon propos s’adresse plutôt ici au webmestre amateur qui monte le site d’une association ou d’un parti politique, qui publie des textes qui pourraient avoir demain un intérêt historique ou historiographique. J’ai le sentiment que ces nombreux webmestres qui ont fait (bien plus que les multinationales ou les startup du web 2.0) que le web est aujourd’hui le moyen le plus facile pour diffuser des idées ; ces webmestres, dis-je, seraient bien inspirés d’adopter une série de comportements qui permettront demain cet archivage mais aussi qui permettront que les données qu’ils publient restent disponible au-delà du court terme qui constitue trop souvent aujourd’hui la durée de vie d’un site web. Voici donc une série de principes simples que je suggère à tout ceux qui publient des sites web d’adopter. Cela représentera un peu de travail au moment de la mise en place du site, mais en fera gagner beaucoup par la suite.
Avant d’en venir aux quelques recommandations techniques que j’aimerais modestement formuler, je me permets de signaler aux lecteurs éventuellement rebutés par ce genre de littérature par trop ésotérique que je comprendrai bien sûr qu’ils arrêtent ici la lecture mais que, malgré tout, comme souvent, négliger les questions techniques quand leur portée politique est évidente présente souvent un risque et que si tout le monde se permet de négliger ces aspects proprement éthiques de cette activité hautement technicienne que constitue la publication sur le web, il n’est pas impossible que nous ayions à le regretter par la suite. Cela étant dit, voici la liste promise.
Principe d’indépendance technologique. Tout d’abord, peu importe le moyen technique retenu pour publier des pages web, vous devez être certain qu’il vous sera possible de conserver l’accès à vos données sur le long terme. Sur le plan le plus basique, ceci implique le choix de standards ouverts [5], dont la pérennité est assurée : il est ainsi nettement préférable d’archiver des documents au formats .odt
ou .pdf
plutôt qu’au format .doc
de Microsoft, dont rien ne garantit qu’il sera encore lisible dans 15 ans. Idem pour les formats images ou les formats sonores (.ogg
, dont la pérennité est garantie, plutôt qu’un format propriétaire) et, dans la mesure du possible, pour les formats vidéos. Concernant le texte, le mieux est sans doute de le stocker dans système de gestion de base de données (SGBD), codé de façon à ce qu’il soit possible de l’exporter facilement sous d’autres formes par la suite. Selon cette même logique (et pour de nombreux autres arguments qui suivront), on banira strictement le logiciel flash.
Principe de référencement. Il est plus que souhaitable de dater systématiquement les documents publiés, d’indiquer les dates de modifications éventuelles, de fournir systématiquement avec chaque document un ensemble de méta-données le plus complet possible (source, mots-clés, auteur, date d’écriture, date d’une éventuelle publication papier, date de mise en ligne, dates de modifications, etc). Des données dont on ignore d’où elles viennent ou quand elles ont été produites perdent souvent une grande partie de leur valeur pour les historiens ou simplement pour les utilisateurs potentiels de ces données.
Principe de sobriété. Pour rendre pérenne des données, il vaut beaucoup mieux produire peu et bien que beaucoup et de façon chaotique. En particulier, il est absolument indispensable de séparer très nettement le contenu original du contenu « copié-collé », ce dernier étant a priori beaucoup moins précieux que le premier. À l’égard de la pertinence de multiplier les copié-coller (quand les licences le permettent), celui-ci ne me semble souhaitable que si la source originale ne semble pas fiable et pérenne.
Principe de cohérence structurelle des données. Ceci concerne les bases de données elle-mêmes dont la structure doit être conçue pour durer longtemps. Il est en effet extrêmement affligeant de voir de très nombreux sites web « repartir à zéro » épisodiquement, perdant au passage toutes leurs archives, que la mauvaise conception ou l’incompétence d’un webmestre ont fait décider de jeter aux orties. C’est notamment là une maladie chronique dont souffrent la plupart des sites des partis politiques en Belgique : tous les deux ou trois ans, un nouveau site est créé de toutes pièces, qui, la plupart du temps, ne reprend tout simplement pas le contenu du précédent, ce dont on imagine que les graphistes qui ont été chargés de la création du nouveau site « qui foit flasher » se foutent éperdument. J’ignore si ce comportement est délibéré de leur part ; il est en tout cas hautement regrettable car s’il vaut sans doute parfois mieux laisser « oublier » certaines promesses ou prises de position dans le chef d’une organisation politique, l’impossibilité de retracer facilement sur le long terme les prises de position d’un parti sur telle ou telle question sont une véritable perte sur le plan démocratique. Cela favorise une politique de court terme, dans laquelle les positions peuvent se modifier fondamentalement sans qu’il soit besoin de rendre compte du pourquoi et du comment de ce changement de position. Cela favorise pour tout dire une politique spectacle dans laquelle la constitution d’une documentation de fond n’a guère d’importance et où on se contente souvent d’aligner des communiqués de presse pondus « sur la brèche », parce que, bien entendu, « c’est l’actu qui compte, coco ».
Principe d’unicité de la localisation de l’information. On peut formuler ce principe de la façon suivante : « À chaque url correspond une seule information et à chaque information correspond une et une seule url. » Les éventuelles urls faisant doublons (par exemple pour une page d’impression), qu’il faut limiter au maximum ; seront bannies du référencement par un fichier robots.txt
. Ceci implique aussi le banissement des domaines aliassés les uns sur les autres, de l’usage du « www » en alias avec l’url du site sans cet attribut historique, etc. Bref, il est souhaitable de forcer l’usage d’un et d’un seul nom de domaine pour accéder à un site donné.
Pour ce faire, petit truc technique utile, les utilisateurs du logiciel serveur http Apache pourront utiliser la directive suivante dans le fichier .htaccess
se trouvant à la racine de leur site (en remplaçant évidemment le nom de domaine du présent site par celui qui va bien), qui force la redirection sur un seul domaine :
RewriteEngine On
RewriteCond %{HTTP_HOST} !^bulles.agora.eu.org$
RewriteRule ^(.*) http://bulles.agora.eu.org/$1 [QSA,L,R=301]
Principe de permanence des urls. Un url ouvert ne sera jamais fermé (mais sera éventuellement redirigé). Ceci est extrêmement important, il s’agit peut-être de la clause la plus importante car c’est celle qui évite que soient cassés des liens le jour où on changera, par exemple, le système de gestion de contenu du site. Bien sûr, il sera très souvent possible d’assurer une redirection des urls vers les nouveaux emplacement des ressources, mais parfois au prix de développements pénibles et d’un travail de programmation coûteux donc incertain. Autrement dit, si l’on veut garantir la permanence de ses urls, il est hautement souhaitable de les rendre non seulement totalement indépendants des technologies utilisées pour générer du contenu mais aussi suffisamment logiques pour perdurer.
Quelques exemples valant mieux qu’un long discours, en voici quelques uns à ne pas suivre :
1. Le site de La Première
L’impression d’uzine à gaz que donne ce site au premier abord est confirmée à la lecture des urls, particulièrement charmantes, par exemple celle-ci tout à fait typique, qui contient de très nombreuses informations inutiles, notamment celles qui indiquent la technologie utilisée (« cgi ») :
2. Le site du Parti socialiste
Même syndôme : sous prétexte sans doute de « faire pro », les auteurs de ce site révèlent des lacunes assez graves chez un webmestre en négligeant complètement de se préoccuper de faire des urls propres.
3. Le site d’Ecolo
C’est déjà mieux (c’est plus simple, dont plus facile à rediriger par la suite), mais ça reste problématique à deux égards : il n’y a absolument aucune raison d’utiliser le préfixe « web4 » pour le site principal d’un parti politique et les urls n’ont pas à contenir la mention des technologies utilisées (en l’occurrence « spip » et « php »), lesquelles changeront inévitablement un jour ou l’autre.
Et ainsi de suite. Il existe pourtant des exemples d’urls logiques. Par exemple le site principal de la RTBF :
Autre exemple de bonne pratique, la revue Politique, revue de débats :
Notons au passage que les bons urls sont des urls courts (moins de 80 signes) pour pouvoir être écrits dans des courriels au format texte sans être coupés.
Principe de minimisation des coûts. À première vue, il est tentant de considérer que la mise en ligne d’un contenu « ne coûte rien ». C’est à la fois vrai et pas vrai. Il est exact qu’il est potentiellement possible de diffuser via le web une information vers un très grand nombre de personnes pour des coûts beaucoup plus réduits qu’avec du papier. On néglige cependant trop souvent les coûts très conséquents que peut représenter la mise à disposition du public d’un site web dans le long terme. C’est que la quantité de données qui s’accumule finit souvent par occuper beaucoup d’espace, à générer éventuellement un grand nombre de visiteurs, etc. Tout va bien tant que l’organisme éditeur est en phase de croissance, mais que se passe-t-il quand une association réduit ou cesse son activité ? Il serait regrettable que le site web ne soit pas conservé faut de moyens. À cet égard, un fait assez frappant concerne la multiplication des noms de domaines « de premier niveau » (directement sous les « TLD » que sont « .org », « .be ») alors qu’il est facilement possible d’ouvrir des sous-domaines, comme je l’ai expliqué dans un précédent billet.
J’arrête ici cette litanie, en espérant qu’il se trouvera quelques lecteurs pour l’avoir bue jusqu’à la lie. Il ne s’agit bien sûr que d’une série de conseils quelques peu épars qui mériteraient très certainement d’être mieux réfléchis et organisés. Je serai d’ailleurs très heureux de lire d’éventuels commentaires à ce petit texte. Je précise aussi que ceci ne concerne que le web, sans doute le protocole le plus « public » de l’Internet, ou à tout le moins le plus utilisé. Des raisonnement similaires pourraient (et sans doute devbraient) être menés pour les contenus véhiculés via certains autres protocoles du réseau. Notamment, chacun devrait sans doute accorder plus d’importance qu’on n’en accorde aujourd’hui en moyenne à la conservation du courrier électronique, extrêmement fragile et parfois précieux.
Si je m’excuse du caractère aride et mal ficelé de ce texte, j’insiste cependant encore une fois pour conclure sur le fait qu’il est souhaitable de se préoccuper de ces questions à présent, ne serait-ce parce que nous avons tout intérêt à nous donner les moyens d’une mémoire, qui est bien souvent la condition sine qua non de certaines luttes politiques.
Messages
1. Archiver le web, il devient temps d’y penser, 8 avril 2007, 16:43, par Nicolas Krebs
Sur ce sujet de l’archivage et en complément des recommandations techniques de votre article, je me permets de vous signaler les articles suivants de :
Stéphane Bortzmeyer, « RFC 4810 : Long-Term Archive Service Requirements », bortzmeyer.org, mars 2007, http://www.bortzmeyer.org/4810.html,
Xavier Roche, « Capture de sites en ligne », http://bnf.httrack.com/, document d’accompagnement de sa présentation à la conférence Internet : la mémoire courte ?, 22 avril 2004,
(collectif), « RFC 4810. Long-Term Archive Service Requirements », IETF, mars 2007,
Tim Berners-Lee, « Les URLs sympas ne changent pas », 1998, traduction Karl Dubost, http://www.la-grange.net/w3c/Style/URI.
1. Archiver le web, il devient temps d’y penser, 9 avril 2007, 05:21, par François Schreuer
Références très utiles. Merci.
2. Archiver le web, il devient temps d’y penser, 13 avril 2007, 21:15, par Al1 JuP
J’ai pas compris, faut archiver tous les skyblogs pour pouvoir les relire dans 20 ans ?
C’est vrai que c’est important, si on ne le fait pas tout de suite, l’hummanité pourrait bien ne jamais s’en relever.
Ce n’est pas comme si tous les sites un minimum intéressants (presse, universités...) n’archivaient pas déjà leurs données. soit dit en passant les organismes en question le faisait déjà avant même la naissance de Michel Drucker.
1. Archiver le web, il devient temps d’y penser, 14 avril 2007, 01:37, par François Schreuer
Je pense que vous vous trompez, les « sites un minimum intéressants », comme vous dites, sont loin de tous se préoccuper de leur archivage, en ce compris la presse ou, dans une moindre mesures, les universités (dont la gestion du web est bien souvent très décentralisée, de sorte que les pratiques varient beaucoup). Et bien sûr, il y a un certain nombre de blogs, sur la plate-forme que vous citez ou sur d’autres, qui contiennent des choses très intéressantes à préserver, ce dont très peu de monde se soucie à l’heure actuelle.
Cela dit, j’avais surtout en tête le monde associatif, les partis politiques, les syndicats, les collectifs actifs dans diverses luttes — en un mot : le web militant — où la question de l’archivage est généralement purement et simplement ignorée alors que l’intérêt historique est potentiellement important puisque c’est là que se passe une bonne partie du débat d’idées, lequel n’est pas sans impact sur nos choix collectifs ; lequel est aussi un bon indicateur des représentations sociales en vigueur. Bref, il s’agit d’un matériau qui sera utile aux historiens.
Mais surtout, il faut s’entendre sur ce qu’on entend par « archivage ». Une chose est de faire des copies sur CD-ROM des fichiers constituant un site web (ce qui se fait ici et là, mais est loin de constituer la panacée, dans la mesure où il est tout sauf certain que cette sauvergarde sera aisément exploitable dans le futur, sans parler de son accessibilité ou de ses conditions de conservation), une autre est de permettre la sauvergarde stratifiée de ce site dans des bases de données qui seront demain accessibles aux chercheurs ; chose qui implique l’adoption de bonnes pratiques qui étaient l’objet de ce billet ; bonnes pratiques qui sont extrêmement loin d’être en vigueur chez les webmestres concernés.
3. Absence d’interopérabilité des CMS, 25 avril 2007, 22:10, par Stéphane Bortzmeyer
Sans négliger la possibilité de négligece, voire d’oubli délibéré de
promesses passées, devenues bien gênantes, il faut quand même ajouter
qu’il existe peu de normes techniques pour changer de plate-forme de
publication sans tout reprendre. Chaque CMS a son propre schéma de
données et je ne crois pas qu’il existe des moulinettes standard
Spip2Dotclear ou MovableType2Pybloxsom.
Même chose avec les wikis, chacun utilise une syntaxe un peu
différente donc passer de Twiki à Mediawiki ou bien le contraire va
nécessiter de programmer un convertisseur ou bien plus simplement
d’abandonner l’ancien site.
Je discutais l’autre jour avec le webmestre de
l’ICANN et je m’étonnais qu’ils n’utilisent
pas de CMS. Sa réponse a été qu’il n’était pas question de perdre tout
le contenu écrit depuis le début du site, conservé dans des fichiers
HTML faits plus ou moins à la main et qu’il faudrait convertir en cas
de passage à un CMS.
4. Pas besoin de rewriting pour faire des URLs propres, 25 avril 2007, 22:17, par Stéphane Bortzmeyer
Heureusement non. Il existe beaucoup de techniques pour faire des URLs
propres et le module "rewrite" d’Apache n’est qu’une des solutions.
L’excellent article de Tim
Berners-Lee « Cool URIs don’t
change » prend justement bien soin de ne privilégier aucune technique
particulière.
1. Pas besoin de rewriting pour faire des URLs propres, 26 avril 2007, 03:11, par François Schreuer
Merci.
Je sucre le passage incriminé.