Deux études récentes révèlent que la durabilité des informations sur le web est loin d’être garantie.
La première traite des liens DOI et montre qu’environ 27 % des documents ne sont pas conservés dans des archives pérennes. La seconde étude indique que 25 % des pages web créées il y a dix ans ont disparu, et de nombreux liens sur ces pages sont brisés. Ces résultats mettent en lumière les défis de la préservation de l’information numérique à long terme.
C’est un grand changement si on se réfère à l’ère du papier qui a débuté en 1 450 et a duré environ cinq siècles sans partage. En effet, pendant cette période, le support papier pour l’information paraissait relativement éternel préservé au moins pendant très longtemps dans les bibliothèques sauf incident majeur tel qu’un incendie ou les conséquences d’un conflit armé.
Tous les documents sous forme électronique (articles, comptes rendus de conférences, ouvrages…) se voient attribuer depuis 1998 un numéro de DOI (digital object identifier) de même que certains documents imprimés, même publiés avant 1998.
Ce DOI est le plus souvent attribué par l’éditeur, mais, par exemple pour un preprint l’auteur cherchera une archive qui attribue des DOIs.
Le DOI est une suite de caractères alphanumériques commençant par « 10. ». Il est lié de façon définitive au document auquel il est rattaché quels que soient ses mouvements, et même en cas de disparition de l’éditeur.
L’International DOI Foundation attribue à chaque « DOI registration agency » un préfixe unique qui vient après le « 10. ».
Chaque agence fournit ensuite à ses organisations membres (éditeurs, sociétés savantes…) des DOIs à attribuer à leurs publications (articles, livres, jeux de données…) intégrant son préfixe.
Ces agences gèrent un système de « résolution » de DOI permettant de faire le lien entre un DOI et l’emplacement en ligne de la ressource identifiée même si elle a été déplacée.
Les principales agences d’enregistrements de DOIs sont CROSSREF pour les publications académiques, DataCite pour les jeux de données de recherche, EIDR (Entertainment Identifier Registry) pour les films, les émissions de télévision, les enregistrements de spectacles, les podcasts et autres documents audiovisuels d’intérêt commercial ou culturel.
Il existe aussi des agences à vocation plus territoriales comme KISTI (Korean DOI Center) pour la Corée du Sud, CNKI (China National Knowledge Infrastructure) pour la Chine, ce dernier proposant également une banque de données de publications scientifiques chinoises.
Martin EVE, un chercheur de l’université anglaise de BIRBECK à Londres qui travaille aussi pour Crossref en tant que « principal R&D developer » s’est interrogé sur la réelle pérennité des liens permettant, à partir d’un DOI, d’accéder au document (1).
L’auteur a considéré que, pour garantir un accès pérenne au document, il était préférable qu’il soit présent dans plusieurs archives (instances de préservation).
Il a mené une étude en avril 2023 à partir des documents dont les DOIs sont attribués par des membres de Crossref.
Comme il n’était pas question de travailler sur les 144 millions de documents concernés, il a extrait de façon aléatoire 1 000 DOIs issus de chaque membre, ce qui l’a conduit à un total de près de 7,5 millions de DOIs.
Le professeur Eve a d’abord considéré qu’un document avait plus de chances d’être retrouvé dans le futur s’il était stocké dans plusieurs archives.
En définissant un critère relativement complexe, il a constaté que seul un petit nombre, soit 204 membres de Crossref, soit 0, 96 % préservaient au moins 75 % de leurs documents dans au moins trois archives. On trouvera dans l’article de cet auteur d’autres mesures selon des critères analogues et détaille des résultats inquiétants.
Déjà abonné ? Connectez-vous...