La pérennité en question des informations sur le web

François LIBMANN

Bases no

425

publié en

2024.05

3574

Acheter ce no

Les deux études récentes que nous allons présenter portent sur l'accessibilité de l'information sur le web. Elles montrent que la possibilité de se connecter pour accéder à ces informations a une fâcheuse tendance à diminuer à mesure que le temps passe.

La première étude est consacrée à la pérennité des liens attachés à un DOI (digital object identifier), très souvent un article scientifique tandis que la seconde s’est attachée d’une part à l’accessibilité dans la durée des pages web et, d’autre part à la pérennité des liens présents dans une page web.

Plusieurs millions d’articles deviendraient inaccessibles sur Internet

L’analyse à partir des DOIs

Tous les documents sous forme électronique (articles, comptes rendus de conférences, ouvrages…) se voient attribuer depuis 1998 un numéro de DOI (digital object identifier) de même que certains documents imprimés, même publiés avant 1998.

Ce DOI est le plus souvent attribué par l’éditeur, mais, par exemple pour un preprint l’auteur cherchera une archive qui attribue des DOIs.

Le DOI est une suite de caractères alphanumériques commençant par « 10. ». Il est lié de façon définitive au document auquel il est rattaché quels que soient ses mouvements, et même en cas de disparition de l’éditeur.

L’International DOI Foundation attribue à chaque « DOI registration agency » un préfixe unique qui vient après le « 10. ».

Chaque agence fournit ensuite à ses organisations membres (éditeurs, sociétés savantes…) des DOIs à attribuer à leurs publications (articles, livres, jeux de données…) intégrant son préfixe.

Ces agences gèrent un système de « résolution » de DOI permettant de faire le lien entre un DOI et l’emplacement en ligne de la ressource identifiée même si elle a été déplacée.

Les principales agences d’enregistrements de DOIs sont CROSSREF pour les publications académiques, DataCite pour les jeux de données de recherche, EIDR (Entertainment Identifier Registry) pour les films, les émissions de télévision, les enregistrements de spectacles, les podcasts et autres documents audiovisuels d’intérêt commercial ou culturel.

Il existe aussi des agences à vocation plus territoriales comme KISTI (Korean DOI Center) pour la Corée du Sud, CNKI (China National Knowledge Infrastructure) pour la Chine, ce dernier proposant également une banque de données de publications scientifiques chinoises.

Une recherche à partir de Crossref

Martin EVE, un chercheur de l’université anglaise de BIRBECK à Londres qui travaille aussi pour Crossref en tant que « principal R&D developer » s’est interrogé sur la réelle pérennité des liens permettant, à partir d’un DOI, d’accéder au document (1).

Méthodologie :

L’auteur a considéré que, pour garantir un accès pérenne au document, il était préférable qu’il soit présent dans plusieurs archives (instances de préservation).

Il a mené une étude en avril 2023 à partir des documents dont les DOIs sont attribués par des membres de Crossref.

Comme il n’était pas question de travailler sur les 144 millions de documents concernés, il a extrait de façon aléatoire 1 000 DOIs issus de chaque membre, ce qui l’a conduit à un total de près de 7,5 millions de DOIs.

Le professeur Eve a d’abord considéré qu’un document avait plus de chances d’être retrouvé dans le futur s’il était stocké dans plusieurs archives.

En définissant un critère relativement complexe, il a constaté que seul un petit nombre, soit 204 membres de Crossref, soit 0, 96 % préservaient au moins 75 % de leurs documents dans au moins trois archives. On trouvera dans l’article de cet auteur d’autres mesures selon des critères analogues et détaille des résultats inquiétants.

Déjà abonné ? Connectez-vous...

Connexion

Précédent 88 / 628 Suivant

L’expertise humaine qui donne du sens à l'IA