Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

L’information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?

Carole Tisserand-Barthole
Bases no
363
publié en
2018.10
596
Réduire Augmenter Taille de la police
L’information sur le Web est éphémère : quel impact et ... Image 1
L’information sur le Web est éphémère : quel impact et ... Image 1

Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...

Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.

Et, comme nous le verrons par la suite, cette obsolescence rapide des contenus Web ne se limite pas uniquement à ce qui est ancien.

Comment faut-il donc appréhender une recherche d’antériorité sur le Web ? Quelles sont les meilleures méthodes pour retrouver de l’information ancienne via les moteurs classiques ? Comment faire quand l’information n’est plus accessible par ces mêmes moteurs ? Quelles sont aujourd’hui les initiatives d’archivage du Web en Europe et dans le Monde et comment en tirer parti pour la recherche d’information ?

Le Web ouvert n’est pas une archive ouverte

Si les contenus publiés sur le Web ouvert ont l’immense avantage d’être accessibles gratuitement, leur durée de vie n’est malheureusement pas si longue et cela peut avoir un impact dans un contexte professionnel de recherche d’information.

Durée de vie d’un site et d’une page Web

Plusieurs études se sont intéressées à la durée de vie moyenne d’un site Web et d’une page Web et les résultats méritent d’être signalés.

Selon les différentes sources que nous avons pu consulter, la durée de vie moyenne d’un site Web se situe entre 2 et 5 ans.

Et quant à la durée moyenne d’une page Web, les chiffres varient d’une étude à l’autre mais toutes convergent vers une durée de vie plutôt courte :

  • une étude de 1997 parle de 44 jours ;
  • d’autres études de 2002 et 2005 de 75 jours ou encore 100 jours ;
  • une autre étude de 2005 estimait que 40 % des contenus sur Internet disparaissaient en un an, 40% étaient modifiés et 20% seulement restaient à l’identique ;
  • enfin, lors de la conférence « Theory and Practice of Digital Libraries » qui a eu lieu en octobre 2018, l’un des conférenciers indiquait que 80% des pages Web étaient supprimées ou voyaient leur contenu modifié en moins d’un an.

Ainsi, même s’il est impossible de connaître précisément la durée de vie moyenne d’un site et d’une page Web, on peut en conclure aisément qu’elle est courte.

Sur un même sujet et une même requête, une recherche Web effectuée en 2018 produira des résultats différents d’une recherche effectuée en 2017, en 2016 et ainsi de suite...

Quelles sources sont les plus impactées ?

Cependant, tous les contenus publiés sur le Web ouvert ne sont pas impactés de la même manière. Car pour les informations structurées, même si l’information disparaît de son site d’origine, il existe souvent des sources, outils et bases de données gratuits ou payants qui conservent une grande antériorité.

Pour la presse en ligne par exemple, on peut retrouver aisément des articles anciens en se tournant vers les bases de données et agrégateurs de presse. Les bases de données sont aussi d’un grand secours pour les données financières ou les statistiques anciennes.

Et pour la production scientifique et les brevets en libre accès, il existe des bases de données et serveurs scientifiques et brevets qui proposent une très grande antériorité.

Mais pour les informations publiées sur d’autres types de sites et pages Web, on se retrouve beaucoup plus démuni...

On pensera notamment aux :

  • sites d’entreprises ;
  • pages et sites personnels ;
  • blogs ;
  • sites institutionnels ;
  • sites d’associations ;
  • sites universitaires ;
  • sites de salons et conférence ;
  • etc.

Et quand ces sites ferment leurs portes ou sont tout simplement refondus, les contenus mais également les documents qui y sont hébergés et qui sont souvent de grandes valeurs disparaissent parfois à tout jamais du Web.

On pensera ainsi aux rapports techniques, notes, évaluations, guides, newsletters, protocoles, etc. qui s’apparentent à ce qu’on appelle la « littérature grise »1.

Quand on effectue une recherche sur les moteurs Web, il faut donc avoir conscience que certains résultats Web pertinents n’existent peut-être déjà plus ou n’apparaissent pas ou plus dans les résultats proposés. On rappellera en effet que Google propose de moins en moins de résultats visualisables (aux alentours de 200/300 seulement maximum).

Quelle méthode adopter pour retrouver ces contenus dont on ne soupçonne même pas toujours l’existence ?

tags

Déjà abonné ? Connectez-vous...

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...