A l’origine, les moteurs de recherche comme Google, Bing ou encore Yahoo permettaient de voir s’afficher tous les résultats citant les termes d’une requête, à condition bien sûr que les pages soient bien présentes dans leurs index.
Les moteurs de recherche visaient l’exhaustivité du Web ouvert là où les annuaires opéraient déjà une sélection.
Les moteurs offraient une bonne vision d’ensemble des contenus gratuits présents sur le Web là où les outils de recherche et de veille professionnels tiraient leur épingle du jeu sur les contenus payants ou des fonctionnalités de recherche plus sophistiquées.
Mais aujourd’hui, recourir à Google en pensant pouvoir accéder à la majorité des pages Web et contenus Web gratuits citant les termes de sa requête est un leurre.
En effet, quelle que soit la requête, Google, Bing et les autres n’affichent pas l’intégralité des pages correspondants à la requête. Ils opèrent une sélection des pages présentes dans leurs index.
Et cela a des conséquences importantes pour la veille et la recherche d’information.
L’écart entre le nombre de résultats affiché et le nombre de résultats réel n’est pas nouveau.
Mais comme il n’y a guère que les professionnels de l’information ou presque pour consulter les résultats au delà des 2/3 premières pages, la majorité des internautes ne s’en rendent même pas compte.
Si par exemple nous effectuons une requête sur le terme Obama dans Google sans aucune limite de date, Google nous annonce 312 millions résultats, chiffre qui passe d’ailleurs à 96 millions si nous relançons la même requête 2 minutes plus tard puis à 92 millions quelques secondes plus tard.
Mais ce qui est plus grave, c’est que Google effectue sa propre sélection de résultats.
En effet, si l’on décide de consulter toutes les pages de résultats, on se rend compte qu’il n’y a en réalité que 216 résultats, chiffre qui est d’ailleurs passé à 145 quand nous avons relancé la même recherche quelques minutes plus tard.
Comment est-il possible qu’une recherche sur le terme Obama sans limite de date ne génère que quelques centaines de résultats ?
Il est en effet impossible que l’index de Google, estimé à 130 mille milliards de pages à la fin de l’année 2016 ne contienne qu’une centaine de résultats citant Obama...
Depuis quelques temps déjà, nous constatons d’ailleurs que, quelle que soit la requête, Google affiche rarement plus de 500 résultats.
Sur la dernière page de résultats de notre recherche sur Obama, Google nous indique :
"Afin d'afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 216 entrées actuelles.
Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis."
On pourrait être tenté de croire qu’en relançant la recherche sur les résultats omis, on aurait ainsi accès à l’ensemble des résultats citant nos mots-clés présents dans l’index de Google. Or, il n’en est rien...
Et le problème est le même sur tous les autres moteurs généralistes. Nous avons effectué le même test sur Bing, Qwant ou encore DuckDuckGo et force est de constater, qu’à chaque fois, la liste de résultats n’est qu’une sélection de résultats jugés pertinents par le moteur lui-même.
Si ces changements sont peu visibles pour la majorité des internautes qui cherchent généralement une réponse rapide à une question simple ou un document ou contenu précis, cela pose en revanche un véritable problème pour les entreprises, qui recherchent une information traçable et validée.
A lire aussi : Google et les professionnels de l’information : je t’aime moi non plus
Car finalement, ce sont Google, Bing et les autres qui essayent d’interpréter ou deviner nos intentions derrière notre requête et déterminent à notre place ce qui est pertinent et filtrent automatiquement l’information.
Ils deviennent curateurs et documentalistes interrogeant leurs propres index. Ils se positionnent en lieu et place des professionnels de l’information mais sans aucun dialogue avec l’usager ou le client afin de comprendre véritablement sa question ou son besoin.
Dans un contexte de veille ou recherche d’information, le risque est donc grand de passer à côté d’une information pertinente.
Nous avons fait plusieurs tests pour évaluer ce que cette sélection opérée par Google engendrait concrètement dans un contexte de veille et de recherche d’information.
Nous avons tout d’abord effectué une recherche sur une société, en l’occurrence Pizzorno une société française spécialisée dans la gestion des déchets dans l’idée de réaliser un profil d’entreprise détaillé.
Une recherche dans Google sur le terme Pizzorno sans limite de date génère 317 résultats.
La même recherche dans Pressedd, un agrégateur de presse française qui indexe plusieurs milliers de titres de presse génère 5977 résultats.
Et on constate qu’un nombre non négligeable d’articles repérés sur Pressedd sont également indexés par Google. Mais une minorité d’entre eux apparaissent dans les 317 résultats de notre recherche sur Google conduisant inévitablement à réaliser un profil d’entreprise comportant de sérieuses lacunes.
Une recherche sur un nom de personne conduit au même constat.
Nous avons ainsi cherché à lister tous les articles écrits par Valérie Ségond, une journaliste du Monde sur ce même support.
Si on entre sur Google Valérie Segond site:lemonde.fr, Google nous affiche 278 résultats.
Une recherche simple sur Google en entrant Valérie Segond génère quant à elle 132 résultats parmi lesquels seuls 78 résultats proviennent du site lemonde.fr nous faisant ainsi passer à côté de 200 résultats a priori pertinents.
Le mythe selon lequel Google permet d’accéder à l’intégralité des contenus présents sur le Web ouvert est définitivement enterré.
Et cela renforce l’approche professionnelle et experte de la recherche d’information et de la veille. A condition que le public ait conscience des limitations de Google et des autres moteurs de recherche généralistes, ce qui exige un important travail de sensibilisation et de formation de la part des professionnels de l’information.
Face aux dernières évolutions des moteurs, la valeur ajoutée des documentalistes se situe dans leur conscience des limitations de ceux-ci et leur capacité à les interroger en toute connaissance de cause, avec une méthodologie rigoureuse et traçable. Mais aussi et surtout, les professionnels de l’information disposent d’une excellente connaissance des sources d’information pertinentes et des outils de recherche alternatifs et professionnels comme les bases de données, agrégateurs de presse, moteurs thématiques, etc.
La transformation progressive des moteurs de recherche en moteur de réponses oblige à repenser complètement sa façon d’interroger les moteurs de recherche généralistes.
Cela sera l’objet de notre prochain article : « Comment bien interroger Google, Bing et les autres en 2018 ? »
Sur ce sujet, nous vous invitons aussi à venir assister et débattre à la table-ronde « L’intelligence artificielle va-t-elle tuer ou renforcer les moteurs de recherche ? » à laquelle nous participerons et qui aura lieu au salon I-expo le 21 mars prochain de 15h15 à 16h15.
Auteur : Carole Tisserand-Barthole, rédactrice en chef de BASES et NETSOURCES