Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Les 20 ans de Google Scholar : un tournant ?

FRANCOIS LIBMANN
Bases no
430
publié en
2024.11
182
Les 20 ans de Google Scholar : un tournant ? Image 1
Les 20 ans de Google Scholar : un tournant ? Image 1

Google Scholar a été créé en 2004 par deux chercheurs. Son objectif a été et est toujours de référencer de grandes quantités d’articles, de rapports, de comptes-rendus de conférences, de livres ou de thèses pour peu qu’ils relèvent du secteur académique.

Sa devise « Standing on the shoulders of giants » signifie que Google Scholar existe parce que des chercheurs ont écrit et accumulé d’immenses quantités de connaissances. Cela a justifié la création de Google Scholar pour aider à naviguer dans cet océan d’information et y trouver des réponses à ses questions.

Google Scholar est beaucoup utilisé, et depuis longtemps, par un grand nombre de chercheurs

Les raisons de cette large utilisation sont très simples.

D’une part, l’accès est gratuit alors que de nombreuses sources d’information scientifique sont payantes. C’était particulièrement vrai il y a vingt ans, mais moins aujourd’hui.

D’autre part, l’étendue de sa couverture a pour conséquence qu’il est rare de ne pas trouver au moins quelques réponses intéressantes et bien souvent un nombre non négligeable à une question scientifique.

Enfin, son utilisation est simple, voire très simple, même si quelques possibilités avancées sont disponibles bien que pas toujours très mises en avant.

En revanche, la troncature n’existe pas alors que c’est un « must » pratiquement partout. On ne peut pas non plus entrer une chaîne de recherche experte sans même parler de combinaisons d’étapes totalement impossibles.

En ce qui concerne le traitement des réponses, leur nombre est limité à 1 000 ce qui est largement suffisant pour une simple lecture, mais ne l’est plus pour faire du data mining.

Aujourd’hui, Google Scholar est quelque peu sur la sellette.

Même si ses utilisateurs semblent être toujours aussi nombreux, on voit poindre une série de critiques plus ou moins fondamentales.

On rappellera la critique, existant pratiquement depuis l’origine, concernant l’opacité systématique du « process de fabrication ». En effet, on ne connaît pas la liste de sources utilisées, pas plus que le nombre de documents indexés ou l’algorithme de sélection des informations.

Cela a pour conséquence qu’il est impossible, par exemple, de limiter les réponses à celles issues de publications à comité de lecture.

Il semblerait, d’autre part, que l’algorithme de sélec­tion des réponses accorde une grande impor­tance au nombre de fois où l’article est cité. Cela a pour conséquence de privilégier les articles anciens, car plus souvent cités.

On parle maintenant aussi de manipulations, en particulier d’achat de citations, d’« envahissement » par des articles écrits par de l’IA, représentant une menace de submersion de la « bonne science » par de la « mauvaise science ». Certains s’inquiètent aussi de la pérennité du financement de Google Scholar qui est à l’entière discrétion de Google.

Par ailleurs une large concurrence existe maintenant. Si PubMed/Medline, dans le domaine biomédical, est depuis longtemps (en fait, bien avant la naissance de Google Scholar) une alternative beaucoup plus transparente, de nombreux moteurs gratuits on fait leur apparition ces derniers temps comme The Lens, Dimensions, Open Alex et bien d’autres. Google Scholar n’est donc plus le seul ou presque à proposer des recherches gratuites de documents scientifiques dans un corpus de taille importante.

Reprenons les différents éléments critiques

Le mystère de la taille de l’index de Google Scholar

La taille de Google Scholar a toujours été un mystère et le reste.

Quelques chiffres, assez anciens, circulent, ils vont de 100 à 400 millions de documents, ce dernier chiffre correspondant aux estimations les plus récentes. Tout ce que l’on peut dire est que l’on y trouve des documents académiques, couvrant des publications scientifiques de différentes époques et disciplines.

Sont référencés aussi bien des publications de grands éditeurs scientifiques, qu’elles soient gratuites ou payantes, que des rapports ou des thèses. De plus, pour certains articles, c’est le texte intégral qui est indexé, même s’il s’agit d’un article qui n’est pas en open access.

Quant au nombre de visiteurs, le mystère est, là aussi, bien entretenu. José Luis Ortega, un « bibliométricien » espagnol, l’estime à plus de 100 millions par mois.

Citations à vendre

L’achat de citations à faire figurer dans Google Scholar pour embellir frauduleusement son CV est une pratique bien documentée.

tags

Déjà abonné ? Connectez-vous...

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...