SciELO (Scientific Electronic Library Online) est un programme de coopération internationale dont l’objectif est le développement du libre accès aux publications scientifiques des pays latino-américains, des Caraïbes, de l’Espagne et du Portugal. Ce libre accès est une ligne d’action prioritaire depuis 2019 de ce programme et l’objectif est que tout le contenu soit en libre accès d’ici à la fin de 2025. Un autre objectif est le développement du multilinguisme entre le portugais, l’espagnol et l’anglais, l’anglais étant de plus en plus présent pour augmenter la visibilité et la reconnaissance à l’international de ces publications. SciELO est aussi et surtout une banque de données bibliographique qui propose aujourd’hui 1 219 260 références bibliographiques.
Née au Brésil en 1997 avec le soutien de plusieurs organismes publics, SciELO intègre aujourd’hui les publications de 19 pays à savoir le Brésil, le Mexique, la Colombie, le Chili, l’Argentine, Cuba, l’Espagne, l’Afrique du Sud, le Portugal, le Venezuela, Costa Rica, la Bolivie, l’Uruguay, l’Équateur, le Paraguay et les Antilles. Le Brésil en fournit à lui seul plus de 42 % suivi par le Mexique, la Colombie et le Chili. On trouve en dernière position le contenu en provenance des Antilles avec 1,6 pour mille (1 979 références), anecdotique mais présent. Plus précisément, en ce qui concerne les Antilles, le seul contributeur est The University of The West Indies à la Jamaïque qui publie le West Indian Medical Journal, lequel est disponible aussi sur Scopus, Web of Science, EBSCO ainsi que les bases de données Embase et Biosis.
AskAdis est une interface innovante utilisant l’intelligence artificielle pour fournir des synthèses complètes sur le développement de médicaments. Elle offre des informations validées sur les essais cliniques et les propriétés des médicaments, avec une présentation moderne et intuitive.
Adis est une société spécialisée dans la fourniture de services d’informations et de solutions aux professionnels de la santé et de l’industrie pharmaceutique. Fondée en 1969, Adis fait aujourd’hui partie du groupe Springer Nature.
Elle édite une trentaine de publications spécialisées, offre différents services et propose plusieurs banques de données essentiellement consacrées aux étapes de développement de médicaments.
La Fondation Bill et Melinda Gates créée en janvier 2 000 s’est donné pour mission d’améliorer les conditions de vie des populations défavorisées à travers le monde, en se concentrant initialement sur la santé mondiale, les bibliothèques et l’éducation dans le nord-ouest du Pacifique.
En 2006, la Fondation a été restructurée pour inclure des divisions dédiées au développement mondial et à la santé mondiale, en plus de ses activités aux États-Unis.
Au fil des années, elle a élargi ses domaines d’intervention, notamment dans la lutte contre les maladies, l’éducation, le développement agricole et l’adaptation au changement climatique en Afrique et en Asie.
La Fondation finance des projets de recherche qui lui sont soumis en privilégiant, outre l’excellence scientifique, les projets collaboratifs ayant un fort potentiel d’impact positif sur les populations les plus vulnérables, en accord avec sa mission philanthropique.
Au sommaire de ce numéro, 3 actualités soigneusement sélectionnées qui pourront avoir un impact sur les professionnels de l’info, veilleurs et analystes à court ou moyen terme.
Google SGE met en avant des pages habituellement absentes de la première page
IST et IA – Le passage à l’indexation automatique dans Medline et Pubmed : 47% des articles contiennent désormais des erreurs
L’essor des newsletters locales
Une récente analyse d'Authoritas sur Google SGE (la fonctionnalité d’IA de génération de réponses directement intégrée en haut des résultats de Google mais qui n’est pas encore disponible en Europe) a révélé que les réponses générées par SGE ne correspondent presque jamais (dans 93.8% des cas) aux liens des 10 premiers résultats de recherche organique.
Cela pourrait donc permettre à des sites habituellement mal référencés ou en tout cas absents du top 10 d’être plus visibles. Et par extension, pour le professionnel de l’information de voir des pages et sites pertinents qu’il n’avait pas nécessairement l’habitude de voir apparaître. Mais attention à ne pas se réjouir trop vite : SGE vient tout juste d’arriver et personne ne sait encore quelles sont les techniques et méthodes pour réussir à bien s’y positionner. Quand ce sera le cas, il est possible que les sites habituellement bien référencés reprennent tout simplement leur position de leaders…
Toujours est-il qu’il y a quand même une tendance générale à vouloir mieux faire émerger des contenus de qualité, mais peu visibles :
Et sinon, on peut continuer à utiliser les méthodes des professionnels des informations pour aller dénicher des pépites et trésors sur le Web :
- Sourcing, de la théorie à l’épreuve de la pratique
- Comment enrichir son sourcing grâce à Google Sheets, Airtable & les autres ?
- Identifier des podcasts pour sa veille
- Sourcing : comment détecter des médias réellement nouveaux ?
- Veille internationale : comment trouver des sources en langue étrangère ?
On s’intéressera maintenant à une présentation qui a été faite lors de la conférence annuelle 2023 de l’association des bibliothèques de la santé du Canada et dont le support vient d’être récemment mis en ligne à propos de l’usage de l’indexation (MeSH) par IA dans Medline.
On rappellera que dans Medline et PubMed, les articles sont indexés avec un système de mots-clés hiérarchisés appelé MeSH (Medical Subject Headings). Et cela s’avère très utile pour la recherche d’information.
Depuis avril 2022, tous les articles se voient attribués leur MeSH via l'indexation automatisée (IA). La présentation examine la capacité de l'IA à identifier et représenter correctement les concepts clés d'un article. Les résultats montrent que 47 % des articles examinés présentaient des problèmes au niveau des MeSH, affectant ainsi leur récupération potentielle lors de recherches.
Le basculement à un système d’indexation 100% IA montre à ce stade une dégradation de la qualité de l’indexation et par extension de la recherche. Car on aura dans les résultats à la fois plus de bruit avec des articles non pertinents qui ont reçu des MeSH qui ne les concernent pas et à la fois un risque accru de passer à côté d’articles pertinents qui, eux, n’ont pas reçu le(s) MeSH qu’ils devraient avoir.
La recherche via l’indexation MeSH ne peut ainsi plus, à ce stade, être considérée comme aussi fiable que le passé et nécessite une attention accrue.
Il est donc nécessaire de ne pas se reposer uniquement sur l’indexation pour effectuer ses recherches mais aussi de réaliser des recherches par mot-clés classiques sur le titre, abstract, etc.
On comprend en lisant la présentation que la vérification par un humain de l’indexation automatisée n’a ici rien de systématique : « Selon la NLM (National Library of Medicine), les MeSH attribués par l'IA sont déterminés sur la base des termes du titre, du résumé et des termes et de l'indexation des enregistrements "voisins et connexes", avec un examen humain et une curation des résultats "le cas échéant". »
Et cela n’augure rien de bon pour l’avenir de Medline et Pubmed en termes de qualité d’indexation. L’IA peut indéniablement avoir un rôle à jouer pour l’indexation en faisant gagner du temps et en ingérant de très gros volume de données mais l’IA fait aussi beaucoup d’erreurs et a besoin d’être améliorée, corrigée et entraînée en permanence. Il y a donc besoin d’une couche de vérification humaine pour corriger les erreurs mais aussi améliorer l’algorithme.
Sur ce thème, on conseillera un récent épisode du podcast « Le code a changé » de France Inter intitulé « Les dames de l’algorithmes » qui nous parle d'un groupe d'annotatrices travaillant pour le Palais de Justice et qui entraînent un programme d'IA sur un programme d'anonymisation automatique des décisions de justice. Et qui nous rappelle par la même occasion que l’IA n’a rien de magique et que derrière, il y a souvent beaucoup d’humain !
Pour aller plus loin sur la question de l’intégration de l’IA dans les métiers de l’information :
Faire de la veille, c’est d’abord réussir à identifier les meilleures sources d’information sur les sujets qui nous intéresse. Et ces sources peuvent se présenter sous de multiples formats : sites Web, blogs, comptes sur les réseaux sociaux, mais aussi de plus en plus newsletters.
Et l’une des tendances que l’on peut observer du côté des newsletters, c’est la multiplication de newsletters locales ou hyperlocales développées par des médias et journalistes à travers le monde.
Le magazine britannique The Lead a par exemple annoncé le lancement de 10 newsletters locales, chacune dédiée à une ville du nord de l’Angleterre. Toujours en Angleterre, on retrouve ce modèle de newsletter locale comme avec The Mill, une newsletter d’actualités dédiée à la ville de Manchester ou The Sheffield Tribune pour la ville de Sheffield. Et en France, Nice Matin ne cesse de développer son offre de newsletters locales. Derniers ajouts en date : FicaNice pour Nice et De la Rade au Faron pour Toulon.
Quand on a une dimension locale à inclure à sa veille en France ou à l’international, on ne pense pas nécessairement aux newsletters locales, d’autant que les newsletters ont eu un gros passage à vide pendant des années avant de revenir en force depuis quelques années (voir notre article de 2021 « Substack ou le symbole du retour en force des newsletters pour la veille »).
On a donc grandement intérêt à aller investiguer dans la direction de newsletters locales même si elles ne sont pas toujours faciles à identifier.
Dans notre récent article « Sourcing : l'info locale se renouvelle », on décrypte pour vous cette tendance des newsletters locales mais aussi les nouvelles formes que peut prendre l’information locale bien loin du schéma traditionnel du titre de presse classique et on vous explique comment réussir à les identifier.
L’Information scientifique et technique intéresse particulièrement les développeurs d’outils IA. En 2023, nous avons repéré au total plus de 20 outils IA spécifiquement dédiés à l’IST. Voici un tour d’horizon, le plus complet possible, pour aider le professionnel de la recherche d’information et de la veille à y voir plus clair et comprendre quelle place leur donner dans son activité.
Si les outils IA dédiés à l’IST s’adressent avant tout aux chercheurs, nombre d’entre eux sont également adaptés aux pros de l’info. Leur promesse ? Gain de temps et augmentation de la productivité, aux niveaux de la recherche d’information, de l’analyse et de la rédaction.
Pour cela, ces outils proposent notamment les fonctionnalités suivantes :
● Recherche dans la littérature scientifique ;
● Recommandation d’articles ;
● Résumé automatique et dialogue avec les documents ;
● Extraction de données ou concepts.
Il existe de très nombreuses banques de données bibliographiques de littérature scientifique. Selon les cas, les possibilités de recherche sont plutôt rustiques ou, au contraire, plus ou moins sophistiquées (indexation, opérateurs de proximité, troncatures, conversion des orthographes américaine et anglaises, reconnaissance des abréviations, recherche sur des valeurs numériques, liens citants/cités, recherche par structures chimiques, recherche dans plusieurs banques de données à la fois…).
Europe PMC (https://europepmc.org/) va plus loin même si elle n’offre pas toutes ces possibilités et nous n’hésitons pas à la qualifier de banque de données augmentée car elle permet, d’une part, de focaliser la recherche sur certaines parties d’un article, par exemple les éléments de méthodologie ou les figures. Elle permet aussi, ce qui est original, d’établir, à partir du contenu d’une référence des liens avec plusieurs banques de données externes plutôt factuelles/numériques, spécialisées dans le domaine des sciences de la vie telles que ChEMBL-small molecules ou MGnify-Metagenomics.
Sur Dialog, nous effectuons en général, pour commencer, une recherche sur l’ensemble des banques de données disponibles et, dans un deuxième temps, sélectionnons, au vu des résultats, les banques de données dans lesquelles nous allons poursuivre la recherche.
Voilà un moment que, sur Dialog, nous avions remarqué qu’il arrivait souvent qu’une référence d’Embase (coût 13,24 $) apparaisse alors que la référence au même document dans Medline (coût 3,29 $) était également disponible sur le serveur.
Bien sûr, ces deux bases de données ne sont pas identiques, mais les références communes sont nombreuses et si les abstracts semblent identiques pour ces références communes, les indexations sophistiquées sont propres à chaque base.
Nous avons enfin fini, grâce au service assistance, par comprendre le mécanisme et pouvoir choisir d’obtenir la référence issue de Medline plutôt que celle issue d’Embase.
Cela fait plusieurs années que Questel n’avait pas organisé physiquement une réunion d’utilisateurs comme c’était le cas auparavant, ce qui a fait que celle organisée récemment a été fort bien accueillie.
Pendant ce temps, la vie ne s’est pas pour autant arrêtée pour Questel, qui a continué ses acquisitions de sociétés dans le domaine de la propriété intellectuelle, 18 en cinq ans, portant le groupe à un effectif de 1 700 salariés.
Ces acquisitions ont conduit Questel à ne plus être juste un fournisseur de logiciel mais une plateforme de gestion de la propriété intellectuelle au service de tous types de professionnels de la propriété intellectuelle. Questel définit maintenant sa mission de la façon suivante : « répondre à tous les besoins au long du cycle de vie des titres de propriété intellectuelle ». Cela se traduit par une proposition d’externalisation de la plupart des actes administratifs dans la gestion d’un portefeuille de brevets, en liaison avec le conseil en propriété intellectuelle ou l’expert interne.
Il y a quelques années, on avait pu voir émerger des outils d’exploration des réseaux de citations des articles scientifiques. Ces outils s’avèrent très utiles pour trouver des articles scientifiques pertinents que l’on n’aurait pas forcément identifiés lors d’une recherche par mot-clé classique et sont donc complémentaires aux moteurs académiques.
Parmi cette première génération d’outils, il existait deux grandes catégories : ceux qui étaient visuels proposant donc une représentation graphique, et ceux qui étaient uniquement textuels
Voir notre article « La recherche de citations et de références boostées par l’IA et les “open citations” » paru en avril 2019 - BASES n° 369.
Si les outils textuels ont bien résisté et ont aujourd’hui une place de choix dans le paysage de l’IST, les outils visuels n’ont pour la plupart pas eu le même destin. Parmi les outils de dataviz de première génération, on comptait des acteurs comme Citigraph, Yewno ou encore Citation Gecko, qui ont tous fermé leurs portes. Dans cette catégorie, seul VosViewer continue sa route et a été intégré très discrètement au moteur académique Dimensions.
Au cours des deux dernières années, une nouvelle génération d’outils visuels d’exploration des réseaux de citations est apparue, avec une petite dizaine d’acteurs cette fois-ci, toujours portée par l’amplification du mouvement de l’open (open access et open citations) dans le monde académique.
Dans cet article, nous dressons un panorama de ces différents outils et de leurs spécificités. Nous les avons également tous testés pour évaluer leur performance et vous aider à faire le bon choix.