Véronique Mesguich a publié récemment publié la deuxième édition de « Rechercher l’information stratégique sur le Web » aux éditions Deboeck Supérieur. L’occasion pour nous de discuter avec elle de ce nouvel ouvrage et des challenges qui attendent les professionnels de l’information en 2022.
AM. Libmann : « Rechercher l’information stratégique sur le web » en est donc à sa deuxième édition. On se rappelle la précédente série des Net recherche co-écrits avec Armelle Thomas. À quel moment se rend-on compte qu’il faut refaire un tour complet de la précédente édition ? Et est-ce qu’aujourd’hui le rythme s’accélère dans un contexte de bouleversements permanents ?
V. Mesguich : L’évolution est parfois tellement rapide qu’il faudrait idéalement pour certains points envisager une mise à jour annuelle… ce qui n’est pas très réaliste au regard du temps long de l’écriture et de la publication.
La précédente édition a été publiée en 2018, j’ai démarré la mise à jour fin 2020 pour une parution à l’été 2021. Il est difficile de déterminer le moment le plus opportun pour une nouvelle publication : le rythme de l’innovation, dans le monde de la recherche d’information comme d’autres secteurs, n’est en effet pas linéaire ni continu. Les changements se produisent souvent sous forme aléatoire ou chaotique.
La mise à jour n’a pas consisté seulement à éliminer des outils et sources obsolètes ou ayant disparu : j’ai, entre autres, développé davantage le chapitre consacré à l’analyse, en présentant notamment des solutions de datavisualisation « clés en mains » et assez simples à utiliser, qui illustrent le phénomène de « data démocratisation ».
Bien sûr ces deux dernières années ont été particulièrement singulières, la crise sanitaire a eu un impact sur l’évolution générale du monde du numérique ainsi que les usages, mais a pu paradoxalement ralentir certains projets en cours, comme le déploiement de l’index « Mobile First » chez Google.
Peut-on distinguer des points sur lesquels une « simple remise à jour technique » suffisait et d’autres qui exigeaient en revanche un changement radical de regard ?
Les principales innovations chez les GAFAM, depuis déjà plusieurs années, tournent autour de l’intelligence artificielle. Et l’IA participe à la fois de ce changement de regard (par exemple, avec les algorithmes Rank Brain puis BERT chez Google) et de la remise à jour technique. Je ne pense pas qu’il y ait une distinction flagrante entre les deux, les deux aspects sont liés.
Qu’est-ce qui a profondément changé depuis trois ans dans le domaine de la veille et de la recherche d’information ?
Je distinguerais trois évolutions majeures, dans des registres assez différents.
Concernant les moteurs de recherche, je note une accélération (notamment chez Google, mais suivi par ses désormais rares concurrents) dans le passage d’un modèle de « moteur de résultats » à un modèle de « moteur de réponses ». Cela se traduit par des changements progressifs dans l’affichage des pages de résultats (SERP) : d’abord le knowledge graph, puis les « features snippets », les « autres questions posées »…
Selon une étude récente de Similarweb, les recherches « Zéro clic », c’est-à-dire qui aboutissent à des résultats calculés par Google, atteignent plus de 65 % du total, et ce chiffre est encore plus important sur mobile. Ce n’est pas sans conséquences : d’abord, cela induit une baisse de la fréquentation de sites, mais surtout, pour les utilisateurs, cela conduit à des risques de pensée unique et à une vision très réductrice de la diversité des sources et des points de vue.
Déjà abonné ? Connectez-vous...
Créée en 1998, African Journals Online est une association sans but lucratif basée en Afrique du Sud qui propose le texte intégral de 538 publications académiques africaines à comité de lecture issues de 33 pays.
Les pays les mieux représentés sont :
- Le Nigéria (229 publications) ;
- L’Afrique du Sud (97 publications) ;
- L’Éthiopie (30 publications) ;
- Le Kenya (29 publications) ;
- Le Ghana (27 publications).
Mais quelques pays ne sont présents que par une seule publication, tels que le Bénin, la RDC, la République du Congo, l’Érythrée, le Lesotho, Madagascar, le Mozambique, etc.
Lire aussi :
Recherche d’information académique : enfin une comparaison concrète entre gratuit et payant
Comment bien rechercher l’information scientifique et technique ?
La couverture est plutôt large, allant des sciences dures aux sciences de la vie et aux SHS sans oublier, bien sûr, les études africaines.
Figure 1. Interface d’AJOL
Le texte intégral des articles est en général disponible (nous les avons tous trouvés lors de nos tests) et une grande partie d’entre eux sont en accès libre. Les autres peuvent être achetés au prix de 27 $ US dans les pays à « revenu élevé ».
Le site indique que 260 publications sur les 583 sont en open access, mais il semblerait que dans les autres publications certains articles soient aussi accessibles librement.
Déjà abonné ? Connectez-vous...
L’OMPI (Office mondial de la propriété intellectuelle) offre sous le nom d’INSPIRE un recensement de 35 bases de données brevets disponibles dans le monde dont quelques sites d’offices de brevets (européen, japonais, coréen, russe, OMPI).
Cependant, on ne trouve pas, par exemple, les sites français, américain ou australien, sachant que les offices sont nombreux à proposer une recherche dans leurs collections. On ne trouve pas non plus Google Patent. Cela dit, la liste n’est pas close.
Lire aussi :
Nous avons testé IPRally, l'outil qui veut révolutionner la recherche brevets avec de l'IA
The Lens, un outsider au fort potentiel pour la recherche brevet gratuite
17 critères permettent d'affiner la sélection des bases.
On peut, par exemple, sélectionner les systèmes gratuits (au nombre de 14 sur les 35) ou la possibilité de faire des troncatures à droite, à gauche, au milieu ou des deux côtés (12 sites le permettent) de disposer de la troncature illimitée (dans 20 sites). On peut aussi choisir parmi sept possibilités de recherches sur les structures chimiques.
On prendra garde au fait que certains critères de sélection ne sont pas toujours très clairs ou très utiles, mais la valeur ajoutée de ce service tient clairement à la présence et à la catégorisation de ces 35 systèmes.
Un clic sur le nom d’un système permet d'afficher une fiche de présentation très détaillée.
C’est donc un recensement très utile pour qui envisage de diversifier ses sources d’information brevet, car rares sont ceux qui connaissent ces 35 systèmes.
Figure 1. Interface d’INSPIRE
Dialog a chargé récemment la banque de données bien connue clinicaltrials.com qui est, par ailleurs, accessible gratuitement à cette même adresse.
Cette banque de données présente près de 400 000 essais cliniques réalisés ou en cours de réalisation aux États-Unis et dans 200 pays du monde entier.
Il faut savoir que tous les essais cliniques réalisés ne sont pas présents, car leur enregistrement n’est pas toujours obligatoire.
Chaque document est extrêmement détaillé avec de multiples champs.
Lire aussi :
Dialog devient une source pour l’open access avec la base Publicly Available Content
Dialog : Embase French Literature devient accessible à tous
Dialog s’est enfin décidé à évoluer
Comment bien rechercher l’information scientifique et technique ?
Nous avons fait quelques comparaisons entre la banque de données originale et celle disponible sur Dialog.
Des deux côtés, il nous a été confirmé que les contenus étaient identiques.
Cependant, les façons de rechercher diffèrent notablement, de même que la présentation des résultats sachant que la structure de la base est assez complexe avec une multitude de champs. On remarquera que chaque étude a un titre et un titre officiel qui souvent, ne sont pas identiques.
D’autre part, la recherche simple sur le site ne cherche que dans la rubrique « condition and disease » mais en cherchant aussi des synonymes ce qui n’est pas le cas dans Dialog. Le site offre également une recherche avancée qui offre de nombreuses possibilités.
Par contre, Dialog offre plusieurs avantages : Les sous champs sont plus détaillés, on bénéficie des opérateurs de proximité et de la combinaison d’étapes. Mais l’accès est payant ce qui n’est pas le cas pour le site.
Nous avons, par ailleurs, trouvé un autre site dédié aux essais cliniques qui est plus large puisqu’il propose non seulement les informations de Clinicaltrials.gov mais également celle de sites analogues nationaux du monde entier.
Cette application baptisée International Clinical Trials Registry Platform (ICTRP) est proposée par l’Organisation Mondiale de la Santé.
On y trouve une grande partie des documents originaux avec un lien pour accéder au document complet.
La mise à jour n’est pas quotidienne. Au moment de notre test les dernières mises à jour dataient d’environ trois semaines.
Quand on réalise une veille sur les nouveaux outils de recherche et de veille, il n’est pas rare de voir apparaître de nouveaux outils gratuits, uniquement disponibles sur Github. Et cela peut être quelque peu déconcertant quand on ne maîtrise pas les rudiments de cette plateforme avant tout destinée aux développeurs et informaticiens.
Car Github est aujourd’hui surtout connu pour être le plus gros hébergeur de codes sources au monde.
Mais dans cette masse de petits programmes et morceaux de codes en libre accès, on trouve de plus en plus d’éléments pouvant être utiles pour le veilleur : outils de surveillance de pages web, lecteurs RSS, outils de création de flux RSS, outils pour l’OSINT, outils de recherche, listes de ressources thématiques, etc.
Lire aussi :
Comment se repérer dans le paysage des outils de veille gratuits et bon marché ?
Les outils de surveillance de pages gratuits et freemiums au banc d’essai
Comment trouver des outils de recherche d’information thématiques ?
L’OSINT : illusion marketing ou nouveau champ d’investigation pour les professionnels de l’info ?
Mais il n’est en réalité pas simple d’entrer dans cet univers, très éloigné des problématiques quotidiennes et des pratiques des professionnels de l’information. Un univers très technique, avec son jargon destiné avant tout aux développeurs et où il est difficile de réussir à réellement utiliser les outils qui y sont proposés.
Pour cet article, nous nous sommes plongés dans l’antre de Github pour :
Déjà abonné ? Connectez-vous...
Questel est, depuis plusieurs années, une société en fort développement.
En effet, si, en avril 2015, elle comptait environ 140 salariés, 3 000 clients et 100 000 utilisateurs, en mars ces chiffres sont devenus 1 400 salariés, 15 000 clients et plus de 1,5 million d’utilisateurs.
Cette croissance importante est due pour une bonne part à l’acquisition d’un grand nombre de sociétés offrant des produits et/ou des services dans le domaine de la propriété intellectuelle (voir notre article « Questel double sa taille avec plusieurs acquisitions en 2021» dans ce même numéro).
L’ensemble de ces acquisitions a été réalisé avec le soutien de fonds de Private Equity.
Ce souci de développement ne pouvait, bien sûr, mettre de côté l’utilisation de l’intelligence artificielle.
Lire aussi :
Brevets : les évolutions d’Orbit
Les "combination sets" dans la classification des brevet
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip
L’IA était déjà largement utilisée dans la préparation des données Questel :
Mais c’est la première fois qu’un module IA est mis à la disposition directe des utilisateurs. Il s’agit d’un classificateur binaire dénommé AI-Classifier.
L’AI-Classifier est désormais proposé aux utilisateurs d’Orbit Intelligence. Il s’active sur les dossiers de travail (les workfiles). Après que l’utilisateur ait classé une dizaine de documents en « pertinents » ou « non-pertinents », le Classifier binaire « apprend » de ces documents et définit une règle de classement automatique. Il teste pour cela deux algorithmes (bientôt trois) et choisit le plus performant pour classer l’ensemble des documents du dossier.
Déjà abonné ? Connectez-vous...
Questel multiplie les acquisitions depuis des années déjà. En effet, durant ces cinq dernières années pas moins de quinze ont été réalisées.
Les dernières acquisitions ont permis à Questel de doubler sa taille.
Questel vient d’annoncer le bouclage de l’acquisition de NovumIP, groupe mondial de technologies, résultat de la fusion des sociétés Pavis et Novagraaf.
Questel vient aussi de finaliser le rachat de la minorité restante des actions de la société allemande Brandstock, fondée en 1993, qui propose un ensemble de services, en particulier juridiques, ainsi que sur la transparence des coûts des prestations dans le domaine de la propriété intellectuelle.
Lire aussi :
Brevets : les évolutions d’Orbit
Les "combination sets" dans la classification des brevet
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip
Cette opération valorise Questel à près de deux milliards d’euros.
Ses actionnaires majoritaires sont aujourd’hui Eurazeo Capital et IK Investment Partners.
Tandis que Raise Investissement est un actionnaire minoritaire. Il faut noter que le management reste un gros actionnaire minoritaire.
Questel compte aujourd’hui 1 400 salariés, dans 44 bureaux et 22 pays, et 15 000 clients.
ResearchGate est un réseau professionnel de chercheurs qui revendique plus de 20 millions de membres, sachant que l’inscription est libre, sous condition d'appartenir d'une façon ou d'une autre à la communauté scientifique ; seule la navigation reste possible pour les autres internautes.
Créé en 2008, le site a pour but de faciliter la collaboration entre chercheurs, en particulier en leur permettant de partager librement leurs publications.
Au milieu des années 2010, Il y avait eu un premier bras de fer entre ResearchGate et les éditeurs scientifiques qui l’accusaient de donner accès librement à des articles scientifiques qui n’étaient absolument pas en open access. En 2017, après des menaces de poursuites en justice, ResearchGate avait décidé de réagir à sa façon en supprimant un certain nombre de publications présentes dans son système. Certaines publications ont ainsi été rendues privées avec un accès restreint à certaines personnes et d’autres ont tout simplement été supprimées sans que l’auteur n’ait été prévenu au préalable.
Au final 1.7 million d’articles avaient ainsi été supprimés ou rendus privés.
Lire aussi :
Comment bien rechercher l’information scientifique et technique ?
Recherche d’information académique : enfin une comparaison concrète entre gratuit et payant
Aujourd’hui encore, il est possible de récupérer gratuitement certains articles sur ResearchGate. Et certains articles ne sont clairement pas censés être en open access. Il semblerait que ResearchGate ait continué à fermer les yeux sur ces pratiques.
Ainsi, quand on trouve une référence d’article référencé sur ResearchGate, il faut envoyer un mail à l’auteur si l’on souhaite recevoir l’article complet correspondant. Manifestement, si l’on n’est pas inscrit ou si son adresse mail n’a pas une apparence académique, il ne faut pas compter recevoir la copie (gratuite) de l’article.
C’est en tout cas notre expérience personnelle. Si les conditions évoquées plus haut sont remplies, il semble que cela marche beaucoup mieux.
Déjà abonné ? Connectez-vous...
IA, deep learning, recherche sémantique, classification automatique : ces termes sont de plus en plus fréquents dans le monde des bases de données brevets.
Vont-ils renvoyer les tenants de la recherche traditionnelle au rayon des archives du monde des professionnels de l’information brevet ? Les codes CIB, CPC, les mots-clés représenteront-ils bientôt des techniques démodées à remiser au placard ? Qui sont ces nouveaux outils et condamnent-ils réellement des techniques éprouvées depuis plusieurs dizaines d’années, ou au contraire ne font-ils que les complémenter ? Enfin, quel est leur niveau de performance et comment les utilise-t-on ?
Les informations ici présentées résultent également d’un échange avec les équipes d’IPRally.
IPRally fait partie des nouveaux acteurs récemment arrivés sur le marché de l’information brevet proposant des produits payants, appuyés uniquement sur les nouvelles technologies ; celles-ci résumées par les termes cités plus haut : IA, sémantique, deep learning.
La startup a été fondée il y a 3 ans et demi en Finlande par Sakari Arvela, à l’origine, conseil en PI (Propriété Intellectuelle). Constatant la manière dont il décompose les revendications en concepts essentiels dans le cadre de son travail journalier de recherche de brevetabilité ou de liberté d’exploitation, il a eu l’idée d’apprendre à une IA cette méthode et de tenter d’automatiser un processus jusque-là intellectuel.
IP Rally annonçait 12 collaborateurs en 2020 et emploie aujourd’hui 25 personnes. Il a bénéficié en janvier dernier d’une levée de fonds de 2 M€.
Déjà abonné ? Connectez-vous...
Depuis plus d’un an, on voit apparaître de plus en plus de liens vers des veilles gratuites sur LinkedIn. Il ne s'agit pas ici de news partagées régulièrement par des experts sur un secteur ou un pays, mais des veilles thématiques ou sectorielles produites et diffusées par des entreprises ou consultants qui ne sont pas spécialisés dans le domaine de la veille.
Derrière l’effort de contribution à la plateforme de partage social qu'est LinkedIn, on peut supposer qu’il s’agit dans la plupart des cas d’une stratégie de référencement dans un cadre commercial ou d’une simple recherche de notoriété.
L’utilisation de la veille comme outil de marketing serait finalement une nouvelle forme de publicité sophistiquée, qui aurait a priori de bonnes chances de toucher une cible professionnelle structurellement qualifiée, comme celle « offerte » par LinkedIn.
La cible client serait plus aisée à atteindre, à la fois grâce à la nature du canal de communication et à un contenu potentiellement plus riche qu’un post sur un blog ou une newsletter d’actualités.
Le veilleur professionnel pourra dans un premier temps qualifier ces veilles gratuites de « pseudo prestations » et s’alarmer de ce nouveau pas vers la « commoditisation »(1) du secteur de l’information, avec une dilution de valeur du service expert que représente une prestation de veille, qui suppose rigueur et technicité.
Il est clair que ce phénomène naissant fait resurgir l’épineux problème de la gratuité -apparente- de l’information, et pose à nouveau celui du positionnement métier des professionnels de l’information. En effet, le veilleur, déjà challengé par la pression du gratuit, doit par ailleurs affronter en entreprise une concurrence croissante venant des flux de contenus diffusés en interne de façon plus ou moins anarchique au sein de l’organisation.
Déjà abonné ? Connectez-vous...