On reconnait bien souvent un professionnel de l’information à son utilisation intensive et souvent experte des opérateurs booléens et autres opérateurs avancés.
Chaque question est ainsi décortiquée, traduite en une liste de mots-clés avec leurs variantes et synonymes et combinés entre eux avec des opérateurs booléens et de multiples opérateurs avancés (termes dans la même phrase, termes cités au moins n fois, opérateurs de proximité, etc.).
Les autres professions ont quant à elles généralement tendance à méconnaître ces différentes fonctionnalités et à préférer des requêtes en langage naturel.
A l’origine, le terrain de jeu des professionnels de l’information était celui des serveurs et bases de données qui proposaient des fonctionnalités de recherche poussées avec la possibilité de construire des requêtes complexes voire même très complexes et supposaient une formation poussée pour y parvenir.
Par la suite, l’avènement du Web a démocratisé la recherche d’information au travers des moteurs de recherche et notamment Google. Même si les fonctionnalités de recherche étaient bien moindre que sur les serveurs, le principe restait néanmoins le même avec une utilisation des opérateurs booléens classique (AND, OR et NOT) et quelques opérateurs avancés (comme la possibilité de limiter la recherche au titre des pages, de limiter à certains formats de fichiers, à certains termes dans l’url ou l’extension de sites).
Mais récemment, on a pu voir fleurir sur le Web (principalement dans la blogosphère infodoc anglo-saxonne) divers articles et commentaires sur la mort de la recherche booléenne notamment sur Google. D’après ces sources, une requête en langage naturel produirait de bien meilleurs résultats qu’une requête booléenne sur Google (du moins en langue anglaise).
Cela s’expliquerait par les nombreuses avancées de Google en matière de sémantique et l’utilisation intensive des opérateurs booléens et avancés pourrait même brider les résultats du moteur. L’utilisateur ne tirant ainsi pas parti des différentes fonctionnalités sémantiques.
Nous avons donc voulu dans un premier temps faire le point sur les différentes théories qui ont émergé au cours des dernières années sur les meilleures méthodes pour interroger Google. Dans un second temps, nous avons mené une série de tests pour vérifier si une requête en langage naturel produisait bien de meilleurs résultats en anglais mais également en français. Ensuite, nous avons cherché à savoir si cette tendance à savoir la disparition progressive des méthodes de recherche traditionnelles au profit de la recherche sémantique s’appliquait également aux autres moteurs de recherche.
Enfin nous nous sommes également demandés si cette évolution vers la recherche sémantique et l’utilisation d’une syntaxe simplifiée était une tendance observée chez les serveurs et bases de données (pourtant le lieu idéal pour expérimenter des recherches booléennes complexes et élaborées) ou les autres outils de veille et de recherche utilisés par les professionnels de l’information. Nous traiterons en détail cet aspect dans le prochain numéro de Bases et nous nous consacrerons dans ce numéro à la recherche sur Google et les autres moteurs Web.
Déjà abonné ? Connectez-vous...
L’information scientifique et technique est importante pour une structure de type centre technique. Il est donc nécessaire de remettre périodiquement en cause ses sources d’informations en choisissant le meilleur compromis entre la qualité et le coût.
En 2016, le CETIM a cherché à évaluer la pertinence de ses sources d’informations. Celles-ci ont en effet évolué depuis quelques années, en particulier avec l’apparition de l’offre des éditeurs scientifiques. Le département Veille Technologique et Stratégique du CETIM s’est appuyé sur un projet de fin d’année de Licence Pro en info-doc de Lyon pour évaluer la pertinence des différentes sources d’information.
Nous avons procédé à une analyse en deux temps : un sondage auprès de professionnels de l’information et de chercheurs pour avoir un panorama des différentes sources d’informations utilisées et, dans un second temps, une analyse de la couverture de quelques serveurs d’informations et bases de données.
Pour avancer dans ce projet, nous nous sommes associés à FLA Consultants, pour interroger les sources d’informations avec un protocole plus structuré.
Cet article présente ainsi l’état d’avancement de cette étude et les conclusions associées.
Déjà abonné ? Connectez-vous...
Le 24 août dernier, Elsevier annonçait le lancement de Datasearch, un moteur de recherche de données scientifiques multisectoriel en libre accès. L’outil fonctionne comme un moteur classique et interroge des sources scientifiques et répertoires institutionnels. Elsevier explique avoir voulu aider les chercheurs à gagner du temps dans leurs recherches car les moteurs de recherche généralistes ne sont pas forcément les plus adaptés pour identifier de l’information très spécialisée et ne se limitent pas à des sources d’information qualifiées et reconnues.
Ainsi, Datasearch indexe pour le moment les tableaux, figures et données supplémentaires associées aux articles publiés sur ScienceDirect, arXiv et PubMed Central ainsi que le contenu de NeuroElectro, Dryad, PetDB, ICPSR, Harvard Dataverse et ThemoML.
Pour le moment Datasearch n’est pas un produit commercial mais Elsevier indique que le business model n’est pas encore finalisé. Impossible donc de savoir comment va évoluer le produit dans les mois et années à venir et s’il va rester en libre accès.
IET (Institution of Engineering and Technology) a récemment annoncé que plus de 30 000 pre-prints disponibles dans l’archive ouverte ArXiv seraient indexés dans la base de données Inspec (l’une des bases de référence en physique et sciences de l’ingénieur).
Aux Etats-Unis, une nouvelle archive ouverte dédiée aux sciences de l’ingénieur vient de voir le jour. Elle s’appelle EngrXivet le projet est mené par des ingénieurs et une communauté de bibliothécaires scientifiques américains. L’archive ouverte est hébergée en version béta sur la plateforme Open Science Framework (qui héberge aussi les archives ouvertes SocArXiv pour sciences sociales et PsyArXiv pour la psychologie).
Pour le moment, l’interface est peu conviviale et le nombre de documents restreints mais le projet n’en étant qu’à ses balbutiements, on ne peut qu’espérer une amélioration au cours des prochains mois.
En termes de fonctionnalités de recherche, l’outil permet d’utiliser les opérateurs booléens classiques (sauf que les mots-clés sont séparés implicitement par un OR) et les guillemets pour la recherche d’expression exacte. Dans un second temps, il est possible de filtrer les résultats par type (document, images, données statistiques, etc.), sources et date.
Reuters vient tout juste d’annoncer des évolutions majeures au niveau de la recherche dans Thomson Innovation et notamment le lancement d’un nouvel algorithme « smart search » plus orienté vers la sémantique. Au delà de la traditionnelle recherche par mot-clé, « smart search » extrait des mots-clés et des thèmes à partir d’un bloc de texte et les injecte dans l’algorithme de recherche.
Plum Analytics (EBSCO) et ACI Information Group ont récemment développé un partenariat afin de proposer des métriques sur plus d’1 million d’articles de blogs scientifiques et académiques aux clients de PlumX Suite.
L’agrégateur de presse EDD propose de nouvelles fonctionnalités :
Il annonce également le lancement prochain d’un nouvel outil appelé Pressedd-Reader, une nouvelle plateforme de consultation des retombées médias, conçue spécifiquement pour les lecteurs.
Du côté de Google, on notera l’ajout de 11 nouveaux pays à l’outil Google Patents : Japon, Corée du Sud, Royaume-Uni, Espagne, France, Belgique, Russie, Pays-Bas, Finlande, Danemark et Luxembourg.
Twitter revoit sa politique des 140 caractères. A partir du 19 septembre, les liens ne seront plus comptabilisés.
Les outils du Web vont et viennent et il n’est pas rare que certains outils gratuits changent leur politique pour passer au payant. En cette rentrée, on notera donc la disparition du moteur de hashtag « Hshtags ».
SERVEURS • De nouvelles possibilités avec PatentPak sur STN classique
OPEN DATA
• ScanR : un moteur pour identifier des acteurs de la recherche publique et privée en France
BREVETS
• Orbit fait un premier pas hors des brevets
• De l'intérêt de la presse pour la gestion des marques verbales
BASES DE DONNÉES
• La base EMIS spécialisée sur les marchés émergents évolue
ACTUALITÉS / AGENDA • En bref
SERVEURS • Thomson Reuters se recentre sur la finance
BREVETS
• Le Brexit remet en cause le Brevet Unitaire
• Le CFIB noue un partenariat avec l’IEEPI
A LIRE • La revue du Web de l’été 2016
Déjà abonné ? Connectez-vous...
Depuis quelques temps déjà, la recherche dans le domaine de la chimie se développe et se complexifie.
C’est pourquoi, et comme il y a un vrai marché, les offres déjà conséquentes se développent, se diversifient et apportent de nouvelles possibilités qui aident les chercheurs dans leur travail, en particulier en leur faisant gagner du temps dans le traitement de questions toujours plus complexes.
Curieusement, deux initiatives issues de sociétés plus complémentaires que concurrentes ont apporté des réponses ayant des points communs à des problématiques voisines.
Il s’agit, en effet, essentiellement de pouvoir localiser dans le texte d’un brevet la citation d’une molécule précise sans avoir à feuilleter les dizaines, voire les centaines de pages de ce brevet.
Nous avons déjà parlé (dans le numéro de BASES n° 335 de Mars 2016) de la réponse apportée par PatBase avec Textmine, un outil développé à l’occasion du lancement du nouveau service Chemical Explorer.
Une réponse analogue a été apportée par STN avec PatenPak disponible d’abord sur SciFinder puis sur STN Classic.
Déjà abonné ? Connectez-vous...
Le Ministère de l’éducation Nationale, de l’Enseignement et de la Recherche vient de lancer en version beta ScanR, un moteur de recherche permettant d’identifier des organismes de recherche publics et privées (petites, moyennes et grandes entreprises).
Quand on connaît la difficulté qu’il y a à localiser des experts ou des acteurs sur une thématique précise, on ne peut que se féliciter du lancement d’un tel produit.
Mais comment fonctionne t-il, quelles sources interroge t-il et quelles sont ses limites ?
A l’heure actuelle, le moteur recense plus de 15 000 acteurs.
Chaque résultat correspond à une fiche détaillée sur une entreprise ou organisme public.
Ces fiches ont été réalisées en « combinant des informations extraites des sites web de ces entités et des données issues de sources ouvertes ».
Déjà abonné ? Connectez-vous...
Avec sa marque ombrelle Orbit, Questel est depuis de nombreuses années, dans une dynamique d’élargissement de son offre, soit en créant des fonctionnalités nouvelles, soit en rachetant des entreprises offrant des prestations relatives aux brevets par exemple GEM 360 ou Intellixir.
En revanche, tout ce qui concerne les marques a été abandonné comme on le sait en juin 2010, avec la vente de toute l’activité EDITAL à CT Corsearch, filiale de Wolters Kluwer.
Sauf erreur, c’est aujourd’hui la première fois qu’un élargissement de l’offre d’Orbit ne concerne pas les brevets, même si elle est réservée aux clients de la plateforme d’Orbit consacrée aux brevets.
Orbit vient donc de lancer Orbit Web Monitor qui est un service de veille économique basé sur les ressources du Web gratuit.
Il a été voulu comme le plus simple possible à utiliser et se positionne comme un complément utile aux veilles ou aux recherches brevet.
Déjà abonné ? Connectez-vous...
Quiconque souhaite utiliser une marque - le plus souvent commercialement, mais ce n’est pas le seul cas de figure - pense généralement à la déposer.
Avant le dépôt, il fait ou fait faire des recherches plus ou moins sophistiquées dans différents registres nationaux ou européens pour voir si la marque est disponible.
Cela peut parfois s’avérer insuffisant. En effet, une sage précaution consiste, en plus des recherches dans les registres, à effectuer des recherches dans la presse lorsqu’il s’agit de marques verbales. Cela permet de voir si le terme qui a vocation à devenir une marque est déjà utilisé et, si oui, dans quel contexte et avec quelle fréquence. Si c’est le cas, c’est un élément à prendre en compte pour décider de déposer ou non la marque.
Cela est vrai tant pour la France que pour d’autres pays.
Rappelons que plusieurs milliers de titres de presse française sont disponibles en ligne ainsi que plusieurs dizaines de milliers de titres de presse internationale.
Une fois la marque déposée et, plus généralement dans un contexte de marque, la presse peut être également très utile dans différents cas de figures.
Le cas classique est le suivi de son usage, éventuellement abusif, dans le cadre d’une prestation de panorama de presse.
Mais il est des cas moins classiques pour lesquels une démarche spécifique est nécessaire :
Ces différents exemples illustrent le fait que si l’utilisation et la consultation des registres de marques est tout à fait nécessaire, la presse est une ressource complémentaire fort utile.
EMIS est une base de données spécialisée dans l’information concernant les marchés émergents (données économiques et financières sur les entreprises, les pays et les industries). Elle appartient au groupe Euromoney Institutional Investor plc.
Nous avions déjà eu l’occasion de lui consacrer un article en 2013 qui s’intitulait « EMIS : une clé d’accès aux marchés émergents » (Bases n° 303 - Avril 2013).
Mais en trois ans, le produit a bien changé avec notamment une nouvelle interface et une meilleure couverture.
Depuis la fin de l’année 2015, EMIS propose une nouvelle interface, qui s’articule désormais autour des trois grands types d’informations dont il s’est fait une spécialité :
Déjà abonné ? Connectez-vous...
Use less boolean on Google for better productivity, Sourcecon, 17 Mai 2016, http://bit.ly/29MUXk2
On voit de plus en plus de personnes remettre en cause le principe de recherche sur Google qui utilise la syntaxe traditionnelle à base d’opérateurs booléens.
L’auteur de cet article s’interroge sur l’utilisation de cette syntaxe et se demande si finalement une recherche en langage naturel ne fournirait pas des résultats plus pertinents.
Depuis quelques années, Google a considérablement amélioré ses performances en matière de recherche sémantique. De fait, les opérateurs booléens ont une utilité moindre et pourraient même restreindre la recherche et faire passer l’internaute à côté des résultats les plus pertinents. L’auteur de l’article présente plusieurs tests pour illustrer ses propos.
De ces différents tests, il tire des enseignements intéressants :
ResearcherID, ORCID, IdHAL : enjeux et perspectives des identifiants chercheurs, journée d’étude URFIST du 24 juin 2016, Slideshare, http://bit.ly/29QTr1R
Il existe aujourd’hui plusieurs systèmes d’identifiants de chercheurs, systèmes qui permettent d’associer un code/chiffre à un chercheur et de retrouver ainsi plus facilement tous ses travaux de recherche (sans risque d’homonymie, variations d’orthographe, etc.). La journée d’étude de l’Urfist et le support qui a ensuite été mis en ligne sur Slideshare (103 pages) s’intéresse dans un premier temps à l’intérêt des identifiants chercheurs pour les chercheurs et les professionnels de l’information. Les différents systèmes coexistant sont ensuite présentés dans le détail : ORCID, idHAL, ResearchId, ScopusId etc.
Comparing published scientific journal articles to their pre-print versions, Digital Libraries, Avril 2016, http://bit.ly/1WEaKBZ
Pas un mois ne se passe sans que l’on n’entende parler des différentes polémiques concernant les éditeurs scientifiques et académiques qui facturent leurs abonnements aux bibliothèques et organismes de recherche à des tarifs exorbitants. Bien souvent, ces éditeurs justifient ces coûts par le travail réalisé par l’éditeur et ses équipes sur les contenus qui lui sont soumis.
La revue américaine Digital Libraries s’est ainsi penchée sur la question et a mené une étude comparative entre des articles en pre-print et leur version finale. Leur verdict est sans appel : il existe généralement très peu de différences entre les deux versions, de quoi remettre en cause les arguments des éditeurs.
L’étude de 10 pages est accessible librement sur le site Arxiv.
Mettre en place une veille sur les vidéos en ligne, Outils Froids, avril et mai 2016. Partie 1 : http://bit.ly/1r3DjwH et partie 2 : http://bit.ly/1U4Jh76
Christophe Deschamps, l’auteur du blog Outils Froids a récemment publié deux articles de méthodologie sur la mise en place d’une veille sur les vidéos en ligne. Le premier article se focalise sur la recherche de vidéos et présente les différentes sources d’information pour les identifier : moteurs de recherche incontournables, moteurs secondaires, sites de partages de vidéos et réseaux sociaux.
Le second article présente les différentes solutions de surveillance : l’abonnement via le réseau social, les flux RSS, la surveillance par un outil de Social Media Monitoring, la surveillance par un outil de surveillance de pages Web. Il détaille ensuite les outils de surveillance proposés au sein des principaux services de diffusion ou moteurs de vidéos comme Google Vidéos, You Tube, DailyMotion, Twitter, Periscope, etc.
Un bon article à consulter lorsqu’on se retrouve confronté à la mise en place d’une veille sur les vidéos.