Le volume important de documents contenus dans Google Scholar fait qu’il est extrêmement rare de ne trouver aucune réponse à n’importe quelle question un tant soit peu scientifique. Parmi ces réponses, le chercheur trouvera bien quelques documents intéressants parmi les premiers de la liste car on serait curieux de savoir combien vont examiner les 1 000 résultats visualisables (c’est la limite).
Ces résultats trouvés à partir d’une ou plusieurs recherches permettent le plus souvent de tirer quelques fils et de trouver quelques documents présentant un intérêt.
Et c’est là toute la perversité du système. Car l’accès à Google Scholar est gratuit et son contenu un des plus importants disponibles.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Il convient maintenant de dresser le portrait des principales ressources généralistes et multidisciplinaires pour la veille et la recherche bibliographiques. Et si nombre d’entre elles sont connues depuis longtemps des professionnels de l’information, nous avons également identifié quelques nouveaux acteurs prometteurs apparus au cours des deux dernières années et dont nous n’avons pas encore eu l’occasion de parler dans BASES.
Nous avons choisi ici de nous intéresser aux grandes ressources généralistes et multidisciplinaires proposant des références ou accès aux articles scientifiques et académiques. Sont donc exclues les ressources spécialisées sur une discipline en particulier ou sur certains types de documents qui pourront faire l’objet d’autres articles comme les thèses, mémoires, ouvrages, etc.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
La perversité de Google Scholar
Dans le précédent numéro de BASES, nous avions eu l’occasion de revenir sur certaines conférences et ateliers ayant eu lieu lors du salon I-Expo qui s’est tenu les 20, 21 et 22 mars derniers.
Nous poursuivons donc dans ce numéro avec le compte-rendu et analyse des conférences suivantes :
- L’intelligence artificielle va-t-elle tuer ou renforcer les moteurs de recherche ? Comment s’assurer de la fiabilité de l’information recherchée à l’heure des bulles de filtres et de la désinformation ?
- Espaces communautaires, RSE, plateforme collaborative : les bons choix pour réussir une plateforme de veille collaborative, mobile et plus performante. Avec les retours d’expérience d’ENGIE, RATP, AEF, LA POSTE
Ce mois-ci, l’actualité des moteurs concerne exclusivement Google qui n’a pas faibli dans le nombre de ces annonces et lancements de nouvelles fonctionnalités.
Nous vous parlions le mois dernier du nouveau bouton « plus de résultats ». Pour certaines questions comme la météo par exemple, Google avait lancé un test où il n’affichait plus aucun résultat mais juste une réponse à la question posée suivie d’un bouton « plus de résultats » pour ceux qui souhaiteraient aller plus loin. Le test avait ensuite pris fin et tout était redevenu comme avant.
Dans un article publié sur notre blog « Google évolue : les documentalistes plus utiles que jamais », nous faisions le constat que Google affiche toujours moins de résultats et ce, quelle que soit la requête et alors que son index ne cesse pourtant de s’accroître.
Il annonce certes dans un premier temps des centaines de milliers voire des millions de résultats mais en se rendant sur la dernière page de résultats, on constate que leur nombre ne dépasse pratiquement jamais les 500.
Pour preuve, nous avions réalisé en 2011 une recherche sur les masques respiratoires. A l’époque, une requête sur l’expression masque respiratoire permettait de visualiser plus de 1 000 résultats dans Google. Aujourd’hui, la même requête n’en génère que 183.
En ce début d’année, l’actualité de Bing et Google ne manque pas.
Et ce qui fait beaucoup parler, ce sont les featured snippets de Google et de Bing.
Affiché dans un cadre spécifique et au-dessus des résultats dits « naturels », en « position 0 », le featured snippet constitue une réponse à la question posée par l’internaute et est extrait directement d’une page Web.
La recommandation de contenus prend une place toujours plus importante dans l’univers du Web avec l’accroissement de la recommandation humaine, lié d’une part, au développement des médias sociaux et des outils du Web 2.0 et d’autre part, à la multiplication des systèmes et algorithmes de recommandations automatiques, grâce aux progrès de l’informatique d’abord et plus récemment de l’intelligence artificielle.
Quand on pense aux systèmes de recommandations, on pense en premier lieu aux sites d’e-commerce tels que Amazon qui nous propose des produits similaires à ceux que nous consultons ou susceptibles de nous intéresser, Netflix qui nous recommande des séries et des films qui pourraient nous plaire ou encore Spotify qui nous signale des morceaux et artistes correspondant à nos goûts musicaux.
Mais aujourd’hui, la recommandation est partout et il ne se passe pas un mois sans que l’on ne voie surgir une nouvelle fonctionnalité ou de nouveaux outils grand public et professionnels nous promettant de nous faire découvrir automatiquement des contenus nouveaux qui pourraient nous intéresser et nous faire sortir de notre bulle informationnelle ou des contenus similaires à ce que nous consultons.
L’information est au cœur du processus de veille. Si l’on n’est pas en mesure d’identifier les bonnes sources et par la suite les informations les plus pertinentes sur un sujet donné, toute analyse et recommandation stratégique en découlant sera incomplète, avec tous les risques que cela entraîne.
L’information produite par les médias, qu’il s’agisse de presse nationale, locale ou même spécialisée est un élément précieux pour la veille quel que soit le secteur d’activité concerné.
Le développement de la presse en ligne il y a une vingtaine d’années ainsi que la prolifération des contenus gratuitement accessibles sur ces sites, parallèlement à l’émergence de Google, a conduit à une croyance trompeuse largement répandue selon laquelle il n’est pas nécessaire de payer pour avoir accès à l’information. Et si l’information ne ressort pas dans Google, c’est qu’elle n’existe pas.
Premier événement en date : l’annonce du rachat de CEDROM-SNI, propriétaire de l’agrégateur de presse Europresse par Cision le 20 décembre dernier. On en sait pour l’instant assez peu sur ce qu’il va advenir d’Europresse et de tous ses clients sur le sol français si ce n’est que cela va apporter « une excellente complémentarité stratégique » et « permettra de renforcer l’offre internationale » de Cision. Nous enquêterons donc sur les conséquences à court et long-terme de ce rachat et la nouvelle place de Cision dans le paysage de la veille, qui, rappelons-le, avait déjà racheté l’Argus de la presse cet été.
Autre rachat : celui de Xilopix, l’éditeur du moteur français Xaphir (pour lequel nos tests avaient été peu concluants) par le moteur français également Qwant. Les deux équipes travailleront ensemble pour développer des solutions de recherche adaptées au respect de la vie privée.
Enfin, l’outil de curation de contenus Storify, que certains de nos lecteurs connaissent et utilisent vient d’être acquis par la start-up américaine Livefyre spécialisée dans la curation de contenus et l’engagement d’audiences, elle-même acquise par Adobe en mai 2016. Storify fermera ses portes en mai 2018 et deviendra une fonctionnalité de LiveFyre qui est par contre un outil payant.
La lutte contre les fake news était un des thèmes central de l’année 2017. Et de nouvelles initiatives voient régulièrement le jour.
Le 29 novembre dernier, nous avons eu l’occasion d’assister à une journée d’étude riche en enseignements organisée par BCS, The Chartered Institute for IT à Londres. Cette journée d’étude payante appelée « Search Solutions » est organisée tous les ans à la même période depuis 2006 et est limitée à 70 participants afin de privilégier la qualité des échanges.
Mais à l’origine de cette manifestation annuelle, il y avait la volonté de combler le fossé qu’il pouvait y avoir, et qu’il y a toujours d’ailleurs, entre les ingénieurs et informaticiens qui travaillent chez les acteurs des outils de recherche (moteurs de recherche, bases de données, médias sociaux, etc.) et les utilisateurs de ces solutions (et notamment les professionnels de l’information).
Les thèmes traités dans cet article sont :
Lire aussi dans notre dossier spécial :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
La recherche au défi de la désinformation et des fake news
Les Search Industry Awards
De la recherche classique à la recherche conversationnelle
Au-delà de la recherche Web
En quelques années, la recherche Web via les moteurs a considérablement évolué. Alors que pendant très longtemps, les moteurs se conformaient à la requête entrée par l’utilisateur, ce n’est plus le cas chez les géants du Web avec l’intégration de technologies alliant recherche sémantique, machine learning ou encore reconnaissance vocale ou visuelle.
L’une des évolutions majeures concerne les interactions entre l’utilisateur et la machine qui ont ainsi connu des mutations profondes ces dernières années.
Et au regard des présentations auxquelles nous avons assisté, l’avenir devrait être également riche en nouveautés.
Lire aussi dans ce dossier :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
Au-delà de la simple correspondance de mots-clés : recherche sémantique, taxonomie, etc.
La recherche au défi de la désinformation et des fake news
Les Search Industry Awards
Au-delà de la recherche Web
La dernière session s’intéressait à la recherche au-delà de la recherche Web.
On retiendra de la présentation que les équipes de Microsoft à Londres qui travaillaient avant exclusivement sur le moteur de recherche Bing ont vu leurs attributions changer récemment et travaillent désormais uniquement au développement de solutions de recherche pour les produits Microsoft.
Cela a été illustré par la présentation du nouveau projet sur lequel travaillent les équipes à Londres : il s’agit d’un système permettant de répondre quasi-automatiquement à une demande de document par email.
Lire aussi dans ce dossier :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
Au-delà de la simple correspondance de mots-clés : recherche sémantique, taxonomie, etc.
La recherche au défi de la désinformation et des fake news
Les Search Industry Awards
De la recherche classique à la recherche conversationnelle
Au-delà de la recherche Web
Un des grands sujets de l’année 2017 a bien évidemment été celui des fake news et des bulles de filtres.
Si l’on a déjà pu lire une multitude de choses sur le sujet, ces quelques interventions avaient le mérite d’apporter des éclairages différents en proposant notamment des solutions techniques et méthodologiques pour lutter contre ce phénomène et évaluer les contenus.
Lire aussi dans ce dossier :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
Au-delà de la simple correspondance de mots-clés : recherche sémantique, taxonomie, etc.
Les Search Industry Awards
De la recherche classique à la recherche conversationnelle
Au-delà de la recherche Web
Nous apprenions il y a quelques jours que Pubmed testait une nouvelle interface. Celle-ci est accessible sur Pubmed Labs (https://www.ncbi.nlm.nih.gov/labs/pubmed) et n’a pas vocation à supplanter l’interface actuelle pour le moment. Le but étant de tester de nouvelles fonctionnalités.
Parmi les nouveautés, on notera :
Dans le secteur de la recherche, il est en ce moment beaucoup question des « revues prédatrices », en l’occurrence des revues pseudo-scientifiques dont le but principal est l’enrichissement plutôt que l’avancement de la recherche.
Les chercheurs sont généralement sollicités par email par ces revues et invités à soumettre des articles. Elles fonctionnent sur le modèle du libre accès où les auteurs payent pour que leurs articles soient publiés. Mais dans le cas des revues prédatrices, n’importe quel article est accepté et publié, les comités éditoriaux étant souvent composés de membres fictifs ou de chercheurs dont les noms ont été inscrits sans leur accord.
Jeffrey Beall, un bibliothécaire de l’Université du Colorado à Denver avait mis en ligne une liste des revues prédatrices pour aider les chercheurs à ne pas se faire piéger, liste qui a malheureusement été retirée en janvier dernier suite aux nombreuses pressions qu’il a reçues.
Claritive Analytics qui a racheté les activités Propriété Intellectuelle de Thomson vient d’acquérir Publons et sa plateforme à destination des chercheurs pour partager, discuter et mettre en valeur le travail des reviewers. Le CEO de Claritive a ainsi annoncé que l’entreprise souhaitait investir dans des solutions d’analytics et d’optimisation des workflows pour aider ses clients à accélérer leur processus d’innovation.
LexisNexis a récemment lancé une base de données appelée LexisNexis Media Contacts Solution qui recense plus de 800 000 contacts médias dans plus de 200 pays. Cette base permet ainsi d’identifier des journalistes et influenceurs.
Du côté de l’information business et financière, les opérations de rachat et partenariats se font nombreuses.
Nous apprenions récemment le rachat de Bureau Van Dijk (Orbis, Diane, Zehyr, etc.) par l’agence de notation Moody’s pour 3.3 milliards de dollars. Pour Moody’s, l’opération a pour but d’étendre ses activités « en services d’analyse de risques et d’évaluation analytique ».
Claritive Analytics qui a récemment racheté les activités Propriété Intellectuelle de Thomson a annoncé son intention d’investir dans Web of Science en élargissant sa couverture de l’ « Emerging Sources Citation Index ». L’index passera ainsi de 5 000 revues émergentes à 7 500 et ce sont dix années d’archives qui seront également proposées dans le cours de l’année.
Les « fake news » et la désinformation ne cessent de faire la Une des médias en cette période d’élection. Facebook et Google se sont eux-mêmes lancés dans la course au fact checking en proposant un meilleur contrôle du contenu partagé en ligne et en lançant ou en s’associant à des outils et projets de fact checking, en l’occurrence de vérification des informations.
En France, plusieurs initiatives coexistent depuis plusieurs années mais le dernier en date vient d’être lancé par le quotidien Libération. Checknews (http://checknews.fr/), c’est son nom, se définit comme un moteur de recherche humain pour lutter contre la désinformation. Les internautes posent leurs questions sur le moteur : si une réponse à cette question existe déjà, il est renvoyé vers cette réponse. Dans le cas contraire, sa question va être traitée par un journaliste qui va se charger de vérifier les faits et rédiger une réponse.
EBSCO a récemment étendu son partenariat avec Claritive Analytics (qui a repris les activités scientifiques et propriété intellectuelles de Thomson Reuters) afin de proposer BIOSIS Previews et Zoological Record via EBSCOhost. Rappelons que BIOSIS Previews est l’une des plus importantes bases de données bibliographiques en sciences biologiques et que Zoological Record est l’une des plus anciennes bases bibliographiques dédiée à la biologie animale.
Le MeSH 2017 est maintenant disponible. Chaque année la National Library of Medecine (NLM) fait évoluer son célèbre thesaurus MeSH (Medical Subject Headings) avec ajout, suppression ou modification des termes. La banque de données accessible sur plusieurs serveurs va être entièrement rechargée avec cette version (sur Dialog-Proquest notamment).
La base de donnée LiSSa (www.lissa.fr) qui propose plus de 860 000 articles médicaux en français propose une nouvelle version. Parmi les nouveautés, le tri par pertinence, une compatibilité avec tout type d’écran et un nouveau formulaire de recherche avancée.
Quertle, le développeur de la première plateforme de découverte et d’analyse visuelle de données biomédicales basée sur un système d’intelligence artificielle collabore désormais avec Elsevier pour intégrer Science Direct au sein de son outil.
Quand on pense recherche d’informations ou veille, ce qui vient en premier lieu à l’esprit pour identifier ou interroger des sources, c’est souvent la stratégie suivante :
. recherche sur le Web sur le sujet et notamment sur Google
. interrogation et surveillance des médias sociaux pour repérer des informations et des sources non trouvées sur le Web
. interrogation des grandes sources d’informations payantes comme les agrégateurs de presse ou les bases de données professionnelles (Factiva, EBSCO, etc) qui permettent d’accéder à une grande partie des informations payantes sur le Web.
Clarivate Analytics lance une nouvelle version de son outil de gestion bibliographique EndNote. EndNote X8 offre désormais la possibilité de partager une bibliothèque de références, des références, des PDFs et des annotations avec 100 personnes maximum, la possibilité de travailler simultanément sur une bibliothèque partagée en temps réel, du stockage illimité sans coût additionnel et l’ajout d’un flux d’activité pour voir les nouveaux membres ou les changements apportés aux bibliothèques partagées.
L’organisation des Nations-Unies pour l’Alimentation et l’Agriculture (FAO) vient de lancer une nouvelle version de sa base de données statistique FAOSTAT. Au programme des nouveautés, une interface plus moderne et adaptée à la lecture sur supports mobiles, de nouvelles fonctionnalités de recherche et de filtrage et la possibilité de télécharger des ensembles de données personnalisées, des cartes et graphiques. Le nouveau site propose également une nouvelle fonction avec un ensemble d’indicateurs-clés prêts à l’emploi.
Google est le leader incontesté des moteurs de recherche depuis maintenant de nombreuses années et personne ne semble en passe de le détrôner. Pourtant d’autres moteurs existent, survivent et disposent tout de même d’une certaine audience.
Lorsque nous devons réaliser une recherche d’informations ou une veille, notre premier réflexe sur le Web ouvert est évidemment Google mais y-a-t-il également un intérêt à interroger d’autres moteurs et les résultats proposés sont-ils proches ou identiques à ceux de Google ?
Nous parlons ici de moteurs de recherche généralistes comme Google et non de moteurs spécialisés (vidéos, images, thématiques, etc.) qui ont évidemment leurs propres spécificités.
Academia, le réseau social académique qui compte plus de 40 millions d’utilisateurs vient d’annoncer le lancement d’une offre premium. Cette offre est accessible en beta privée uniquement pour le moment et semble offrir par rapport à l’inscription classique plus de données analytiques.
Jusqu’à présent, le réseau social était entièrement gratuit et même si les premières informations ne semblent pas remettre en cause l’accès gratuit à tous les documents hébergés sur la plateforme, cette annonce a soulevé de nombreuses critiques dans le monde académique qui s’inquiète de voir disparaître certaines fonctionnalités et surtout l’accès gratuit à l’intégralité des documents. Aucune information tarifaire n’est pour le moment publique mais certains beta testeurs ont indiqué sur les réseaux sociaux que les tarifs proposés étaient bien trop élevés. Affaire à suivre...
Retrouver les dernières déclarations d’une personnalité, rassembler les discours parus dans la presse sur une thématique précise, … voici des problématiques auxquelles peuvent être régulièrement confrontés les professionnels de l’information.
Pourtant, cette entreprise n’a rien d’aisé, loin de là. Même si les déclarations sont souvent mises entre guillemets et/ou en italiques dans les textes et articles qui les relatent, il n’existe pour autant aucun moyen simple et direct pour identifier ces éléments, que ce soit en utilisant des moteurs de recherche ou des bases de données et agrégateurs de presse.
On reconnait bien souvent un professionnel de l’information à son utilisation intensive et souvent experte des opérateurs booléens et autres opérateurs avancés.
Chaque question est ainsi décortiquée, traduite en une liste de mots-clés avec leurs variantes et synonymes et combinés entre eux avec des opérateurs booléens et de multiples opérateurs avancés (termes dans la même phrase, termes cités au moins n fois, opérateurs de proximité, etc.).
Les autres professions ont quant à elles généralement tendance à méconnaître ces différentes fonctionnalités et à préférer des requêtes en langage naturel.
Le 24 août dernier, Elsevier annonçait le lancement de Datasearch, un moteur de recherche de données scientifiques multisectoriel en libre accès. L’outil fonctionne comme un moteur classique et interroge des sources scientifiques et répertoires institutionnels. Elsevier explique avoir voulu aider les chercheurs à gagner du temps dans leurs recherches car les moteurs de recherche généralistes ne sont pas forcément les plus adaptés pour identifier de l’information très spécialisée et ne se limitent pas à des sources d’information qualifiées et reconnues.
Ainsi, Datasearch indexe pour le moment les tableaux, figures et données supplémentaires associées aux articles publiés sur ScienceDirect, arXiv et PubMed Central ainsi que le contenu de NeuroElectro, Dryad, PetDB, ICPSR, Harvard Dataverse et ThemoML.
Pour le moment Datasearch n’est pas un produit commercial mais Elsevier indique que le business model n’est pas encore finalisé. Impossible donc de savoir comment va évoluer le produit dans les mois et années à venir et s’il va rester en libre accès.
Google et ses concurrents ont du souci à se faire. Le parlement français a récemment voté la loi « création » qui oblige entre autres les moteurs à payer une redevance pour indexer et afficher des photos dans leurs moteurs d’images. La redevance devra être versée auprès d’une société de gestion collective agréée, telle que la SAIF, l’ADADGP, ou une autre structure ad hoc.
A l’exception des professionnels de l’image et de la photographie qui enregistreront leurs œuvres auprès de ces organismes de gestion, il est hautement improbable que le citoyen lambda qui publie des images sur le Web touche le moindre centime en droit d’auteur de la part de ces organismes. Certains dénoncent également le déséquilibre entre Google et des petits moteurs de recherche indépendants qui ne disposent pas du budget de Google et qui préfèreront désindexer certaines images car ils ne pourront pas supporter ces nouveaux coûts.
De son côté, le moteur de recherche DuckDuckGo, qui se positionne sur le créneau des moteurs qui respectent la vie privée, s’améliore et propose de nouvelles fonctionnalités de recherche. Les dernières en date : la possibilité de filtrer les résultats par date (past day, past month, etc.) et l’ajout de sitelinks pour certains sites. Rappelons que les sitelinks sont des liens affichés au-dessous de certains sites dans les résultats et sont destinés à faciliter la consultation du site par les internautes. La structure des liens du site est analysée afin de définir des raccourcis permettant aux internautes de gagner du temps et de trouver rapidement l’information qu’ils recherchent.
Du côté du géant américain Google, l’actualité ne manque pas aussi bien au niveau du moteur de recherche que de ses autres services.
L’entreprise travaille actuellement sur un algorithme pouvant deviner où une photo a été prise même quand l’utilisateur a désactivé la géolocalisation (et notamment supprimé les données exif qui fournissent ces informations de localisation). Pour le moment, le système arrive à reconnaître le continent dans 48% des cas, le pays dans 28 % des cas, la ville dans 10% et la rue dans 3.6% des cas. Il faudra encore un peu de travail avant que le concept présente un réel intérêt.
Sur le moteur Google images, les internautes peuvent désormais bookmarker les images qui les intéressent (seulement aux Etats-Unis pour le moment).
Enfin, YouTube a ajouté une nouvelle fonctionnalité permettant de flouter des zones sur une vidéo. Cette fonctionnalité n’est bien sûre accessible qu’aux personnes propriétaires de la vidéo souhaitant la charger sur YouTube.
On le sait, Google indexe les documents au format PDF, mais ce que l’on sait moins, c’est qu’il les met peu souvent à jour (c’est-à-dire qu’il ne retourne pas souvent pour crawler un même document) car il considère que les documents PDF sont des documents « stables » qui sont rarement modifiés ou mis à jour. Ce n’est donc pas en passant par Google que l’on pourra surveiller efficacement les changements sur un document PDF.
La guerre entre Google et la presse ne semble pas être terminée, du moins pas en Allemagne. Un groupe d’éditeurs allemands a déposé une plainte en janvier dernier contre le géant américain. Il lui reproche de ne pas respecter la loi sur le copyright des éditeurs de presse « Leistungsschutzrecht für Presseverleger » votée en 2013 en Allemagne. Cette loi prévoit de faire payer les moteurs de recherche et agrégateurs d’actualités dès lors qu’ils affichent des articles de presse (même une partie seulement) dans leurs résultats.
Jusqu’à présent, Google proposait plusieurs API autour de la recherche permettant ainsi aux développeurs d’utiliser et d’intégrer certains services de Google à d’autres sites et applications. Mais à partir du 15 février prochain, Google a annoncé la fermeture des API suivantes : recherche brevets, Google News, recherche dans les blogs, recherche vidéos, recherche images
Le « 2016 Edelman Trust Barometer », un sondage mené par la société Edelman a récemment montré que 60% des personnes sondées (33 000 personnes dans 28 pays différents) faisaient plus confiance aux informations publiées dans Google News qu’aux mêmes actualités publiées sur les sites des journaux.