PANORAMA
• Le RSS est-il encore un atout pour la veille ?
MÉTIER
• Google et les professionnels de l’information : je t’aime, moi non plus !
TENDANCES
• L’avenir de la recherche Web sera t-il thématique ?
EN BREF
• L’actualité de la rentrée
Déjà abonné ? Connectez-vous...
Il y a une dizaine d’années, le RSS était LE sujet qui alimentait les discussions des professionnels de l’information. La fameuse icône orange se propageait sur la majorité des sites d’information, de nouveaux lecteurs de flux RSS gratuits se créaient toutes les semaines et tous les acteurs de la formation en infodoc proposaient des stages pour tirer parti du RSS pour la veille.
Car pour les professionnels de l’information, le RSS était avant tout la découverte d’un format qui offrait un moyen simple et efficace pour suivre les nouveautés d’un site sans se rendre régulièrement sur celui-ci pour y consulter les nouveautés et sans recourir à un outil de surveillance de pages généralement payant et moins intuitif.
Mais force est de constater que le RSS semble avoir perdu de sa splendeur au profit des réseaux sociaux. De nombreux sites ont ainsi supprimé leurs flux RSS, du moins en apparence, mais proposent toutes une collection de boutons Twitter, Facebook, LinkedIn, YouTube, Instagram, Pinterest etc. pour suivre leurs actualités.
Et face à ce report de l’attention vers les médias sociaux comme source d’accès à l’information, les plateformes de social media monitoring semblent avoir pris le pas sur les lecteurs de flux RSS, qui pourtant ne jouent pas dans la même catégorie aussi bien en termes de contenu que de tarifs.
Le RSS est-il pour autant en voie de disparition ? Pas si sûr...
Le RSS est un « format de données utilisé pour la syndication de contenus Web. Les flux RSS sont des fichiers XML qui sont souvent utilisés par les sites d’actualité et les blogs pour présenter les titres des dernières informations consultables. » (source : Wikipédia).
Et le format RSS existe depuis de nombreuses années. RSS 0.91 est sorti en 1999 mais le format le plus connu est le RSS 2.0 qui a été lancé en 2002.
Parallèlement au RSS, il existe le format Atom qui est également souvent utilisé pour la syndication de contenu et qui a fait son apparition en 2005.
Les différences entre ces formats sont essentiellement techniques et basées sur des idéologies distinctes : Le développement du format Atom visait ainsi à proposer un format non dépendant d’entreprises et d’acteurs privés, une facilité de mise en oeuvre et une possibilité de modification du format par n’importe quelle personne, ce que le RSS ne proposait pas.
Mais cela ne change finalement pas grand chose pour le veilleur au quotidien. Il est d’ailleurs très fréquent d’employer le terme « flux RSS » pour parler d’un fil Atom.
Depuis quelques mois, on voit également fleurir des JSON feed/flux JSON. Comme pour le format Atom, cela ne change pas grand chose pour l’utilisateur final mais ceux-ci répondent visiblement mieux aux besoins des développeurs Web. On retiendra donc simplement que ce dernier format se développe de plus en plus et qu’il est judicieux de recourir à des outils capables de lire et interagir avec ce dernier.
Déjà abonné ? Connectez-vous...
Pour la veille et la recherche d’information, le moteur Google est un outil indispensable, pour rechercher sur le Web ouvert et gratuit ainsi que pour détecter des sources pertinentes dans le cadre du sourcing.
Les relations entre le géant américain et les professionnels de la veille sont cependant compliquées. Ces derniers se voient par exemple dépossédés de leur rôle d’intermédiaire auprès des usagers, désillusionnés quant à la stratégie à long-terme de Google mais doivent également faire face aux retraits réguliers de produits et fonctionnalités très utilisées par les veilleurs.
Google vient tout juste d’annoncer une nouvelle fonctionnalité qui devrait, a priori permettre de donner plus de visibilité aux bibliothèques et à leurs catalogues. Mais est-ce une si bonne nouvelle ?
Désormais, lorsqu’un internaute recherche le titre d’un ouvrage, Google va indiquer dans quelles bibliothèques à proximité on peut obtenir l’ebook en question, à condition d’avoir activé la géolocalisation.
Cette fonctionnalité est disponible aussi bien sur ordinateur que sur mobile mais pour le moment uniquement aux Etats-Unis.
D’après les premiers échos, Google n’inclut pas toutes les bibliothèques et cela semble dépendre des fournisseurs d’ebooks utilisés par les bibliothèques.
Comme toujours, l’initiative de Google n’a sûrement rien de désintéressé et d’autant moins que certains professionnels pointent déjà du doigt que cette nouvelle fonctionnalité permettrait au géant américain d’obtenir toujours plus de données personnelles et de réaliser un profiling des internautes encore plus affiné puisqu’il est nécessaire d’activer la géolocalisation pour en bénéficier.
D’autre part, cela s’inscrit parfaitement dans la stratégie de Google et son « ère de l’assistance ». Il n’a plus vocation à être un moteur de recherche mais un assistant personnel qui vous guide, et dans ce cas précis, de A à Z vers l’ouvrage dont vous aviez besoin.
On pourrait même aller plus loin en se demandant si, finalement, Google ne cherche pas tout simplement à remplacer les bibliothécaires.
Déjà abonné ? Connectez-vous...
Depuis de nombreuses années, la recherche d’information sur le Web fait la part belle aux outils généralistes : Google, Bing, Twitter, etc. Et une partie non négligeable des outils de recherche thématiques gratuits (les annuaires thématiques par exemple) disponibles sur le Web ouvert et qui existaient depuis de nombreuses années ont aujourd’hui disparu ou ne sont plus mis à jour.
Alors qu’il y a une dizaine d’années, on disposait de toute une panoplie d’outils pour rechercher de l’information sur le Web ouvert (annuaires, moteurs, métamoteurs, moteurs spécialisés et thématiques, etc.), ces dernières années, on avait le sentiment que le choix s’était considérablement réduit pour ne laisser la place qu’à Google ou aux moteurs internes des grands médias sociaux comme Twitter, Facebook, LinkedIn, etc.
Précisons que nous nous intéressons ici aux outils gratuits de recherche sur le Web et non aux serveurs et bases de données qui continuent d’exister et de se développer.
Mais cette situation pourrait bien être en train de changer ou, du moins, va devoir changer et ce, pour plusieurs raisons :
Déjà abonné ? Connectez-vous...
Dans le secteur de la recherche, il est en ce moment beaucoup question des « revues prédatrices », en l’occurrence des revues pseudo-scientifiques dont le but principal est l’enrichissement plutôt que l’avancement de la recherche.
Les chercheurs sont généralement sollicités par email par ces revues et invités à soumettre des articles. Elles fonctionnent sur le modèle du libre accès où les auteurs payent pour que leurs articles soient publiés. Mais dans le cas des revues prédatrices, n’importe quel article est accepté et publié, les comités éditoriaux étant souvent composés de membres fictifs ou de chercheurs dont les noms ont été inscrits sans leur accord.
Jeffrey Beall, un bibliothécaire de l’Université du Colorado à Denver avait mis en ligne une liste des revues prédatrices pour aider les chercheurs à ne pas se faire piéger, liste qui a malheureusement été retirée en janvier dernier suite aux nombreuses pressions qu’il a reçues.
Le blog Rédaction Médicale et scientifique propose deux alternatives :
ResearchGate est l’un des principaux réseaux sociaux pour les chercheurs, créé en 2008. Bon nombre de chercheurs y chargent leurs articles, ceux-ci étant donc accessibles à tous les autres membres du réseau social. Cependant, une récente étude intitulée « Copyright compliance and infringement in ResearchGate full-text journal articles » et publiée dans la revue Scientometrics tend à montrer que 51% des articles déposés sur ResearchGate enfreignent les règles du copyright.
On apprenait justement il y a quelques jours que des éditeurs regroupés au sein de l’Association of Scientific Technical & Medical Publishers (STM), parmi lesquels Elsevier, ont proposé un accord à ResearchGate pour limiter le nombre d’articles enfreignant les règles du copyright. Les utilisateurs seraient toujours en mesure de charger des articles scientifiques sur la plateforme mais un algorithme en arrière-plan déterminerait si l’article peut être publié de manière publique ou bien uniquement de manière privée. L’accès serait alors restreint aux co-auteurs ainsi que d’autres private research groups. STM estime que le système pourrait être mis en place d’ici 30 à 60 jours.
ResearchGate n’a pour le moment pas réagi...
Dans le secteur des médias, on notera le lancement récent d’une plateforme de datajournalisme sur l’Europe appelée European Data News Hub (EDNH). L’Agence France Presse (AFP), l’agence italienne ANSA et la Deutsche Presse-Agentur (DPA) sont à l’origine du projet et la plateforme publie des textes en cinq langues (anglais, allemand, français, espagnol et italien), des infographies, des vidéos et des photographies.
Il est toujours intéressant de comprendre et d’analyser le comportement des internautes lors d’une recherche Web. Une récente étude menée par Internet Marketing Ninjas conclut que jusqu’à 30% des résultats présents sur les première et deuxième pages de résultats de Google ne sont jamais cliqués par les internautes.
Dans cette même étude, on apprend également que le taux moyen de clics pour le premier résultat est autour de 21%, le deuxième autour de 10%, le troisième autour de 7.5 % et ce pourcentage ne cesse de baisser pour atteindre 3% au huitième résultat.
La recherche vocale est à la mode et nous vous en parlions dans le dernier numéro. Google vient d’ajouter 30 nouvelles langues à son moteur de recherche vocal pour arriver à 119 langues, rendant ainsi cette technologie encore plus accessible à travers le monde. Et quand on voit le peu de taux de clics sur les résultats de recherche lors d’une recherche Google, il y a fort à parier que la recherche vocale va continuer de progresser puisque les internautes semblent parfaitement se contenter d’une unique réponse.
Toujours chez Google, on apprenait qu’une nouvelle mise à jour de son app sur mobile aide les internautes à trouver des contenus similaires sans avoir à retourner dans le moteur. Ainsi, lorsque l’internaute se trouve sur une page Web au sein de l’app, il se verra suggérer des contenus similaires par Google en bas de page. Il semblerait à première vue que ces suggestions soient basées sur les pages que les internautes ont consultées après avoir consulté cette même page. Cette fonctionnalité n’est disponible qu’aux Etats-Unis pour le moment mais pourrait s’étendre à d’autres langues et d’autres pays.
De son côté, Bing a annoncé des améliorations pour ses fonctionnalités de recherche d’images. Les internautes pouvaient d’ores et déjà effectuer des recherches sur des objets présents au sein d’une image. Mais il fallait pour cela qu’ils entourent manuellement l’objet en question dans l’image. Désormais, le moteur est capable de détecter automatiquement les objets au sein des images et l’internaute n’aura plus qu’à cliquer sur la petite icône pour lancer la recherche sur des objets similaires. Pour l’instant cela ne fonctionne que sur la version desktop et non mobile.
Dans un précédent article de BASES (« Facebook, incontournable pour la veille et la recherche : fantasme ou réalité ? » - N°344 - Janvier 2017), nous avions évoqué plusieurs outils pour effectuer des recherches avancées sur Facebook. Nous avons récemment eu l’occasion de découvrir un nouvel outil : AFS (Advanced Facebook Search) qui se présente sous la forme d’une extension Chrome.
Chez LinkedIn, les utilisateurs peuvent désormais charger des vidéos sur leur page.
Toujours du côté de LinkedIn, on apprenait également qu’un juge fédéral de San Francisco avait ordonné à LinkedIn d’arrêter de bloquer la société Hiq Labs qui récupérait (avec un procédé de scraping) des données sur les profils LinkedIn dans le cadre son activité. Même si LinkedIn a fait savoir qu’il ne se plierait probablement pas à cette décision, c’est à notre connaissance une première.
Ces dernières années, les grandes plateformes de médias sociaux comme Twitter, Facebook ou LinkedIn, ont restreint au maximum l’accès à leurs services par des applications tierces. Les plateformes de veille ne peuvent ainsi plus surveiller LinkedIn et sont très limitées sur Facebook. Si la tendance venait à s’inverser, il pourrait s’agir d’une bonne nouvelle pour les professionnels de la veille.
Netvibes, qui d’un simple lecteur de flux RSS, s’est transformé en quelques années en une plateforme de veille onéreuse, vient d’annoncer que ses utilisateurs pourraient désormais bénéficier d’un « personal corpus ». Fini, le corpus de sources opaques sur lequel l’utilisateur n’a pas la main, il peut désormais ajouter et retirer des sources rapidement et facilement.
Même si d’autres outils le font depuis des années, cette initiative est intéressante car c’est généralement le point faible des plateformes de social media monitoring qui surveillent un panel de sources très large mais complètement opaque et non paramétrable par les utilisateurs.
Pour surveiller Twitter, il existe de multiples solutions allant de la simple création de flux RSS aux grosses plateformes de veille multisources. Nous avons récemment découvert un nouvel acteur sur le marché : Twilert (https://www.twilert.com), un outil de veille qui se focalise exclusivement sur Twitter. Nous n’avons pas encore eu l’occasion de le tester mais l’outil propose un essai gratuit de 30 jours. A tester, donc !
Dans la boîte à outil du veilleur, on trouve souvent Google Translate. Bonne nouvelle, pour la traduction, une alternative efficace est désormais possible : DeepL qui indique être « trois fois plus performant que Google ». Derrière cette initiative, on retrouve les fondateurs du dictionnaire en ligne Linguee.
Et d’après les premiers retours et tests réalisés par des journalistes et sites spécialisés (Le Monde et Numerama), il semble bien que l’outil soit très prometteur...
OPEN ACCESS • Accès à la littérature scientifique : les voies de l’« open access »
SERVEURS • Questel reprend les acquisitions
INFORMATION SCIENTIFIQUE
• Scopus aide gratuitement à identifier les auteurs et leurs publications
MÉTHODOLOGIE • Comment retrouver de vieux articles de presse ?
AGRÉGATEURS DE PRESSE • La recherche en…tique
RETOUR D’EXPÉRIENCE
• Fanny Glassier, documentaliste à KEDGE Business School : le défi de la formation
OUTILS • TERMIUM Plus, une source de terminologie d'origine canadienne
EN BREF • L’actualité de l’été
Déjà abonné ? Connectez-vous...
A l’occasion de la dernière réunion annuelle du CFIB (Club francophone d’information brevet), Marie-Pierre Vidonne, directrice du cabinet suisse Innovea, a fait un fort utile tour d’horizon des possibilités de libre accès (open access) à la littérature scientifique.
Ces problématiques sont apparues peu après que les articles scientifiques soient devenus disponibles sous forme électronique. S’est, en effet, alors posé le problème des modalités de leur accessibilité.
D’un côté, un grand nombre de chercheurs considéraient que leurs publications devaient être accessibles le plus facilement et le plus librement possible, et gratuitement, afin d’optimiser et d’accélérer le développement de la science, considérant que, pour une bonne part, leurs recherches avaient été financées par des fonds publics.
De plus, les chercheurs des pays les moins développés se plaignaient de ne pouvoir accéder à nombre d’articles scientifiques publiés dans les revues payantes, leurs universités ayant des budgets d’abonnement beaucoup plus restreints que les universités occidentales.
De leur côté, les éditeurs défendaient leur modèle traditionnel, continuant à vendre les articles qu’ils publiaient, mettant en avant leurs prestations telles que la sélection des articles, la gestion de leur évaluation, la gestion de leurs modifications éventuelles et tout leur travail d’édition d’autant qu’ils ne facturaient rien aux auteurs, sauf d’éventuels suppléments pour des prestations spécifiques.
Ces problématiques sont toujours d’actualité.
Déjà abonné ? Connectez-vous...
Après une petite pause d’un an et demi qui a suivi le rachat d’Intellixir et de GEM360 en 2015, Questel poursuit à nouveau ses acquisitions de sociétés offrant des services complémentaires aux siens dans le domaine de la propriété industrielle avec le rachat de la société américaine ITIP.
On sait que Questel est, de longue date, bien implanté au Etats-Unis en particulier après l’acquisition en 1994 d’Orbit, l’un des plus anciens serveurs américains spécialisé, en particulier, dans les brevets. Il était donc tout à fait cohérent de racheter en mars dernier la société ITIP (10M$ de CA en 2016), de surcroît peu implantée en Europe.
Cette acquisition a été accompagnée et soutenue par les fonds d’investissement, Capzanine et Raise. On notera à ce propos que le capital de Questel qui vise, avec ce rachat, les 50 M€ de chiffre d’affaires en 2017, est contrôlé à 53 % par ses dirigeants et salariés.
Déjà abonné ? Connectez-vous...
Scopus est un agrégateur de références d’articles scientifiques qui propose 69 millions de références issues de 22 000 publications de plus de 5 000 éditeurs.
L’accès au service est payant, le modèle étant celui du forfait annuel souscrit par des Universités, des entreprises…
Outre l’accès payant, Scopus offre un service gratuit d’identification d’auteur, basé, bien sûr, sur l’ensemble de son fonds.
Le service s’appelle Scopus Author Identifiers. Il apparaît en premier lorsque l’on cherche avec le mot Scopus dans un moteur de recherche.
Déjà abonné ? Connectez-vous...
La presse est une des sources d’information clé pour la veille et la recherche d’information.
Pour interroger la presse que ce soit pour la France ou à l’étranger, on pense généralement aux solutions suivantes :
. consulter directement les sites des titres de presse
. effectuer une recherche sur Google Actualités
. ou encore interroger les agrégateurs de presse qui agrègent des dizaines de milliers de titres et proposent une interface avec des fonctionnalités de recherche avancées et expertes comme Factiva, Pressedd, Europresse, Nexis, etc.
Mais ces différentes solutions ne permettent malheureusement pas d’accéder à une très grande antériorité notamment au delà des années 90.
Sur Pressedd par exemple, qui dispose de la meilleure couverture de la presse française, seuls le Monde et l’AFP disposent d’archives antérieures aux années 90 en l’occurrence 1944 pour le Monde, soit depuis l’origine, et 1951 pour l’AFP.
Entre 1990 et 1995, on comptabilise une dizaine de titres proposant des archives, chiffre qui grimpe ensuite à une trentaine entre 1995 et 2000. Mais on est très loin des milliers de sources aujourd’hui disponibles sur Pressedd...
Déjà abonné ? Connectez-vous...