Academia, le réseau social académique qui compte plus de 40 millions d’utilisateurs vient d’annoncer le lancement d’une offre premium. Cette offre est accessible en beta privée uniquement pour le moment et semble offrir par rapport à l’inscription classique plus de données analytiques.
Jusqu’à présent, le réseau social était entièrement gratuit et même si les premières informations ne semblent pas remettre en cause l’accès gratuit à tous les documents hébergés sur la plateforme, cette annonce a soulevé de nombreuses critiques dans le monde académique qui s’inquiète de voir disparaître certaines fonctionnalités et surtout l’accès gratuit à l’intégralité des documents. Aucune information tarifaire n’est pour le moment publique mais certains beta testeurs ont indiqué sur les réseaux sociaux que les tarifs proposés étaient bien trop élevés. Affaire à suivre...
On notera également le lancement d’un moteur dédié aux offres de thèses destinées aux étudiants et chercheurs internationaux appelé Campus France par l’agence française pour la promotion de l’enseignement supérieur, l’accueil et la mobilité internationale.
Ce moteur pourra avoir un intérêt pour les professionnels de l’information afin de savoir sur quelles thématiques et quels sujets intéressent certains organismes de recherche en France.
Lien : http://ecolesdoctorales.campusfrance.org/phd/offers
On connaissait Ingenta Connect, une base de données bibliographiques multidisciplinaires qui indexe plus de 30 000 titres. Au cours du mois d’octobre 2016, Ingenta a annoncé le lancement d’Ingenta Open, une plateforme pour rechercher des ressources en Open Access. Pour le moment, y sont hébergés des ouvrages, des chapitres d’ouvrages, des articles et même des revues dans leur intégralité. A l’avenir, le but est de donner accès à des millions d’articles en Open Access, qu’ils soient hébergés sur la plateforme ou indexés par des outils spécialisés comme DOAJ ou OAPEN. La plateforme est en libre accès et aucune inscription ou création de compte n’est requise.
Lien : http://io.publisher.ingentaconnect.com
Ce mois-ci l’actualité des moteurs se concentre sur les évolutions de la recherche notamment en matière de sémantique. Nous y avons consacré la une dans le n°340 de Bases (septembre 2016) mais de nouvelles annonces ont été faites depuis.
Nous avions indiqué que Google se tournait de plus en plus vers la sémantique. Certains blogueurs ont d’ailleurs remarqué récemment que Google transformait dans certains cas les requêtes des utilisateurs sous forme de question.
Ainsi sur le blog http://googlesystem.blogspot.co.uk (non affilié à Google), l’auteur a ainsi entré la requête alcohol with the highest boiling et a remarqué juste au dessus de la liste de résultats que Google avait retranscrit la requête de la manière suivante : «Which alcohol has the highest boiling point? Cela met ainsi bien en lumière les avancées de Google en matière de sémantique et de compréhension des intentions des utilisateurs.
Autre élément important, Google a annoncé fin octobre qu’il allait proposer d’ici quelques mois deux index différents : un pour les recherches sur ordinateur, l’autre pour les recherches sur mobile. La version mobile sera mise à jour plus régulièrement que l’autre version.
Google confirme donc son intention de favoriser la recherche mobile par rapport à la recherche traditionnelle sur ordinateur et pour les professionnels de l’information, cela signifie que les résultats issus d’une recherche sur mobile ou sur ordinateur risque d’être différents voire même très différents.
Du côté des autres moteurs, Bing commence à proposer des réponses directes comme le fait déjà Google. C’est à dire que pour certaines requêtes, il affichera au dessus des résultats la réponse à la question : un schéma, une image, un arbre généalogique, etc. Cela n’est disponible que sur la version américaine en langue anglaise du moteur.
D’autre part, le moteur a récemment publié des informations quant à son usage de l’intelligence artificielle. On apprend notamment que Bing travaille bel et bien sur la recherche sémantique en essayant d’interpréter les intentions des utilisateurs.
Yandex quant à lui a annoncé début novembre le lancement d’un nouvel algorithme appelé Palekh qui marcherait dans les pas du rankbrain de Google, l’un des points clé étant l’interprétation des intentions des utilisateurs.
Parmi les autres nouveautés concernant les moteurs de recherche, Google vient de lancer pour son moteur d’actualités une fonctionnalité de fact-checking pour vérifier la véracité des faits et chiffres énoncés dans l’articles. Ainsi certains articles disposent désormais d’un tag « Fact check ».
Chez Twitter, l’heure n’est pas à la fête avec l’annonce de la fermeture de Vine, son service de microvidéo et surtout l’annonce par Twitter de sa mise en vente. Seul problème, les principaux repreneurs potentiels qui s’étaient initialement déclarés (Google, Disney ou encore Apple) renoncent tous les uns après les autres. Salesforce reste lui dans la course.
Facebook, lui, a annoncé le lancement de Workplace, son réseau social, qui semble a priori très similaire à Facebook sauf qu’il ne s’utilise qu’au sein des entreprises (https://workplace.fb.com/). Le tarif est de 3$ par utilisateur actif (avec des tarifs dégressifs au delà de 9000 utilisateurs actifs). Nous suivrons le développement de ce réseau dans nos prochains numéros.
Alors que Viadeo est en perte de vitesse, LinkedIn lui ne cesse d’innover et propose sans cesse de nouvelles fonctionnalités. Parmi les dernières en date, on notera :
Linkfluence, l’éditeur de la plateforme de veille sur les médias sociaux Radarly vient de boucler une troisième levée de fond de 12 millions d’euros. On peut donc espérer de nouveaux investissements notamment en R&D avec de nouvelles fonctionnalités innovantes.
A l’image de plusieurs autres plateformes de veille (Talkwalker et Radarly), Digimind se lance à son tour dans la reconnaissance d’image sur son outil Digimind Social. Pour cela, l’entreprise a fait appel à Ditto Labs, une entreprise américaine spécialisée en la matière. Digimind est désormais capable de détecter un logo sur toute image publiée sur Twitter et dans tout type de situation : t-shirt, tasse, chaussure, affiche publicitaire, etc. Les images détectées sont ensuite collectées et traitées par Digimind de la même manière qu’une mention textuelle dans un article ou un post.
Stample, un outil de curation professionnel spécialisé dans le partage de contenu (à l’image d’Elcurator) vient d’annoncer le lancement de nouveaux tarifs. Il existe toujours une version gratuite dont les possibilités de stockage fondent de mois en mois (de 10 Go cet été, nous sommes maintenant passés à 5 Go).
Il y a maintenant un compte professionnel à 3 €/mois avec un nombre illimité de bibliothèques privées et partagées, la possibilité d’inviter jusqu’à 5 contributeurs par bibliothèque, l’export de données et 20 Go de stockage. On passe ensuite à la version Equipe au tarif de 5 €/mois/utilisateur : compte administrateur, jusqu’à 30 lecteurs gratuits, intégrations pro, gestion de droits avancée, statistiques et 50 Go de stockage par utilisateur. Enfin le forfait Entreprise propose du sur-mesure aux entreprises désireuses d’utiliser l’outil à plus grande échelle.
La blogosphère info-doc : une communauté de savoir, une mosaïque de médiations, Bérangère Stassin, Cépaduès Editions, 2016, 410 pages -ISBN : 9782364935631
Cet ouvrage interroge les nouvelles formes de médiation des savoirs et de l’information qui émergent au sein du Web.
L’étude qui est menée porte sur le terrain des blogs et plus particulièrement sur la blogosphère info-doc française et non institutionnelle, c’est-à-dire sur un réseau formé par des blogs dont les auteurs sont des archivistes, des bibliothécaires, des documentalistes, des éditeurs ou encore des chercheurs en sciences de l’information, mais qui bloguent dans des positions totalement détachées des institutions où ils exercent.
MÉTHODOLOGIE
• Retrouver les déclarations d’une personnalité : sources et méthodes
ANALYSE
• L’analyse de données sur Twitter, incontournable pour la veille
BASES DE DONNÉES
• INIST : les évolutions de Refdoc, Pascal et Francis
Déjà abonné ? Connectez-vous...
Retrouver les dernières déclarations d’une personnalité, rassembler les discours parus dans la presse sur une thématique précise, … voici des problématiques auxquelles peuvent être régulièrement confrontés les professionnels de l’information.
Pourtant, cette entreprise n’a rien d’aisé, loin de là. Même si les déclarations sont souvent mises entre guillemets et/ou en italiques dans les textes et articles qui les relatent, il n’existe pour autant aucun moyen simple et direct pour identifier ces éléments, que ce soit en utilisant des moteurs de recherche ou des bases de données et agrégateurs de presse.
A l’occasion du lancement récent du moteur de recherche Storyzy, un moteur spécialisé dans la recherche de citations, nous avons décidé d’en savoir plus sur ce nouveau venu et de faire le point sur les outils disponibles aujourd’hui sur le marché et les méthodes pour interroger les moteurs et les bases de données et agrégateurs de presse à cette fin.
Avant toute chose, il convient de définir les différents cas de figures pour retrouver les paroles d’un individu.
Il peut en effet s’agir :
Fort heureusement pour les professionnels de l’information, bon nombre de personnalités publiques (ou leurs équipes) cherchent à mettre en avant leur exposition médiatique et n’hésitent pas à publier sur leur site, le site de l’entreprise, de l’organisation, ou autre support la liste de leurs déclarations.
Ce qui peut simplifier grandement la tâche dans un certain nombre de cas tout en ayant conscience que ce n’est pas toujours exhaustif, surtout dans le cas où les articles ont une connotation négative.
Pour identifier des discours et déclarations sur une thématique précise, on peut également compter sur la presse pour proposer des synthèses sur le sujet (notamment dans le cas de campagnes électorales).
Déjà abonné ? Connectez-vous...
Twitter reste plus que jamais l’un des piliers majeurs de tout processus de veille.
Avec ses 320 millions d’utilisateurs et ses 500 millions de tweets quotidiens, le réseau social offre une extraordinaire masse de données que tout veilleur cherche à capturer.
De plus, la possibilité d’obtenir un accès aux positions et ressentis d’experts, de journalistes, d’hommes politiques ou de célébrités offre au veilleur la perspective de mettre la main sur des informations que l’on ne peut trouver nulle part ailleurs.
C’est tout aussi logiquement que Twitter a suscité l’intérêt des spécialistes en réseaux, sociaux ou non. Une caractéristique intéressante de Twitter par rapport à la plupart des autres réseaux sociaux est d’être « dirigé », c’est-à-dire qu’une relation entre deux « nœuds » (deux comptes Twitter, en l’occurrence) peut être à sens unique : il est possible de suivre un compte Twitter sans que ce dernier ne nous suive.
Cela diffère de réseaux sociaux comme Facebook qui sont dits « non dirigés » : une relation ira forcément dans les deux sens, car il n’est pas possible d’être ami avec quelqu’un sur Facebook sans que celui-ci soit aussi ami (même si, pour complexifier la chose, il est aujourd’hui possible de « suivre » des personnes sur Facebook sans pour autant être ami avec eux : le Facebook de 2016 possède ainsi à la fois des composantes « dirigées » et « non dirigées »).
Ces caractéristiques, ajoutées au fait qu’il est presque entièrement ouvert (à l’exception de quelques rares comptes fermés) expliquent aussi que Twitter soit le réseau social qui se prête le mieux à l’analyse. Il s’agit en effet d’un des seuls réseaux sociaux à disposer d’outils d’analyse qui soient à la fois gratuits, efficaces, et larges dans leur couverture.
La majorité des outils gratuits disponibles pour Instagram ne permettent, par exemple, que d’analyser son propre profil, ce qui réduit d’emblée l’intérêt pour le professionnel de l’information (ce type de services étant plutôt destiné aux services communication désirant « optimiser » leur activité sur les réseaux sociaux).
Quant à Facebook ou LinkedIn, le caractère semi-fermé de ces réseaux sociaux ferme aussi la porte à la majorité des solutions analytiques. Nous avions tout de même mentionné dans un précédent numéro la solution « Faveoo Insights » qui permet ce type d’analyse. Elle est néanmoins payante. Voir l’article « DataSift : une nouvelle étape dans l’accès aux données des utilisateurs de Facebook? » - Netsources n°122 - mai/juin 2016).
Nous allons ainsi présenter dans cet article quatre outils permettant d’analyser l’activité sur Twitter. Deux de ces outils permettent des analyses relativement poussées mais sont aussi plus complexes d’utilisation, tandis que les deux autres peuvent être pris en main sans la moindre difficulté mais offrent des analyses plus générales.
La bonne compréhension et l’exploitation de ces données peuvent offrir un important avantage compétitif au veilleur et, de fait, à l’entreprise (ou au client) pour lequel il travaille. Sans rentrer dans le débat de savoir où s’arrête la veille et où commence l’analyse, notons que l’intégration de processus analytiques dans une veille peut offrir plusieurs avantages.
Il y a tout d’abord l’identification de sources ou de personnes pertinentes : cela peut être aussi bien un site peu connu mais de qualité ou un utilisateur de réseaux sociaux pourvoyeur d’informations intéressantes ou très écoutés (les fameux « influenceurs »).
L’analyse d’une veille doit aussi permettre de repérer des tendances, qui seront elles-mêmes réinsérées dans le processus de veille. Enfin, analyser des données sur Twitter, c’est aussi simplement mieux comprendre la manière dont celles-ci apparaissent et évoluent, permettant au final de mieux anticiper. Détection de tendances, identification de sources, et même de médias tels que des vidéos ou des pages internet, voici les principaux apports que ces solutions d’analyses offrent.
Déjà abonné ? Connectez-vous...
La vie de l’INIST n’a pas été un long fleuve tranquille et les remises en cause ou les questionnements sur sa vocation et ses produits et services n’ont pas manqué. Hors de la sphère publique (l’INIST est un établissement du CNRS), l’INIST était essentiellement connu pour deux produits, Pascal et Francis et un service, Refdoc.
Pascal et Francis sont deux banques de données, la première spécialisée en sciences, technologie, médecine et la seconde couvrant 15 disciplines en sciences humaines et sociales. Francis était particulièrement appréciée aux Etats-Unis où elle n’avait pas tellement d’équivalent.
Quand il était encore accessible à tous, le service de fourniture de copie de documents primaires Refdoc était très utilisé (100.000 commandes étaient prévues en 2014) même si cette utilisation allait décroissant sans doute à cause de la mise en ligne des articles par les éditeurs.
Dans l’histoire récente, un premier changement majeur a été l’arrêt du service Refdoc pour les clients privés.
Cet arrêt a été provoqué par la conjonction de deux facteurs : l’acharnement d’un juriste à faire condamner l’INIST sur des problèmes très juridiques de droit de copie et une sorte de cabale menée par Savoirscom1 et le blogueur Olivier Ertzscheid (Affordance) qui trouvaient insupportable que l’INIST «vende» des articles accessibles gratuitement par ailleurs.
Déjà abonné ? Connectez-vous...
TENDANCES
• La mort annoncée de la recherche booléenne ?
RETOUR D’EXPÉRIENCE
• CETIM : Évaluer la pertinence des sources d’informations scientifiques et techniques
ACTUALITÉS
• En bref
Déjà abonné ? Connectez-vous...
On reconnait bien souvent un professionnel de l’information à son utilisation intensive et souvent experte des opérateurs booléens et autres opérateurs avancés.
Chaque question est ainsi décortiquée, traduite en une liste de mots-clés avec leurs variantes et synonymes et combinés entre eux avec des opérateurs booléens et de multiples opérateurs avancés (termes dans la même phrase, termes cités au moins n fois, opérateurs de proximité, etc.).
Les autres professions ont quant à elles généralement tendance à méconnaître ces différentes fonctionnalités et à préférer des requêtes en langage naturel.
A l’origine, le terrain de jeu des professionnels de l’information était celui des serveurs et bases de données qui proposaient des fonctionnalités de recherche poussées avec la possibilité de construire des requêtes complexes voire même très complexes et supposaient une formation poussée pour y parvenir.
Par la suite, l’avènement du Web a démocratisé la recherche d’information au travers des moteurs de recherche et notamment Google. Même si les fonctionnalités de recherche étaient bien moindre que sur les serveurs, le principe restait néanmoins le même avec une utilisation des opérateurs booléens classique (AND, OR et NOT) et quelques opérateurs avancés (comme la possibilité de limiter la recherche au titre des pages, de limiter à certains formats de fichiers, à certains termes dans l’url ou l’extension de sites).
Mais récemment, on a pu voir fleurir sur le Web (principalement dans la blogosphère infodoc anglo-saxonne) divers articles et commentaires sur la mort de la recherche booléenne notamment sur Google. D’après ces sources, une requête en langage naturel produirait de bien meilleurs résultats qu’une requête booléenne sur Google (du moins en langue anglaise).
Cela s’expliquerait par les nombreuses avancées de Google en matière de sémantique et l’utilisation intensive des opérateurs booléens et avancés pourrait même brider les résultats du moteur. L’utilisateur ne tirant ainsi pas parti des différentes fonctionnalités sémantiques.
Nous avons donc voulu dans un premier temps faire le point sur les différentes théories qui ont émergé au cours des dernières années sur les meilleures méthodes pour interroger Google. Dans un second temps, nous avons mené une série de tests pour vérifier si une requête en langage naturel produisait bien de meilleurs résultats en anglais mais également en français. Ensuite, nous avons cherché à savoir si cette tendance à savoir la disparition progressive des méthodes de recherche traditionnelles au profit de la recherche sémantique s’appliquait également aux autres moteurs de recherche.
Enfin nous nous sommes également demandés si cette évolution vers la recherche sémantique et l’utilisation d’une syntaxe simplifiée était une tendance observée chez les serveurs et bases de données (pourtant le lieu idéal pour expérimenter des recherches booléennes complexes et élaborées) ou les autres outils de veille et de recherche utilisés par les professionnels de l’information. Nous traiterons en détail cet aspect dans le prochain numéro de Bases et nous nous consacrerons dans ce numéro à la recherche sur Google et les autres moteurs Web.
Déjà abonné ? Connectez-vous...
L’information scientifique et technique est importante pour une structure de type centre technique. Il est donc nécessaire de remettre périodiquement en cause ses sources d’informations en choisissant le meilleur compromis entre la qualité et le coût.
En 2016, le CETIM a cherché à évaluer la pertinence de ses sources d’informations. Celles-ci ont en effet évolué depuis quelques années, en particulier avec l’apparition de l’offre des éditeurs scientifiques. Le département Veille Technologique et Stratégique du CETIM s’est appuyé sur un projet de fin d’année de Licence Pro en info-doc de Lyon pour évaluer la pertinence des différentes sources d’information.
Nous avons procédé à une analyse en deux temps : un sondage auprès de professionnels de l’information et de chercheurs pour avoir un panorama des différentes sources d’informations utilisées et, dans un second temps, une analyse de la couverture de quelques serveurs d’informations et bases de données.
Pour avancer dans ce projet, nous nous sommes associés à FLA Consultants, pour interroger les sources d’informations avec un protocole plus structuré.
Cet article présente ainsi l’état d’avancement de cette étude et les conclusions associées.
Déjà abonné ? Connectez-vous...
Le 24 août dernier, Elsevier annonçait le lancement de Datasearch, un moteur de recherche de données scientifiques multisectoriel en libre accès. L’outil fonctionne comme un moteur classique et interroge des sources scientifiques et répertoires institutionnels. Elsevier explique avoir voulu aider les chercheurs à gagner du temps dans leurs recherches car les moteurs de recherche généralistes ne sont pas forcément les plus adaptés pour identifier de l’information très spécialisée et ne se limitent pas à des sources d’information qualifiées et reconnues.
Ainsi, Datasearch indexe pour le moment les tableaux, figures et données supplémentaires associées aux articles publiés sur ScienceDirect, arXiv et PubMed Central ainsi que le contenu de NeuroElectro, Dryad, PetDB, ICPSR, Harvard Dataverse et ThemoML.
Pour le moment Datasearch n’est pas un produit commercial mais Elsevier indique que le business model n’est pas encore finalisé. Impossible donc de savoir comment va évoluer le produit dans les mois et années à venir et s’il va rester en libre accès.
IET (Institution of Engineering and Technology) a récemment annoncé que plus de 30 000 pre-prints disponibles dans l’archive ouverte ArXiv seraient indexés dans la base de données Inspec (l’une des bases de référence en physique et sciences de l’ingénieur).
Aux Etats-Unis, une nouvelle archive ouverte dédiée aux sciences de l’ingénieur vient de voir le jour. Elle s’appelle EngrXivet le projet est mené par des ingénieurs et une communauté de bibliothécaires scientifiques américains. L’archive ouverte est hébergée en version béta sur la plateforme Open Science Framework (qui héberge aussi les archives ouvertes SocArXiv pour sciences sociales et PsyArXiv pour la psychologie).
Pour le moment, l’interface est peu conviviale et le nombre de documents restreints mais le projet n’en étant qu’à ses balbutiements, on ne peut qu’espérer une amélioration au cours des prochains mois.
En termes de fonctionnalités de recherche, l’outil permet d’utiliser les opérateurs booléens classiques (sauf que les mots-clés sont séparés implicitement par un OR) et les guillemets pour la recherche d’expression exacte. Dans un second temps, il est possible de filtrer les résultats par type (document, images, données statistiques, etc.), sources et date.
Reuters vient tout juste d’annoncer des évolutions majeures au niveau de la recherche dans Thomson Innovation et notamment le lancement d’un nouvel algorithme « smart search » plus orienté vers la sémantique. Au delà de la traditionnelle recherche par mot-clé, « smart search » extrait des mots-clés et des thèmes à partir d’un bloc de texte et les injecte dans l’algorithme de recherche.
Plum Analytics (EBSCO) et ACI Information Group ont récemment développé un partenariat afin de proposer des métriques sur plus d’1 million d’articles de blogs scientifiques et académiques aux clients de PlumX Suite.
L’agrégateur de presse EDD propose de nouvelles fonctionnalités :
Il annonce également le lancement prochain d’un nouvel outil appelé Pressedd-Reader, une nouvelle plateforme de consultation des retombées médias, conçue spécifiquement pour les lecteurs.
Du côté de Google, on notera l’ajout de 11 nouveaux pays à l’outil Google Patents : Japon, Corée du Sud, Royaume-Uni, Espagne, France, Belgique, Russie, Pays-Bas, Finlande, Danemark et Luxembourg.
Twitter revoit sa politique des 140 caractères. A partir du 19 septembre, les liens ne seront plus comptabilisés.
Les outils du Web vont et viennent et il n’est pas rare que certains outils gratuits changent leur politique pour passer au payant. En cette rentrée, on notera donc la disparition du moteur de hashtag « Hshtags ».