Quelques années après sa création en 1979, Questel a développé une offre dans le domaine des marques en proposant une série de banques de données chacune consacrée à un pays (registre). Les marques françaises ont en effet été chargées dès 1984.
Ces informations étaient fournies soit par les offices, tel l’INPI pour la France, soit par la société CompuMark, par ailleurs un concurrent.
Pour faciliter l’accès à ces bases marques par les utilisateurs finaux, dans les services marketing par exemple, Questel a mis en place l’interface Trademarkexplorer qui avait été développée par Minesoft, alors distributeur exclusif de Questel dans plusieurs pays. Trademarkexplorer utilisait des macro commandes s’appuyant sur le langage d’Orbit.
Cette interface intéressante était très agréable à utiliser et proposait des fonctionnalités intéressantes.
En 2005, Questel a acheté la société belge Edital spécialisée dans le domaine des marques avec une approche assez sophistiquée et très adaptée à la recherche dans le domaine des marques.
Questel a poursuivi le développement d’Edital et a finalement abandonné l’interface Trademarkexplorer au profit d’Edital, en 2010, ce qui a entrainé le déchargement de toutes les bases marques de la plateforme Orbit.
Déjà abonné ? Connectez-vous...
Clarivate Analytics lance une nouvelle version de son outil de gestion bibliographique EndNote. EndNote X8 offre désormais la possibilité de partager une bibliothèque de références, des références, des PDFs et des annotations avec 100 personnes maximum, la possibilité de travailler simultanément sur une bibliothèque partagée en temps réel, du stockage illimité sans coût additionnel et l’ajout d’un flux d’activité pour voir les nouveaux membres ou les changements apportés aux bibliothèques partagées.
L’organisation des Nations-Unies pour l’Alimentation et l’Agriculture (FAO) vient de lancer une nouvelle version de sa base de données statistique FAOSTAT. Au programme des nouveautés, une interface plus moderne et adaptée à la lecture sur supports mobiles, de nouvelles fonctionnalités de recherche et de filtrage et la possibilité de télécharger des ensembles de données personnalisées, des cartes et graphiques. Le nouveau site propose également une nouvelle fonction avec un ensemble d’indicateurs-clés prêts à l’emploi.
L’heure est à la refonte et à l’amélioration puisqu’on apprend également que le site Legifrance sera refondu en 2017. L’Etat a en effet prévu d’allouer deux millions d’euros à ce nouveau site. Parmi les améliorations prévues : l’ergonomie, l’amélioration des fonctions existantes de recherche comme la recherche multi-bases, le filtrage des résultats, les liens entre les textes et enfin la création de nouveaux services comme la possibilité de mieux gérer ses alertes ou la création de flux thématiques.
On ne saurait parler de l’actualité des moteurs sans parler de Google. Il y a bien longtemps que Google ne communiquait plus sur la taille de son index. Google a récemment changé son fusil d’épaule et annoncé que son moteur indexait désormais 130 trillions de pages (rappelons qu’un trillion représente 1 milliard de milliard). En comparaison, en 2013, le géant américain parlait de 30 trillions de pages. Pas sûr que communiquer sur des chiffres d’un telle ampleur ait encore un sens...
Nous avions déjà eu l’occasion de mentionner que Google allait prochainement scinder son index en deux : un pour les mobiles et un pour les ordinateurs. On en sait désormais un peu plus sur ce nouvel index mobile. On apprend ainsi que ce nouvel index analysera en priorité les versions mobiles des pages. Pour certaines pages et sites, il existe en effet des versions mobiles et desktop qui peuvent être différentes et ne pas proposer un contenu strictement identique. D’autre part, cet index est toujours en test et ne devrait pas être implémenté avant quatre mois. Pour les professionnels de l’information, il faudra alors s’interroger sur l’intérêt éventuel de combiner des recherches sur les index mobiles et desktop car les résultats pourraient différer. Nous testerons dans quelques mois.
Au cours de l’été, Google a également déposé un brevet sur le classement des événements. L’idée est de classer les événements (qui ont une réalité physique comme un concert, une conférence, une exposition, etc.) par popularité sans se baser sur le nombre de liens qui pointent vers le site de l’événement en question.
Autre nouveauté : l’amélioration des traductions dans Google Translate. Depuis le mois de Septembre, Google a annoncé l’intégration d’un nouveau système de traduction neuronal. L’idée est de répliquer le cerveau humain en ne considérant plus les phrases mot à mot mais dans leur intégralité afin d’obtenir une qualité de traduction proche de la traduction humaine. Chez Google cette innovation est pour le moment appliquée à 8 langues : l’anglais et le français, l’allemand, l’espagnol, le portugais, le chinois, le japonais, le coréen, et le turc.
La traduction neuronale est en pleine expansion et on apprend également que Systran est le premier éditeur à lancer un moteur de traduction de ce type sur plus de 30 langues. L’outil est pour l’instant en version beta et accessible à un nombre restreint de beta-testeurs et il existe également une plateforme de démonstration à l’adresse https://demo-pnmt.systran.net/production#/translation permettant d’entrer jusqu’à 2000 caractères. Nous avons fait quelques tests sur l’allemand et les résultats sont déjà très concluants. Néanmoins, il ne semble pas que cet outil soit destiné à être en libre accès.
Mi-Novembre, Bing a annoncé la mise en ligne d’une nouvelle fonctionnalité permettant de sauvegarder certains résultats de recherche pour les visualiser et les retrouver plus tard. Pour le moment, cela ne s’applique qu’aux images, vidéos et articles de shopping. Google propose un système similaire mais qui ne fonctionne que sur les mobiles et pour les images uniquement.
On apprend également que Ahrefs va prochainement lancer un outil de recherche de mots-clés appelé Keyword Explorer. Même s’il agit plutôt d’un outil de référencement/SEO, on pourra néanmoins y trouver un intérêt pour les veilles et recherches d’informations afin d’enrichir le vocabulaire de ces requêtes. Reste à voir s’il disposera d’une version gratuite ou abordable.
Twitter a récemment introduit une nouvelle fonctionnalité permettant d’exclure certains mots-clés, hashtags, phrases, utilisateurs et emojis de ses notifications. Ils ne disparaîtront pas pour autant de la timeline mais uniquement des notifications.
Facebook, quant à lui, continue à s’aventurer dans des secteurs a priori éloignés de son cœur de métier traditionnel avec cette fois-ci les offres d’emploi. Cette nouvelle fonctionnalité toujours en test permettra aux entreprises de diffuser des offres d’emplois ciblées et aux candidats de postuler directement.
Du côté des réseaux sociaux professionnels, l’actualité est plutôt morose. Viadeo a été placé en redressement judiciaire le 29 novembre dernier par le Tribunal de commerce de Paris et vient d’annoncer son retrait du Maroc. Leboncoin et le département des petites annonces du Figaro avaient déposé des offres pour la reprise du réseau social et c’est finalement Figaro Classifieds, la filiale de petites annonces du groupe média qui a été retenue.
LinkedIn de son côté est accusé de violer les lois sur le stockage des données personnelles en Russie et le tribunal municipal de Moscou a ordonné le 10 Novembre son blocage dans tout le pays.
Il semblerait également que les possibilités de recherche booléenne disparaissent progressivement de LinkedIn (source : Boolean Strings) et qu’il réserve de plus en plus ses fonctionnalités de recherche avancées pour les abonnements les plus chers. Pour le moment, certains professionnels ont pu constater ces changements alors qu’ils ne semblent pas s’appliquer pour d’autres. Affaire à suivre !
Du côté des outils de veille, Meltwater rend désormais accessibles à ses clients toutes les publications de l’Union européenne. Des procès-verbaux de réunions aux discours en passant par les rapports d’activité et déclarations publiques, toutes les informations publiées par les 56 départements de l’UE, institutions, agences, services sont maintenant recueillies et analysées par Meltwater.
Talkwalker, connu pour ses solutions de veille sur les médias sociaux a récemment lancé Talkwalker Now, une plateforme pour détecter et analyser les tendances. L’outil permet également de détecter des influenceurs et des sources d’information. Il s’adresse aussi bien aux éditeurs, aux équipes marketing qu’aux veilleurs. Son coût est de 12 000 € /an pour 5 utilisateurs.
Inoreader, l’un des lecteurs de flux RSS les plus puissants du marché et déjà utilisé par de nombreux professionnels de l’information vient d’annoncer que l’intégration d’IFTTT (un service très puissant qui permet d’automatiser un grand nombre de tâche sur le Web comme par exemple publier automatiquement sur Facebook tout message posté sur Twitter ou sauvegarder sur Evernote tout billet publié sur son blog, etc.) allait être réservé aux utilisateurs ayant souscrit l’abonnement Pro.
Revenons maintenant à l’outil IFTTT qui permet d’automatiser des tâches sur les outils de Web. Jusqu’à présent un déclencheur ne pouvait lancer qu’une seule action. Désormais il peut lancer plusieurs actions en même temps.
D’autre part, Microsoft a annoncé le lancement de Flow, un concurrent direct d’IFTTT (https://flow.microsoft.com).
Elcurator, un outil de curation professionnel dont nous avions déjà eu l’occasion de parler dans Netsources (Netsources n°123 - juillet/août 2016) et dans le numéro spécial de Bases sur les livrables de veille (Bases n°338 - juin 2016) est désormais connecté à Zapier, un service proche de ce que peut proposer IFTTT présenté plus haut. Cela permettra notamment de lier elCurator à Facebook, Twitter, Feedly, Slack, Wordpress ou encore Buffer et de créer des procédures automatisées qui seront déclenchées périodiquement.
L’excellent outil de bookmarking Diigo, qui avait beaucoup perdu de sa valeur au cours des dernières années en raison du peu d’améliorations et d’innovations apportés à l’outil a été complètement revu. Parmi les nouveautés : une interface plus ergonomique, une application mobile enfin fonctionnelle, la possibilité d’éditer un grand nombre de bookmarks en même temps, etc.
En matière d’Open Data, nous apprenons ce mois-ci que la Métropole Européenne de Lille ouvre ses données à l’adresse https://opendata.lillemetropole.fr/. 57 jeux de données sont pour le moment disponibles. Plus de la moitié concernent les transports et déplacements.
La Banque de France commence elle-aussi à ouvrir ses données mais pas à tous les publics... Depuis 2011, elle partage déjà quelques données sur le site http://webstat.banque-france.fr/fr/home.do mais désormais certaines personnes pourront accéder à des données beaucoup plus complètes. 400 millions d’éléments seront mis gratuitement à la disposition des chercheurs uniquement. Ceux-ci devront en faire la demande écrite, demande qui sera ensuite examinée par un comité dédié.
Enfin le site data.gouv.fr publie une liste des collectivités territoriales ayant ouvert leurs données (plus de cinq jeux de données pertinentes) à l’adresse http://bit.ly/2h9kLtW.
A l’occasion de la journée annuelle d’utilisateurs, particulièrement suivie cette année, Questel a annoncé de nombreuses nouveautés, certaines déjà opérationnelles, d’autres en devenir.
A cette occasion Questel en a profité pour clarifier son offre et les marques associées aux différents produits/services, ce qui n’était pas inutile.
L’offre d’Orbit est maintenant séparée en deux parties.
Intellectual Property Business Intelligence regroupe cinq produits :
Intellectual Asset Management regroupe, pour sa part :
Déjà abonné ? Connectez-vous...
ICIC 2016
• Un bon cru pour un ICIC 2016 très germanique
• Dimensions : Une banque de données sur les fonds dédiés à la recherche publique
• Des outils pour enrichir le vocabulaire d’une recherche en anglais
TENDANCES
• Après Google, la mort annoncée de la recherche booléenne sur les serveurs et outils de veille ?
ACTUALITÉS
• En bref
Déjà abonné ? Connectez-vous...
L’édition 2016 de l’ICIC (The International Conference on Trends for Scientific Information Professionals) a eu lieu une nouvelle fois en Allemagne à Heidelberg.
L’essentiel des personnes présentes (congressistes, conférenciers, exposants) étaient d’origine allemande. Les deux seules sociétés françaises représentées étaient QUESTEL et BASES PUBLICATIONS, même si le nombre de francophones n’était pas pour autant négligeable.
Comme à l’accoutumé, une petite exposition était disponible pendant les longues pauses entre les présentations de produits et les conférences qui étaient, pour certaines d’entre elles, des présentations de produits grand format, en général et heureusement très intéressantes justifiant des présentations longues.
D’autres conférences qui n’étaient en rien des présentations de produits étaient également d’un grand intérêt, en particulier un long tutoriel sur une comparaison détaillée entre la recherche par mots-clés et codes et la recherche sémantique sur différents systèmes. Nous en parlons de façon détaillée dans ce numéro.
On notera les trois grandes tendances de la manifestation à savoir la présence de plus en plus fréquente de la recherche sémantique dans les offres proposées, essentiellement pour les brevets, et l’annonce de plusieurs services de recherche sur les structures chimique et aussi leur identification dans le texte des documents. Ceci vient après le récent lancement de Chemical Explorer par MineSoft/PatBase (voir Bases n° 335, mars 2016) et de PatentPak par STN (Bases n° 339, juillet-août 2016). Cela signifie clairement que la technologie est maintenant largement disponible ainsi que la demande du marché pour lequel cela représente un vrai service complémentaire.
Nous parlerons des nouveautés concernant la chimie dans le prochain numéro de BASES.
La banque de données Dimensions a été créée par la société allemande UberResearch basée à Cologne, elle-même appartenant au groupe Digital Science, proposant par ailleurs Readcube ou Altmetric.
Dimensions est destinée à la fois aux financeurs de la recherche publique (NIH, Commission Européenne et beaucoup d’autres) et aux organismes de recherche recevant des fonds de ces organismes.
Cette banque de données recense les financements publics dans le monde entier, les pays les plus représentés étant les USA avec plus de 476 000 projets pour 400 milliards de dollars, viennent ensuite le Japon, le Canada, la Chine, le Royaume Uni, ….
Les informations viennent de sources publiques sachant que tant les financeurs que les organismes de recherche sont dans une optique de collaboration avec le producteur de Dimensions pour lui fournir des informations.
Près de 3,5 millions de projets en tout sont recensés.
Déjà abonné ? Connectez-vous...
La conférence s’est conclue par un passionnant tutoriel d’une durée d’ … 1h30 donné par le Dr Gabriele Kirck-Verfuß du cabinet allemand WissensWert. L’objectif était de comparer une recherche par mots-clés effectuée de façon professionnelle avec les résultats d’une approche sémantique.
Dans la première partie de ce tutoriel nous avons trouvé particulièrement intéressante la présentation de nombreuses sources permettant d’enrichir le vocabulaire et le contexte décrivant, essentiellement en anglais, mais pas uniquement, chacun des concepts utilisés dans la recherche.
Nous allons les présenter ci-après en commençant par les ressources gratuites.
Nous ne parlerons pas ici des premières sources évidentes telles que Google, ou d’autres moteurs de recherche, Google Scholar et Google Patents ainsi que Wikipedia qui peuvent être une première contribution à l’approche linguistique.
Ces sources sont suffisamment connues pour que nous n’approfondissions pas le sujet.
Une autre source plus originale et moins connue est WorldNet réalisée par des linguistes du laboratoire des sciences cognitives de l’Université de Princeton aux USA (https://worldnet.princeton.edu).
Il s’agit d’une banque de données lexicale en anglais qui propose 117 000 synsets qui sont des regroupements de synonymes, chacun exprimant un concept différent. Ces synsets sont reliés par des relations lexicales conceptuelles et sémantiques.
Concrètement, si l’on entre un terme dans la boîte de recherche, on obtient une série de synonymes correspondant aux différents sens possibles du terme.
Déjà abonné ? Connectez-vous...
Dans le numéro de Bases de Septembre 2016 (n°340), nous avions abordé la question de l’évolution des modes de recherche sur Google ainsi que sur les autres moteurs de recherche.
Il en ressortait que quoi qu’en disent certaines personnes et experts, la recherche booléenne n’était pas encore morte mais que la façon d’interroger les moteurs de recherche web évoluait considérablement notamment suite au développement récent de la recherche sémantique.
Nous avons cherché à savoir si cette tendance s’appliquait également au monde des outils de recherche et de veille professionnels comme les serveurs, les agrégateurs de presse ou encore les plateformes de veille.
Y a t-il une évolution de la recherche vers plus de sémantique, y a t-il simplification de la recherche au détriment des opérateurs de recherche et fonctionnalités avancés ? Et enfin, est ce que la stratégie de ces différents acteurs qui cherchent à toucher un public de plus en plus large mais parfois très éloigné des considérations des professionnels de l’information traditionnels remet en cause la puissance et les capacités de recherche des différents outils ?
Déjà abonné ? Connectez-vous...
Academia, le réseau social académique qui compte plus de 40 millions d’utilisateurs vient d’annoncer le lancement d’une offre premium. Cette offre est accessible en beta privée uniquement pour le moment et semble offrir par rapport à l’inscription classique plus de données analytiques.
Jusqu’à présent, le réseau social était entièrement gratuit et même si les premières informations ne semblent pas remettre en cause l’accès gratuit à tous les documents hébergés sur la plateforme, cette annonce a soulevé de nombreuses critiques dans le monde académique qui s’inquiète de voir disparaître certaines fonctionnalités et surtout l’accès gratuit à l’intégralité des documents. Aucune information tarifaire n’est pour le moment publique mais certains beta testeurs ont indiqué sur les réseaux sociaux que les tarifs proposés étaient bien trop élevés. Affaire à suivre...
On notera également le lancement d’un moteur dédié aux offres de thèses destinées aux étudiants et chercheurs internationaux appelé Campus France par l’agence française pour la promotion de l’enseignement supérieur, l’accueil et la mobilité internationale.
Ce moteur pourra avoir un intérêt pour les professionnels de l’information afin de savoir sur quelles thématiques et quels sujets intéressent certains organismes de recherche en France.
Lien : http://ecolesdoctorales.campusfrance.org/phd/offers
On connaissait Ingenta Connect, une base de données bibliographiques multidisciplinaires qui indexe plus de 30 000 titres. Au cours du mois d’octobre 2016, Ingenta a annoncé le lancement d’Ingenta Open, une plateforme pour rechercher des ressources en Open Access. Pour le moment, y sont hébergés des ouvrages, des chapitres d’ouvrages, des articles et même des revues dans leur intégralité. A l’avenir, le but est de donner accès à des millions d’articles en Open Access, qu’ils soient hébergés sur la plateforme ou indexés par des outils spécialisés comme DOAJ ou OAPEN. La plateforme est en libre accès et aucune inscription ou création de compte n’est requise.
Lien : http://io.publisher.ingentaconnect.com
Ce mois-ci l’actualité des moteurs se concentre sur les évolutions de la recherche notamment en matière de sémantique. Nous y avons consacré la une dans le n°340 de Bases (septembre 2016) mais de nouvelles annonces ont été faites depuis.
Nous avions indiqué que Google se tournait de plus en plus vers la sémantique. Certains blogueurs ont d’ailleurs remarqué récemment que Google transformait dans certains cas les requêtes des utilisateurs sous forme de question.
Ainsi sur le blog http://googlesystem.blogspot.co.uk (non affilié à Google), l’auteur a ainsi entré la requête alcohol with the highest boiling et a remarqué juste au dessus de la liste de résultats que Google avait retranscrit la requête de la manière suivante : «Which alcohol has the highest boiling point? Cela met ainsi bien en lumière les avancées de Google en matière de sémantique et de compréhension des intentions des utilisateurs.
Autre élément important, Google a annoncé fin octobre qu’il allait proposer d’ici quelques mois deux index différents : un pour les recherches sur ordinateur, l’autre pour les recherches sur mobile. La version mobile sera mise à jour plus régulièrement que l’autre version.
Google confirme donc son intention de favoriser la recherche mobile par rapport à la recherche traditionnelle sur ordinateur et pour les professionnels de l’information, cela signifie que les résultats issus d’une recherche sur mobile ou sur ordinateur risque d’être différents voire même très différents.
Du côté des autres moteurs, Bing commence à proposer des réponses directes comme le fait déjà Google. C’est à dire que pour certaines requêtes, il affichera au dessus des résultats la réponse à la question : un schéma, une image, un arbre généalogique, etc. Cela n’est disponible que sur la version américaine en langue anglaise du moteur.
D’autre part, le moteur a récemment publié des informations quant à son usage de l’intelligence artificielle. On apprend notamment que Bing travaille bel et bien sur la recherche sémantique en essayant d’interpréter les intentions des utilisateurs.
Yandex quant à lui a annoncé début novembre le lancement d’un nouvel algorithme appelé Palekh qui marcherait dans les pas du rankbrain de Google, l’un des points clé étant l’interprétation des intentions des utilisateurs.
Parmi les autres nouveautés concernant les moteurs de recherche, Google vient de lancer pour son moteur d’actualités une fonctionnalité de fact-checking pour vérifier la véracité des faits et chiffres énoncés dans l’articles. Ainsi certains articles disposent désormais d’un tag « Fact check ».
Chez Twitter, l’heure n’est pas à la fête avec l’annonce de la fermeture de Vine, son service de microvidéo et surtout l’annonce par Twitter de sa mise en vente. Seul problème, les principaux repreneurs potentiels qui s’étaient initialement déclarés (Google, Disney ou encore Apple) renoncent tous les uns après les autres. Salesforce reste lui dans la course.
Facebook, lui, a annoncé le lancement de Workplace, son réseau social, qui semble a priori très similaire à Facebook sauf qu’il ne s’utilise qu’au sein des entreprises (https://workplace.fb.com/). Le tarif est de 3$ par utilisateur actif (avec des tarifs dégressifs au delà de 9000 utilisateurs actifs). Nous suivrons le développement de ce réseau dans nos prochains numéros.
Alors que Viadeo est en perte de vitesse, LinkedIn lui ne cesse d’innover et propose sans cesse de nouvelles fonctionnalités. Parmi les dernières en date, on notera :
Linkfluence, l’éditeur de la plateforme de veille sur les médias sociaux Radarly vient de boucler une troisième levée de fond de 12 millions d’euros. On peut donc espérer de nouveaux investissements notamment en R&D avec de nouvelles fonctionnalités innovantes.
A l’image de plusieurs autres plateformes de veille (Talkwalker et Radarly), Digimind se lance à son tour dans la reconnaissance d’image sur son outil Digimind Social. Pour cela, l’entreprise a fait appel à Ditto Labs, une entreprise américaine spécialisée en la matière. Digimind est désormais capable de détecter un logo sur toute image publiée sur Twitter et dans tout type de situation : t-shirt, tasse, chaussure, affiche publicitaire, etc. Les images détectées sont ensuite collectées et traitées par Digimind de la même manière qu’une mention textuelle dans un article ou un post.
Stample, un outil de curation professionnel spécialisé dans le partage de contenu (à l’image d’Elcurator) vient d’annoncer le lancement de nouveaux tarifs. Il existe toujours une version gratuite dont les possibilités de stockage fondent de mois en mois (de 10 Go cet été, nous sommes maintenant passés à 5 Go).
Il y a maintenant un compte professionnel à 3 €/mois avec un nombre illimité de bibliothèques privées et partagées, la possibilité d’inviter jusqu’à 5 contributeurs par bibliothèque, l’export de données et 20 Go de stockage. On passe ensuite à la version Equipe au tarif de 5 €/mois/utilisateur : compte administrateur, jusqu’à 30 lecteurs gratuits, intégrations pro, gestion de droits avancée, statistiques et 50 Go de stockage par utilisateur. Enfin le forfait Entreprise propose du sur-mesure aux entreprises désireuses d’utiliser l’outil à plus grande échelle.
La blogosphère info-doc : une communauté de savoir, une mosaïque de médiations, Bérangère Stassin, Cépaduès Editions, 2016, 410 pages -ISBN : 9782364935631
Cet ouvrage interroge les nouvelles formes de médiation des savoirs et de l’information qui émergent au sein du Web.
L’étude qui est menée porte sur le terrain des blogs et plus particulièrement sur la blogosphère info-doc française et non institutionnelle, c’est-à-dire sur un réseau formé par des blogs dont les auteurs sont des archivistes, des bibliothécaires, des documentalistes, des éditeurs ou encore des chercheurs en sciences de l’information, mais qui bloguent dans des positions totalement détachées des institutions où ils exercent.