Le Web d’aujourd’hui s’émancipe de plus en plus du contenu textuel avec une part toujours plus importante de contenus multimédias. Et de fait, la recherche Web traditionnelle par mot-clé évolue également avec une progression importante de la recherche vocale et de la recherche visuelle et d’images.
Durant cette deuxième session de la journée Search Solutions 2018, il a été question de recherche vocale chez Google d’une part et de recherche d’images chez les journalistes d’autre part.
Lire aussi dans ce dossier :
Les moteurs de recherche vers toujours plus de recommandations de contenus
On sait que l’offre en matière de banques de données brevets est assez pléthorique. Cela reflète d’abord l’évolution des technologies rendant plus facile la création d’une offre sophistiquée. Cette évolution coïncide avec l’importance croissante de l’intérêt pour les brevets pour un grand nombre d’entreprises, de la start-up à la multinationale en passant par les laboratoires publics en mal de valorisation. Un élément facilitant est que ces informations sont a priori gratuites et ne font pas l’objet d’un copyright.
En revanche, la demande croissante de la traduction en anglais des brevets de plus en plus nombreux déposés dans des langues « exotiques », en particulier asiatiques, et n’ayant pas d’équivalent en anglais, génère des coûts non négligeables. Cela est d’autant plus vrai que l’évolution rapide des logiciels de traduction oblige à refaire assez souvent, en les améliorant, les traductions d’une langue essentiellement vers l’anglais. Néanmoins, dans certains cas, les traductions sont disponibles gratuitement.
Cette année encore, nous avons eu l’occasion d’assister à la journée d’étude Search Solutions à Londres organisée par BCS (Chartered Institute for IT) et qui a eu lieu le 27 novembre dernier.
Cette manifestation annuelle regroupe à la fois des acteurs des moteurs de recherche (développeurs, ingénieurs, data scientists, etc.) mais aussi les utilisateurs de ces moteurs, notamment les professionnels de l’information.
C’est l’occasion d’avoir une vision claire des dernières tendances et axes d’évolution chez les moteurs de recherche, qui, rappelons-le sont pour la plupart avant tout orientés vers le grand public comme Google, Bing ou encore les réseaux sociaux. Mais toutes ces évolutions ont également un impact fort sur l’avenir des pratiques de recherche et de veille des professionnels de l’information.
Lire aussi dans ce dossier : De la recherche par mot-clé à la recherche vocale et visuelle
Après le léger passage à vide observé lors de l’abandon du développement de New STN, STN montre un regain de dynamisme et, lors de la dernière journée d’utilisateurs, les nouveautés ne manquaient pas.
Il faut d’abord savoir que tous les nouveaux développements et les ajouts de nouvelles bases se feront sur STNext.
Pour leur part, New STN et STN Express continueront à exister mais ne bénéficieront d’aucune nouvelle fonctionnalité et seront abandonnés à terme
TENDANCES
• Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
MOTEUR DE RECHERCHE
• Google Dataset Search : peut-il devenir le Google Scholar des données ?
PANORAMA
• Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
OPEN DATA
• Quelques rappels sur l’open data au service de la recherche d’information
Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Les plus anciens de nos lecteurs ont certainement entendu parler de Madeleine Wolff-Terroine, l’ont rencontrée ou ont travaillé avec elle.
Elle vient de nous quitter à l’âge de 99 ans.
Personnalité marquante du monde de l’infodoc, elle a eu une carrière extrêmement riche tant en France (elle a été présidente de l’ADBS dans les années 70) qu’à l’étranger, en travaillant pour de nombreux organismes internationaux.
Elle a aussi écrit régulièrement dans BASES dans les années 90.
PANORAMA
• L’information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?
COMPTE-RENDU DE CONFÉRENCE
• Internet Librarian International : le salon incontournable des professionnels de l’information anglophones
A LIRE
• Le professionnel de l’information peut-il se réinventer en entrepreneur ?
Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...
Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.
Nous avons cette année pu nous rendre au salon Internet Librarian International qui avait lieu à Londres les 16 et 17 octobre derniers et qui fêtait cette année ses 20 ans. Cette conférence de deux jours précédée d’une journée de Workshops se définit comme « The library innovation conference » et vise tous les professionnels de l’information dans leur ensemble qu’ils travaillent dans des bibliothèques publiques, universitaires ou des centres de documentation ou services de veille publics ou d’entreprise.
Pour beaucoup de professionnels qui avaient l’habitude de se rendre au salon Online et dont la dernière édition date de 2013, ce salon est devenu le rendez-vous incontournable de la profession, du moins en Europe. Nous avons ainsi pu y croiser des professionnels du monde entier, des anglais et américains surtout mais également de nombreux représentants des pays du nord de l’Europe et quelques personnes venues d’Asie.
Anne-Marie Libmann, directrice opérationnelle de FLA Consultants, et précédemment co-présidente de l'ADBS, a lu le nouveau livre de Jean-Philippe Accart, écrit en collaboration avec Clotilde Vaissaire-Agard : « Bibliothécaires, documentalistes, tous entrepreneurs ?
Comment un professionnel de l’information, héritier de décennies de croyances dans le bien-fondé intrinsèque de la pratique documentaire, peut-il se construire une nouvelle carrière, voire se reconstruire après le passage de Google et la fragilisation des métiers de « l’info-doc »?
Comment, sur ce terrain déconstruit par Internet et une information devenue (très) globalement accessible, développer un nouveau modèle, de nouvelles pratiques, un nouveau système de croyances et, osons le terme, un « business » ?
C’est dans le fond le problème, dramatique, que pose ce livre. Un dilemme semble d'ailleurs d’emblée s’inscrire dans le point d’interrogation même du titre. Un dilemme entre la volonté, et même la nécessité, de regarder l’avenir avec courage et la difficulté à sortir d’un passé glorieux, intellectuel, désormais intellectualisé et fantasmé.
Il est pour toute personne difficile, parfois douloureux, de devoir faire le choix d’un nouveau chemin professionnel. A la lecture de ce livre on peut se demander si ce n’est pas encore plus difficile pour un professionnel de l’information, documentaliste, bibliothécaire, archiviste, dont on sent qu’il s’est retrouvé véritablement dépossédé d’un métier et des valeurs nobles qu’il portait. L’auteur nous rappelle à juste titre : « une histoire riche remontant aux plus anciennes civilisations qui avaient pour souci de consigner les savoirs sous différentes formes et supports ». Un héritage lourd à porter pour certains d’entre nous…
Depuis plus d’un an maintenant, l’intelligence artificielle (IA) est au cœur de l’actualité et des discussions professionnelles. Mais s’il est beaucoup question d’IA et de machine learning, appliqués aux moteurs de recherche grand public, aux outils de traduction ou encore aux outils de veille, elle se fait plus discrète pour tout ce qui a trait à l’information scientifique et technique et les brevets. Et pourtant, elle y est bien présente et mérite qu’on s’y intéresse.
Lors de la dernière réunion annuelle du CFIB, le Club Francophone de l’Information Brevet, elle a d’ailleurs été au centre des discussions. L’une des présentations consacrée à l’intelligence artificielle et la propriété intellectuelle a ensuite fait l’objet d’un article très intéressant dans la lettre du CFIB.
Pas toujours facile de suivre toutes les évolutions de Google quand on sait par exemple qu’il modifie son algorithme plus de 1 600 fois par an. Heureusement, toutes ces modifications ne revêtent pas la même importance et toutes n’ont pas d’impact sur la recherche d’information professionnelle.
Toujours est-il qu’en ce mois de septembre, les nouveautés sont nombreuses et méritent d’être signalées.
On commencera donc par le lancement d’un nouveau moteur dédié aux données publiques appelé « Google Dataset Search » accessible à l’adresse suivante : https://toolbox.google.com/datasetsearch.
La recherche d’articles de presse est un exercice classique pour les professionnels de l’information.
Pour autant, s’il existe de multiples outils et méthodes pour retrouver en ligne le contenu textuel d’articles parus dans des revues et journaux papier, cela s’avère nettement plus compliqué lorsque l’on souhaite retrouver les articles avec leur mise en page originale.
Les outils de recherche scientifiques et académiques gratuits, qui permettent de rechercher principalement des articles scientifiques mais également des monographies, compte-rendus de conférences ou encore thèses sont en pleine expansion.
Depuis le début de l’année, on a déjà pu voir apparaître deux nouveaux venus assez similaires, Dimensions et 1findr. Et à l’heure où nous écrivons ces lignes, les créateurs d’Unpaywall, l’extension de navigateur qui permet de savoir si un article est disponible ou non en libre accès (voir BASES n 350 – juillet/août 2017) vient d’annoncer le lancement prochain d’un moteur dopé à l’intelligence artificielle permettant de découvrir plus de 20 millions d’articles scientifiques en libre accès appelé Get the Research (http://gettheresearch.org/).
Et c’est sans compter sur Google Scholar qui est un quasi-réflexe pour bon nombre de chercheurs et qui existe quant à lui depuis 2004.
La première édition de IC-SDV née de la fusion des manifestations ICIC et II-SDV organisées par Christoph Haxel vient d’avoir lieu à Nice, incontestablement plus facile d’accès qu’Heidelberg, mais peu accueillante.
On a retrouvé le format et les caractéristiques des deux manifestations qui avaient fusionné avec légèrement plus de monde, ce qui est logique. Nous avons également remarqué une plus grande fluidité dans les échanges entre les congressistes à leur grande satisfaction.
On pouvait craindre que, comme l’intelligence artificielle est à la mode, la manifestation serait centrée sur l’IA. Ce ne fut heureusement pas le cas même si ce concept était souvent présent en filigrane dans les différentes thématiques abordées lors du congrès. Par ailleurs il y a suffisamment d’autres manifestations qui lui sont spécifiquement consacrées.
Quand il s’agit d’effectuer des recherches bibliographiques ou de réaliser une revue de littérature, Google Scholar apparaît généralement en tête de liste chez les chercheurs, universitaires, étudiants et même certains professionnels de l’information.
Une réalité qui est particulièrement surprenante, la rigueur de la démarche de recherche scientifique semblant a priori incompatible avec le mode de recherche très pauvre, proposé par Google Scholar dans des amas d’informations non structurées, et dont on ne connaît pas les contours.
Lire aussi dans ce dossier :
La perversité de Google Scholar
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Le volume important de documents contenus dans Google Scholar fait qu’il est extrêmement rare de ne trouver aucune réponse à n’importe quelle question un tant soit peu scientifique. Parmi ces réponses, le chercheur trouvera bien quelques documents intéressants parmi les premiers de la liste car on serait curieux de savoir combien vont examiner les 1 000 résultats visualisables (c’est la limite).
Ces résultats trouvés à partir d’une ou plusieurs recherches permettent le plus souvent de tirer quelques fils et de trouver quelques documents présentant un intérêt.
Et c’est là toute la perversité du système. Car l’accès à Google Scholar est gratuit et son contenu un des plus importants disponibles.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Il convient maintenant de dresser le portrait des principales ressources généralistes et multidisciplinaires pour la veille et la recherche bibliographiques. Et si nombre d’entre elles sont connues depuis longtemps des professionnels de l’information, nous avons également identifié quelques nouveaux acteurs prometteurs apparus au cours des deux dernières années et dont nous n’avons pas encore eu l’occasion de parler dans BASES.
Nous avons choisi ici de nous intéresser aux grandes ressources généralistes et multidisciplinaires proposant des références ou accès aux articles scientifiques et académiques. Sont donc exclues les ressources spécialisées sur une discipline en particulier ou sur certains types de documents qui pourront faire l’objet d’autres articles comme les thèses, mémoires, ouvrages, etc.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
La perversité de Google Scholar
I-EXPO 2018
• L’intelligence artificielle va-t-elle tuer ou renforcer les moteurs de recherche ?
• Les bons choix pour réussir une plateforme de veille collaborative, mobile et plus performante
ACTUALITÉS
• Renouveau de Google Actualités : pour le meilleur et pour le pire ?
OUTILS DE VEILLE
• Digimind Social intègre désormais des contenus radio/TV
Dans le précédent numéro de BASES, nous avions eu l’occasion de revenir sur certaines conférences et ateliers ayant eu lieu lors du salon I-Expo qui s’est tenu les 20, 21 et 22 mars derniers.
Nous poursuivons donc dans ce numéro avec le compte-rendu et analyse des conférences suivantes :
- L’intelligence artificielle va-t-elle tuer ou renforcer les moteurs de recherche ? Comment s’assurer de la fiabilité de l’information recherchée à l’heure des bulles de filtres et de la désinformation ?
- Espaces communautaires, RSE, plateforme collaborative : les bons choix pour réussir une plateforme de veille collaborative, mobile et plus performante. Avec les retours d’expérience d’ENGIE, RATP, AEF, LA POSTE
La dernière conférence d’I-Expo était consacrée aux réseaux sociaux d’entreprise et plateformes collaboratives avec des retours d’expérience de professionnels à la RATP, ENGIE, La Poste ou encore AEF.
Les présentations ont surpris par l’originalité et les réflexions innovantes autour du développement et de l'implantation de ces plateformes : transformation du rôle des professionnels de l'information, apport de transversalité dans les services, choix de la plateforme avant analyse des besoins, ou encore intégration d'une plus forte valeur ajoutée dans le modèle collaboratif.
Lucie Merckens, responsable de la cellule Veille et Documentation de la RATP est revenue sur la mise en place d’une plateforme collaborative à la RATP et les conséquences que cela a pu avoir sur l’équipe de veille et ses attributions.
L’interface de Google Actualités (https://news.google.fr) a été profondément remaniée au mois de mai.
L’occasion pour nous de présenter ces nouveautés et évolutions ainsi que leur impact sur la recherche d’information et la veille, en en pesant le pour et le contre du point de vue du professionnel de l'information, sur différents aspects : interface, intégration de l'intelligence artificielle, collection de contenus, accès direct au payant,...
Derrière cette nouvelle version, se cache-t-il un changement de stratégie ?
En janvier dernier, Digimind a annoncé avoir intégré à sa plateforme de Social Media Monitoring Digimind Social plus de 2 000 sources TV et radio françaises et internationales.
Jusqu’à présent, la plupart des outils de veille qui indiquaient surveiller les contenus TV et radio françaises et internationales ne surveillaient en réalité que les sites Web de ces sources et non les contenus des émissions elles-mêmes. A notre connaissance, le seul autre acteur permettant la surveillance de contenus d’émissions est Talkwalker. Nous les avons contactés mais, pour des raisons de confidentialité, ils n’ont pas souhaité s’exprimer sur le sujet.