Le terme « agrégateur de presse » est indissociable de la recherche d’information presse mais il revêt aujourd’hui de multiples dimensions.
A l’origine, le terme faisait exclusivement référence aux agrégateurs de presse payants comme Factiva, Nexis, Press’edd, etc. qui fournissaient un outil de recherche mais également un accès au texte intégral à tous les articles de presse qu’ils indexaient.
Aujourd’hui, la grande majorité de ces acteurs intègrent des contenus plus larges (blogs, médias sociaux, sites, etc.) et se contentent pour certaines sources de crawler les sites Web sans donner accès au texte intégral.
Lire aussi :
Quelles alternatives crédibles à Google Actualités en 2020 ?
Les agrégateurs de presse payants ont-ils toujours de la valeur ?
Nous avons pu voir dans l’article « Google Actualités : la tendance n’est pas au beau fixe » de ce dossier spécial que Google Actualités s’avérait de plus en plus décevant dans un contexte professionnel et que de récentes annonces ne faisaient d’ailleurs que venir noircir un peu plus le tableau.
Des alternatives gratuites à Google Actualités existent depuis des années… mais jusqu’ici aucune n’était réellement satisfaisante.
Lire aussi :
Les agrégateurs payants ont-il toujours de la valeur ?
Google Actualités : la tendance n’est pas au beau fixe
Face à la dégradation de Google Actualités et à l’absence d’alternatives réelles en matière d’agrégateurs de presse gratuits, on pourrait être tenté de considérer que seuls les agrégateurs de presse payants peuvent permettre de réaliser de bonnes recherches d’information sur la presse.
Sur le papier, leurs corpus de sources continuent de s’enrichir et se diversifier avec les années et les fonctionnalités de recherche expertes restent présentes tandis que de nouvelles se développent.
Les agrégateurs de presse payants sont-ils aujourd’hui la seule solution pour réaliser des recherches d’information de qualité ? Ou bien à l’image des agrégateurs de presse gratuits, eux aussi seraient-ils en réalité sur une pente descendante ?
Lire aussi :
Google Actualités : la tendance n’est pas au beau fixe
Quelles alternatives crédibles à Google Actualités en 2020 ?
Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates
DOSSIER SPECIAL CONFERENCE SEARCH SOLUTIONS 2019 - Londres
• Le SEO et la veille au défi des moteurs
BREVES • LexisNexis Newsdesk devient Nexis Newsdesk
SERVEURS • WTI : des ressources allemandes peu connues
INDEX • Les lettres de BASES 2019
Pour la troisième année consécutive, nous avons assisté à la journée « Search Solutions » à Londres où se côtoient ceux qui font les moteurs (ingénieurs, data scientists, informaticiens, etc.) et ceux qui les utilisent (professionnels de l’information et du SEO).
L’intelligence artificielle et plus particulièrement le machine learning et le NLP (Natural Language Processing) étaient encore une fois au cœur de la très grande majorité des présentations.
Lire aussi :
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.
On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs
Etre un expert de la veille et de la recherche d’information, et maintenir son expertise, est plus que jamais un challenge car le monde de l’information est en perpétuel mouvement.
Les outils de recherche et de veille évoluent très rapidement, de nombreux acteurs apparaissent et disparaissent régulièrement, les sources d’information évoluent et changent de business model, ce qui nécessite une surveillance large de son environnement.
La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.
Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.
Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.
Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.
Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.
Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Newsdesk, le produit LexisNexis à mi‑chemin entre un agrégateur de presse et une plateforme de veille, change de nom et devient Nexis Newsdesk.
Ce changement est effectif depuis novembre.
Lire aussi :
BASES N°244 de Décembre 2007 à commander en direct en nous écrivant à : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
COMPTE-RENDU DE CONFÉRENCE
ILI 2019 : une vision anglo-saxonne de l avenir des professionnels de l information
TENDANCES
Les nouveaux Netflix de la presse vont-ils concurrencer Factiva, Nexis Newsdesk, Press edd et les autres ?
BASE DE DONNEES
CAS Formulations database : une nouvelle banque de données sur STN
Comme l’année dernière, nous avons eu l’occasion d’assister au salon Internet Librarian International à Londres, le rendez-vous annuel des professionnels de l’information (documentalistes, veilleurs, bibliothécaires) outre-Manche.
L'un des grands intérêts de ce e salon qu'il s'y côtoie professionnels européens, mais également des quatre coins de la planète.
Cette année encore, ce fut une expérience enrichissante qui nous a permis de mettre en perspective les problématiques des professionnels de l’information français et celles de leurs homologues d’autres pays.
Alors que des services comme Netflix pour la vidéo à la demande ou Spotify pour la musique sont devenus incontournables auprès des internautes, cela fait des années que revient régulièrement l’idée d’un « service de streaming » de la presse, basé sur un abonnement mensuel low-cost avec un accès illimité à un grand nombre de titres de presse.
En France, l’idée n’est pas nouvelle et tout avait commencé il y a quelques années avec des kiosques numériques à l’image de lekiosque.fr (qui vient d’être rebaptisé Cafeyn), SFR Presse ou encore E-presse. Mais ces services avaient, à leurs débuts, vocation à vendre des numéros de journaux et magazines à l’image des kiosques à journaux physiques.
CAS FORMULATIONS DATABASE est une nouvelle base exclusivement accessible sur la nouvelle plateforme STNext. Son nom s’abrège en CASFORMULTNS mais CASFORM ou CASFOR sont plus simples et fonctionnent aussi bien.
La matière est sensiblement la même que celle proposée par la banque de données CHEMICAL ABSTRACTS (CA), à savoir des références indexées en détail de brevets et d’articles scientifiques concernant la chimie, la pharmacie, la biochimie, … Mais l’antériorité est bien plus limitée, puisque les brevets en langue anglaise, de même qu’une sélection de brevets chinois, français, allemands, japonais ou coréens ne sont pris en compte que depuis 1996. Les articles ne sont quant à eux pris en compte que depuis 2014.
TENDANCES
• Toutes les sources et tous les articles n ont pas la même valeur
SERVEURS • Key Terms : une indexation complémentaire pour les banques de données brevet fulltext sur STN
BASE DE DONNEES • Plusieurs changements discrets dans les banque de données scientifiques spécialisées
MOTEURS • Du nouveau du côté des moteurs académiques
Toute bonne veille ou recherche d’information requiert un corpus de sources qualifiées et représentatives pour un sujet donné sous peine de réaliser des analyses biaisées.
Mais en matière de sources, rien n’est jamais acquis, du moins jamais pour très longtemps.
L’accès aux médias, notamment la presse économique et les revues scientifiques académiques, est de plus en plus « instable » pour les professionnels de l’information avec des modèles d’accès (gratuit, payant, freemium, ouvert, fermé, présent dans des agrégateurs et bases de données, etc.) qui ne cessent d’évoluer.
Lire aussi : Veille et recherche d'information : toutes les sources et tous les articles n ont pas la même valeur
L’évaluation des sources a toujours fait partie du métier de veilleur mais certaines évolutions récentes nous invitent à revoir la façon dont nous considérons chaque catégorie de sources.
Lire aussi : Comment l'instabilité des modèles de la presse en ligne ébranle les dispositifs de veille
On a en effet souvent tendance à accorder plus de crédibilité à des sources « classiques » comme la presse ou la littérature scientifique où il y a, en principe, une vérification des informations ou une validation par les pairs qu’à des sources plus « nouvelles » comme les médias sociaux notamment, où n’importe quel internaute peut dire à peu près ce qu’il veut.
La recherche dans les brevets en texte intégral, comme d’ailleurs dans le texte intégral de n’importe quel document, n’est pas toujours évidente.
En effet, se limiter aux champs titre ou abstract ou revendications (ces dernières dans le cas des brevets) peut être un petit peu restrictif, mais inclure l’ensemble de la description générera, en général, du bruit.
STN propose maintenant pour ces banques de données un nouveau champ baptisé Key Terms (KT).
Depuis maintenant quelques années, le monde des moteurs académiques est en pleine ébullition.
La famille des moteurs académiques gratuits ne cesse ne s’agrandir. Après Dimensions, 1Findr ou encore Lens, voici un petit nouveau : Scinapse.
Scinapse, un nouveau venu au pays des moteurs académiques, affiche clairement ses ambitions depuis la page d’accueil : « We’re better than Google Scholar. We mean it. »
(« Nous sommes meilleurs que Google Scholar, nous le pensons vraiment »).
Plusieurs banques de données qu’on avait l’habitude de pouvoir interroger presque indifféremment sur les serveurs Dialog ou STN ont connu ces derniers temps des restrictions d’accès.
WSCA (World Surface Coatings Abstracts) chargée en 1996 sur STN correspondait à la publication du même nom produite par la Paint Research Association UK. Elle était aussi accessible sur Dialog et même, il y a fort longtemps, sur Questel avant que ce serveur ne se focalise sur les brevets. Sa mise à jour avait cessé en 2013.
Depuis des années, les extensions de navigateurs (principalement sur Firefox et Chrome) permettent aux veilleurs d’optimiser leurs veilles, leurs recherches et collectes d’informations.
Elles peuvent ainsi jouer un rôle aussi bien au niveau de la surveillance de pages Web, la traduction instantanée de contenu, la détection de flux RSS, l’identification d’articles académiques en libre accès, l’extraction de données, la recherche d’images, etc.
Si les utiliser est souvent un jeu d’enfants, réussir à identifier les plus pertinentes pour son travail quotidien est une autre paire de manches…
L’histoire des banques de données Pascal et Francis produites par l’INIST a été fortement agitée ces dernières années.
Il en a été de même avec le service de fourniture des documents primaires Refdoc, fort utilisé à une époque mais dont le nombre de commandes avait beaucoup baissé avec le temps (900'000 commandes en 1999 contre une estimation de 100'000 pour l'année 2014 selon les prévisions de l’INIST de l’époque).
Cette baisse était la conséquence du fait qu’un très grand nombre d’éditeurs avaient mis à disposition leurs publications en ligne et surtout, avaient finalement permis l’achat à l’article sans rendre obligatoire l’abonnement à la publication.
La disparition de la banque de données payante Dissertations Abstracts du serveur STN est pour nous l’occasion de faire un tour du monde des sites de thèses en accès libre.
Nous avons déjà eu l’occasion d’aborder plusieurs fois cette question dans BASES , mais nous avons souhaité faire aujourd’hui un tour d’horizon le plus large possible, sans pour autant pouvoir garantir l’exhaustivité sur le sujet. De plus, la mise à disposition des thèses et références de thèses sur le Web a évolué rapidement en quelques années, ce qui justifie donc une remise à jour.
STN a déchargé le 29 juin dernier la banque de données Dissertation Abstracts (DISSABS) à la demande de son producteur ProQuest.
Cette banque de données est aujourd’hui l’une des rares banques spécialisées dans les thèses à demeurer payante.
Depuis quelques années, la tendance est en effet au développement de sites de thèses en accès libre, non seulement pour les références, mais souvent aussi pour le texte intégral en PDF.
Lors de la récente journée annuelle du CFIB (Club Francophone de l’Information Brevet), Philippe Bodart (TOTAL Research & Technology, Feluy-CFIB) a fait part de sa découverte de la « dégringolade » du nombre de références d’articles écrits en chinois, donc a priori d’auteurs chinois, dans la Chemical Abstracts.
Nous avons décidé d’approfondir le sujet de cette tendance inquiétante et cet article est le résultat de nos investigations et de nos échanges.
Tout d'abord, nous avons effectué des comptages, non seulement dans Chemical Abstracts, mais aussi dans d’autres banques de données et dans d’autres langues asiatiques pour voir si le problème était limité aux articles écrits en chinois pour Chemical Abstracts ou s'il était beaucoup plus large.