Quand on réalise une veille sur les nouveaux outils de recherche et de veille, il n’est pas rare de voir apparaître de nouveaux outils gratuits, uniquement disponibles sur Github. Et cela peut être quelque peu déconcertant quand on ne maîtrise pas les rudiments de cette plateforme avant tout destinée aux développeurs et informaticiens.
Car Github est aujourd’hui surtout connu pour être le plus gros hébergeur de codes sources au monde.
Mais dans cette masse de petits programmes et morceaux de codes en libre accès, on trouve de plus en plus d’éléments pouvant être utiles pour le veilleur : outils de surveillance de pages web, lecteurs RSS, outils de création de flux RSS, outils pour l’OSINT, outils de recherche, listes de ressources thématiques, etc.
Lire aussi :
Comment se repérer dans le paysage des outils de veille gratuits et bon marché ?
Les outils de surveillance de pages gratuits et freemiums au banc d’essai
Comment trouver des outils de recherche d’information thématiques ?
L’OSINT : illusion marketing ou nouveau champ d’investigation pour les professionnels de l’info ?
Questel est, depuis plusieurs années, une société en fort développement.
En effet, si, en avril 2015, elle comptait environ 140 salariés, 3 000 clients et 100 000 utilisateurs, en mars ces chiffres sont devenus 1 400 salariés, 15 000 clients et plus de 1,5 million d’utilisateurs.
Cette croissance importante est due pour une bonne part à l’acquisition d’un grand nombre de sociétés offrant des produits et/ou des services dans le domaine de la propriété intellectuelle (voir notre article « Questel double sa taille avec plusieurs acquisitions en 2021» dans ce même numéro).
L’ensemble de ces acquisitions a été réalisé avec le soutien de fonds de Private Equity.
Ce souci de développement ne pouvait, bien sûr, mettre de côté l’utilisation de l’intelligence artificielle.
Lire aussi :
Brevets : les évolutions d’Orbit
Les "combination sets" dans la classification des brevet
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip
Questel multiplie les acquisitions depuis des années déjà. En effet, durant ces cinq dernières années pas moins de quinze ont été réalisées.
Les dernières acquisitions ont permis à Questel de doubler sa taille.
Questel vient d’annoncer le bouclage de l’acquisition de NovumIP, groupe mondial de technologies, résultat de la fusion des sociétés Pavis et Novagraaf.
Questel vient aussi de finaliser le rachat de la minorité restante des actions de la société allemande Brandstock, fondée en 1993, qui propose un ensemble de services, en particulier juridiques, ainsi que sur la transparence des coûts des prestations dans le domaine de la propriété intellectuelle.
Lire aussi :
Brevets : les évolutions d’Orbit
Les "combination sets" dans la classification des brevet
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip
ResearchGate est un réseau professionnel de chercheurs qui revendique plus de 20 millions de membres, sachant que l’inscription est libre, sous condition d'appartenir d'une façon ou d'une autre à la communauté scientifique ; seule la navigation reste possible pour les autres internautes.
Créé en 2008, le site a pour but de faciliter la collaboration entre chercheurs, en particulier en leur permettant de partager librement leurs publications.
Au milieu des années 2010, Il y avait eu un premier bras de fer entre ResearchGate et les éditeurs scientifiques qui l’accusaient de donner accès librement à des articles scientifiques qui n’étaient absolument pas en open access. En 2017, après des menaces de poursuites en justice, ResearchGate avait décidé de réagir à sa façon en supprimant un certain nombre de publications présentes dans son système. Certaines publications ont ainsi été rendues privées avec un accès restreint à certaines personnes et d’autres ont tout simplement été supprimées sans que l’auteur n’ait été prévenu au préalable.
Au final 1.7 million d’articles avaient ainsi été supprimés ou rendus privés.
Lire aussi :
Comment bien rechercher l’information scientifique et technique ?
Recherche d’information académique : enfin une comparaison concrète entre gratuit et payant
IA, deep learning, recherche sémantique, classification automatique : ces termes sont de plus en plus fréquents dans le monde des bases de données brevets.
Vont-ils renvoyer les tenants de la recherche traditionnelle au rayon des archives du monde des professionnels de l’information brevet ? Les codes CIB, CPC, les mots-clés représenteront-ils bientôt des techniques démodées à remiser au placard ? Qui sont ces nouveaux outils et condamnent-ils réellement des techniques éprouvées depuis plusieurs dizaines d’années, ou au contraire ne font-ils que les complémenter ? Enfin, quel est leur niveau de performance et comment les utilise-t-on ?
Les informations ici présentées résultent également d’un échange avec les équipes d’IPRally.
Depuis plus d’un an, on voit apparaître de plus en plus de liens vers des veilles gratuites sur LinkedIn. Il ne s'agit pas ici de news partagées régulièrement par des experts sur un secteur ou un pays, mais des veilles thématiques ou sectorielles produites et diffusées par des entreprises ou consultants qui ne sont pas spécialisés dans le domaine de la veille.
Derrière l’effort de contribution à la plateforme de partage social qu'est LinkedIn, on peut supposer qu’il s’agit dans la plupart des cas d’une stratégie de référencement dans un cadre commercial ou d’une simple recherche de notoriété.
L’utilisation de la veille comme outil de marketing serait finalement une nouvelle forme de publicité sophistiquée, qui aurait a priori de bonnes chances de toucher une cible professionnelle structurellement qualifiée, comme celle « offerte » par LinkedIn.
La cible client serait plus aisée à atteindre, à la fois grâce à la nature du canal de communication et à un contenu potentiellement plus riche qu’un post sur un blog ou une newsletter d’actualités.
Le veilleur professionnel pourra dans un premier temps qualifier ces veilles gratuites de « pseudo prestations » et s’alarmer de ce nouveau pas vers la « commoditisation »(1) du secteur de l’information, avec une dilution de valeur du service expert que représente une prestation de veille, qui suppose rigueur et technicité.
Depuis quelques années déjà, Google ne permet plus de rechercher sur les versions locales de son navigateur. Que vous lanciez votre recherche sur google.fr, google.com, google.com.br ou encore google.co.uk, les résultats seront les mêmes.
Google détermine en effet les résultats en fonction de la localisation de l’internaute, c’est-à-dire à partir de son adresse IP. L’internaute risque donc de se retrouver dans une sorte de « bulle de filtres » géolocalisée.
Quand on fait de la veille et des recherches d’information à l’international, cela représente un risque majeur : passer complètement à côté de résultats locaux (issus de la presse locale, de sites de collectivités locales, de blogs locaux, de sites d’entreprises locales, etc.) qui pourraient pourtant apporter des informations stratégiques.
Lire aussi :
Depuis l’annonce en mai 2021 du rachat de Proquest par Clarivate , tout semblait se passer sans trop de problèmes pour cette acquisition qui concernait tant ses bases de données que les logiciels destinés aux bibliothèques et à différents services des entreprises.
Clarivate et, dans une moindre mesure, Proquest ont déjà racheté de nombreuses entreprises.
Clarivate, en particulier, a racheté récemment Decision Resources Group, Customer First View, CPA Global, et Darts-ip, ce dernier étant spécialisé dans les litiges de propriété intellectuelle
Il semble que ces opérations de rachat se sont passées sans problèmes majeurs. Manifestement, ce n’est pas le cas pour le rachat de Proquest par Clarivate.
Lire aussi :
Le rachat de Proquest par Clarivate : quelles conséquences pour le monde de l’information ? , BASES n°392, mai 2021
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip , BASES n°377, janvier 2020
Dialog devient une source pour l’open access avec la base Publicly Available Content , BASES n°394, juillet-août 2021
Depuis quelques années, les Knowledge Graphs ("graphes de connaissances"), ces réseaux sémantiques construits à partir des relations établies entre des entités de types différents (personnes, évènements, lieux, situations, concepts, etc.) ont la cote auprès des outils de recherche et de veille professionnels. Nombre d’entre eux mettent d’ailleurs en avant leur utilisation dans leur discours commerciaux. On notera bien qu’il s’agit ici d’une technologie utilisée en arrière-plan sur laquelle l’utilisateur final n’a pas directement la main.
D’une part, de nouveaux outils indiquent mettre cette technologie au cœur de leurs produits, ce qui, selon eux, viendrait « révolutionner » la recherche et la veille. C’est par exemple le cas d’IP Rally, un nouvel outil de recherche brevets qui met en avant « une technologie unique basée sur un Knowledge Graph ». IP Rally se présente comme une alternative aux outils à base d’IA qui sont de véritables boîtes noires et les outils fondés sur la recherche par mots-clés classique.
D’autre part, des outils, déjà bien en place, communiquent également régulièrement sur l’intégration de Knowledge Graphs dans leurs produits. C’est par exemple le cas du lecteur RSS Feedly pour son « assistant intelligent » Leo mais aussi d’EBSCO pour sa nouvelle interface EDS lancée fin 2020 ou encore de Dow Jones (Factiva) dans son produit DNA lancé à la fin de l’année 2019.
Lire aussi :
Outils de recherche payants à l’heure de la recherche booléenne « augmentée »
Comment construire ses propres outils de recherche d’information thématiques ?
Les sources permettant d’obtenir des articles scientifiques et académiques en libre accès sont de plus en plus nombreuses. Les serveurs et bases de données classiques, après avoir longtemps été réticents à les inclure à leur corpus, commencent à les intégrer à leurs offres soit en les intégrant directement à leurs bases existantes, soit en créant des bases spécifiques dédiées à l’open access. C’est à cette dernière catégorie qu’appartient la nouvelle base de Dialog, appelée Publicly Available Content.
Les serveurs payants (Dialog, Scopus, STN…) en référencent certains, mais il existe de nombreux sites en accès libre qui proposent gratuitement l'accès à des références, avec dans la plupart des cas, un lien vers le document original. Mais il faut noter que très souvent, seule une partie des documents eux-mêmes est en libre accès, les autres étant payants.
Les possibilités de recherche sur ces sites ne sont pas inexistantes mais plus ou moins développées.
On peut citer parmi les plus connus, sachant qu’il en existe de nombreux autres :
Bielefeld Academic Search Engine (BASE) qui propose plus de 240 millions de références de documents de toutes natures provenant de plus de 9 000 partenaires parmi lesquels environ 60 % sont en libre accès, la part de documents en libre accès pour chaque partenaire étant très variable ("variant de 1 à 100 %" selon l'éditeur).
Lire aussi :
The Lens est un moteur de recherche lancé en 2000 par une organisation à but non lucratif, Cambia, basée au sein de l’Université de Technologie du Queensland à Brisbane en Australie.
Particularité distinctive, il donne accès à trois bases de données, dont une base de publications scientifiques, objet de l’article de François Libmann dans ce même numéro « The Lens pour la littérature scientifique : des contenus mal valorisés », une base de séquences et une base de données brevets en accès libre. Cette dernière est l’objet de cet article.
Dans l’article précédent « The Lens, un outsider au fort potentiel pour la recherche brevet gratuite », Philippe Borne s’est focalisé de façon détaillée sur la partie brevet de The Lens.
Dans cet article nous examinerons la partie consacrée à la littérature scientifique de The Lens que l’on atteint en cliquant sur « Scholary works » dans le menu déroulant « Our apps » sur la page d’accueil.
La recherche dans la littérature scientifique sous forme numérique est disponible depuis très longtemps à de multiples endroits de façon gratuite ou payante. Ici, elle est limitée aux documents dont les références sont en accès libre, ce qui ne préjuge pas de la gratuité ou non de l’accès au document lui-même (41 millions sont en accès libre).
Ces références proviennent de Crossref, Pubmed, Core et Microsoft Academic, sachant que Microsoft vient d’annoncer l’arrêt de son service Microsoft Academic, ce qui risque de poser problème.
Depuis l’apparition dans les années 2000 des premiers services permettant de raccourcir des liens ou urls (Uniform Resource Locator), aussi appelés shorteners, de nombreuses plateformes ont ensuite vu le jour avec plus ou moins de succès.
Ces plateformes apparaissent et disparaissent au gré du temps, laissant le professionnel de l’information confronté à cette instabilité. L’un des derniers en date à abandonner la bataille n’est autre que huit.re, un outil proposé par Framasoft que nous utilisions parfois pour nos articles.
Et même des services, qui sur le papier procurent un sentiment de sécurité quant à leur pérennité, soit parce qu’ils sont issus des géants du Web, soit parce qu’ils existent depuis longtemps, ne sont pas à l’abri de disparaître du jour au lendemain.
Google en a été la preuve il y a quelques années avec son service googl.gl qui resta incontournable jusqu’en 2019. La firme de MountainView préféra pourtant réorienter son service autour de sa plateforme de création de liens dynamiques Firebase Dynamic Links et ferma googl.gl en 2019.
Temps total de lecture : 25 min
Temps total de lecture : 2 min
Les travaux étudiants (mémoires, thèses ou encore rapports de stage) ont toute leur place dans les sources d’information des veilleurs. Ils peuvent souvent fournir des informations uniques que l’on ne retrouve pas sous d’autres formats ou aiguiller l’internaute vers d’autres ressources pertinentes, notamment grâce aux références bibliographiques.
Mais encore faut-il y avoir accès...
Si l’archivage et la mise à disposition des thèses répondent à des obligations légales et des processus de plus en plus structurés et formalisés ce n’est pas le cas pour les mémoires en France ni à l’international.
Chaque organisme étant libre en matière de diffusion des mémoires, on se retrouve alors avec une multitude d’initiatives isolées qu’il est souvent difficile d’identifier.
Cette quête des mémoires peut vite s’avérer tellement chronophage qu’elle n’est pas nécessairement rentable.
Heureusement avec les années, certaines initiatives unifiées à l’échelle d’un pays ou d’une discipline ont pris de l’ampleur et deviennent des sources de référence en la matière.
Lire aussi : Tour du monde des sites de thèses en accès libre
Les fusions/acquisitions sont depuis longtemps très fréquentes dans le domaine de l’information.
Près de nous, voici des années que Questel rachète des sociétés, en France comme à l’étranger, offrant divers services liés à la propriété intellectuelle, cœur de son activité. Dans un autre domaine, Cision a acheté il y a quelques années Europresse, l’Argus de la Presse et PR Newswire. Cette situation existe aussi aux Etats-Unis.
Aujourd’hui, il s’agit d’un achat important d’un acteur essentiellement privé, en l’occurrence Proquest par l’acteur public qu’est Clarivate. La transaction s’élève à 5,3 milliards de dollars, dont quatre en liquide et 1,3 en actions.
Temps total de lecture : 13 min
Temps total de lecture : 8 min
Temps total de lecture : 10 min
Le nombre de publications scientifiques ne cesse de croître de façon soutenue. La technologie a permis de les rendre accessibles auprès de nombreuses plateformes soit sous forme de références bibliographiques soit en texte intégral.
On note que certaines de ces plateformes offrent des dizaines voire des centaines de millions de documents.
Cette croissance du nombre de publications est due également à la forte augmentation du nombre de chercheurs et auteurs, elle-même liée à l’amélioration du niveau global d’éducation.
- ne pas le confondre avec un autre auteur ayant nom/prénom(s)/initiale(s) de prénom(s) identiques ou très semblables ;
- être capable de se rendre compte que deux auteurs aux identifications ayant des points communs proches peuvent être en fait un seul et même auteur.
Il est d’abord loin d’être évident d’identifier toutes les publications d’un auteur, sauf si celui-ci a souhaité en donner une liste exhaustive, sur son site web, sur son profil Google Scholar ou dans ORCID.
Voir aussi :
Du Dark Web au Clear Web : Aleph Networks, une nouveauté pour la veille ?
Plateformes de veille : qu’ont-elles à offrir aux PME et TPE ?
La société Aleph Networks, pionnière dans la cybersécurité sur le Dark Web, était présente sur le salon I-Expo/Documation 2020. A cette occasion, elle présentait son nouveau produit en cours de lancement « Aleph Search Clear » qui s’adresse à un tout nouveau public, celui de la veille concurrentielle ou stratégique et s’attaque pour le coup à un nouvel environnement Web bien connu des veilleurs : le Clear Web.
Le Dark Web et le Deep Web sont des espaces très instables qui tendent à ajouter ou retirer fréquemment des sites. Ils suscitent bon nombre de rumeurs et il est par conséquent important de démystifier les différents volets qui composent le Web.
Voir aussi :
ORCID et les autres outils d’identification des auteurs de publications scientifiques
Plateformes de veille : qu’ont-elles à offrir aux PME et TPE ?
Si les PME et TPE ont tout autant besoin de veille que les grandes organisations, la mise en place d’un tel processus est, encore aujourd’hui, loin d’être une évidence.
Manque de budget, de moyens humains ou encore de sensibilisation à la veille sont autant de raisons pour lesquelles de nombreuses PME et TPE n’ont pas de processus de veille formalisé et n’ont pas recours aux plateformes de veille du marché.
Il y a quelques semaines, KB Crawl, acteur bien connu sur le marché français, annonçait le lancement de KB Access, un nouveau produit entièrement dédié aux PME, TPE, ETI et indépendants.
Lire aussi :
Réussir une démarche de veille et d’intelligence économique efficace en 2019
Qui ne connait pas Espacenet. Lors de son lancement en 1998 par l’OEB, ce service mettant gratuitement à disposition de tous l’information brevet via une interface web très intuitive a été vécu comme une révolution par les habitués des langages d’interrogation des Questel et autre STN.
Espacenet a incontestablement représenté une sorte de démocratisation de l’accès au contenu des brevets. Pour ceux dont le métier consiste à sensibiliser les PME à la propriété industrielle, Espacenet a aussi constitué, par son côté ludique pour l’« homme de la technique », un excellent moyen d’attirer vers cette matière ardue un public qui y est souvent rétif.
23 ans après ses débuts, et malgré le développement de nombreux outils équivalents, Espacenet reste une référence parmi les produits en accès libre.
Le lancement en octobre 2019 d’une nouvelle version constitue un tournant important dans l’histoire de ce service.
Présentation de l'auteur : Philippe Borne est depuis plus de 30 ans engagé dans les métiers de la propriété industrielle au sein de l’INPI. Il y a commencé ses activités en relation avec le projet Pharmsearch/MMS (Merged Markush Service) , une base de données couvrant les brevets des domaines de la chimie et de la pharmacie résultat d’un projet mené conjointement par Questel, Derwent en l’INPI. Il a, à ce titre, été en contact avec de nombreux professionnels et utilisateurs de l’information brevet avec lesquels il reste en lien, notamment en tant que membre du CFIB (Club Francophone d’Information Brevet).
A quelques semaines d’intervalles, plusieurs annonces viennent changer le paysage des plateformes de veille en France tel que nous le connaissons aujourd’hui.
La première est le rachat de la plateforme de social media monitoring Brandwatch par Cision et la seconde la vente de Linkfluence (éditeur de Radarly) à Meltwater.
Lire aussi :
Brandwatch : une plateforme de veille qui allie puissance et flexibilité
NETSOURCES (n°147 - juillet/août 2020)
L’opérateur
site:
sur Google est bien connu des professionnels de l’information et permet de rechercher uniquement sur un ou plusieurs sites web bien précis, ce qui en fait une fonctionnalité très précieuse.
La requête veille site:https://www.bases-netsources.com/
par exemple recherchera le terme veille sur les pages du site bases-netsources.com indexées par Google.
Google permet également la création de moteurs personnalisés appelés « Google CSE », pour Custom Search Engine (https://cse.google.com). L’utilisateur peut créer un moteur en entrant les sources qu’il souhaite interroger et peut ensuite créer des requêtes comme sur le moteur classique de Google.
Dans les deux cas, l’internaute recherche donc sur une sélection de sources et non sur l’intégralité du web.
Que l’on utilise l’opérateur site:
ou un moteur CSE avec les mêmes sources, les résultats devraient donc être sensiblement les mêmes. Sauf qu’il n’en est rien…
METIER • Les compétences des professionnels de l’information : un défi à la fois humain et technologique, pp. 1-4
METHODOLOGIE • Détection de flux RSS : meilleurs outils et bonnes pratiques en 2021, pp. 5-6
OPEN DATA • L’open data des entreprises : une mine d’or souterraine, pp. 7-8
SERVEURS • Dialog : Embase French Literature devient accessible à tous, p. 8
TENDANCES • Les nouveaux dispositifs anti-fake news des GAFAM : un outil pour le veilleur? pp. 9-11
BREVETS • Retour de l’indexation de la littérature chinoise dans Chemical Abstracts, p. 11
«Faire partie de l’équation...» : ce titre, choisi pour introduire les conférences du Congrès des professionnels de l’information au Québec (CPI) sur le thème des rôles et compétences, sonne comme une revendication, somme toute légitime, venant d’une profession hautement qualifiée qui a toujours joué avec courage la carte de l’adaptation, voire de la réadaptation, face aux bouleversements successifs du marché de l’information.
Cette remise en question devenue structurelle dans nos métiers de l’information s’est accompagnée depuis toujours de nombreux débats et travaux au sein des organisations professionnelles, écoles spécialisées ainsi que d’analyses d’experts.
A l’heure où l’on ne parle que d’intelligence artificielle et d’élargissement illimité de la sphère digitale, nous avons voulu faire un point sur la perception de nos métiers de l’information telle qu’elle nous apparaît dans les récentes conférences ou analyses.
Le format RSS est toujours - et plus que jamais - d’une grande utilité pour la veille mais il vous arrive peut-être de ne plus parvenir à détecter facilement la présence des flux sur une page, sur les sites web des sociétés et même sur les sites web de presse. Ils sont en effet devenus beaucoup moins visibles et moins promus - ce qui ne veut pas dire pour autant inexistants - que par le passé. A cela s’ajoute le fait que les outils de détection souffrent d’une certaine instabilité.
Cette méthodologie présente les bonnes pratiques à essayer systématiquement, ainsi qu’une sélection des meilleurs outils de détection en 2021. Elle détaille en outre les points d’attention à vérifier pour garantir l’efficacité de la démarche, et suggère quelques pistes pour identifier de nouveaux outils de détection RSS.
Lire aussi : Quel lecteur de flux RSS choisir en 2020
Il y a quelques semaines, EDF annonçait le lancement de sa plateforme open data (opendata.edf.fr), une bonne nouvelle pour les professionnels de l’information susceptibles de rechercher des informations dans le secteur de l’énergie.
Mais au-delà de l’annonce d’EDF en tant que telle, ce qui est intéressant, c’est que cette nouvelle plateforme est initiée par une entreprise alors qu’on est plus habitué à entendre parler d’open data dans le secteur public. On l’oublierait presque mais les entreprises, elles aussi, peuvent lancer leurs plateformes d’open data et mettre en ligne certains jeux de données, même si on est très loin d’une ouverture des données à très grande échelle.
Depuis quelques années, difficile d’échapper au phénomène des « fake news ». A tel point que la question se pose de savoir si tous les secteurs sont effectivement concernés et dans quelle mesure cette désinformation peut affecter les professionnels de l’information.
Les récents ajouts de fonctionnalités et initiatives de la part des GAFAM et de Twitter, pour modérer la prolifération des fake news, révèlent que leur large diffusion a passé un seuil critique : d’une part les fake news peuvent affecter la réalité, le cours de l’Histoire, comme en témoigne les récents événements lors de la campagne présidentielle outre-Atlantique et, d’autre part, les réseaux sociaux et géants d’Internet sont tenus responsables dans leur diffusion, par un laisser-faire manifeste, parfois assumé.
Embase , produite par Elsevier, est l’une des grandes banques de données biomédicales de référence couvrant, depuis 1947, la littérature sur les médicaments, la pharmacologie ainsi que d’autres aspects de la médecine humaine.
Nous avions annoncé (BASES n°371 Juin 2019 ) le lancement d’un nouveau module d’Embase dépouillant une centaine de publications françaises supplémentaires, qui n’étaient pas déjà prises en compte dans le Embase classique.
Ce module a été créé pour étayer les recherches de pharmacovigilance pour les médicaments commercialisés en France. Il bénéficie de l’indexation très poussée proposée par le producteur.
L’antériorité annoncée est de 2017, mais on trouve des documents publiés à partir de juin 2016.
A son lancement, ce module n’était accessible qu’à la condition d’avoir souscrit un abonnement illimité à Embase couplé avec ce module.