Quand on réalise une veille sur les nouveaux outils de recherche et de veille, il n’est pas rare de voir apparaître de nouveaux outils gratuits, uniquement disponibles sur Github. Et cela peut être quelque peu déconcertant quand on ne maîtrise pas les rudiments de cette plateforme avant tout destinée aux développeurs et informaticiens.
Car Github est aujourd’hui surtout connu pour être le plus gros hébergeur de codes sources au monde.
Mais dans cette masse de petits programmes et morceaux de codes en libre accès, on trouve de plus en plus d’éléments pouvant être utiles pour le veilleur : outils de surveillance de pages web, lecteurs RSS, outils de création de flux RSS, outils pour l’OSINT, outils de recherche, listes de ressources thématiques, etc.
Lire aussi :
Comment se repérer dans le paysage des outils de veille gratuits et bon marché ?
Les outils de surveillance de pages gratuits et freemiums au banc d’essai
Comment trouver des outils de recherche d’information thématiques ?
L’OSINT : illusion marketing ou nouveau champ d’investigation pour les professionnels de l’info ?
Mais il n’est en réalité pas simple d’entrer dans cet univers, très éloigné des problématiques quotidiennes et des pratiques des professionnels de l’information. Un univers très technique, avec son jargon destiné avant tout aux développeurs et où il est difficile de réussir à réellement utiliser les outils qui y sont proposés.
Pour cet article, nous nous sommes plongés dans l’antre de Github pour :
Déjà abonné ? Connectez-vous...
Questel est, depuis plusieurs années, une société en fort développement.
En effet, si, en avril 2015, elle comptait environ 140 salariés, 3 000 clients et 100 000 utilisateurs, en mars ces chiffres sont devenus 1 400 salariés, 15 000 clients et plus de 1,5 million d’utilisateurs.
Cette croissance importante est due pour une bonne part à l’acquisition d’un grand nombre de sociétés offrant des produits et/ou des services dans le domaine de la propriété intellectuelle (voir notre article « Questel double sa taille avec plusieurs acquisitions en 2021» dans ce même numéro).
L’ensemble de ces acquisitions a été réalisé avec le soutien de fonds de Private Equity.
Ce souci de développement ne pouvait, bien sûr, mettre de côté l’utilisation de l’intelligence artificielle.
Lire aussi :
Brevets : les évolutions d’Orbit
Les "combination sets" dans la classification des brevet
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip
L’IA était déjà largement utilisée dans la préparation des données Questel :
Mais c’est la première fois qu’un module IA est mis à la disposition directe des utilisateurs. Il s’agit d’un classificateur binaire dénommé AI-Classifier.
L’AI-Classifier est désormais proposé aux utilisateurs d’Orbit Intelligence. Il s’active sur les dossiers de travail (les workfiles). Après que l’utilisateur ait classé une dizaine de documents en « pertinents » ou « non-pertinents », le Classifier binaire « apprend » de ces documents et définit une règle de classement automatique. Il teste pour cela deux algorithmes (bientôt trois) et choisit le plus performant pour classer l’ensemble des documents du dossier.
Déjà abonné ? Connectez-vous...
Questel multiplie les acquisitions depuis des années déjà. En effet, durant ces cinq dernières années pas moins de quinze ont été réalisées.
Les dernières acquisitions ont permis à Questel de doubler sa taille.
Questel vient d’annoncer le bouclage de l’acquisition de NovumIP, groupe mondial de technologies, résultat de la fusion des sociétés Pavis et Novagraaf.
Questel vient aussi de finaliser le rachat de la minorité restante des actions de la société allemande Brandstock, fondée en 1993, qui propose un ensemble de services, en particulier juridiques, ainsi que sur la transparence des coûts des prestations dans le domaine de la propriété intellectuelle.
Lire aussi :
Brevets : les évolutions d’Orbit
Les "combination sets" dans la classification des brevet
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip
Cette opération valorise Questel à près de deux milliards d’euros.
Ses actionnaires majoritaires sont aujourd’hui Eurazeo Capital et IK Investment Partners.
Tandis que Raise Investissement est un actionnaire minoritaire. Il faut noter que le management reste un gros actionnaire minoritaire.
Questel compte aujourd’hui 1 400 salariés, dans 44 bureaux et 22 pays, et 15 000 clients.
ResearchGate est un réseau professionnel de chercheurs qui revendique plus de 20 millions de membres, sachant que l’inscription est libre, sous condition d'appartenir d'une façon ou d'une autre à la communauté scientifique ; seule la navigation reste possible pour les autres internautes.
Créé en 2008, le site a pour but de faciliter la collaboration entre chercheurs, en particulier en leur permettant de partager librement leurs publications.
Au milieu des années 2010, Il y avait eu un premier bras de fer entre ResearchGate et les éditeurs scientifiques qui l’accusaient de donner accès librement à des articles scientifiques qui n’étaient absolument pas en open access. En 2017, après des menaces de poursuites en justice, ResearchGate avait décidé de réagir à sa façon en supprimant un certain nombre de publications présentes dans son système. Certaines publications ont ainsi été rendues privées avec un accès restreint à certaines personnes et d’autres ont tout simplement été supprimées sans que l’auteur n’ait été prévenu au préalable.
Au final 1.7 million d’articles avaient ainsi été supprimés ou rendus privés.
Lire aussi :
Comment bien rechercher l’information scientifique et technique ?
Recherche d’information académique : enfin une comparaison concrète entre gratuit et payant
Aujourd’hui encore, il est possible de récupérer gratuitement certains articles sur ResearchGate. Et certains articles ne sont clairement pas censés être en open access. Il semblerait que ResearchGate ait continué à fermer les yeux sur ces pratiques.
Ainsi, quand on trouve une référence d’article référencé sur ResearchGate, il faut envoyer un mail à l’auteur si l’on souhaite recevoir l’article complet correspondant. Manifestement, si l’on n’est pas inscrit ou si son adresse mail n’a pas une apparence académique, il ne faut pas compter recevoir la copie (gratuite) de l’article.
C’est en tout cas notre expérience personnelle. Si les conditions évoquées plus haut sont remplies, il semble que cela marche beaucoup mieux.
Déjà abonné ? Connectez-vous...
IA, deep learning, recherche sémantique, classification automatique : ces termes sont de plus en plus fréquents dans le monde des bases de données brevets.
Vont-ils renvoyer les tenants de la recherche traditionnelle au rayon des archives du monde des professionnels de l’information brevet ? Les codes CIB, CPC, les mots-clés représenteront-ils bientôt des techniques démodées à remiser au placard ? Qui sont ces nouveaux outils et condamnent-ils réellement des techniques éprouvées depuis plusieurs dizaines d’années, ou au contraire ne font-ils que les complémenter ? Enfin, quel est leur niveau de performance et comment les utilise-t-on ?
Les informations ici présentées résultent également d’un échange avec les équipes d’IPRally.
IPRally fait partie des nouveaux acteurs récemment arrivés sur le marché de l’information brevet proposant des produits payants, appuyés uniquement sur les nouvelles technologies ; celles-ci résumées par les termes cités plus haut : IA, sémantique, deep learning.
La startup a été fondée il y a 3 ans et demi en Finlande par Sakari Arvela, à l’origine, conseil en PI (Propriété Intellectuelle). Constatant la manière dont il décompose les revendications en concepts essentiels dans le cadre de son travail journalier de recherche de brevetabilité ou de liberté d’exploitation, il a eu l’idée d’apprendre à une IA cette méthode et de tenter d’automatiser un processus jusque-là intellectuel.
IP Rally annonçait 12 collaborateurs en 2020 et emploie aujourd’hui 25 personnes. Il a bénéficié en janvier dernier d’une levée de fonds de 2 M€.
Déjà abonné ? Connectez-vous...
Depuis plus d’un an, on voit apparaître de plus en plus de liens vers des veilles gratuites sur LinkedIn. Il ne s'agit pas ici de news partagées régulièrement par des experts sur un secteur ou un pays, mais des veilles thématiques ou sectorielles produites et diffusées par des entreprises ou consultants qui ne sont pas spécialisés dans le domaine de la veille.
Derrière l’effort de contribution à la plateforme de partage social qu'est LinkedIn, on peut supposer qu’il s’agit dans la plupart des cas d’une stratégie de référencement dans un cadre commercial ou d’une simple recherche de notoriété.
L’utilisation de la veille comme outil de marketing serait finalement une nouvelle forme de publicité sophistiquée, qui aurait a priori de bonnes chances de toucher une cible professionnelle structurellement qualifiée, comme celle « offerte » par LinkedIn.
La cible client serait plus aisée à atteindre, à la fois grâce à la nature du canal de communication et à un contenu potentiellement plus riche qu’un post sur un blog ou une newsletter d’actualités.
Le veilleur professionnel pourra dans un premier temps qualifier ces veilles gratuites de « pseudo prestations » et s’alarmer de ce nouveau pas vers la « commoditisation »(1) du secteur de l’information, avec une dilution de valeur du service expert que représente une prestation de veille, qui suppose rigueur et technicité.
Il est clair que ce phénomène naissant fait resurgir l’épineux problème de la gratuité -apparente- de l’information, et pose à nouveau celui du positionnement métier des professionnels de l’information. En effet, le veilleur, déjà challengé par la pression du gratuit, doit par ailleurs affronter en entreprise une concurrence croissante venant des flux de contenus diffusés en interne de façon plus ou moins anarchique au sein de l’organisation.
Déjà abonné ? Connectez-vous...
Depuis quelques années déjà, Google ne permet plus de rechercher sur les versions locales de son navigateur. Que vous lanciez votre recherche sur google.fr, google.com, google.com.br ou encore google.co.uk, les résultats seront les mêmes.
Google détermine en effet les résultats en fonction de la localisation de l’internaute, c’est-à-dire à partir de son adresse IP. L’internaute risque donc de se retrouver dans une sorte de « bulle de filtres » géolocalisée.
Quand on fait de la veille et des recherches d’information à l’international, cela représente un risque majeur : passer complètement à côté de résultats locaux (issus de la presse locale, de sites de collectivités locales, de blogs locaux, de sites d’entreprises locales, etc.) qui pourraient pourtant apporter des informations stratégiques.
Lire aussi :
On pourrait bien sûr s’affranchir de Google et n’utiliser que des services qui ne collectent pas de données sur l’utilisateur et ne personnalisent pas les résultats de recherche. Sauf que malheureusement, en termes de performance et de pertinence de résultats, aucun n’arrive pour le moment à la cheville de Google. Utiliser Google (parmi d’autres sources et outils bien sûr) reste donc un prérequis dans un grand nombre de cas.
Mais tout n’est pas perdu. On sait qu’il existe différents outils et méthodes pour contourner cette géolocalisation forcée :
Nous avions dressé un panorama des solutions disponibles dans l’article « Comment identifier des sources d’information locales ? » (NETSOURCES n°146 – mai/juin 2020) que nous vous invitons à lire ou à relire.
Déjà abonné ? Connectez-vous...
Depuis l’annonce en mai 2021 du rachat de Proquest par Clarivate , tout semblait se passer sans trop de problèmes pour cette acquisition qui concernait tant ses bases de données que les logiciels destinés aux bibliothèques et à différents services des entreprises.
Clarivate et, dans une moindre mesure, Proquest ont déjà racheté de nombreuses entreprises.
Clarivate, en particulier, a racheté récemment Decision Resources Group, Customer First View, CPA Global, et Darts-ip, ce dernier étant spécialisé dans les litiges de propriété intellectuelle
Il semble que ces opérations de rachat se sont passées sans problèmes majeurs. Manifestement, ce n’est pas le cas pour le rachat de Proquest par Clarivate.
Lire aussi :
Le rachat de Proquest par Clarivate : quelles conséquences pour le monde de l’information ? , BASES n°392, mai 2021
Contentieux de brevets et marques : Clarivate Analytics rachète darts-ip , BASES n°377, janvier 2020
Dialog devient une source pour l’open access avec la base Publicly Available Content , BASES n°394, juillet-août 2021
En effet, la FTC (Federal Trade Commission) américaine vient d’annoncer qu’elle allait effectuer une enquête complémentaire sur ce projet de rachat.
Cela a pour conséquence de reporter la date limite de cette opération au minimum à la fin de l’année, sachant qu’il serait possible de repousser cette date jusqu’au 29 avril 2022.
Cela n’est pas, bien sûr, sans conséquence sur le plan du montage financier prévu à l’origine et qui est en train d’être réaménagé.
Ce report illustre l’importance de cette éventuelle fusion sur le marché de l’information, même si certains avaient prévu, à tort, que la taille relativement limitée du marché concerné ne susciterait pas l’intérêt de la FTC.
Il est vrai qu’avec un tel rachat, l’évolution de l’offre globale sur ce marché pourrait évoluer significativement et, au moins pour une part, ne pas convenir à tous les clients.
On pense, en particulier, au modèle de facturation de Dialog Solutions (racheté par Proquest en 2008), en espérant que l’option « pay as you go » soit maintenue, ce qui n’est pas évident compte tenu des pratiques de Clarivate.
Néanmoins, d’ici une éventuelle fusion, les deux groupes continueront à opérer sans changement.
En attendant, on espère que cette nouvelle attente ne démobilisera pas les équipes de Dialog Solutions. Pour la France, on enregistre le départ du (discret) représentant.
Pour l'heure, nous constatons avec grand plaisir le professionnalisme toujours présent de l'équipe du help desk européen, qui s'est manifesté par l’intérêt et les réponses apportés à nos différentes demandes très précises concernant la nouvelle base appelée Publicly Available Content que nous présentons, par ailleurs ce même numéro.
Depuis quelques années, les Knowledge Graphs ("graphes de connaissances"), ces réseaux sémantiques construits à partir des relations établies entre des entités de types différents (personnes, évènements, lieux, situations, concepts, etc.) ont la cote auprès des outils de recherche et de veille professionnels. Nombre d’entre eux mettent d’ailleurs en avant leur utilisation dans leur discours commerciaux. On notera bien qu’il s’agit ici d’une technologie utilisée en arrière-plan sur laquelle l’utilisateur final n’a pas directement la main.
D’une part, de nouveaux outils indiquent mettre cette technologie au cœur de leurs produits, ce qui, selon eux, viendrait « révolutionner » la recherche et la veille. C’est par exemple le cas d’IP Rally, un nouvel outil de recherche brevets qui met en avant « une technologie unique basée sur un Knowledge Graph ». IP Rally se présente comme une alternative aux outils à base d’IA qui sont de véritables boîtes noires et les outils fondés sur la recherche par mots-clés classique.
D’autre part, des outils, déjà bien en place, communiquent également régulièrement sur l’intégration de Knowledge Graphs dans leurs produits. C’est par exemple le cas du lecteur RSS Feedly pour son « assistant intelligent » Leo mais aussi d’EBSCO pour sa nouvelle interface EDS lancée fin 2020 ou encore de Dow Jones (Factiva) dans son produit DNA lancé à la fin de l’année 2019.
Lire aussi :
Outils de recherche payants à l’heure de la recherche booléenne « augmentée »
Comment construire ses propres outils de recherche d’information thématiques ?
Pourtant, le concept de Knowledge Graph n’est pas nouveau et a été largement popularisé dès 2012, lorsque Google a introduit son propre Knowledge Graph dans son moteur et a abondamment communiqué sur le sujet. On rappellera que Google définit son Knowledge Graph comme une base de connaissances utilisée par son moteur pour compiler les résultats de recherche avec des informations sémantiques issues de sources diverses.
Et Google n’est pas le seul géant du Web à y avoir recours depuis des années. Facebook, LinkedIn, Amazon, Netflix utilisent également leurs propres Knowledge Graphs propriétaires dans leurs produits pour à la fois comprendre les intentions et besoins informationnels des internautes mais aussi pour leur proposer des recommandations pertinentes.
C’est ce que nous avons cherché à comprendre dans cet article de BASES.
Dans cet article :
Déjà abonné ? Connectez-vous...
Les sources permettant d’obtenir des articles scientifiques et académiques en libre accès sont de plus en plus nombreuses. Les serveurs et bases de données classiques, après avoir longtemps été réticents à les inclure à leur corpus, commencent à les intégrer à leurs offres soit en les intégrant directement à leurs bases existantes, soit en créant des bases spécifiques dédiées à l’open access. C’est à cette dernière catégorie qu’appartient la nouvelle base de Dialog, appelée Publicly Available Content.
Les serveurs payants (Dialog, Scopus, STN…) en référencent certains, mais il existe de nombreux sites en accès libre qui proposent gratuitement l'accès à des références, avec dans la plupart des cas, un lien vers le document original. Mais il faut noter que très souvent, seule une partie des documents eux-mêmes est en libre accès, les autres étant payants.
Les possibilités de recherche sur ces sites ne sont pas inexistantes mais plus ou moins développées.
On peut citer parmi les plus connus, sachant qu’il en existe de nombreux autres :
Bielefeld Academic Search Engine (BASE) qui propose plus de 240 millions de références de documents de toutes natures provenant de plus de 9 000 partenaires parmi lesquels environ 60 % sont en libre accès, la part de documents en libre accès pour chaque partenaire étant très variable ("variant de 1 à 100 %" selon l'éditeur).
Lire aussi :
COnecting REpositories (CORE) propose plus de 209 millions de références dont 89 millions (environ 43 % en accès libre) provenant de plus de 10 000 partenaires.
On citera également Google Scholar, bien connu et beaucoup/trop utilisé, dont on sait qu’il ne donne aucun élément chiffré sur son contenu. Certains l’évaluent à plus de 300 millions de références, ce qui en ferait la ressource la plus volumineuse. Mais, là encore, les documents référencés ne sont pas tous gratuits.
Déjà abonné ? Connectez-vous...