SciELO (Scientific Electronic Library Online) est un programme de coopération internationale dont l’objectif est le développement du libre accès aux publications scientifiques des pays latino-américains, des Caraïbes, de l’Espagne et du Portugal. Ce libre accès est une ligne d’action prioritaire depuis 2019 de ce programme et l’objectif est que tout le contenu soit en libre accès d’ici à la fin de 2025. Un autre objectif est le développement du multilinguisme entre le portugais, l’espagnol et l’anglais, l’anglais étant de plus en plus présent pour augmenter la visibilité et la reconnaissance à l’international de ces publications. SciELO est aussi et surtout une banque de données bibliographique qui propose aujourd’hui 1 219 260 références bibliographiques.
Née au Brésil en 1997 avec le soutien de plusieurs organismes publics, SciELO intègre aujourd’hui les publications de 19 pays à savoir le Brésil, le Mexique, la Colombie, le Chili, l’Argentine, Cuba, l’Espagne, l’Afrique du Sud, le Portugal, le Venezuela, Costa Rica, la Bolivie, l’Uruguay, l’Équateur, le Paraguay et les Antilles. Le Brésil en fournit à lui seul plus de 42 % suivi par le Mexique, la Colombie et le Chili. On trouve en dernière position le contenu en provenance des Antilles avec 1,6 pour mille (1 979 références), anecdotique mais présent. Plus précisément, en ce qui concerne les Antilles, le seul contributeur est The University of The West Indies à la Jamaïque qui publie le West Indian Medical Journal, lequel est disponible aussi sur Scopus, Web of Science, EBSCO ainsi que les bases de données Embase et Biosis.
Le contenu est assez varié. En effet, les thématiques traitées sont les sciences médicales à 45 %, suivies des sciences humaines à près de 20 %. On trouve aussi des documents relevant de la science ainsi que de la littérature et des arts. En termes de langue, le portugais domine largement. Mais pour la langue de l’interface, on a le choix entre l’anglais, l’espagnol et le portugais.
On dispose sur la page d’accueil d’une recherche simple. On peut entrer un ou plusieurs mots dans la boîte de recherche. Un lien vers une recherche avancée est aussi proposé sur cette page. Cette dernière permet de combiner avec les opérateurs AND, OR ou NOT des lignes successives pour chacune desquelles on peut choisir l’index sur lequel sera effectuée la recherche. Les index proposés sont : tout le document, titre, abstract, source, sponsor, auteur et année de publication. À gauche de la liste de résultats on peut filtrer par différents critères à savoir la collection, c’est-à-dire essentiellement le pays d’origine, la publication, la langue ou la thématique. Pour chaque référence obtenue en réponse, on a le titre, l’abstract, le texte intégral et le PDF avec le choix d’une à trois langues parmi le portugais, l’espagnol et l’anglais. Malheureusement ces indications ne sont pas totalement fiables. En tous cas, on a quasi systématiquement un résumé en anglais après le(s) résumé(s) en portugais et/ou en espagnol. Sur la page d’accueil, figure aussi la liste des publications et celles des collections disponibles sur le site. Les collections sont essentiellement relatives à des pays.
Figure aussi Public Health, qui est une sélection de plus de 53 000 articles issus de 17 publications répondant à certains critères de qualité. Les critères de sélection pour faire partie de la collection « Public Health » sont des classiques pour illustrer le sérieux d’une publication tels que prédominance de contenus originaux, revue par les pairs, antériorité de la publication, titres, abstracts et publications et mots clés en anglais lorsque l’article est écrit dans d’autres langues. Cette sélection a conduit Scopus à prendre en compte 16 de ces publications sur les 17, Web of Science 11 et Medline 10. Le contenu de la collection Public Health est également accessible avec un petit décalage dans le temps sur le site scienceopen.com ce qui élargit sa visibilité. Ce site mis à disposition par une société indépendante a été créée en 2013. Elle est basée à Berlin et Boston et offre plus de 95 millions de références en open access. Elle propose, en particulier aux auteurs, de façon optionnelle une « post publication peer review ». Pour être reviewer il faut disposer d’un numéro ORCID (un numéro d’identification propre à un chercheur) et avoir au moins cinq publications liées à ce numéro tandis que pour faire un simple commentaire un article suffit.
Outre ces collections par pays de la banque de données « principale » on trouve une série d’autres collections accessibles depuis la page d’accueil.
Déjà abonné ? Connectez-vous...
AskAdis est une interface innovante utilisant l’intelligence artificielle pour fournir des synthèses complètes sur le développement de médicaments. Elle offre des informations validées sur les essais cliniques et les propriétés des médicaments, avec une présentation moderne et intuitive.
Adis est une société spécialisée dans la fourniture de services d’informations et de solutions aux professionnels de la santé et de l’industrie pharmaceutique. Fondée en 1969, Adis fait aujourd’hui partie du groupe Springer Nature.
Elle édite une trentaine de publications spécialisées, offre différents services et propose plusieurs banques de données essentiellement consacrées aux étapes de développement de médicaments.
Ces banques de données sont accessibles depuis longtemps sur les serveurs Dialog et STN.
Springer Nature vient de lancer AskAdis, une interface avec une couche d’intelligence artificielle qui permet de poser des questions concernent le développement de médicaments.
On y trouve en particulier le contenu de la banque de données ADIS Insight présente sur les deux serveurs cités plus haut, mais aussi des informations complémentaires.
Nous avons comparé pour le même médicament la fiche complète issue de la banque de données Adis Insight sur Dialog et celle issue de AskAdis.
Déjà abonné ? Connectez-vous...
La concurrence féroce entre les modèles d’IA n’a pas ralenti cet été, avec la poursuite des annonces de nouvelles versions commerciales et open source, et progrès en matière de traitement vocal, visuel et textuel. Parmi ces innovations, nous avons identifié certaines fonctionnalités et nouveautés dont certaines ont un impact sur nos pratiques de l’IA générative.
Anthropic vient d’annoncer la disponibilité d’une nouvelle fonctionnalité sur toutes les versions du modèle, tant payantes que gratuites (bien que beaucoup plus limitées).
Cette fonctionnalité permet de générer et d’afficher de façon interactive les réponses du chatbot dans une fenêtre distincte de la conversation principale. Il est important de noter que le terme « artefacts », sans définition très précise, est également utilisé pour désigner le contenu produit par le modèle (textes, visualisations, interfaces, etc.).
Le premier point remarquable est une nouvelle forme d’interaction avec l’utilisateur, qui peut maintenant visualiser et interagir directement avec le contenu généré par Claude via un espace de travail dynamique. À chaque demande d’amélioration ou de modification d’un artefact, les changements apparaissent instantanément dans une fenêtre dédiée. Il est possible d’ouvrir et de consulter plusieurs artefacts simultanément dans la même conversation, ce qui facilite la comparaison et la gestion de différents éléments de travail (cf. test ci-après).
Autre élément novateur : les artefacts semblent marquer l’évolution de Claude d’un « simple » chatbot à un véritable environnement de travail collaboratif. Le projet est ici de coconstruire de manière dynamique les artefacts, à la fois avec son équipe et un nouveau « coéquipier » Claude.
Car outre la production en temps réel de contenu textuel, elle rend également possibles des cas d’usages avancés : génération de tableaux de bord, visualisations de données, création d’applications interactives, conception de maquettes de sites web et d’interfaces…
La collaboration autour d’un projet se fait dans un espace de travail partagé qui permet l’itération en équipe, les modifications instantanées et la réutilisation des artefacts ainsi que la gestion des versions dont l’historique reste accessible.
Notre avis : l’introduction de cette dimension collaborative est extrêmement intéressante dans la mesure où elle place l’IA directement au cœur de l’activité opérationnelle. Jusqu’à présent, la prise en main des modèles et outils d’IA se faisait de façon individuelle, elle passe de facto à un stade beaucoup plus critique de l’organisation.
Déjà abonné ? Connectez-vous...
Voici un peu plus d’un an que le brevet européen à effet unitaire est entré en vigueur, le 1er juin 2023, après plusieurs dizaines d’années d’âpres discussions. Cette arrivée représente un changement majeur pour l’ensemble des déposants de brevets, et pas seulement en Europe. Elle implique une nouvelle procédure, de nouvelles actions et dates, d’autant plus qu’y est associé un nouveau tribunal, la Juridiction Unifiée des Brevets. Nécessairement, tous ces nouveaux évènements doivent apparaître dans les bases de données. Comment ? C’est ce que nous allons voir.
Le brevet européen à effet unitaire est né sur des fondations : le brevet européen classique.
Valoriser une invention par un dépôt de demande de brevet dans son pays, la France par exemple, c’est bien, mais les produits créés par nos entreprises ayant rarement un marché uniquement en France, il peut être sage d’étendre le dépôt de demande de brevet national par des dépôts à l’étranger, générant une famille de brevets qui sera constituée de l’ensemble des titres valorisant une même invention dans plusieurs pays.
Si votre marché se trouve dans plusieurs pays - France, Allemagne, Espagne… - il est nécessaire d’effectuer un dépôt auprès des offices de chacun de ces pays, dans des langues différentes, initiant des procédures qui risquent de ne pas avancer à la même vitesse, générant un ensemble difficile à gérer, et coûteux.
Pour remédier à cet inconvénient, a été mis en place en 1973 le brevet européen classique, qui n’est pas un brevet de l’Union européenne.
C’est simplement un dispositif astucieux où un ensemble de pays (39 maintenant) décident de confier à un organisme unique (l’office européen des brevets, abrégé OEB) la réception d’un dépôt unique de demande de brevet européen, puis l’examen, et, le cas échéant, la délivrance d’un brevet européen. Toute la procédure se passe dans une des 3 langues officielles de l’OEB, qui sont l’anglais, l’allemand et le français.
Mais alors, quelle différence avec un brevet qui serait de l’Union européenne ? En premier lieu c’est qu’il n’y a pas 27 pays dans le système, mais 39, y compris la Turquie, la Norvège et la Suisse par exemple. En second lieu, c’est qu’après la délivrance, le tronc commun s’arrête : le déposant peut alors décider d’« activer » (le terme exact est « valider ») son tout nouveau brevet européen dans tout ou partie des 39 pays. S’il valide dans 10 pays, le brevet européen génère 10 brevets nationaux, un dans chacun de ces 10 pays, et les taxes annuelles de maintien en vigueur seront à payer auprès des 10 offices nationaux correspondants. Car, rappelons-le, pour maintenir un brevet en vie, il faut chaque année payer une taxe. S’il y a une contrefaçon, par exemple en Turquie, il faudra porter le cas devant le tribunal national compétent, en l’occurrence le tribunal turc.
Il manquait donc un chaînon à l’édifice : faire en sorte que l’on n’ait pas de brevets nationaux, sortant du brevet européen, mais un seul brevet en vigueur sur un territoire unique, celui de l’UE. Et qu’en cas de contrefaçon, on puisse aller devant un tribunal unique qui jugerait de la contrefaçon sur ce territoire unique.
C’est l’OEB qui a récupéré la gestion du brevet unitaire, sous son angle examen, délivrance, validation, et aussi, point important, maintien en vigueur : plus besoin de payer une taxe auprès de 5, 10, 15 offices nationaux pour maintenir 5, 10, 15 brevets nationaux issus d’un brevet européen : une seule taxe est à payer auprès de l’OEB.
Tout se passe comme auparavant avec un brevet européen classique ; simplement, une fois le brevet européen délivré, aux 39 cases à cocher correspondant aux 39 pays adhérents à la Convention sur le Brevet Européen, s’y adjoint une nouvelle : la case UE.
Le déposant peut donc valider son brevet européen sur l’UE, et, dès lors, il n’est plus nécessaire de cocher une des cases correspondant à un des pays de l’UE. Par contre, si on souhaite une validation en Suisse par exemple, il faudra toujours cocher la case « Suisse » pour récupérer un brevet national suisse, issu de son brevet européen.
UE donc, toute l’UE ? Cela aurait été trop simple. Disons simplement que si les négociations furent si longues, ce fut en particulier dû à la question des langues. Les Espagnols n’ont pas réussi à convaincre leurs homologues d’ajouter l’espagnol aux 3 langues officielles. L’Espagne n’a donc pas souhaité être dans le système. La Croatie quant à elle est arrivée trop tard dans l’UE pour y être.
Donc ce n’est pas l’UE, c’est l’UE 25. Il faudra toujours cocher la case « Espagne » ou la case « Croatie » pour disposer d’un brevet européen validé dans ces pays.
UE 25 donc, vraiment ? Pas encore, car tous les pays n’ont pas encore ratifié le traité sur la juridiction unifiée des brevets. Depuis le 1er septembre 2024, c’est l’UE 18, mais ce chiffre va évoluer pour atteindre UE 25 ; ces 18 pays sont l’Allemagne, l’Autriche, la Belgique, la Bulgarie, le Danemark, l’Estonie, la Finlande, la France, l’Italie, la Lettonie, la Lituanie, le Luxembourg, Malte, les Pays-Bas, le Portugal, la Roumanie, la Slovénie et la Suède.
Dans les bases de données, il convient d’être en mesure d’identifier le brevet européen à effet unitaire, et les évènements associés.
Déjà abonné ? Connectez-vous...
La Fondation Bill et Melinda Gates créée en janvier 2 000 s’est donné pour mission d’améliorer les conditions de vie des populations défavorisées à travers le monde, en se concentrant initialement sur la santé mondiale, les bibliothèques et l’éducation dans le nord-ouest du Pacifique.
En 2006, la Fondation a été restructurée pour inclure des divisions dédiées au développement mondial et à la santé mondiale, en plus de ses activités aux États-Unis.
Au fil des années, elle a élargi ses domaines d’intervention, notamment dans la lutte contre les maladies, l’éducation, le développement agricole et l’adaptation au changement climatique en Afrique et en Asie.
La Fondation finance des projets de recherche qui lui sont soumis en privilégiant, outre l’excellence scientifique, les projets collaboratifs ayant un fort potentiel d’impact positif sur les populations les plus vulnérables, en accord avec sa mission philanthropique.
Depuis 2015, les chercheurs ayant bénéficié de financement de la part de la Gates Foundation sont tenus de publier les résultats de leurs recherches en open access afin d’accélérer autant faire que se peut la diffusion de ces résultats. De plus, leur exploitation, y compris commerciale, est autorisée sous réserve de citation. Plus précisément les publications doivent se faire sous la « Creative Common Attribution 4.0 Generic License » (CC BY 4.0)
Ce n’est, en effet, que depuis janvier 2015 qu’a été introduite une politique d’open access pour améliorer l’accès sans restriction à tous les résultats des recherches publiés dans des revues à comité de lecture et faciliter leur réutilisation éventuelle.
À partir de cette date, la publication devait se faire immédiatement et sans embargo dans des revues en open access, la Fondation Gates prenant en charge les APC (Article Processing Charges) facturés par les éditeurs, ce financement n’étant pas pris sur le budget alloué pour la recherche, mais payé par un autre budget. Cette prise en charge des APC a représenté chaque année un budget d’approximativement 6 millions de dollars pour environ 4 000 articles.Une tolérance de deux ans a été acceptée pour ce qui concernait la suppression de l'embargo.
Précisons que publication sans embargo ne voulait pas dire publication dès réception du manuscrit, mais publication après approbation par un comité de lecture
En 2021 cette politique a réduit les publications éligibles pour accueillir les articles à celles qui étaient en totalité en open access, éliminant ainsi les publications hybrides.
Dans ce cadre, l’auteur ne devait pas céder son copyright à un éditeur afin qu’il puisse déposer également son article dans un/des repository/ies en libre accès. Il devait également mettre à disposition toutes les données générées par son travail de recherche. De plus, la méthodologie utilisée devait avoir été décrite précisément et être reproductible.
Déjà abonné ? Connectez-vous...
La possibilité de combiner les étapes de recherche est un outil très puissant, très utile pour des recherches complexes.
Cette fonctionnalité, longtemps et toujours présente sur les serveurs traditionnels, est aujourd’hui peu courante, voire inexistante, chez les agrégateurs de presse.
On peut certes toujours y utiliser parenthèses et opérateurs pour combiner différents concepts, mais cela s’avère rapidement compliqué.
Il est beaucoup plus simple, élégant et performant d’utiliser la combinaison d’étapes.
Aday offre donc cette possibilité sur sa nouvelle plateforme. Pour combiner des étapes, il faut, une fois que l’on a fait au moins deux recherches successives, entrer la commande e: dans la boîte de recherche. S’affiche alors la liste numérotée des recherches faites jusque-là. On entre un opérateur booléen (ET, OU, SAUF) et l’on tape une autre commande e: en choisissant à nouveau l’étape que l’on souhaiter combiner à la 1re étape.
Déjà abonné ? Connectez-vous...
Deux rapports influents sur les médias, tout juste publiés, ont retenu notre attention dans la perspective des enjeux liés au droit d’auteur et à l’utilisation des sources, notre ressource primaire.
Le rapport intitulé « Un journalisme de confiance à l’ère de l’IA générative » publié par l’European Broadcasting Union, basé sur des entretiens avec 40 personnalités influentes des médias et des universitaires, souligne que l’utilisation d’IA pour réutiliser des contenus protégés sans mentionner explicitement les sources risque de nuire à la création originale et menace la survie du secteur créatif.
Le Digital News Report du Reuters Institute for the Study of Journalism met en lumière des obstacles techniques supplémentaires. Le blocage des crawleurs d’IA par les sites d’actualités, pratiqué par près de la moitié des sites étudiés, pourrait nuire à la qualité des modèles de langage, en limitant leur accès à l’information.
De plus, les utilisateurs eux-mêmes expriment des réserves quant à l’utilisation de l’IA pour générer du contenu sans supervision humaine, et préfèrent une implication humaine forte, notamment dans la rédaction et la vérification des informations.
Cette fois-ci, c’est au tour de Perplexity AI d’être sous le feu des accusations. Elle a ainsi été accusée de web scraping abusif. L’entreprise aurait récupéré du contenu sur des sites web sans autorisation, et violé les directives établies par les propriétaires des sites et les protocoles du web. Elle aurait utilisé des robots pour récupérer du contenu sur des sites web qui interdisent explicitement cette pratique via un fichier « robots.txt ».
Déjà abonné ? Connectez-vous...
Nous avons le plaisir d’accueillir dans nos colonnes Marydee Ojala, professionnelle de l’information américaine très connue. Elle est rédactrice en chef de la revue ONLINE SEARCHER.
Nous avons adapté pour BASES l’article de Marydee, précédemment publié dans sa version originale en anglais dans la section ONLINE SEARCHER du numéro 5, volume 44, paru en juin 2024 de la revue COMPUTERS IN LIBRARIES sous le titre « The perils and power of NOT in prompting Chatbots » dans la rubrique « Voices of the searchers »
La plupart des professionnels de l’information connaissent bien les commandes booléennes de base : AND, OR et NOT. Elles fonctionnent parfaitement pour la recherche dans les bases de données traditionnelles. Lorsque nous enseignons les techniques de recherche, nous nous appuyons sur des exemples et des diagrammes de Venn pour démontrer la puissance de la recherche booléenne. J’ai toujours pensé que nous devrions souligner les dangers de la commande NOT, en particulier dans les ressources en texte intégral proposant des documents volumineux.
Il est facile pour les chercheurs novices de penser que, puisqu’ils ne s’intéressent qu’à un seul concept dans une recherche, exclure quelque chose qu’ils perçoivent comme non pertinent est une bonne manière d’obtenir les meilleurs résultats. Cela n’est pas toujours vrai. Prenez un exemple trivial pour illustrer le potentiel danger du NOT. Vous voulez des informations sur les allergies des chiens. Mais les allergies des chats ne vous intéressent pas. Vous entrez alors «allergies AND (dogs NOT cats)»
de manière «intelligente». Cela exclut automatiquement un document très pertinent qui contient la phrase : «Contrairement aux allergies des chats, les allergies des chiens sont causées par les protéines Can F.»
En revanche, la commande NOT fonctionne bien dans les bases de données traditionnelles lorsque vous construisez des ensembles. Vous pouvez alors exclure un ensemble contenant des informations déjà consultées, éliminant ainsi les redondances et conservant les informations potentiellement pertinentes. Cela illustre la puissance du NOT.
Déjà abonné ? Connectez-vous...
Le battage médiatique autour de l’IA générative a quelque peu éclipsé les avancées tout aussi décisives de l’IA prédictive dans les domaines de la recherche et de la veille d’informations. Pourtant, la première n’aurait pas rencontré un accueil aussi favorable dans les entreprises sans l’expérience de la seconde qui opère déjà, depuis des années, une transformation en profondeur de nos pratiques professionnelles.
Depuis qu’il est devenu possible pour tous d’interroger des intelligences artificielles dans un langage naturel, on parle beaucoup de l’impact de l’IA générative pour les métiers de l’information (voir notre article « Search: quand les moteurs “recherchent pour vous” », BASES n° 425, mai 2024).
Mais cette dernière n’est pas arrivée en terrain vierge. Il est donc temps de remettre en lumière l’IA prédictive pour replacer l’apport des modèles de langage dans une perspective plus juste au sein des métiers info-documentaires.
En explorant les deux domaines, on comprend que si l’IA générative produit du contenu (images, musique, textes, vidéos) à partir d’un ensemble de données d’entraînement (invisibles pour l’utilisateur), l’IA prédictive, elle, en tire des conclusions. En détectant des modèles et des signaux dans ces mêmes données, celle-ci contribue à anticiper des tendances, des comportements ou des événements à venir. Il peut s’agir du contenu à « pousser » à l’utilisateur ou d’une tendance qui va amener à commercialiser le produit correspondant. Techniquement parlant, l’IA générative utilise elle-même de nombreux processus prédictifs pour prédire le contenu à générer.
Basée sur des techniques d’apprentissage automatique (machine learning) et des algorithmes statistiques, son niveau d’analyse lui permet d’aller bien au-delà des simples statistiques descriptives. L’IA prédictive est potentiellement présente dans chaque phase de nos métiers.
● En phase de recherche et de collecte avec :
• Les suggestions de recherche de Google,
• La personnalisation des flux d’information sur YouTube ou les médias sociaux (Facebook, Instagram, TikTok)
• Les recommandations de contenus similaires ou connexes sur Amazon ou dans les médias (en suivant la logique « si vous avez aimé ceci, alors vous aimerez cela »)
• La vérification de plagiat ou de génération IA (texte, audio ou vidéo)
Déjà abonné ? Connectez-vous...
Philippe Masseron du gf2i (Groupement français de l’industrie de l’information) nous éclaire sur les enjeux cruciaux du droit d’auteur à l’ère de l’IA générative. Entre risques de prédation massive des contenus et opportunités d’accès et d’innovation portées par l’IA, les acteurs de la création et de l’information doivent se mobiliser pour défendre leurs intérêts et repenser leurs modèles de valorisation.
Le rôle d’instances comme le gf2i sera clé pour peser dans les débats législatifs en cours et créer les nouveaux équilibres dans l’économie de la donnée.
Expert en droit de la propriété littéraire et artistique et en gestion de droits
Après des études juridiques (DEA en Finances publiques et Fiscalité – Paris 2) et en Information Communication (Institut Français de Presse – Paris 2), Philippe MASSERON a successivement occupé les postes de directeur juridique et directeur général au CFC (Centre Français d'exploitation du droit de Copie).
Il est administrateur du gf2i (Groupement Français de Industries de l'Information) délégué à la prospective. Il participe régulièrement aux missions du CSPLA.
Anne-Marie Libmann (AML) : Comment définissez-vous le problème de fond sur la question du droit d’auteur par rapport aux systèmes d’intelligence artificielle générative (SIAG) ?
Philippe Masseron (PM) : Nous assistons à une réaccélération et une amplification massive du phénomène de scraping, fouille et crawling des données. Cela n’est pas nouveau, nous avons déjà été confrontés à des situations similaires par le passé qui ont suscité de vives inquiétudes, comme lors du lancement de Google Books ou des grands programmes de numérisation des bibliothèques. Mais l’échelle et la vitesse ont changé. Aujourd’hui, il existe d’immenses bases de contenus protégés accessibles, notamment dans le domaine scientifique, par exemple SciHub qui rassemble des millions de documents en infraction avec le droit d’auteur.
Le problème posé par les IA génératives se situe à deux niveaux. En amont, il y a l’exploitation des œuvres existantes pour entraîner les modèles. En aval se pose la question de la protection par le droit d’auteur des productions de ces IA. Aux États-Unis, le Copyright Office a refusé d’attribuer un copyright à la plupart des créations d’IA qui lui ont été soumises. En Europe, il n’y a pas encore de jurisprudence établie. Mais il y a un risque évident de destruction massive de valeur et de concurrence déloyale pour les industries culturelles. Imaginez un livre généré par une IA et vendu sur Amazon qui bénéficierait de tous les avantages fiscaux et juridiques du livre sans rémunérer les auteurs dont les œuvres auraient servi à son entraînement.
AML : Peut-on considérer que les productions issues d’IA entraînées sur des contenus non autorisés relèvent d’une forme de recel ? Cette question se pose par exemple pour les livrables de veille réalisés par les services de veille et analyse, ou encore cabinets de conseil spécialisés dans la veille et l’intelligence économique. Existe-t-il un risque juridique ?
PM : C’est une question complexe qui mérite d’être creusée, mais je n’ai pas de réponse définitive à ce stade. La qualification de recel suppose un élément intentionnel. Poudrait-il démontrer que l’utilisateur de l’IA avait conscience que les données d’entraînement contenaient des œuvres protégées ? Il faudrait aussi être en mesure d’identifier précisément les œuvres utilisées, ce qui n’est pas évident au vu des nombreuses copies et des transformations subies.
Des techniques existent déjà pour détecter les contenus générés par IA, notamment dans le monde éducatif qui est confronté au plagiat. Mais elles ont leurs limites. Le principe de transparence figurant dans le projet d’AI Act européen se veut une réponse, mais il est insuffisant, car il ne descend pas au niveau de l’identification d’œuvres individuelles au sein des jeux de données d’entraînement.
En l’état, la charge de la protection pèse donc principalement sur les ayants droit qui doivent s’équiper d’outils de détection, de marquage et de traçage. C’est coûteux et chronophage. L’opt-out massif est une étape primordiale pour poser des barrières juridiques et ouvrir la voie à des négociations avec les exploitants d’IA. Certains grands médias comme Le Monde ont déjà conclu des accords avec OpenAI, mais la portée et le contenu de ces deals restent confidentiels.
AML : Comment pèsera la question du référencement des sources utilisées par les IA dans les chatbots et moteurs de recherche ? Si le référencement progresse dans le bon sens, ne risque-t-on pas de réduire le problème de la juste rémunération au débat classique entre visibilité et monétisation des contenus, avec au final une perte significative dans la valorisation du travail des éditeurs de contenus ?
PM : C’est même pire que cela, car la convergence qui s’opère entre IA et moteurs de recherche, notamment chez Google, fait peser un risque majeur sur le trafic des éditeurs de contenus. Si les liens de Google sont de plus en plus souvent servis par de l’IA au détriment des sites sources, cela pourrait avoir des conséquences dramatiques sur l’audience et donc le modèle économique des éditeurs qui en dépendent à 80 % ou plus.
D’où l’importance de l’opt-out massif et des barrières juridiques, même si on peut penser que Google aura les moyens techniques de contourner en alimentant son IA par d’autres biais. Les éditeurs doivent aussi investir urgemment dans les outils d’analyse de logs, de marquage et de traçage des contenus, même si le coût est élevé. Cet investissement devra être pris en compte dans les futures négociations de licences.
Une action collective, portée par exemple par les organismes de gestion collective, serait sans doute profitable pour mutualiser les coûts et peser dans les rapports de force. Mais c’est compliqué dans la presse où la culture de la gestion collective est peu développée, contrairement à d’autres secteurs comme la musique. Chacun préfère souvent négocier dans son coin, les plus gros ayant les moyens de conclure des deals individuels.
AML : L’IA n’est-elle pas le révélateur d’une crise de longue date de la propriété intellectuelle liée au Web et médias sociaux, avec le pillage des données initié par Google, puis amplifié par les réseaux sociaux sur les données personnelles ou encore LinkedIn sur les données professionnelles ?
PM : Il était difficile d’avoir une vision claire dès le départ. Les éditeurs se sont longtemps sentis coincés entre leur besoin de visibilité apportée par le référencement et la protection de leurs contenus. Avec l’effondrement progressif des revenus publicitaires, le rapport de force a changé, mais il était sans doute déjà trop tard. L' IA marque une étape supplémentaire dans ce phénomène prédateur, mais on ne peut pas dire qu’elle le fait naître. C’est une forme d’accélération et de changement d’échelle, permise par la numérisation massive de ces dernières décennies et la concentration du secteur numérique autour de quelques très grands acteurs capables de se lancer dans une course à l’armement technologique.
AML : Quels risques et opportunités voyez-vous pour les métiers de l’information (journalistes, veilleurs, documentalistes…), notamment sur la problématique du droit d’auteur lié aux résumés automatisés et autres « productions artificielles » ?
PM : Je ne pense pas que l’IA changera fondamentalement la donne, mais il faut être vigilant. Pour les professionnels de l’information, c’est surtout une opportunité, car les outils d’IA vont permettre d’automatiser toute une partie du travail de tri, de classification et de synthèse de l’information. La valeur ajoutée se déplacera encore plus vers la pertinence de la sélection, la qualité de l’analyse et de la mise en perspective.Il ne faut donc pas rejeter l’IA, mais réfléchir à la complémentarité intelligente avec le facteur humain. La question du résumé automatique, et de son statut par rapport au droit d’auteur de l’œuvre originale, n’est pas nouvelle. Le résumé ne permet pas, en principe, de se passer du document primaire s’il est bien fait. C’est un vieux débat, comme celui sur l’impact des panoramas de presse qui n’ont finalement pas fait disparaître les abonnements.
De même, le métier de documentaliste est toujours là malgré la disparition des centres de documentation physiques dans beaucoup d’organisations. La fonction s’est transformée et décentralisée au sein des équipes, au plus près des métiers, mais elle reste indispensable. Le vrai défi est de gérer l’infobésité croissante et d’extraire de la valeur de la masse exponentielle des données. L’IA peut aider à relever ce défi.
AML : Pouvez-vous décrire le rôle et actions du gf2i pour défendre les intérêts des acteurs de l’industrie de l’information dans ce contexte de bouleversement ?
PM : Le gf2i a vocation à sensibiliser ses membres aux enjeux et à promouvoir l’émergence de marchés pour les différents types de données, au-delà des seuls contenus éditoriaux.
L’enjeu majeur pour nous est de structurer de véritables marchés pour les différents types de données. Des embryons existent déjà, mais tous les acteurs n’en ont pas encore pleinement conscience. Le mouvement de l’open data a un peu brouillé les pistes, avec des effets positifs en termes d’accès, mais aussi un appauvrissement côté public, avec une perte de qualité par manque de moyens pour maintenir et mettre à jour les jeux de données ouverts.
AML : Comment structurer de véritables marchés de données ?
PM : L’enjeu porte sur tous les domaines : données juridiques, géographiques, de santé, financières, etc. C’est un immense défi de structuration qui nécessite de trouver les bons modèles économiques et les bonnes formules de licences adaptées aux différents maillons de la chaîne de valeur. Le droit d’auteur a toute sa place, mais il faut aussi valoriser les investissements dans la qualité, la mise à jour, l’enrichissement, le croisement des données.
En ce sens, un service de veille et de documentation interne peut aussi se penser comme un producteur de données à valoriser, pas seulement comme un consommateur. C’est un changement de perspective à opérer.
En conclusion, on voit que malgré les bouleversements technologiques, les questions de fond sur la protection et la valorisation des données et des contenus restent assez similaires. Le gf2i est mobilisé de longue date sur ces enjeux et entend bien continuer à peser dans les débats actuels, comme dans le cadre des missions en cours du CSPLA (Conseil Supérieur de la Propriété Littéraire et Artistique) et de la mission parlementaire sur ces sujets. Il en va de la survie de pans entiers de l’économie de l’immatériel.