Deux rapports influents sur les médias, tout juste publiés, ont retenu notre attention dans la perspective des enjeux liés au droit d’auteur et à l’utilisation des sources, notre ressource primaire.
Le rapport intitulé « Un journalisme de confiance à l’ère de l’IA générative » publié par l’European Broadcasting Union, basé sur des entretiens avec 40 personnalités influentes des médias et des universitaires, souligne que l’utilisation d’IA pour réutiliser des contenus protégés sans mentionner explicitement les sources risque de nuire à la création originale et menace la survie du secteur créatif.
Nous avons le plaisir d’accueillir dans nos colonnes Marydee Ojala, professionnelle de l’information américaine très connue. Elle est rédactrice en chef de la revue ONLINE SEARCHER.
Nous avons adapté pour BASES l’article de Marydee, précédemment publié dans sa version originale en anglais dans la section ONLINE SEARCHER du numéro 5, volume 44, paru en juin 2024 de la revue COMPUTERS IN LIBRARIES sous le titre « The perils and power of NOT in prompting Chatbots » dans la rubrique « Voices of the searchers »
La plupart des professionnels de l’information connaissent bien les commandes booléennes de base : AND, OR et NOT. Elles fonctionnent parfaitement pour la recherche dans les bases de données traditionnelles. Lorsque nous enseignons les techniques de recherche, nous nous appuyons sur des exemples et des diagrammes de Venn pour démontrer la puissance de la recherche booléenne. J’ai toujours pensé que nous devrions souligner les dangers de la commande NOT, en particulier dans les ressources en texte intégral proposant des documents volumineux.
Le battage médiatique autour de l’IA générative a quelque peu éclipsé les avancées tout aussi décisives de l’IA prédictive dans les domaines de la recherche et de la veille d’informations. Pourtant, la première n’aurait pas rencontré un accueil aussi favorable dans les entreprises sans l’expérience de la seconde qui opère déjà, depuis des années, une transformation en profondeur de nos pratiques professionnelles.
Depuis qu’il est devenu possible pour tous d’interroger des intelligences artificielles dans un langage naturel, on parle beaucoup de l’impact de l’IA générative pour les métiers de l’information (voir notre article « Search: quand les moteurs “recherchent pour vous” », BASES n° 425, mai 2024).
Mais cette dernière n’est pas arrivée en terrain vierge. Il est donc temps de remettre en lumière l’IA prédictive pour replacer l’apport des modèles de langage dans une perspective plus juste au sein des métiers info-documentaires.
Philippe Masseron du gf2i (Groupement français de l’industrie de l’information) nous éclaire sur les enjeux cruciaux du droit d’auteur à l’ère de l’IA générative. Entre risques de prédation massive des contenus et opportunités d’accès et d’innovation portées par l’IA, les acteurs de la création et de l’information doivent se mobiliser pour défendre leurs intérêts et repenser leurs modèles de valorisation.
Le rôle d’instances comme le gf2i sera clé pour peser dans les débats législatifs en cours et créer les nouveaux équilibres dans l’économie de la donnée.
Expert en droit de la propriété littéraire et artistique et en gestion de droits
Après des études juridiques (DEA en Finances publiques et Fiscalité – Paris 2) et en Information Communication (Institut Français de Presse – Paris 2), Philippe MASSERON a successivement occupé les postes de directeur juridique et directeur général au CFC (Centre Français d'exploitation du droit de Copie).
Il est administrateur du gf2i (Groupement Français de Industries de l'Information) délégué à la prospective. Il participe régulièrement aux missions du CSPLA.
Anne-Marie Libmann (AML) : Comment définissez-vous le problème de fond sur la question du droit d’auteur par rapport aux systèmes d’intelligence artificielle générative (SIAG) ?
Philippe Masseron (PM) : Nous assistons à une réaccélération et une amplification massive du phénomène de scraping, fouille et crawling des données. Cela n’est pas nouveau, nous avons déjà été confrontés à des situations similaires par le passé qui ont suscité de vives inquiétudes, comme lors du lancement de Google Books ou des grands programmes de numérisation des bibliothèques. Mais l’échelle et la vitesse ont changé. Aujourd’hui, il existe d’immenses bases de contenus protégés accessibles, notamment dans le domaine scientifique, par exemple SciHub qui rassemble des millions de documents en infraction avec le droit d’auteur.
La plateforme Scopus propose depuis longtemps des outils de recherche classiques : opérateurs booléens, et de proximité, navigation dans les citants/cités. Les fonctionnalités apportées par Scopus AI permettent d’expérimenter de nouvelles stratégies.
Tous les serveurs/agrégateurs présents sur le marché sont en train d’intégrer plus ou moins rapidement des fonctionnalités d’intelligence artificielle. Ils le font souvent en proposant à des bêta-testeurs, souvent des clients importants, de les aider à finaliser la mise au point de ces nouvelles fonctionnalités. D’autres, et ce n’est pas incompatible, mettent progressivement à disposition des séries d’outils innovants.
Entre les annonces de Google et d’OpenAI, l’utilisation de l’IA dans la recherche redessine irrémédiablement les pratiques sur Internet. Aux agrégateurs traditionnels comme les moteurs de recherche et les médias sociaux, s’ajoutent donc les moteurs avec IA. Pour les veilleurs, le challenge se déplace de la synthèse à la vérification des résultats de recherche.
Il y a quelques jours, OpenAI volait la vedette à Google qui présentait pourtant sa Keynote, événement phare des groupes de la tech. La rumeur, qu’Open AI ne s’est pas empressé de démentir, annonçait le lancement de son propre moteur de recherche. Finalement, ce dernier a (en attendant?) présenté un nouveau modèle gratuit qui intègre le web et les GPTs, des fonctionnalités jusqu’alors payantes (environ 20 €/mois). Si l’on ajoute la liste d’accords de licences avec les médias qui s’allonge chaque semaine, on comprend que l’ambition de ce dernier est réelle et se veut à la hauteur des attentes.
Les utilisateurs utilisent en effet les chats d’IA comme des moteurs de recherche et y font leurs recherches malgré le risque d’hallucination. La recherche d’informations fait ainsi partie des usages inattendus des modèles de langage, créés à l’origine pour deviner des suites de phrases. D’après une étude de The Verge, 53 % des utilisateurs et 61 % des Millenials utilisent les chats IA plutôt que les moteurs de recherche traditionnels pour faire leurs recherches.
Deux études récentes révèlent que la durabilité des informations sur le web est loin d’être garantie.
La première traite des liens DOI et montre qu’environ 27 % des documents ne sont pas conservés dans des archives pérennes. La seconde étude indique que 25 % des pages web créées il y a dix ans ont disparu, et de nombreux liens sur ces pages sont brisés. Ces résultats mettent en lumière les défis de la préservation de l’information numérique à long terme.
C’est un grand changement si on se réfère à l’ère du papier qui a débuté en 1 450 et a duré environ cinq siècles sans partage. En effet, pendant cette période, le support papier pour l’information paraissait relativement éternel préservé au moins pendant très longtemps dans les bibliothèques sauf incident majeur tel qu’un incendie ou les conséquences d’un conflit armé.
ResearchGate est un réseau social consacré aux chercheurs leur permettant d’échanger entre eux sur différentes questions et de partager leurs publications.
Récemment ResearchGate a signé des accords avec de nombreux éditeurs offrant ainsi un contenu de plus en plus important, avec, malheureusement des possibilités de recherche très limitées.
ResearchGate multiplie depuis quelques mois les annonces de partenariat avec des éditeurs scientifiques.
Cette stratégie peut être décomposée en deux volets :
● La mise en ligne d’articles, essentiellement en open access, de nombreux éditeurs;
● D’autre part, des accords particuliers confidentiels avec Elsevier et ACS (American Chemical Society) signés en fin de l’année dernière.
Le premier volet est donc le chargement sur la plateforme ResearchGate des contenus de nombreux éditeurs, et pas les moindres.
On peut, en effet, citer, rien que pour les quatre premiers mois de 2024 : Trans Tech Publications (7 titres), SAGE (100 titres), Cambridge University Press (16 titres), Taylor & Francis (400 titres), Wiley (700 titres), Optica Publishing (105 000 articles depuis 2012). Pour sa part, l’accord avec Emerald Journals (18 titres) date de juillet 2023.
Utiliser un assistant IA monotâche comme les GPTs d’OpenAI permet d’utiliser un modèle de langage dans un but spécifique et de façon plus précise qu’avec un chatbot généraliste comme ChatGPT, Gemini ou Copilot. Nous en avons testé une vingtaine dédiés à la recherche et voici les résultats de notre sélection.
Les agents virtuels ne sont pas simplement capables de converser et de guider l’utilisateur comme un chatbot, mais ils peuvent aussi adapter leurs réponses au contexte et à l’intention de celui-ci.
Les plus connus sont les GPTs d’OpenAI, même si d’autres agents sont apparus comme les Hugging Chat Assistants de Hugging Face et les copilotes de Microsoft.
Mais les GPTs d’OpenAI, d’après nos tests, restent les plus opérationnels. Attention, ils ne sont toutefois disponibles qu’avec la version payante GPT Plus, pour un résultat qui reste inégal.
La nouvelle fonctionnalité de recherche IA « Browse for Me » du navigateur Arc n’est disponible que sur iPhone et elle fait déjà grand bruit.
Non seulement elle a été rapidement adoptée par les utilisateurs, mais la presse y voit une fonctionnalité qui réinvente la façon de s’informer… et pourrait être le pire cauchemar des éditeurs.
Disponible depuis quelques mois sur Windows après avoir été adopté par les utilisateurs de Mac (voir notre article « Arc browser réinvente la navigation en ligne », BASES N° 420, décembre 2023), le navigateur Arc vient à nouveau d’attirer l’attention du monde de la tech avec sa nouvelle fonctionnalité « Browse for Me » (que l’on pourrait traduire en français par « cherche pour moi »).
Disponible uniquement sur les iPhones actuellement, le bouton « Browse for Me » apparaît au cours de l’écriture dans la barre de recherche (voir Figure 1).