En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
Après la période de vide laissé par le départ en retraite de Martine Michel, CAS (Chemical Abstracts Services qui gère STN en collaboration avec FIZ Karlsruhe) vient de recréer son équipe en charge de la France.
Cette nouvelle équipe a organisé une réunion en présentiel, ce qui n’était pas arrivé depuis fort longtemps.
Cette réunion était centrée sur la chimie et les brevets. Les autres banques de données présentes sur STN seront, quant à elles, évoquées lors d’une prochaine rencontre.
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
Cela fait des années que l’on entend parler de Cross-Language Information Retrieval (CLIR) pour la recherche d’information. Il s’agit de la capacité à rechercher dans une langue et à recueillir des résultats dans d’autres langues. Jusqu’à maintenant, les produits ou fonctionnalités de ce type étaient rares et n’ont jamais véritablement décollé, à l’instar de la fonctionnalité proposée par Google de 2007 à 2013.
Et pourtant, il y a là un vrai besoin notamment pour les professionnels de l’information : dans un monde globalisé, il est en effet souvent nécessaire d’élargir à des sources en anglais (ce qui est souvent gérable), mais aussi à des sources dans des langues dont on ne maîtrise pas toujours les rudiments.
Si on peut malgré tout à mettre en place un système qui fonctionne en s’aidant de dictionnaires et d’outils de traduction, le processus reste long et fastidieux (voir NETSOURCES n°163, Avril 2023 consacré à la veille multilingue).
Lire aussi :
Sourcing, de la théorie à l’épreuve de la pratique
Les nouvelles dimensions du multilinguisme pour la veille
Veille multilingue : comment trouver ses mots ?
Veille internationale : comment trouver des sources en langue étrangère ?
Comprendre les résultats de sa veille multilingue en un clin d’œil
Si 2023 a été l’année de ChatGPT et de la déferlante de nouveaux outils dopés à l’IA générative, 2024 sera celle de l’intégration de l’IA générative dans les outils traditionnels du pro de l’info. Explorez avec nous les diverses innovations des acteurs traditionnels en matière d’IA et interrogeons-nous sur la pertinence de délaisser les outils IA de la cuvée 2023 au profit des outils classiques.
En 2023, l’arrivée de ChatGPT et de l’IA générative a conduit les professionnels de l’information à adapter leur arsenal d’outils pour marier habilement les outils traditionnels (qu’ils soient grand public, tels que les moteurs de recherche Web, ou spécialisés, tels que les outils de veille et bases de données) avec les nouveaux outils boostés par l’IA générative (résumés automatiques, assistants IA, dialogues avec des PDFs ou vidéos, etc.).
Aujourd’hui, c’est cette même panoplie traditionnelle qui intègre progressivement des fonctionnalités d’IA générative, avec des annonces nombreuses et difficiles à suivre.
Lire aussi :
La vague d’outils IA pour l’Information Scientifique et Technique (IST)
S’il n’est pas la seule clé du succès pour garantir un résultat satisfaisant d’un outil IA, un bon prompt augmente néanmoins ses chances d’obtenir satisfaction. Des milliers d’outils permettent de copier, améliorer ou encore stocker ses prompts. Ils varient en fonction des algorithmes concernés, des thèmes et des formats à générer et/ou des usages. En voici quatre sur une trentaine testés, sélectionnés pour leur efficacité et leur facilité de prise en main : Prompt Genius, PromptBase, SnackPrompt et FlowGPT.
Lire aussi :
L’art du prompt pour le professionnel de l’information, NETSOURCES N°164, juin 2023
AI Prompt Genius s’adresse aux personnes ayant déjà trouvé des prompts (ou « invites » en français) qui répondent à leurs besoins et ont besoin de les stocker dans un endroit accessible quelle que soit l’IA générative utilisée. Plutôt qu’une longue liste ingérable, cette extension accessible sans inscription permet de créer sa propre bibliothèque de prompts.
Elle s’ouvre sur une barre de recherche au centre et les prompts sont rangés en dossiers dans la barre de gauche.
Pour stocker un prompt, on clique sur « Nouveau prompt » et une fenêtre s’ouvre. Les champs à remplir pour créer son prompt sont « Titre », Texte (avec les variables), Description, Étiquette et on sélectionne le nom du dossier.
Prompt Genius s’utilise sur toutes les plateformes. L’outil suggère de créer des dossiers en fonction du modèle de langage concerné (ChatGPT, Bard, DALL-E, etc.) et des étiquettes sur des tonalités différentes. Ce qui rappelle qu’un même prompt n’aura pas le même résultat avec des modèles différents. Et comme chaque modèle d’IA a son propre langage, les invites doivent s’adapter à chacune.
En termes d’ergonomie, il s’affiche soit en pop-up comme la plupart des extensions, soit en barre latérale à droite de l’écran, sur ordinateur ou sur mobile. Il est aussi possible d’importer des prompts au format CSV et de les exporter en CSV ou JSON. L’outil, souvent recommandé par les professionnels de l’information et qui s’avère facile à utiliser et pratique à l’usage, est gratuit et disponible en français.
Promptbase est LA Marketplace de prompts. Intuitivement, on y choisit son domaine d’usage (éditorial, marketing, création de logos, illustrations, etc.) et son thème (animal, santé, finances, etc.) ou le modèle de langage de l’IA générative utilisée (Midjourney, DALL-E, Stable Diffusion, GPT).
En septembre dernier, le nouveau moteur académique Matilda était officiellement lancé. Explorez ses fonctionnalités de recherche avancées, ses fonctionnalités de veille, son vaste corpus et découvrez comment il se positionne par rapports aux outils de recherche académique.
À l’origine du projet, une équipe de chercheurs français coordonnée par Didier Torny du CNRS qui a pour ambition « de redonner une place équitable aux contenus académiques exclus des outils propriétaires actuellement utilisés, WoS et Scopus » et de « permettre aux bibliothécaires et aux chercheurs d’exercer le plus grand contrôle possible dans la manière dont ils recherchent et réutilisent les informations textuelles et les métadonnées. »
Lire aussi :
La vague d’outils IA pour l’Information Scientifique et Technique (IST)
Consensus, un moteur académique dopé à l’IA (01/2023)
Zendy : un moteur académique 100 % open access (09/2022)
Elicit, un nouveau moteur scientifique au banc d’essai (06/2022)
Premier aspect important : le corpus. Matilda se base sur la littérature scientifique indexée depuis 2019 dans Crossref, Pubmed Central, ArXiv et RePec soit plus de 128 millions d’articles. À cela s’ajoutent les données d’auteurs venant d’ORCID, et les articles référencés dans Unpaywall et pour lesquels on a directement accès au texte intégral.
Pour chaque article, on dispose des citations et références si elles sont disponibles.
Threads, le réseau de micro-blogging de Meta, est accessible en France depuis quelques semaines. Le public commence à s’y rendre, y faire sa veille peut-il donc devenir intéressant ?
Threads a été créé par Meta en juillet 2023. Lancé au départ aux États-Unis, il lui a fallu plusieurs mois pour se conformer à la législation européenne. S’il a très vite dépassé les 100 millions d’utilisateurs, laissant croire à une relève assurée de X (ex. Twitter), les chiffres sont aussi très vite retombés et le manque de fonctionnalités essentielles perdure. Le terme Threads désigne ces longs fils de discussions - un post et les commentaires auxquels il donne lieu - apparus pour la première fois sur X.
Lire aussi :
Blueskyredessine la veille en feeds (11/2023)
Les veilleurs face au déclin de X (Twitter) - Brève de veille de novembre (11/2023)
La veille sur les réseaux sociaux s’annonce de plus en plus fragmentée (09/2023)
Quelques spécificités par rapport à X :
● La limite d’un post (appelé thread) est de 500 caractères et 5 minutes par vidéo,
● Les publications peuvent être modifiées dans un délai de 5 minutes (uniquement le texte, pas les pièces jointes),
● La description visuelle des photos et des vidéos pour les populations malvoyantes est automatique (mais modifiable),
● Le nombre de mentions « J’aime » sur les publications peut être masqué,
● L’insertion de sondages est prise en charge.
Lors de l’inscription, il est requis d’avoir un compte Instagram pour publier et interagir (voir Figure 1). Sans « Insta », on peut uniquement consulter des contenus et rechercher des comptes. Ce choix est réversible à tout moment, tout comme la possibilité d’avoir un profil public ou privé (cette deuxième option s’applique par défaut pour les moins de 18 ans). On peut en effet créer son compte en public (tout le monde peut nous voir et nous suivre) ou en privé.
|
---|
|
---|
Cher(e)s ancien(ne)s et potentiel(le)s futur(e)s participant(e)s,
Nous espérons que ce message vous trouve en pleine forme. Nous sommes ravis de vous annoncer que la billetterie en ligne pour nos sessions de formation MasterClass Veille & Search 2024 est désormais ouverte !
Cette année, nous vous proposons deux sessions thématiques :
Ces MasterClass promettent d'être une expérience incontournable pour les professionnels de l’information que vous êtes. Nous avons rassemblé nos experts FLA Consultants et Bases publications pour vous offrir des sessions enrichissantes, interactives et axées sur la pratique.
Pour vous inscrire et obtenir plus d'informations sur les tarifs, les dates et le programme complet des MasterClass Veille & Search 2024, veuillez cliquer sur le lien ci-dessous :
Si vous avez des questions, si vous avez besoin d’un devis personnalisé, si vous souhaitez vous inscrire en direct et ne pas passer par la billetterie ou avez besoin d'assistance pour votre inscription, notre équipe est là pour vous aider. Contactez-nous à Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser..