Google a récemment annoncé qu’il avait retiré le cache des pages Web dans les résultats du moteur. C’était pourtant une option bien utile quand une page ou un site n’était pas disponible.
Le cache est cependant toujours disponible si on utilise l’opérateur dédié dans la requête : cache:bases-publications.com
. Mais cette fonctionnalité a aussi vocation à disparaître dans les prochains mois.
Danny Sullivan, un des porte-parole de Google a expliqué que le cache « était destiné à aider les gens à accéder aux pages quand, à l’époque, on ne pouvait souvent pas compter sur le chargement d’une page. De nos jours, les choses se sont grandement améliorées. Il a donc été décidé de le retirer. »
Heureusement, il existe plusieurs options quand on souhaite visualiser l’historique d’un site ou quand il n’est tout simplement pas disponible. La plus connue et que l’on ne présente plus est la Wayback Machine proposée par Internet Archive (https://archive.org/), même si elle est loin d’être parfaite.
Une autre solution intéressante peut consister à utiliser le site CachedView (https://cachedview.nl/).
Le site permet d’interroger simultanément plusieurs sites d’archives du Web en l’occurrence Google Webcache (certainement plus pour longtemps), ainsi que la Wayback Machine, Archive.today, Library of Congress, Perma.cc, etc. directement intégrés dans l’outil (voir figure 1.) Le site propose même un bookmarklet à ajouter directement à son navigateur pour gagner du temps.
Figure 1. Interface de CachedView
Ces derniers temps, le marché des outils de veille a connu des changements importants avec notamment une consolidation du marché opérée via des rachats successifs.
● On se rappellera qu'il y a près de deux ans, Digimind avait été racheté par Onclusive, qui avait précédemment intégré Kantar Media ;
● Geotrend et Qwam ont été rachetés en 2023 par le groupe français Chapsvision qui avait déjà acquis la plateforme AMI Software par le passé. Et sur un autre secteur, Chapsvision vient également de racheter le spécialiste de la traduction Systran et Owlint, un acteur de l’OSINT.
● Hootsuite vient quant à lui d’annoncer le rachat de la plateforme luxembourgeoise Talkwalker.
● Enfin, KB Crawl a récemment acquis Iscope, un autre acteur de la veille.
● Quelques très gros acteurs tels que les Américains Onclusive, Cision (qui avait racheté l’Argus de la presse, Europresse et la plateforme de social média monitoring Brandwatch au cours des dernières années), le Français Chapsvision et le Norvégien Meltwater (qui avait racheté Linkfluence en 2021). Tous ces gros acteurs se positionnent comme des plateformes de veille multifonctions : media, web et social media monitoring, dataviz, etc.
Déjà abonné ? Connectez-vous...
L'intelligence artificielle révolutionne le paysage médiatique en introduisant de nouvelles fonctionnalités telles que des résumés automatisés, des podcasts générés par l'IA, la traduction de contenu et des chatbots.
Si ces outils peuvent aider les professionnels de l'information à gagner du temps et à améliorer l'expérience utilisateur, ils ne remplacent pas le jugement et l'expertise humains. Il est crucial pour ces professionnels de s'adapter à ces changements en développant de nouvelles compétences et en se concentrant sur des tâches à plus forte valeur ajoutée pour rester pertinents dans l'ère de l'IA.
L’IA fait progressivement son chemin dans les produits, sites et contenus proposés par les médias en France et à l’international. Si en 2023, il s’agissait surtout de tests et de pilotes, en 2024, le nombre d’initiatives notables ne cesse de croître.
Et ceci est dans la plupart des cas généré grâce à de l’IA générative. Numerama le propose par exemple dans sa version payante. D’autres utilisent la génération de résumé cette fois-ci pour les commentaires des articles : c’est par exemple ce que propose l’Équipe depuis peu.
Cela peut permettre de déterminer plus rapidement si un article est pertinent ou non pour sa veille ou sa recherche sans avoir à lire tout l’article dans le détail ou en diagonale.
On voit également des témoignages de médias qui utilisent l’IA pour la rédaction d’articles à faible valeur ajoutée (résultats de matchs, bâtonnage de dépêches, etc.) ou des tâches traditionnellement dédiées au secrétaire de rédaction (corrections, amélioration des titres, etc.).
D’autres vont même encore plus loin avec pour l’IA un rôle d’assistant de revue de presse ou de créateur de newsletters thématiques.
Semafor s’est ainsi associé avec Microsoft et OpenAI pour proposer un fil d’information basé sur l’agrégation de différentes sources. Les journalistes sélectionnent les sujets, l’IA propose différentes sources (différentes langues, pays, points de vue contradictoires), les journalistes évaluent les contenus retrouvés et écrivent eux-mêmes les résumés.
Autre exemple : la newsletter Artificielles proposée par Numerama. À partir du flux RSS associé au tag « IA » des articles de Numerama, l’IA extrait les 15 derniers articles et choisit les six qu’elle juge les plus importants. Elle se charge ensuite de proposer un titre, un résumé, un émoji et un lien vers l’article complet. Le contenu est ensuite vérifié et validé par des humains avant envoi.
Déjà abonné ? Connectez-vous...
Inoreader est un agrégateur de flux RSS connu des professionnels de la veille qui sont particulièrement concernés par l’idée de se constituer un « second cerveau ». Ce dernier est capable de mémoriser l’information importante tout en facilitant sa disponibilité pour l’utiliser quand cela s’avère nécessaire. Jusqu’où et comment cet outil de veille peut-il contribuer à cette démarche ? Voici une méthode pas à pas.
L’idée de se construire un « second cerveau » digital, sorte d’externalisation de sa mémoire informationnelle est ancienne. Elle a été popularisée récemment avec succès par Tiago Forte (voir à ce sujet les articles de NETSOURCES N° 165, juillet-août 2023). Sa démarche se divise en quatre étapes, réunies sous l’acronyme CODE : Capturer, Organiser, Distiller et Exprimer.
Lire aussi :
Que valent les outils de reconnaissance faciale pour la veille image ou l’investigation ?, BASES N°414, Mai 2023
La veille et la recherche d’information à l’ère des « fake news » et de la désinformation, NETSOURCES N°140, Mai 2019
Tirer parti du fact-checking et du journalisme d’investigation pour la veille et la recherche d’information, NETSOURCES N°140, Mai 2019
Entre l’utilisation de l’extension d’Inoreader pour mettre de côté ses articles (voir Figure 1) et la possibilité de surligner et d’annoter ses articles avec Inoreader, il semble ainsi possible de faire l’ensemble de la chaîne de la méthode CODE avec ce seul et même outil. Pour découvrir ce qu’il en est réellement, nous disposons de la version Pro d’Inoreader (6,67€/mois). Elle permet, contrairement aux deux autres versions, Gratuite et Supporter, de surligner les articles, de faire une recherche globale dans « tous les articles publics » (c’est-à-dire dans la base de données d’Inoreader et pas seulement au sein de ses propres feeds) mais aussi d’utiliser IFTTT et Zapier intégrés si besoin dans les options de connexion (il n’y a plus qu’à les sélectionner et à les activer).
Capturer, dans la méthode Code, c’est collecter l’information « au feeling », la mettre de côté sans trop réfléchir. Inoreader propose depuis des années à ses utilisateurs la fonctionnalité « À lire plus tard ». Et elle peut être utilisée de deux façons différentes.
Premièrement, au sein d’Inoreader. Les articles « Lire plus tard » sont installés par défaut dans la barre latérale de gauche et intégrés aux « Dossiers système ». On les collecte en un clic, lors de la consultation de sa veille ou d’une navigation web, sur un PC ou sur un mobile. Sur son ordinateur, l’extension Inoreader permet de collecter un article en cliquant sur l’icône et en choisissant « Lire plus tard » (voir Figure 1). Sur son mobile, l’appli permet d’utiliser un clic droit ou les fonctionnalités de partage pour classer son article dans le dossier « à lire plus tard ».
Figure 1. Avec l'extension Inoreader, on peut mettre de côté des articles consultés en ligne en un clic.
On retrouve les articles ainsi mis de côté dans son tableau de bord et dans son dossier « Lire plus tard ». Enfin, cette fonctionnalité est gratuite.
Deuxièmement, on peut aussi synchroniser les articles collectés avec Pocket, l’un des outils recommandés par Tiago Forte pour la phase de Capture. Mais si l’idée est de fluidifier et d’automatiser au maximum la gestion de l’information, exporter ses articles dès la première étape dans un autre outil n’est sans doute pas optimal. De plus, s’il est possible sur Pocket d’organiser ses informations gratuitement, les phases suivantes pour se constituer un second cerveau - telles que le surlignage, la recherche, ou la connexion à un outil de gestion de notes comme Notion (via Zapier), ne sont accessibles qu’à partir de 40 €/an. Or, ces fonctionnalités sont présentes dans la « Bibliothèque » d’Inoreader.
Par défaut les articles sont préorganisés et accessibles dans l’ensemble des dossiers suivants (voir Figure 2) :
● « À lire plus tard » ;
● La Bibliothèque pour les articles « Commentés », « Annotés », « Aimés », ou « Pages web Enregistrées » (voire « Récemment Lus »)
● Les Étiquettes, pour les articles tagués.
La méthode d’organisation de Tiago Forte a été popularisée sous le nom de PARA. Il s’agit d’organiser ses dossiers en suivant l’ordre de ce nouvel acronyme qui signifie : Projets (à court terme), Areas (domaines à long terme), ressources (où stocker les articles en attente de tri) et Archives (pour les articles concernant des projets inactifs).
Déjà abonné ? Connectez-vous...
Parmi les promesses de l’IA concernant les métiers de l’information, le fact-checking figure en bonne place. À côté des outils payants, figurent nombre d’outils gratuits ou peu onéreux qui pourraient s’avérer utiles aux professionnels de l’information pour combattre la désinformation… Mais qu’en est-il dans la réalité ?
Les contenus générés par IA sont largement susceptibles de divulguer de fausses informations. Vérifier si une information provient d’une IA constitue donc désormais une piste pour évaluer le niveau de fiabilité d’une source. Mais le contenu généré par IA est parfois tellement proche d’une production humaine dans sa forme, que nul ne peut dans ce cas faire la différence, si ce n’est… une autre IA.
Les « détecteurs d’IA » se multiplient ainsi sur la toile. Et ils peuvent détecter le texte, l’image, la vidéo ou même la voix, grâce notamment à l’analyse linguistique et à l’apprentissage automatique, à la recherche de modèles - les patterns - et d’attributs spécifiques indiquant la paternité de l’IA, tels qu’une faible variation dans la longueur des phrases et le choix des mots pour les textes, par exemple.
Ce qui ressort d’une comparaison des offres d’une dizaine d’outils, c’est que parfois ceux-ci sont couplés avec la détection de plagiat traditionnelle, dans ce cas cette fonctionnalité est payante. Inversement, les détecteurs de plagiat avec une offre gratuite proposent aussi une option de détection de génération IA, mais dans une version payante.
Il est donc possible de coupler deux outils gratuits, mais si l’on veut les deux fonctionnalités dans un seul outil, il faudra payer. Nous avons donc concentré nos tests sur les outils IA conçus spécifiquement pour repérer le contenu généré par les IA génératives.
Aujourd’hui, l’un des sites les plus médiatisés – 350 000 résultats dans Google.com – est GPTZero. Cet outil est intéressant, car il promet d’aller au-delà des outils conventionnels. Non seulement il vérifie si le texte est généré par une IA, mais il va plus loin en identifiant laquelle. Il peut donc, en théorie, vérifier si le texte est issu de plusieurs modèles de langage (ChatGPT, GPT, Llama, Bart, Claude, Falcon, Jasper), et même si ce texte provient d’un mix humain+IA. L’outil s’intègre également sous forme d’extension dans Microsoft Word, Google Docs ou Chrome pour scanner les pages du web. Et la version gratuite permet d’analyser jusqu’à 10 000 mots par mois (voir Figure 1).
Figure 1 : La présentation des résultats de GPTZero s’accompagne d’un pourcentage d’erreurs.
Il a donc été testé avec une excitation particulière due à son potentiel. Et là, patatras. En termes de résultats, nous lui avons fourni un texte 100 % humain. Il l’a détecté comme tel avec une probabilité de 82 %, avec une couleur indiquant un niveau de confiance « Incertain ». Mais un autre test avec du texte généré par ChatGPT (GPT 3.5) a été détecté comme humain avec une probabilité de 88 % (et un niveau de confiance modéré). Et au troisième test, il a détecté comme humain un texte généré par ChatGPT, avec 54 % de probabilité, assorti néanmoins d’un score de confiance rouge (incertain). Pourtant notre prompt n’était pas sophistiqué, nous nous étions contentés d’un « écris un article sur… »
Déjà abonné ? Connectez-vous...
Produit documentaire classique, la newsletter a su devenir incontournable pour proposer des services, mais aussi valoriser des activités et l’image du service documentaire. Nous avons expérimenté deux outils de création et diffusion de contenus, Flashissue et MailChimp.
La newsletter fait partie des produits documentaires « vitrine » du service. Elle permet de communiquer auprès des utilisateurs sur divers sujets : nouvelles acquisitions du fonds documentaire pour les bibliothécaires et documentalistes, actualités du service, voire un panorama de presse dans le respect du copyright, sans oublier la valorisation de son expertise et image.
Utiliser un outil dédié permet non seulement de gagner du temps sur la mise en page, mais aussi de professionnaliser la production de la newsletter.
L’un des avantages majeurs d’un outil professionnel est de pouvoir créer un modèle de newsletter que l’on pourra conserver et dont le graphisme et le logo joueront un rôle important dans l’identité du service.
Les deux outils proposent différents templates, mais l’utilisateur aura aussi la possibilité de partir d’une page blanche. Le modèle sera, quoi qu’il en soit, totalement personnalisable. Depuis l’emplacement et le nombre de blocs jusqu’à la couleur de la police, en passant par les informations contenues dans le pied de page.
Autre avantage majeur : l’ajout de contenu avec mise en page automatique. Par un « glisser/déposer » (« drag and drop »), l’utilisateur peut structurer sa newsletter : texte, image ou vidéo, nombre de colonnes, boutons d’action, renvoi vers les comptes de ses réseaux sociaux. Il peut aussi choisir de positionner le texte à gauche et une illustration à droite, ou bien l’inverse, ou encore une présentation en deux colonnes. Avec une mise en page propre, l’expéditeur renvoie ainsi une image professionnelle de son service.
Figure 1 : Sur Flashissue, les blocs de contenu sont présentés dès la page d’accueil.
Pour chaque bloc, l’utilisateur a accès à un éditeur de texte en mode « wysiwyg » (what you see is what you get). Il est possible d’ajouter différents types de contenu : texte, image ou vidéo, boutons d’actions et de partages… Pour le texte, on choisit la taille et le format, on peut aussi insérer un lien ou encore copier un texte issu de Word. Sur Flashissue, c’est ici que l’on pourra ajouter un lien « afficher dans le navigateur » (« view-in-browser link »).
Il est aussi intéressant de pouvoir personnaliser les couleurs utilisées dans la newsletter (textes, boutons, fond du template). Elles peuvent par exemple reprendre celles de la charte graphique de la tutelle
Déjà abonné ? Connectez-vous...
Depuis les années 90, l’Open Access, porté par l’essor d’Internet et la philosophie de la science ouverte, a profondément transformé l’accès aux publications scientifiques en démocratisant la diffusion des connaissances.
Cette révolution a été marquée par la création d’archives ouvertes et de moteurs de recherche académiques, facilitant l’accès, libre ou payant, à des articles scientifiques. Elle s’est amplifiée avec la création de plateformes avancées, des initiatives pour l’accès aux citations et résumés, et le développement d’outils dopés à l’intelligence artificielle qui améliorent l’accès, l’analyse, et l’utilisation des données scientifiques.
Tout en gardant à l’esprit les défis notamment en matière de financement et de droits d’auteur, nous avons exploré l’apport de ces ressources ouvertes aux chercheurs, veilleurs et documentalistes et les nouvelles possibilités d’interaction avec les données.
Nous avons également analysé la position de ce nouvel horizon informationnel par rapport aux bases de données scientifiques payantes traditionnelles, qui ont longtemps été considérées comme des piliers essentiels de la recherche au sein des services de documentation en raison de leurs capacités de recherche avancée et de leurs vastes volumes de données.
Pendant longtemps, ces deux mondes, libre et payant, ont évolué indépendamment. Les services d’information privilégiaient les bases de données payantes pour répondre aux besoins de leurs clients internes, chercheurs et ingénieurs. L’avènement d’outils disruptifs comme Google Scholar a progressivement rendu ces utilisateurs plus autonomes, les incitant à explorer d’abord le web scientifique ouvert avant de recourir aux services d’information. Et la boucle est bouclée : les professionnels de l’information, soucieux d’une recherche exhaustive et aussi des coûts, se tournent de plus en plus vers des ressources en accès libre.
Il faut revenir aux années 90 pour voir émerger le mouvement de la science ouverte, principalement sous la forme de l’« open access », porté par la volonté de donner un accès libre et gratuit aux publications scientifiques.
Cela va se matérialiser au départ sous la forme d’archives ouvertes. L’archive ouverte ArXiv avec ses preprints, une des pionnières en la matière, a été créée en 1991.
La deuxième phase de développement se situe ensuite dans les années 2000 avec l’essor de l’Internet grand public. L’archive ouverte française HAL est ainsi lancée en 2001.
Beaucoup plus récemment, le développement des plug-ins d’accès à la littérature scientifique a permis de repérer beaucoup plus simplement un article disponible en libre accès quelque part sur le Web, éventuellement sous forme de preprint ce qui n’était pas toujours évident.
Par ailleurs, quand on parle d’open access, il faut bien distinguer :
● D’une part l’accès gratuit au document primaire (l’original);
● D’autre part l’accès à une plateforme ou à un moteur permettant de rechercher puis de visualiser gratuitement uniquement des références d’articles et de proceedings et aussi parfois de chapitres de livres.
Ces outils proposent, en général, un lien vers l’article qu’il soit en open access, dans une archive en ligne ou en accès payant. C’est le cas avec PubMed lancé en 1996 et Google Scholar en 2004.
On a, depuis, vu apparaître de nouveaux moteurs académiques comme Semantic Scholar (2015), The Lens (en 2000 pour la partie brevet, en 2017 pour la littérature académique), Dimensions (2018). Puis sont apparus des outils de recherche par réseaux de citations et d’auteurs (avec ou sans dataviz) comme Connected Papers, Inciteful, Research Rabbit (voir notre article Les nouveaux outils de dataviz pour explorer la littérature scientifique, dans BASES n° 414, mai 2023) et maintenant des outils de recherche IST dopée à l’IA comme Consensus, Scispace, RDiscovery, etc. (voir notre article La vague d’outils IA pour l’Information Scientifique et Technique (IST) dans BASES n° 420 décembre 2023).
Pour rappel : L’Open Citations Initiative (I4OC) est une collaboration entre des éditeurs universitaires, des chercheurs et d’autres parties prenantes pour promouvoir la disponibilité sans restriction de données structurées, séparables et ouvertes sur les citations savantes.
L’Initiative for Open Abstracts (I4OA) est une collaboration entre des éditeurs universitaires, des organisations d’infrastructure, des bibliothécaires, des chercheurs et d’autres parties prenantes qui défendent et promeuvent la disponibilité sans restriction des résumés des publications savantes du monde entier.
Le nombre d’articles en open access a considérablement progressé pour être maintenant sensiblement équivalent au nombre d’articles en accès fermé (c’est-à-dire payants). Les chiffres varient d’une source à l’autre.
Déjà abonné ? Connectez-vous...
Notre habitude est de construire des stratégies complexes, mêlant synonymes, mots écrits de différentes façons (crosslink ou « cross link » par exemple), avec des opérateurs booléens, de proximité, des possibilités d’exclure des thématiques et, enfin, de multiples possibilités de combiner des étapes. Autant le dire tout de suite, ces stratégies ne sont pas transposables en l’état dans ces nouveaux outils.
Pour réaliser nos tests, nous avons donc dû utiliser des stratégies relativement simples qui puissent fonctionner sur tous les outils. Nous nous sommes limités aux références d’articles ou de conférences, incluant les preprints qui sont de plus en plus pris en compte. En revanche nous n’avons pas, dans la mesure du possible, pris en compte les chapitres d’ouvrages et les thèses. Les recherches se font dans le titre, ce qui n’est pas toujours simple, certains systèmes n’offrant pas cette option, obligeant à faire des comptages manuels. Nous avons envisagé de tester une recherche par affiliation mais cette fonctionnalité n'est pas disponible dans tous les moteurs.
Cette comparaison entre les serveurs et les outils gratuits ne pouvant se faire que sur des stratégies simples, on laisse de côté la puissance de recherche et le confort d’utilisation pour ne comparer que le nombre de réponses. Par ailleurs, il est évident que ces tests n’ont aucune valeur statistique et que l’on ne peut rien généraliser à partir de leurs résultats.
interoperable
» dans le titre de documents publiés en 2024. Nous avons choisi ce terme car c’est une requête très simple sur des outils aux fonctionnalités parfois peu avancées. De plus ce terme est souvent utilisé dans de nombreux domaines scientifiques.cross language information retrieval
» dans le titre pour des documents publiés en 2023 et 2024. Ici nous avons une requête de test sur une expression. Venons-en maintenant à l’analyse des résultats dans les différents outils.
C’est un des moteurs dont on parle beaucoup actuellement et qui de plus répond bien, cependant, dans notre premier exemple quelques réponses proviennent de IEEE Xplore (voir plus loin) où elles étaient publiées déjà l’année précédente. On note une référence originale de l’université de Ljubljana. On suppose que la recherche se fait, par défaut, sur l’ensemble de la référence et le texte de l’article. On peut classer les réponses par pertinence ou par date.
Déjà abonné ? Connectez-vous...
En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
Prenons par exemple ce document https://sante.gouv.fr/IMG/pdf/ListeESvolontaires2013.pdf qui dresse une liste des hôpitaux en France en 2013, trouvé par une requête Google « liste hôpitaux en France PDF
».
Figure 1 : L’extraction de données ave DUST. Sur simple demande.
La différence entre ces outils réside non seulement dans la qualité de l’extraction, mais surtout dans les formats de documents importables et exportables.
Déjà abonné ? Connectez-vous...
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
Disons-le franchement, la confusion règne entre les noms des produits/outils (par exemple, un chatbot), des modèles de langage et des algorithmes. Ils ont parfois le même nom alors qu’il s’agit de trois entités distinctes. Le veilleur, en tant qu’utilisateur final, manipule des outils. Ces derniers reposent sur un modèle de langage (LLM), qui lui-même repose sur un algorithme (et un mode d’apprentissage).
Par exemple, chatGPT est un outil (un chatbot) qui fonctionne avec le LLM propriétaire GPT 3.5, qui désigne aussi son algorithme. Gemini est à la fois un chatbot de Google accessible gratuitement, mais aussi le nom de son modèle de langage (LLM) qui n’est pas en open source non plus, ainsi que de son algorithme !
Enfin, certains outils, comme le moteur de recherche Perplexity, reposent sur un modèle mixte. Il a développé son propre modèle mais il utilise aussi Copilot (outil propriétaire de Microsoft) et LLaMA (modèle ouvert de Meta).
Par ailleurs, malgré une expansion marquée récemment par la success story de Mistral, la startup « française » créée il y a quelques mois et déjà valorisée à deux milliards de dollars pour son modèle de langage open source, cette licence reste minoritaire dans les outils IA du veilleur.
Sur le portail d’outils IA Futurepedia qui recense plus de 5 000 outils (voir notre article en accès libre, Focus IA : notre sélection d’annuaires d’outils IA, BASES N°414, Mai 2023) et dispose d’un filtre Open source
, on note cette proportion :
● 20 générateurs de prompts sur 132 sont en open source
● 15 générateurs de texte sur 294
● 0 outil de réécriture sur 28
● 7 outils de copywriting/aide à la rédaction sur 209
● 2 outils marketing sur 81
Mais dans la dizaine d’outils consultés, rares sont ceux qui précisent leur modèle de langage !
Cette faible proportion d’outils s’explique par le fait que les modèles de langage accessibles en open source s’adressent davantage aux développeurs qu’aux utilisateurs finaux.
Une autre explication réside sans doute dans le fait que les LLM open source manquent encore de fine tuning, ou ajustement. Or, c’est cette phase finale qui assure un niveau de précision suffisant, pour être exploité par un utilisateur final.
Déjà abonné ? Connectez-vous...