Comprendre Les LLMs (Large Language Models), le modèle à la base des outils utilisant l’IA générative
Tous les outils intégrant des fonctionnalités à base d’IA générative utilisent des modèles d’apprentissage profond appelés des « Large Language Model (LLM) » (grand modèle de langage).
Un LLM est un modèle d’apprentissage automatique qui a été entraîné sur de vastes ensembles de données textuelles pour comprendre et générer des textes humains. L’un des plus connus est GPT-3 puis GPT-4 développés par OpenAI et qui est utilisé dans ChatGPT.
Mais GPT 3 puis 4 sont loin d’être les seuls comme on peut le voir sur la figure 1.
Figure 1. Frise chronologique avec les principaux LLMs développés depuis 2019 Source
Chaque LLM a été entraîné sur des corpus différents. Pour comprendre avec quoi ils ont été nourris, on conseillera la lecture de cet excellent article du Washington Post qui analyse les sources qui composent le dataset C4 utilisé par Google. L’article propose même un site Web pour vérifier rapidement si un site s’y trouve ou non.
Quelle différence entre l’IA conversationnelle et générative ?
Quand le sujet est apparu il y a quelques années, les principaux acteurs et experts utilisaient tous le terme « IA conversationnelle » ou « recherche conversationnelle ». Aujourd’hui, c’est le terme « IA générative » qui semble plus utilisé.
Techniquement parlant, l’IA conversationnelle et l’IA générative sont deux domaines de l’IA qui se recoupent, mais qui ont aussi des différences importantes.
- L’IA conversationnelle est une technologie qui permet aux ordinateurs de comprendre et de répondre aux questions et aux commandes des utilisateurs en langage naturel. Elle est souvent utilisée dans des chatbots ou des assistants virtuels pour fournir une assistance à la clientèle, répondre aux questions des utilisateurs ou fournir des recommandations.
- L’IA générative, quant à elle, est une technologie qui permet aux ordinateurs de créer du contenu original, tel que des textes, des images ou des vidéos, à partir de données existantes. Elle utilise souvent des modèles de langage profond, tels que les réseaux de neurones, pour générer du contenu qui ressemble à celui créé par les humains.
Des systèmes comme ChatGPT ou Bing Conversation utilisent les deux types d’IA en utilisant le côté conversationnel pour dialoguer avec l’internaute et le côté génératif pour générer des réponses.
L’IA conversationnelle a une connotation négative et fait souvent référence aux agents conversationnels de type chatbots que l’on a pu voir fleurir ces dernières années sur de nombreux sites Web et qui se contentent d’aller chercher des réponses dans leur base de données. L’IA générative a une connotation plus positive avec un outil capable d’aller au-delà des données sur lesquels il a été entraîné. Il est capable de prédire les réponses les plus probables par rapport aux données qu’il a ingérées et de générer des contenus.
Et c’est d’ailleurs bien tout le problème du « génératif » : il est capable de fournir des réponses fiables tirées de ce qu’il a lu, mais il est aussi capable d’inventer complètement une réponse et d’écrire/prédire un texte vraisemblable sans jamais le préciser.
L’intégration des IA génératives dans les moteurs de recherche : tour d’horizon
Microsoft Bing et son intégration de GPT-4
À peine ChatGPT avait fait son apparition que Microsoft a annoncé un futur partenariat commun et l’intégration du modèle de langage GPT-3 très rapidement suivi de GPT-4 dans Bing ainsi que dans d’autres produits Microsoft. Et bien lui en a pris visiblement puisque Bing a rapidement franchi la barre des 100 millions d’utilisateurs actifs quotidiens.
Concrètement sur Bing, cela signifie que les internautes ont désormais accès à un assistant/agent conversationnel censé pouvoir les aider avec leurs recherches en ligne. Cet assistant n’est disponible que dans le navigateur Edge et se présente comme un chatbot dans une colonne de droite auquel on peut poser des questions en langage naturel. On peut lui demander à peu près n’importe quoi : répondre à une question, résumer une page ou un texte, fournir une liste de sources, d’outils, de mots-clés, etc.
Et contrairement à ChatGPT lui-même (dont il utilise le modèle GPT-4), le chatbot de Bing cite ses sources, ce qui paraît rassurant de prime abord. Mais nous verrons par la suite que ce n’est en réalité le gage de rien du tout…
Google et Bard
Face à l’arrivée de ChatGPT et son intégration dans Bing, Google n’a pas eu d’autre choix que de lancer dans la précipitation son propre assistant appelé Bard.
Ce chatbot utilise le modèle développé par Google appelé LaMDA et n’est pas encore disponible en France. Nous n’avons pas pu le tester et ce n’est certainement pas une grande perte vu les premiers retours. Bard n’est en effet qu’une version expérimentale lancée à la va-vite qui utilise une version « light » de LaMDA. Et le PDG de Google le reconnaît lui-même.
« Nous avons dit que nous utilisions une version légère et efficace de LaMDA. D’une certaine manière, nous avons donc mis sur le marché l’un de nos plus petits modèles, celui qui alimente Bard. Et nous avons été prudents. Je ne suis donc pas surpris de cette réaction. Mais d’une certaine manière, j’ai l’impression que nous avons pris une Civic améliorée et que nous l’avons mise dans une course avec des voitures plus puissantes ».
Comme pour l’assistant de Bing, Bard est lui aussi un chatbot généraliste à qui on peut poser des questions, qui peut créer des résumés ou créer différents types de contenus. Et lui aussi cite ses sources.
Mais Bard n’est qu’un prototype. On apprenait récemment que Google travaille en réalité sur le lancement d’un nouveau moteur de recherche basé sur l’IA. Le projet s’appelle pour le moment MAGI, devrait être lancé aux États-Unis uniquement et 160 ingénieurs travailleraient dessus.
En attendant le lancement d’un produit abouti, ce qui pourrait prendre un peu de temps, Google envisage de proposer quelques améliorations à base d’IA dans le moteur et le navigateur existant. Google pourrait ainsi lancer prochainement une fonctionnalité appelée SearchAlong pour Chrome qui permettrait de poser des questions à propos d’une page Web pour avoir des informations contextuelles.
NeevaAI
De son côté, Neeva n’a pas tardé avant de proposer sa propre IA générative appelée NeevaAI au sein de son moteur.
Elle est directement intégrée au sein des résultats de recherche en haut des résultats classiques et propose un résumé permettant de répondre à la question à partir de plusieurs sources (qui sont citées). Pour le moment, cette fonctionnalité n’est disponible qu’aux États-Unis.
On peut néanmoins la tester dans un produit à part en utilisant NeevaAI qui se présente comme une interface permettant d’interroger plusieurs IA génératives. On y trouve NeevaAI, mais aussi ChatGPT, Claude+, etc. Cela permet d’avoir une première vision de ce dont NeevaAI est capable et de la tester avec ses sujets et thématiques.
YouChat
Le moteur You.com a également très vite lancé son assistant IA appelé YouChat (dès décembre 2022) suivi en février 2023 de YouChat 2.0.
Il est disponible dans un onglet spécifique du moteur appelé « Chat ». Quand on entre une requête sous forme de question dans le moteur, You nous bascule directement dans le chat pour dialoguer avec son assistant.
Il cite en principe ses sources même si nous avons pu constater que ce n’était malgré tout pas systématique.
Kagi Search
Le moteur payant Kagi Search a vite intégré l’IA générative à son moteur, mais a choisi d’être plus prudent que Bing ou encore Google en ne proposant que certaines fonctionnalités bien délimitées et non un chatbot à qui on peut demander à peu près n’importe quoi.
Son fondateur explique en effet que les IA génératives actuelles ont deux grandes limitations :
-
- Elles présentent un risque important de générer des informations incorrectes ou de fabriquer des détails eux aussi incorrects (ce qu’on appelle les « hallucinations »)
- Les LLMs ne sont pas intelligents au sens humain du terme. Ils n’ont aucune compréhension du monde physique réel. Ils n’ont pas d’opinions, d’émotions ou d’identité propres. Nous devons éviter d’attribuer à ces systèmes des qualités semblables à celles de l’homme ou de penser qu’ils ont des capacités de niveau humain. Il s’agit de technologies d’IA limitées.
Kagi a donc décidé d’intégrer une IA générative pour trois fonctionnalités bien précises :
- Pour résumer et synthétiser plusieurs résultats. Ce n’est pas proposé par défaut et c’est à l’internaute de cliquer sur « Summarize results » dans sa liste de résultats ;
- Pour résumer une page bien spécifique. L’option se situe au niveau des trois petits points disponibles à côté de chaque résultat ;
- Pour poser des questions à propos d’un document précis. L’option se trouve également dans les trois points à côté de chaque résultat. L’utilisateur peut alors discuter avec l’IA pour lui poser des questions dont les réponses pourraient se trouver dans le document.
Brave Search et son summarizer
Brave Search a quant à lui décidé d’être encore plus prudent en se limitant à une IA qui résume plusieurs résultats de recherche, et qui apparaît au-dessus des résultats et cite ses sources.
On pourra en apprendre plus à cette adresse. Nous avons pu constater que l’IA de Brave n’apparaissait que rarement dans les résultats quand on lance une recherche dans le moteur.
DuckAssist, 30 petits jours et puis s’en va
DuckDuckGo a aussi brièvement intégré une IA générative à son moteur appelé DuckAssist.
Comme Brave, il s’agissait d’un encadré fournissant une brève synthèse à partir de plusieurs sources qu’il citait. Lancé en mars 2023, DuckAssist a été retiré en avril 2023. DuckDuckGo ne donnant pas de raison :
« Nous sommes très fiers de DuckAssist et des commentaires élogieux qu’il a reçus de la part des utilisateurs. Malheureusement, DuckAssist n’est plus disponible sur DuckDuckGo Private Search. »
Presearch : la prudence est de mise
On citera enfin le moteur décentralisé Presearch qui travaille également sur un projet d’intégration d’IA générative dans son moteur.
En février dernier, Presearch indiquait utiliser GPT-3 dans un prototype actuellement uniquement disponible en bêta privée. D’après les premières images, Presearch AI s’intégrerait au moteur classique et apparaîtrait au-dessus de la liste classique de résultats dans un encadré.
On pourra en apprendre plus sur le projet à l’adresse suivante et en suivant leur compte Twitter dédié.
Ces moteurs de recherche dopés à l’IA générative sont-ils meilleurs ?
Sur le papier, l’intégration d’IA générative dans les moteurs est une avancée importante et devrait en principe nous permettre de trouver plus facilement de l’information. C’est d’ailleurs ce que les différents moteurs nous « vendent » quand ils communiquent sur le sujet, et nous présentent leurs IA génératives comme des assistants de recherche permettant de trouver plus rapidement la réponse à ses questions.
En réalité, on se rend compte en faisant des tests et à la lecture de plusieurs études que l’on peut vite se méprendre sur l’apport des IA génératives dans les moteurs de recherche. Contrairement à ce qu’on pourrait croire, ces « assistants » ne sont pas des robots conversationnels capables d’analyser l’intégralité de l’index d’un moteur, d’en extraire les informations pertinentes et de réaliser une réponse, une analyse ou une synthèse très complète à partir des informations trouvées.
L’assistant n’est pas ce robot capable de remplacer le professionnel de l’information sur des volumes de données tels qu’ils ne sont pas traitables humainement. Ces IA intégrées au moteur sont, comme leur nom l’indique, des IA « génératives ». Elles ont été entraînées sur de gros corpus (une partie importante de l’index du moteur), mais ensuite elles prédisent la réponse et le texte le plus vraisemblable. Les réponses sont donc crédibles, mais pas nécessairement vraies.
Et l’IA ne prévient jamais quand c’est vrai ou quand elle a juste inventé du contenu, ce qui est problématique quand on recherche de l’information.
Trop de réponses inventées
Une équipe de Stanford a récemment mis en ligne sur ArXiv un article scientifique dévoilant les résultats d’une étude sur l’IA générative dans les moteurs de recherche.
Les auteurs ont ainsi testé plusieurs moteurs intégrant une IA générative : Bing Chat, NeevaAI, perplexity.ai, and YouChat pour évaluer la véracité des réponses fournies. On y découvre que quand on pose une question aux IA des moteurs, seule la moitié environ des réponses est correcte et est étayée par des citations de contenus existant véritablement sur le Web.
Une autre étude, menée cette fois-ci par le moteur Kagi Search montre que les IA des moteurs permettent d’avoisiner les 75 % de bonnes réponses (étonnamment Kagi est très bien placé !), mais certains s’avèrent particulièrement mauvais comme Brave Search (avec 33 %) ou même Neeva avec 55 %. Dans tous les cas et même pour les meilleurs, il y a toujours au minimum 25 % de réponses fausses, ce qui est beaucoup surtout quand on n’a aucun moyen de savoir lesquelles a priori.
À titre d’exemple, nous avons demandé à Bing de nous fournir une liste des principaux médias locaux en Bretagne. Et si la majorité de la liste répond très bien à notre question et s’avère correcte, la fin de la liste nous a laissés plus perplexes avec « Le Républicain Lorrain » et un autre titre de presse qui n’existait même pas.
On constate que les réponses fournies par les IA génératives des moteurs peuvent être 100 % correctes, peuvent parfois contenir une part de vérité et une part d’invention ou peuvent être 100 % inventées. Le moteur ne dit presque jamais qu’il ne sait pas, mais préfère inventer une réponse.
Trop de citations inventées
On pourrait croire que les moteurs dopés avec une IA générative qui cite ses sources sont plus fiables. Malheureusement, il y a là aussi une part non négligeable d’hallucinations.
L’étude de Stanford évoquée plus haut évalue que « 74,5 % des citations étayent la phrase associée », c’est-à-dire que dans un peu plus de 25 % des cas, l’IA donne une réponse et cite une source pour justifier sa réponse, mais quand on vérifie la source en question, le contenu n’est pas en accord avec ce que nous dit l’IA.
Nous en avons fait plusieurs fois l’expérience lors de nos tests.
1. À titre d’exemple, nous avons demandé à Bing quelles étaient les principales plateformes de veille sur le marché français. Il nous cite alors quelques outils de veille qui existent réellement avec un petit descriptif pour chacun d’entre eux. Et il nous indique que la source de cette information n’est autre qu’un de nos articles écrit en 2020 « Le marché des outils et plateformes de veille en France en 2020 ». Comme nos articles ne sont accessibles que pour nos abonnés et que nous ne donnons pas même le texte intégral aux moteurs de recherche, le chat de Bing n’a en principe accès qu’au titre et aux premières lignes de l’article, ce qui est quand même léger pour répondre à la question ou alors il a récupéré le texte intégral de manière complètement illégale.
Au niveau de la véracité de la réponse, si les outils mentionnés sont bien cités dans notre article, le descriptif que Bing propose pour chacun d’entre eux, très crédible au demeurant, ne correspond en rien à ce qui a été écrit dans l’article. Nous avons également recherché sur le Web et aucun site ne semble présenter ces différents outils avec un tel descriptif. L’IA a donc inventé un descriptif crédible certes, mais complètement faux et ne correspondant pas réellement à la réalité.
2. Autre test cette fois-ci avec NeevaAI avec la question suivante : comment créer un flux RSS sur Twitter ?
Encore une fois, la réponse est crédible et nous cite ses sources et notamment des sources réputées pour leur fiabilité comme le blog Keep it Simple ou formadoct.doctorat-bretagneloire.fr. Mais en cliquant sur les liens, on se rend compte qu’aucune des pages mentionnées ne propose en réalité cette méthode. L’IA a juste inventé sa propre méthode qui ne fonctionne même pas.
3. Dernier exemple avec You.com avec une question a priori simple (même s’il peut y avoir quelques débats sur la réponse) : Quel monarque a régné le plus longtemps ?
YouChat nous indique alors qu’il s’agit de Bernard VII de Lippe et nous indique 2 sources pour étayer son propos : Histoires Royales et Le Figaro. Dans la première source, l’article mentionne bien cette personne, mais l’article dit très clairement que ce n’est pas lui qui a le règne le plus long et l’article du Figaro ne mentionne même pas Bernard VII de Lippe.
Une exploration des index des moteurs en surface
Dernier constat et pas des moindres, les IA génératives des moteurs n’ont pas permis de faire ressortir des sites ou des contenus mal indexés par les moteurs. Dans la majorité des cas, les réponses fournies par les IA des moteurs se contentaient de résumer les contenus de deux ou trois pages Web, pages que l’on retrouvait de toute façon dans la première page de résultat du moteur quand on l’interroge classiquement. On était finalement plus proche du « Featured Snippets » un peu amélioré qui synthétise plusieurs sources et donne une apparence de réponse humaine que d’un véritable assistant capable d’aller trouver une aiguille dans une botte de foin.
Notre évaluation à ce stade : l’IA générative oui, mais pas pour trouver l’information dans les moteurs
L’arrivée de l’IA générative sur le marché est sans aucun doute un moment de rupture pour les professionnels de l’information, mais ce n’est probablement pas au niveau de la recherche d’information elle-même que cela va se jouer, du moins pour le moment.
Pour être très performante, l’IA générative a besoin d’avoir un cadre très structuré avec d’un côté des contenus très qualifiés qu’il faut préalablement avoir identifiés, qui lui sont servis sur un plateau et de l’autre des consignes (prompts) très précises et un humain qui le forme et l’entraîne pour obtenir ce qu’il veut. Or à ce stade, les IA génératives intégrées aux moteurs ne permettent ni l’un ni l’autre. L’IA générative a un rôle à jouer dans la recherche d’information, mais cela ne pourra être qu’en amont en phase de recherche de mots-clés par exemple ou après avoir identifié les informations et les sources pertinentes.
