Bases & Netsources - Accueil

L’expertise humaine qui donne du sens à l'IA

Revue des moteurs de recherche à l’heure de ChatGPT

Carole Tisserand-Barthole
Bases no
413
publié en
2023.04
4282
Tags
Réduire Augmenter Taille de la police
Revue des moteurs de recherche à l’heure de ChatGPT Image 1

Le bouleversement de ce début d’année 2023, c’est bien évidemment le lancement grand public de ChatGPT et plus largement la course à l’intégration de l’IA générative dans tous les outils du quotidien et du monde professionnel.

Les moteurs de recherche Web dans leur ensemble se sont tous précipités pour intégrer cette dimension à leurs moteurs, certains intégrant directement GPT-3 ou 4 comme Bing et d’autres préférant utiliser d’autres modèles.

Cette intégration de l’IA générative et conversationnelle dans les moteurs apporte sans conteste une dimension nouvelle à la recherche d’information sur le Web.

Mais est-ce que cela améliore réellement les moteurs Web ? Cela permet-il de trouver plus rapidement de l’information, de trouver des informations qui n’arrivaient pas à émerger dans les moteurs de recherche, d’explorer plus en profondeur la fameuse longue traîne ?


Lire aussi : 

Les moteurs gratuits, c’est fini (avril 2023)

L’actu du Veilleur : plein phare sur l’IA (Bases N° 411 - fev 2023)

Quels outils utiliser pour bénéficier de ChatGPT ? (Bases N° 410 - jan 2023)

Nous avons testé Kagi Search, un nouveau challenger de Google (Bases N° 407 - oct 2022)

Presearch permet de chercher depuis la localisation de son choix (Bases N° 410 - jan 2023)

Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info (Bases N° 406 - sept 2022)


C’est ce que nous avons voulu explorer dans cet article en proposant tout d’abord un tour d’horizon des solutions d’IA génératives qui ont été intégrées aux moteurs de recherche ces derniers mois - et ils sont nombreux - et en évaluant ensuite ce que cela change en matière de performance et d’efficacité quand on recherche de l’information sur le Web. Alors que Google restait indétrônable depuis des années pour les professionnels de l’information, est-ce que l’apparition de ces assistants rebat les cartes et faut-il revoir sa stratégie sur les moteurs de recherche ?

Nota Bene 

L’apparition de ChatGPT auprès du grand public et plus largement des IA génératives et la multiplication des outils qui utilisent ces technologies pour de multiples usages constituent un sujet extrêmement vaste. Pour cet article, nous avons choisi un angle bien précis : l’intégration d’IA génératives par les moteurs de recherche classiques déjà présents sur le marché et le bouleversement que cela peut représenter pour la recherche d’information.

Comprendre les IA génératives pour comprendre leur place dans les moteurs

ChatGPT avec son modèle GPT-3 et 4 : une IA générative parmi d’autres

Comprendre l’intégration de l’IA générative dans les moteurs nécessite d’avoir certains éléments de contexte en tête. C’est donc ce par quoi nous commencerons cet article.

OpenAI avec le lancement de ChatGPT a réussi l’exploit d’éclipser tous les autres acteurs travaillant sur les sujets de l’IA générative et à imposer son produit sur le marché. Mais en réalité, cela fait des années que plusieurs acteurs et notamment les Gafams travaillent sur le développement d’IA conversationnelles et génératives qui pourraient venir enrichir les moteurs de recherche.

En 2017 déjà, nous avions assisté à la conférence « Search Solutions » à Londres où l’un des Research Scientists de Google était venu expliquer que l’un des axes de développement de Google était alors la recherche conversationnelle.

Voir l’article « De la recherche classique à la recherche conversationnelle » (Bases N° 354 - décembre 2017) que nous avions écrit à l’époque.

On retiendra avec attention que ce même intervenant avait alors évoqué les conditions nécessaires pour la mise en place opérationnelle d’un système de recherche conversationnelle au sein des moteurs :

  • le système doit permettre d’expliciter le besoin réel de l’utilisateur ;
  • le système doit révéler à l’utilisateur ses capacités et son corpus afin de lui montrer ce qu’il peut faire ou non ;
  • le système et l’utilisateur peuvent chacun prendre l’initiative d’intervenir quand cela est utile ;
  • des éléments de mémoire doivent être introduits. L’utilisateur doit pouvoir faire référence à des choses qu’il a dites plus tôt dans la conversation ou dans d’autres conversations ;
  • le système doit être capable d’apporter si besoin des ensembles d’information complémentaires et de les agréger.

En 2017, aucun système n’arrivait à réunir les différentes conditions pour pouvoir l’implémenter dans le moteur de recherche. Dans les années qui ont suivi, Google a continué à intervenir dans différentes conférences sur le thème de la recherche conversationnelle, mais cela n’avait pas été intégré dans des produits grand public, tout simplement parce que les conditions n’étaient toujours pas réunies. Fin 2022, aucun acteur (et pas seulement Google) travaillant sur le sujet n’avait encore jugé les technologies suffisamment matures pour les lancer auprès du grand public.

Mais OpenAI est passé par là et a pris tout le monde de court en mettant sur le marché un produit qui ne remplit pas toutes les conditions, mais qui est impressionnant. Le coup de maître (ou l’inconscience selon les points de vue) d’OpenAI à « dégainer en premier » et éclipser tous les autres acteurs marque, dans tous les cas, un tournant. Et un retour en arrière est plus qu’improbable. Face à ce lancement, tous les moteurs de recherche ou presque ont voulu sauter dans le train en marche : Google pour ne pas donner l’impression de ne plus être le leader du « Search » sur le Web et les autres moteurs pour avoir enfin une chance de surpasser Google.

Comprendre Les LLMs (Large Language Models), le modèle à la base des outils utilisant l’IA générative

Tous les outils intégrant des fonctionnalités à base d’IA générative utilisent des modèles d’apprentissage profond appelés des « Large Language Model (LLM) » (grand modèle de langage).

Un LLM est un modèle d’apprentissage automatique qui a été entraîné sur de vastes ensembles de données textuelles pour comprendre et générer des textes humains. L’un des plus connus est GPT-3 puis GPT-4 développés par OpenAI et qui est utilisé dans ChatGPT.

Mais GPT 3 puis 4 sont loin d’être les seuls comme on peut le voir sur la figure 1.

Figure 1. Frise chronologique avec les principaux LLMs développés depuis 2019 Source

Chaque LLM a été entraîné sur des corpus différents. Pour comprendre avec quoi ils ont été nourris, on conseillera la lecture de cet excellent article du Washington Post qui analyse les sources qui composent le dataset C4 utilisé par Google. L’article propose même un site Web pour vérifier rapidement si un site s’y trouve ou non.

Quelle différence entre l’IA conversationnelle et générative ?

Quand le sujet est apparu il y a quelques années, les prin­cipaux acteurs et experts utilisaient tous le terme « IA conver­sationnelle » ou « recherche conversationnelle ». Aujourd’hui, c’est le terme « IA générative » qui semble plus utilisé.

Techniquement parlant, l’IA conversationnelle et l’IA générative sont deux domaines de l’IA qui se recoupent, mais qui ont aussi des différences importantes.

    1. L’IA conversationnelle est une technologie qui permet aux ordinateurs de comprendre et de répondre aux questions et aux commandes des utilisateurs en langage naturel. Elle est souvent utilisée dans des chatbots ou des assistants virtuels pour fournir une assistance à la clientèle, répondre aux questions des utilisateurs ou fournir des recommandations.
    2. L’IA générative, quant à elle, est une technologie qui permet aux ordinateurs de créer du contenu original, tel que des textes, des images ou des vidéos, à partir de données existantes. Elle utilise souvent des modèles de langage profond, tels que les réseaux de neurones, pour générer du contenu qui ressemble à celui créé par les humains.

Des systèmes comme ChatGPT ou Bing Conversation utilisent les deux types d’IA en utilisant le côté conversationnel pour dialoguer avec l’internaute et le côté génératif pour générer des réponses.

L’IA conversationnelle a une connotation négative et fait souvent référence aux agents conversationnels de type chatbots que l’on a pu voir fleurir ces dernières années sur de nombreux sites Web et qui se contentent d’aller chercher des réponses dans leur base de données. L’IA générative a une connotation plus positive avec un outil capable d’aller au-delà des données sur lesquels il a été entraîné. Il est capable de prédire les réponses les plus probables par rapport aux données qu’il a ingérées et de générer des contenus.

Et c’est d’ailleurs bien tout le problème du « génératif » : il est capable de fournir des réponses fiables tirées de ce qu’il a lu, mais il est aussi capable d’inventer complètement une réponse et d’écrire/prédire un texte vraisemblable sans jamais le préciser.

L’intégration des IA génératives dans les moteurs de recherche : tour d’horizon

Microsoft Bing et son intégration de GPT-4

À peine ChatGPT avait fait son apparition que Microsoft a annoncé un futur partenariat commun et l’intégration du modèle de langage GPT-3 très rapidement suivi de GPT-4 dans Bing ainsi que dans d’autres produits Microsoft. Et bien lui en a pris visiblement puisque Bing a rapidement franchi la barre des 100 millions d’utilisateurs actifs quotidiens.

Concrètement sur Bing, cela signifie que les internautes ont désormais accès à un assistant/agent conversationnel censé pouvoir les aider avec leurs recherches en ligne. Cet assistant n’est disponible que dans le navigateur Edge et se présente comme un chatbot dans une colonne de droite auquel on peut poser des questions en langage naturel. On peut lui demander à peu près n’importe quoi : répondre à une question, résumer une page ou un texte, fournir une liste de sources, d’outils, de mots-clés, etc.

Et contrairement à ChatGPT lui-même (dont il utilise le modèle GPT-4), le chatbot de Bing cite ses sources, ce qui paraît rassurant de prime abord. Mais nous verrons par la suite que ce n’est en réalité le gage de rien du tout…


Google et Bard

Face à l’arrivée de ChatGPT et son intégration dans Bing, Google n’a pas eu d’autre choix que de lancer dans la précipitation son propre assistant appelé Bard.

Ce chatbot utilise le modèle développé par Google appelé LaMDA et n’est pas encore disponible en France. Nous n’avons pas pu le tester et ce n’est certainement pas une grande perte vu les premiers retours. Bard n’est en effet qu’une version expérimentale lancée à la va-vite qui utilise une version « light » de LaMDA. Et le PDG de Google le reconnaît lui-même.

« Nous avons dit que nous utilisions une version légère et efficace de LaMDA. D’une certaine manière, nous avons donc mis sur le marché l’un de nos plus petits modèles, celui qui alimente Bard. Et nous avons été prudents. Je ne suis donc pas surpris de cette réaction. Mais d’une certaine manière, j’ai l’impression que nous avons pris une Civic améliorée et que nous l’avons mise dans une course avec des voitures plus puissantes ».

Comme pour l’assistant de Bing, Bard est lui aussi un chatbot généraliste à qui on peut poser des questions, qui peut créer des résumés ou créer différents types de contenus. Et lui aussi cite ses sources.

Mais Bard n’est qu’un prototype. On apprenait récemment que Google travaille en réalité sur le lancement d’un nouveau moteur de recherche basé sur l’IA. Le projet s’appelle pour le moment MAGI, devrait être lancé aux États-Unis uniquement et 160 ingénieurs travailleraient dessus.

En attendant le lancement d’un produit abouti, ce qui pourrait prendre un peu de temps, Google envisage de proposer quelques améliorations à base d’IA dans le moteur et le navigateur existant. Google pourrait ainsi lancer prochainement une fonctionnalité appelée SearchAlong pour Chrome qui permettrait de poser des questions à propos d’une page Web pour avoir des informations contextuelles.


NeevaAI

De son côté, Neeva n’a pas tardé avant de proposer sa propre IA générative appelée NeevaAI au sein de son moteur.

Elle est directement intégrée au sein des résultats de recherche en haut des résultats classiques et propose un résumé permettant de répondre à la question à partir de plusieurs sources (qui sont citées). Pour le moment, cette fonctionnalité n’est disponible qu’aux États-Unis.

On peut néanmoins la tester dans un produit à part en utilisant NeevaAI qui se présente comme une interface permettant d’interroger plusieurs IA génératives. On y trouve NeevaAI, mais aussi ChatGPT, Claude+, etc. Cela permet d’avoir une première vision de ce dont NeevaAI est capable et de la tester avec ses sujets et thématiques.


YouChat

Le moteur You.com a également très vite lancé son assistant IA appelé YouChat (dès décembre 2022) suivi en février 2023 de YouChat 2.0.

Il est disponible dans un onglet spécifique du moteur appelé « Chat ». Quand on entre une requête sous forme de question dans le moteur, You nous bascule directement dans le chat pour dialoguer avec son assistant.

Il cite en principe ses sources même si nous avons pu constater que ce n’était malgré tout pas systématique.


Le moteur payant Kagi Search a vite intégré l’IA générative à son moteur, mais a choisi d’être plus prudent que Bing ou encore Google en ne proposant que certaines fonctionnalités bien délimitées et non un chatbot à qui on peut demander à peu près n’importe quoi.

Son fondateur explique en effet que les IA génératives actuelles ont deux grandes limitations :

    • Elles présentent un risque important de générer des informations incorrectes ou de fabriquer des détails eux aussi incorrects (ce qu’on appelle les « hallucinations »)
    • Les LLMs ne sont pas intelligents au sens humain du terme. Ils n’ont aucune compréhension du monde physique réel. Ils n’ont pas d’opinions, d’émotions ou d’identité propres. Nous devons éviter d’attribuer à ces systèmes des qualités semblables à celles de l’homme ou de penser qu’ils ont des capacités de niveau humain. Il s’agit de technologies d’IA limitées.

Kagi a donc décidé d’intégrer une IA générative pour trois fonctionnalités bien précises :

    1. Pour résumer et synthétiser plusieurs résultats. Ce n’est pas proposé par défaut et c’est à l’internaute de cliquer sur « Summarize results » dans sa liste de résultats ;
    2. Pour résumer une page bien spécifique. L’option se situe au niveau des trois petits points disponibles à côté de chaque résultat ;
    3. Pour poser des questions à propos d’un document précis. L’option se trouve également dans les trois points à côté de chaque résultat. L’utilisateur peut alors discuter avec l’IA pour lui poser des questions dont les réponses pourraient se trouver dans le document.

Brave Search et son summarizer

Brave Search a quant à lui décidé d’être encore plus prudent en se limitant à une IA qui résume plusieurs résultats de recherche, et qui apparaît au-dessus des résultats et cite ses sources.

On pourra en apprendre plus à cette adresse. Nous avons pu constater que l’IA de Brave n’apparaissait que rarement dans les résultats quand on lance une recherche dans le moteur.


DuckAssist, 30 petits jours et puis s’en va

DuckDuckGo a aussi brièvement intégré une IA générative à son moteur appelé DuckAssist.

Comme Brave, il s’agissait d’un encadré fournissant une brève synthèse à partir de plusieurs sources qu’il citait. Lancé en mars 2023, DuckAssist a été retiré en avril 2023. DuckDuckGo ne donnant pas de raison :

« Nous sommes très fiers de DuckAssist et des commentaires élogieux qu’il a reçus de la part des utilisateurs. Malheureusement, DuckAssist n’est plus disponible sur DuckDuckGo Private Search. »


Presearch : la prudence est de mise

On citera enfin le moteur décentralisé Presearch qui travaille également sur un projet d’intégration d’IA générative dans son moteur.

En février dernier, Presearch indiquait utiliser GPT-3 dans un prototype actuelle­ment uniquement disponible en bêta privée. D’après les premières images, Presearch AI s’intégrerait au moteur clas­sique et apparaîtrait au-dessus de la liste classique de résultats dans un encadré.

On pourra en apprendre plus sur le projet à l’adresse suivante et en suivant leur compte Twitter dédié.

Ces moteurs de recherche dopés à l’IA générative sont-ils meilleurs ?

Sur le papier, l’intégration d’IA générative dans les moteurs est une avancée importante et devrait en principe nous permettre de trouver plus facilement de l’information. C’est d’ailleurs ce que les différents moteurs nous « vendent » quand ils communiquent sur le sujet, et nous présentent leurs IA génératives comme des assistants de recherche permettant de trouver plus rapidement la réponse à ses questions.

En réalité, on se rend compte en faisant des tests et à la lecture de plusieurs études que l’on peut vite se méprendre sur l’apport des IA génératives dans les moteurs de recherche. Contrairement à ce qu’on pourrait croire, ces « assistants » ne sont pas des robots conversationnels capables d’analyser l’intégralité de l’index d’un moteur, d’en extraire les informations pertinentes et de réaliser une réponse, une analyse ou une synthèse très complète à partir des informations trouvées.

L’assistant n’est pas ce robot capable de remplacer le professionnel de l’information sur des volumes de données tels qu’ils ne sont pas traitables humainement. Ces IA intégrées au moteur sont, comme leur nom l’indique, des IA « génératives ». Elles ont été entraînées sur de gros corpus (une partie importante de l’index du moteur), mais ensuite elles prédisent la réponse et le texte le plus vraisemblable. Les réponses sont donc crédibles, mais pas nécessairement vraies.

Et l’IA ne prévient jamais quand c’est vrai ou quand elle a juste inventé du contenu, ce qui est problématique quand on recherche de l’information.

Trop de réponses inventées

Une équipe de Stanford a récemment mis en ligne sur ArXiv un article scientifique dévoilant les résultats d’une étude sur l’IA générative dans les moteurs de recherche.

Les auteurs ont ainsi testé plusieurs moteurs intégrant une IA générative : Bing Chat, NeevaAI, perplexity.ai, and YouChat pour évaluer la véracité des réponses fournies. On y découvre que quand on pose une question aux IA des moteurs, seule la moitié environ des réponses est correcte et est étayée par des citations de contenus existant véritablement sur le Web.

Une autre étude, menée cette fois-ci par le moteur Kagi Search montre que les IA des moteurs permettent d’avoisiner les 75 % de bonnes réponses (étonnamment Kagi est très bien placé !), mais certains s’avèrent particulièrement mauvais comme Brave Search (avec 33 %) ou même Neeva avec 55 %. Dans tous les cas et même pour les meilleurs, il y a toujours au minimum 25 % de réponses fausses, ce qui est beaucoup surtout quand on n’a aucun moyen de savoir lesquelles a priori.

À titre d’exemple, nous avons demandé à Bing de nous fournir une liste des principaux médias locaux en Bretagne. Et si la majorité de la liste répond très bien à notre question et s’avère correcte, la fin de la liste nous a laissés plus perplexes avec « Le Républicain Lorrain » et un autre titre de presse qui n’existait même pas.

On constate que les réponses fournies par les IA génératives des moteurs peuvent être 100 % correctes, peuvent parfois contenir une part de vérité et une part d’invention ou peuvent être 100 % inventées. Le moteur ne dit presque jamais qu’il ne sait pas, mais préfère inventer une réponse.

Trop de citations inventées

On pourrait croire que les moteurs dopés avec une IA générative qui cite ses sources sont plus fiables. Malheureusement, il y a là aussi une part non négligeable d’hallucinations.

L’étude de Stanford évoquée plus haut évalue que « 74,5 % des citations étayent la phrase associée », c’est-à-dire que dans un peu plus de 25 % des cas, l’IA donne une réponse et cite une source pour justifier sa réponse, mais quand on vérifie la source en question, le contenu n’est pas en accord avec ce que nous dit l’IA.

Nous en avons fait plusieurs fois l’expérience lors de nos tests.

1. À titre d’exemple, nous avons demandé à Bing quelles étaient les principales plateformes de veille sur le marché français. Il nous cite alors quelques outils de veille qui existent réellement avec un petit descriptif pour chacun d’entre eux. Et il nous indique que la source de cette information n’est autre qu’un de nos articles écrit en 2020 « Le marché des outils et plateformes de veille en France en 2020 ». Comme nos articles ne sont accessibles que pour nos abonnés et que nous ne donnons pas même le texte intégral aux moteurs de recherche, le chat de Bing n’a en principe accès qu’au titre et aux premières lignes de l’article, ce qui est quand même léger pour répondre à la question ou alors il a récupéré le texte intégral de manière complètement illégale.

Au niveau de la véracité de la réponse, si les outils mentionnés sont bien cités dans notre article, le descriptif que Bing propose pour chacun d’entre eux, très crédible au demeurant, ne correspond en rien à ce qui a été écrit dans l’article. Nous avons également recherché sur le Web et aucun site ne semble présenter ces différents outils avec un tel descriptif. L’IA a donc inventé un descriptif crédible certes, mais complètement faux et ne correspondant pas réellement à la réalité.

2. Autre test cette fois-ci avec NeevaAI avec la question suivante : comment créer un flux RSS sur Twitter ?

Encore une fois, la réponse est crédible et nous cite ses sources et notamment des sources réputées pour leur fiabilité comme le blog Keep it Simple ou formadoct.doctorat-bretagneloire.fr. Mais en cliquant sur les liens, on se rend compte qu’aucune des pages mentionnées ne propose en réalité cette méthode. L’IA a juste inventé sa propre méthode qui ne fonctionne même pas.

3. Dernier exemple avec You.com avec une question a priori simple (même s’il peut y avoir quelques débats sur la réponse) : Quel monarque a régné le plus longtemps ?

YouChat nous indique alors qu’il s’agit de Bernard VII de Lippe et nous indique 2 sources pour étayer son propos : Histoires Royales et Le Figaro. Dans la première source, l’article mentionne bien cette personne, mais l’article dit très clairement que ce n’est pas lui qui a le règne le plus long et l’article du Figaro ne mentionne même pas Bernard VII de Lippe.

Une exploration des index des moteurs en surface

Dernier constat et pas des moindres, les IA génératives des moteurs n’ont pas permis de faire ressortir des sites ou des contenus mal indexés par les moteurs. Dans la majorité des cas, les réponses fournies par les IA des moteurs se contentaient de résumer les contenus de deux ou trois pages Web, pages que l’on retrouvait de toute façon dans la première page de résultat du moteur quand on l’interroge classiquement. On était finalement plus proche du « Featured Snippets » un peu amélioré qui synthétise plusieurs sources et donne une apparence de réponse humaine que d’un véritable assistant capable d’aller trouver une aiguille dans une botte de foin.

Notre évaluation à ce stade : l’IA générative oui, mais pas pour trouver l’information dans les moteurs

L’arrivée de l’IA générative sur le marché est sans aucun doute un moment de rupture pour les professionnels de l’infor­mation, mais ce n’est probablement pas au niveau de la recherche d’information elle-même que cela va se jouer, du moins pour le moment.

Pour être très performante, l’IA géné­rative a besoin d’avoir un cadre très structuré avec d’un côté des contenus très qualifiés qu’il faut préalablement avoir identifiés, qui lui sont servis sur un plateau et de l’autre des consignes (prompts) très précises et un humain qui le forme et l’entraîne pour obtenir ce qu’il veut. Or à ce stade, les IA génératives intégrées aux moteurs ne permettent ni l’un ni l’autre. L’IA générative a un rôle à jouer dans la recherche d’information, mais cela ne pourra être qu’en amont en phase de recherche de mots-clés par exemple ou après avoir identifié les informations et les sources pertinentes.

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...