Les clés pour s’approprier l’IA dans son métier de veilleur

Céline Boileau

Netsources no

164

publié en

2023.06

4879

L’ABC de l’IA

Face à cette ascension fulgurante, il reste difficile d’appréhender son nouvel environnement. Nous nous proposons donc de partager les bases de fonctionnement d’un système IA utiles aux métiers de la veille et de la recherche d’information et d’esquisser, à chaque étape du processus de veille, les premiers bouleversements expérimentés.

Le professionnel de la veille, parce qu’il manipule l’information qui transite entre l’intelligence humaine et l’intelligence artificielle, doit ainsi apprendre de nouveaux modèles de langage et d’apprentissage : ceux utilisés par l’IA.

La recherche d’informations

Le cycle classique de la veille commence par la définition du sujet.

Brainstorming avec le destinataire de son produit de veille, sourcing, identification de mots-clés… se faire une culture sur un sujet constitue une phase intense de recherche d’information, et la tentation est grande de « griller les étapes » avec les réponses toutes faites de ChatGPT plutôt que respecter toutes les étapes de recherche. Faut-il sauter le pas ?

À première vue, ChatGPT ressemble à un Google amélioré. Les requêtes et les résultats générés se présentent sous forme conversationnelle et on réapprend donc à parler « normalement » (et non en une suite de mots-clés et de commandes spécifiques).
L’IA peut suivre la conversation et améliorer ses résultats en fonction de celle-ci. Or, même si une recherche Google prend en compte l’historique de navigation de l’utilisateur pour deviner son intention de recherche, l’historique n’influe pas réellement sur la qualité des résultats !
Avec Google, il faut ouvrir 10 onglets pour 10 recherches, qui affichent une liste de liens à consulter individuellement. Avec Bing Chat, les informations en ligne sont rassemblées pour proposer un texte unique et récapitulatif, tout en citant ses sources avec des liens. Plus besoin de passer au crible des résultats non pertinents en parcourant plusieurs pages.
À force d’amélioration, ChatGPT finit par savoir reformuler un texte sur un autre ton, résumer un texte, donner des idées, traduire, raisonner, etc. au point de paraître assez performant pour rechercher des réponses, qui ont l’air d’autant plus fiables qu’elles sont claires et… probables.

Pour toutes ces raisons, il est tentant de poser nos questions à ChatGPT, ce qui est une source majeure de confusion. Un modèle de langage n’est pas un moteur de recherche. Et une IA générative non plus.

ChatGPT est un modèle de langage capable de dialoguer avec un humain, mais il est aussi capable de générer du texte. C’est la raison pour laquelle il fait partie des générateurs de texte. Le programme initial de l’algorithme GPT est de deviner le prochain mot afin de générer un texte cohérent. Par exemple : si on lui demande “La capitale de l’Australie est… », il répond « Canberra », car il s’agit du mot… le plus probable. Pour réaliser ses prédictions, GPT a mémorisé d’énormes quantités de textes et de données (l’équivalent d’un milliard de mots dans le cas de GPT-3), auxquelles il a recours pour compléter des textes. Cependant, voici les caractéristiques à prendre en compte dans sa réflexion :

GPT donne les réponses les plus probables, mais n’a pas de notion de vérité ou de vérification de l’information. Il fait donc une réponse plausible, mais pas nécessairement correcte. Les générateurs de textes sont incapables de comprendre ou d’interpréter ce qu’ils ont appris.
Même s’il a été entraîné sur un corpus, le modèle de langage n’est pas lié à une base de données interne et la version gratuite de ChatGPT ne peut pas chercher sur le web. Il est donc incapable de véritablement tracer ses sources.
GPT est un algorithme non déterministe : il invente «aléatoirement» ses réponses et va donc répondre différemment à la même question.
Il est sensible aux formulations d’entrée : quand on lui pose une question, il peut prétendre ne pas connaître la réponse, puis y répondre correctement après une légère reformulation.
Même les moteurs de recherche IA - Bing Chat, Perplexity, GptGo, Andi... - ne font pas (encore) de miracles. Sans traçabilité fiable, la vérification des informations est rendue quasiment impossible.

À ces caractéristiques s'ajoutent deux limites de taille pour la recherche d’informations :

Les hallucinations,
Les biais humains en provenance de son corpus humain.

Voir notre article, La revue des moteurs de recherche à l’heure de ChatGPT, Bases N°413 - avril 2023

Les IA génératives comme ChatGPT n’ont donc actuellement pas leur place pour la recherche d’information - sauf si la véracité n’est pas primordiale ou que l’on maîtrise suffisamment le fond pour distinguer les réponses plausibles des réponses exactes - car elles n’ont pas (encore) été entraînées pour cela, voire pour clarifier un concept. En termes d’impact pour le professionnel de l’information, le retour aux fondamentaux s’impose donc :

Questionner les sources, regarder si elles sont légitimes, si un média est reconnu par exemple ;
Recouper les informations avec d’autres sites d’information.

L’identification de mots-clés

Identifier des mots-clés nécessite un premier niveau d’analyse, largement exploité par les outils IA utilisés en marketing « SEO » et il serait dommage que le veilleur n’en profite pas pour améliorer cette étape. Cette démarche sera complémentaire à celles que l’on utilise généralement (analyse linguistique, thesauri, traducteurs, etc.)

Pour identifier des mots clés autour du « SEO », nous avons repris les exemples fournis par le Search Engine Journal, qui a montré que l’on peut ainsi systématiser son raisonnement, par exemple avec les demandes suivantes :

Génère [X] mots-clés pour le sujet [votre sujet] qui contiennent tout ou partie des éléments suivants : qui, quoi, où, pourquoi, comment (voir le résultat Figure 1) ;
Génère 50 mots-clés pour le sujet [votre sujet] qui contiennent « vs » ;
Pour le sujet [votre sujet], quels sont les 20 principaux mots-clés qui incluent « meilleur » ou « Top ».

Figure 1 : Liste générée par ChatGPT en réponse à la demande de mots-clés sur le SEO « qui contiennent tout ou partie des éléments suivants : qui, quoi, où, pourquoi, comment ».

L’inconvénient de ChatGPT sur d’autres outils SEO comme SEO Minion reste toutefois :

L’absence de métriques SEO (voir Figure 2) ;
L’inexactitude potentielle des mots suggérés par ChatGPT. On prendra donc soin de les vérifier avec son outil de recherche de mots-clés classique si l’on en possède un.

Figure 2: La recherche de mots-clés sur SEO Minion est accompagnée de statistiques qui permettent de mieux évaluer la pertinence de chaque occurrence.

La collecte et l’analyse : exemple avec l’identification des mots-clés

La collecte et l’analyse des sources sont encore davantage concernées par les outils IA. Car au-delà de l’automatisation des tâches, l’intelligence artificielle vise à automatiser nos capacités cognitives : l’apprentissage, la perception, le raisonnement ou la prise de décision.

Pour savoir comment le professionnel de la veille peut s’aider avec les outils IA dédiés à la synthèse et à l’interrogation des documents, consulter notre article « Les meilleurs outils IA pour résumer et interroger les contenus issus de la veille » dans ce même numéro.

La norme ISO de 1995 définit l’Intelligence artificielle (IA) comme la « capacité d’une unité fonctionnelle à exécuter des fonctions généralement associées à l’intelligence humaine ». ChatGPT peut même détecter la teneur positive ou négative d’un message, en provenance par exemple d’une liste de tweets (pour ce faire, lui demander « le sentiment associé »).

Outre l’IA générative (de texte, images ou code) comme celle de ChatGPT, il existe ainsi différents types d’IA, comme l’IA de reconnaissance, de raisonnement ou de classification. La collecte et la classification de données constituent ainsi une autre étape touchée par la « logique artificielle ».

Couplée à la Data Science, l’IA dote ainsi les programmes informatiques de facultés cognitives qui leur permettent d’interpréter le langage naturel, de réaliser des prédictions ou même des recommandations. Par exemple, en copiant-collant une feuille de calcul ou un graphique avec GPT-4, ce dernier est capable de produire automatiquement une représentation graphique et les réponses associées, sur « simple » demande. L’analyse tend à s’affranchir du format et du volume des données.

L’IA peut aussi permettre de catégoriser les mots clés issus d’un contenu (et faire son propre clustering) avec le prompt suivant (Cf. Figure 3.) : Filtre la liste de mots-clés (générée précédemment ou fournie) en catégories, persona cible, intention du chercheur, volume de recherche et ajoute ces informations dans un tableau à six colonnes : Liste des mots-clés - [LISTE DES MOTS-CLÉS], Volume de recherche par mot-clé* [VOLUMES DE RECHERCHE] et Difficultés des mots clés [DIFFICULTÉS DE MOTS CLÉS].

*Search Engine Journal nous conseille de mettre les chiffres en provenance d’un outil professionnel car ceux de ChatGPT ne seront pas fiables.

Figure 3: Mots-clés classés par GPT, sous forme de tableau.

La diffusion du livrable

Pour comprendre en quoi les outils IA peuvent nous aider à rédiger et mettre en forme un livrable, explorons l’univers de ces outils qui, s’ils ne font pas « tout le boulot », modifient néanmoins la posture du rédacteur qui prend davantage un rôle de supervision.

Comme son nom l’indique une IA « générative » permet donc de « générer » : textes, dialogues, images, audio ou vidéo.

Le rôle d’un générateur de texte est de générer des phrases qui ont du sens. C’est aussi ce qui leur permet de dialoguer avec un humain. Une partie de leurs algorithmes alimente elle-même les fonctionnalités de milliers d’outils, extensions et plugins via les APIs mises à leur disposition. Dans ce cas, si l’on prend l’exemple d’outils dédiés à la rédaction automatisée, ils ajoutent des fonctionnalités comme un éditeur de texte, des bibliothèques de prompts, des modèles de textes, etc.
Les générateurs d’images, de contenus audio et vidéo : sur la base d’une simple description écrite, ils créent de nouvelles images. Ici, Dall-E et Stable Diffusion, par exemple, fournissent des APIs à d’autres outils : le créateur de Bing, Night Café, etc. Avertissement : non seulement les images générées ne sont pas protégées par le droit d’auteur ni confidentielles, mais on risque de violer celui des artistes dont les œuvres ont servi à alimenter, sans leur consentement, les modèles de ces IA.
Un générateur « multimodal » génère plusieurs formats.

Comment les utiliser avec efficacité ?

Faire un plan avant de rédiger : la structuration des arguments et des idées est LE point fort de ChatGPT, qui sera grandement utile pour transformer des idées brutes en quelque chose de digeste. C’est donc à lui que l’on demandera des idées de plans. Même pour un plan de veille, on peut tout à fait lui demander d’extraire les mots clés d’un corpus et de les placer dans un tableau avec le prompt suivant : Extrais les mots-clés principaux de ces titres [Titres], puis ajoute les mots-clés et les titres correspondants dans un tableau.

Aller plus loin dans la rédaction : après avoir testé plusieurs outils IA de rédaction automatisée, on confirme que ces derniers sont surtout utiles pour se donner “un coup de pouce” et lutter contre le syndrome de la page blanche. Notamment car ils se concentrent davantage sur la création que sur la compréhension ou l’analyse du langage. Mais malgré les prompts prérédigés dans les outils dédiés, formuler un prompt qui donne les résultats escomptés prend du temps et il faut souvent revoir les textes générés (peu fiables sur le fond), supprimer les répétitions, etc.

En bref :

On s’affranchit de la forme, on imagine de nouvelles possibilités.
Ces outils constituent un gain de temps pour la mise en démarrage.
L’IA nécessite une attention redoublée sur le fond (préférer la rédaction à partir d’un corpus).

Notre conseil

À force de s’améliorer les outils IA étendent leur savoir-faire et leur niveau de précision. On pourra les utiliser pour leur rapidité d’exécution et d’analyse (identification des mots clés, synthèse, extraction de données et génération de graphique, etc.), mais du fait de leur manque de fiabilité structurelle, on ne le fera qu’à condition de maîtriser le fond de son corpus documentaire.

Avec les outils IA, le professionnel de l’information voit son rôle et son importance renforcés dans l’appréciation de la connaissance : les IA sont alimentées par et fournissent de l’information, mais pas de connaissance. Il va ainsi, de plus en plus, devoir assumer un rôle de supervision plus qualifié. Le générateur de texte Jasper a d’ailleurs inventé une fonctionnalité « en mode boss ». Car pour utiliser ces outils, la compétence est davantage axée sur la capacité à savoir demander ce dont on a besoin que celle de le faire soi-même.