Nous sommes à un moment charnière où l’intelligence humaine va s’enrichir considérablement de l’intelligence artificielle pour devenir encore plus puissante. Et les secteurs de l’information, de la communication et de la langue, terrains de prédilection d’un modèle de langage tel que ChatGPT, sont certainement parmi les premiers bénéficiaires de cet enrichissement inédit et renversant. Même si l’on peut naturellement craindre l’autre versant, beaucoup moins optimiste, de cette promesse, avec des effets négatifs encore difficiles à caractériser et à évaluer à ce stade.
Jusqu’à présent le domaine de la veille multilingue exigeait du professionnel qu’il associe à son expertise technique en matière de veille à l’international, une certaine «agilité linguistique», voire de véritables compétences linguistiques. Il est dorénavant boosté par l’irruption de l’IA dans tous les process, du sourcing à la production de livrables, en passant par l’élaboration des stratégies de recherche.
Et c’est cette transformation des process et des pratiques que ce nouveau numéro de NETSOURCES se propose d’expliciter afin d’en faciliter la mise en œuvre. Des méthodes de recherche hybrides alliant humain et machine, plus performantes dans le cadre d’une mission de veille internationale, des outils dopés à l’IA conversationnelle, de même que de nouvelles formes de restitution de l’information, plus lisibles, plus «internationalisées», vont avoir une valeur ajoutée extrêmement forte pour des groupes internationaux où la diffusion des produits de veille et recherche doit atteindre un public disséminé dans plusieurs pays.
Les outils d’IA sont présentés ici non pas comme des solutions universelles, mais plutôt comme des options à évaluer avec soin en fonction des besoins de chaque situation. Étrangement, dans la mesure où la veille, augmentée de la traduction automatique, génère des volumes de données considérables et met le veilleur face à de multiples biais multiculturels et linguistiques, elle oblige plus que jamais celui-ci à faire appel à son esprit critique. En fin de compte, le veilleur «augmenté à l’IA» doit développer encore plus d’expertise humaine, à la fois dans son domaine d’activité et dans les méthodes et les outils de veille utilisés.
Toute veille débute par une phase d’identification des mots-clés qui serviront aux futures requêtes et alertes. Cette étape cruciale se complexifie quand la veille est internationale et nécessite de prendre en compte la question du multilinguisme.
Mais a-t-on encore besoin de maîtriser plusieurs langues étrangères pour identifier les mots-clés d’une veille multilingue ? Les dernières avancées de l’IA et l’arrivée de ChatGPT peuvent-elles nous être utiles lors de cette étape ? Et faut-il à tout prix se lancer directement à la recherche de mots-clés en langues locales que l’on ne maîtrise pas ?
Lire aussi :
Comment identifier des sources d’information locales ?
Conseil veille : boostez votre veille à l’international
Presearch permet de chercher depuis la localisation de son choix
Dossier spécial « Rechercher différemment », La recherche d’information par géolocalisation
On pourrait penser qu’il faut impérativement commencer par identifier des mots-clés en langue locale alors qu’il est souvent plus judicieux de commencer avec les langues que l’on maîtrise le mieux et pour lesquelles on a des repères et connaissances solides.
Dans cet article, nous proposons une méthodologie et des outils permettant d’identifier efficacement les mots-clés pertinents dans le cadre d’une veille internationale multilingue. Et pour l’illustrer, nous prendrons l’exemple de la mise en place d’une veille sur le marché du café au Vietnam.
Comme une recherche classique et quelle que soit la langue des informations recherchées et livrées, on prendra soin de commencer par le brief client, afin de saisir les concepts clés, le vocabulaire, les noms de produits, d’entreprises ou d’innovations, etc.
1. C’est une particularité de la veille multilingue, dans notre recherche de mots-clés pour définir notre périmètre de recherche, on donne la priorité aux mots-clés qui ne sont pas soumis aux traductions : le nom des entreprises, des dirigeants.
Déjà abonné ? Je me connecte ici...
Identifier des sources dans une langue étrangère nécessite de sortir de sa zone de confort. Il faut non seulement se plonger dans un paysage médiatique et culturel différent, mais aussi minimiser son risque d’erreur d’interprétation.
Pour illustrer la méthodologie à suivre, nous prendrons comme exemple la réalisation d’un sourcing pour la mise en place d’une veille sur le marché de la restauration en Malaisie.
Lire aussi :
Sourcing, de la théorie à l’épreuve de la pratique
Sourcing : les outils professionnels suffisent-ils pour s’aventurer en terrain inconnu
Sourcing : peut-on faire l’impasse sur les recherches en langue locale ?
Fiche Pratique : Les sources-clés pour la veille à l’international
Comme pour la recherche de mots clés dans une veille multilingue, identifier des sources d’un autre pays passe d’abord par l’exploration de la littérature dans sa propre langue et en anglais. Dès cette étape, on constate d’ailleurs pour notre exemple le caractère incontournable des sources anglophones.
Voici quelques fiches pays proposant un panorama des médias locaux :
● En français, les fiches pays du classement annuel de Reporters sans frontières (RSF) (https ://rsf.org/fr/pays/malaisie) nous décrivent le paysage médiatique des pays, allant jusqu’à préciser la ligne éditoriale des principaux supports (ici : l’agence de presse Bernama, le groupe audiovisuel Radio Televisyen Malaysia, la presse grand public et les médias en ligne indépendants Malaysiakini, Between The Lines ou Sinar Harian.
● Le rapport annuel de Reuters Digital News Report (https ://reutersinstitute.politics.ox.ac.uk/digital-news-report/2022/malaysia) est également doté d’une déclinaison par pays. Il précise le modèle économique des médias et propose des classements basés sur leur notoriété.
● L’ONG Freedom House (https ://freedomhouse.org/country/malaysia/beijings-global-media-influence/2022) dresse un état des lieux des libertés générales, mais aussi numériques. Elle nous confirme ici l’importance des médias chinois, en langue malaise (via Radio Chine Internationale (https://french.cri.cn/) et chinoise.
À ce stade, la langue française ne nous est déjà plus d’aucun secours pour améliorer notre sourcing local (nous avons visité les sources du Courrier international (https://www.courrierinternational.com/notule-source/pays), les rubriques internationales des médias français, les annuaires, etc., mais les informations fournies étaient déjà bien moindres qu’après la consultation de ces trois fiches pays).
Déjà abonné ? Je me connecte ici...
Comment trouver des interlocuteurs qui permettent d’approfondir sa recherche ?
À l’instar de la première étape de veille, le premier réflexe est de réfléchir à son besoin. Voici les questions à se poser :
1. De quelles compétences ai-je besoin, pour faire quoi ? Par exemple : pour enrichir son sourcing local en identifiant de nouvelles sources, mieux évaluer ses sources, décrypter les pratiques commerciales du pays, etc.
2. Quelle est la nature des informations dont j’ai besoin ? Culturelles, professionnelles, techniques ? A-t-on besoin d’être dans le pays ou non ?
Lire aussi :
Fiche pratique : Comment identifier les meilleurs experts ?(payant)
Les obstacles à la recherche d’informations financières d’entreprises à l’étranger
3. Quelles langues je comprends le mieux et/ou puis-je faire appel à un traducteur ?
4. Par quels moyens consulter cette personne ? (Ne pas faire l’économie d’une communication orale)
Ensuite, on privilégiera trois critères de sélection : la proximité de langage afin d’éviter une interprétation erronée et de se sentir plus libre de poser toutes les questions que l’on souhaite, la proximité culturelle et professionnelle et la proximité informationnelle.
Mais attention toutefois, être « sur place » n’est pas le seul gage de crédibilité. Parfois, le recul émotionnel et/ou géographique permet aussi d’analyser les événements avec davantage d’objectivité et de liberté, tout en minimisant le risque de conflit d’intérêts !
Déjà abonné ? Je me connecte ici...
Lors de sa veille, il n’est pas rare d’identifier ou de collecter des contenus dans des langues que l’on ne maîtrise pas ou pas parfaitement. Mais ce n’est pas parce qu’on est en mesure de trouver les bons mots-clés dans une langue qui n’est pas la sienne que l'on est capable de comprendre et d' analyser des textes. Et c’est là que la traduction automatique vient jouer un rôle crucial.
La traduction automatique avait fait un bond en avant il y a quelques années avec l’introduction de l’IA et du NLP (natural language processing en anglais, ou traitement du langage naturel en français) dans les outils de traduction tels que Google Translate ou DeepL. La qualité des traductions s’en était alors retrouvée clairement améliorée. Aujourd’hui, c’est l’arrivée de ChatGPT et plus largement des IA conversationnelles qui vient changer la donne et le paysage de la traduction automatique.
Pour cet article, nous avons testé les capacités de ChatGPT et de ses acolytes, à l'instar de Perplexity, par rapport aux outils de traduction plus traditionnels comme Google Translate ou DeepL dans un contexte de veille afin de déterminer quelle était la meilleure méthode pour traduire les informations issues de la veille.
Lire aussi :
Les plateformes de veille internationales peuvent-elles intéresser les veilleurs francophones ?
Les outils professionnels suffisent-ils pour s’aventurer en territoire inconnu ?
Il existe de nombreux traducteurs en ligne, mais cela fait déjà longtemps que deux acteurs sortent véritablement du lot : DeepL, qui se revendique lui-même comme « le meilleur traducteur au monde », ce qui est certes un peu prétentieux, mais qui n’est pas loin de la réalité et Google Translate, qui produit également des traductions de qualité et qui a l’avantage d’être complètement gratuit.
Nous avons testé ces deux acteurs sur plusieurs textes dans différentes langues et le résultat est à la hauteur même si la traduction n’est pas absolument parfaite. Mais dans un contexte de veille, le but est de comprendre le sens du texte en évitant tout contresens et de ce point de vue là, les traducteurs en ligne font très bien ce pour quoi ils ont été conçus.
Nous avons tenté de demander à ChatGPT (version gratuite) et un de ses concurrents Perplexity de nous traduire plusieurs articles en ligne de l’anglais vers le français ou inversement.
Déjà abonné ? Je me connecte ici...
La question du multilinguisme intervient également dans la phase de diffusion de la veille quand il s’agit de produire des contenus dans différentes langues : soit en dupliquant les livrables dans différentes langues pour satisfaire les besoins des collaborateurs basés dans différents pays soit pour produire des livrables dans une langue unique que tous les collaborateurs comprennent, dans la majorité des cas l’anglais.
Mais rares sont les veilleurs et professionnels de l’information maîtrisant à la perfection de multiples langues. Et quant à l’anglais, même si nombreux sont ceux qui en ont une maîtrise professionnelle ou avancée, il n’en reste pas moins que produire des contenus dans une langue qui n’est pas sa langue natale prend nécessairement plus de temps et de réflexion.
Comment produire des livrables multilingues et gagner du temps tout en produisant des contenus en « bon anglais » ? C’est ce que nous avons exploré dans cet article.
La première solution consiste à rédiger son livrable dans sa langue natale ou de travail puis de faire traduire le contenu par des outils de traduction automatique comme DeepL ou Google Translate évoqués dans le précédent article. En fonction du format du livrable (fichier, mail, newsletter, etc.), on choisira l’outil ou la fonctionnalité appropriés.
Avec cette méthode, la qualité de la traduction est souvent correcte, mais on arrive facilement à détecter qu’il s’agit d’une traduction « machine » et que ce n’est pas de cette manière qu’une personne « native » rédigerait.
Déjà abonné ? Je me connecte ici...
Cette nouvelle rubrique « En résumé » se propose d’aider à comprendre en un clin d’œil les informations clés de chaque numéro de NETSOURCES. La datavisualisation faisant l’objet d’un numéro double, vous trouverez ici un rappel du précédent numéro. Cette rubrique sera également déclinée en version pédagogique « pas à pas » et commentée dans nos fiches pédagogiques « Les essentiels de la veille». Bonne lecture !
Avec l’internationalisation de la vie économique et institutionnelle, le professionnel de la veille doit gérer de plus en plus de langues, du sourcing jusqu'à la production du livrable.
Quelles particularités le multilinguisme ajoute-t-il aux méthodes classiques de veille et que proposent les plateformes de veille et les outils de traduction en ligne ?
Déjà abonné ? Je me connecte ici...
La datavisualisation, comme toutes les technologies, transforme les outils, les processus et l’organisation des entreprises. Elle amène à repenser les méthodes et les modes de communication, et le domaine de la veille n’y échappe pas.
Dans la première partie de notre dossier consacré à la dataviz, nous avons exploré comment la représentation visuelle des données pouvait trouver sa place à chaque étape de la veille. Elle apporte une aide puissante à l’expression initiale des besoins, à la construction des différentes briques du dispositif, et à la conception des livrables de veille.
Elle offre ainsi des possibilités de représentation, d’analyse et de synthèse des informations où le veilleur peut exercer sa créativité, et développer de nouvelles interactions avec ses clients et le top management.
Enfin, en permettant une meilleure compréhension des données et une identification des tendances et modèles sous-jacents qui auraient été peut-être plus difficiles à voir à l’œil nu, la datavisualisation contribue à une prise de décision plus éclairée pour l’entreprise.
De la théorie à la pratique, n’est-ce qu’un simple pas à franchir ?
Lorsqu’il s’agit d’analyse des informations textuelles, non structurées, la réalité se révèle souvent complexe. C’est pourquoi nous avons souhaité accompagner le veilleur tout au long de son parcours opérationnel.
La définition des objectifs de la démarche d’analyse des données, la mise en place du process global, la réflexion sur les sources et les données, ainsi que le choix des outils adaptés aux différentes opérations, sans oublier la nécessaire formation - intense ! - pour la maîtrise de ces outils, montrent le défi à la fois stratégique, humain et technique qui nous attend.
Parmi les points critiques, citons la récupération de sources fiables et la préparation de corpus textuels et métadonnées représentatifs de l’objet d’étude, avec la difficulté de récupérer de larges volumes de données due aux restrictions d’accès. De plus, la qualité variable des données et l’hétérogénéité des formats exigent des traitements souvent laborieux pour une exploitation future.
S’il existe de nombreux outils de datavisualisation automatisée pouvant aider à produire rapidement des cartographies, graphes ou tableaux, la création d’une visualisation de données efficace et personnalisée en fonction de l’audience nécessite une compréhension humaine des enjeux, des outils et des techniques de communication.
On le voit donc, la dataviz reste une démarche humaine car elle implique un processus de réflexion, de conceptualisation et de création qui ne peut être entièrement automatisé.
La datavisualisation a un rôle à jouer à toutes les étapes de la veille comme nous avons pu le voir dans le précédent numéro de NETSOURCES. Cela commence dès les premières étapes de la veille avec la définition précise d’un sujet ainsi que le choix des mots-clés et du champ lexical à utiliser pour créer de futures alertes.
Dans cet article résolument pratique, nous avons voulu montrer comment la représentation de données pouvait apporter une aide précieuse dès cette première étape de formalisation du besoin et surtout comment s’y prendre concrètement, avec quelles méthodes et quels outils.
Pour nous aider à déterminer les angles de la veille, les thèmes à surveiller et les termes à mettre sous surveillance, nous avons choisi d’analyser un gros volume d’articles de presse sur le sujet, car même si ChatGPT est apparu récemment dans les médias, le volume d’articles consacré à cette IA est considérable et donc peu assimilable humainement.
Nous partirons donc d’un corpus d’articles de presse conséquent que nous analyserons grâce à plusieurs outils de datavisualisation spécialisés dans l’analyse textuelle et letext mining. Ces outils devraient nous permettre de voir rapidement quels sont les thèmes et les termes clés à prendre en compte. Nous analyserons ensuite la valeur ajoutée de cette démarche par rapport à une démarche classique manuelle, mais aussi ses limites.
Il faut d’abord s’entendre sur ce que signifie « récupérer un corpus de presse ». Il peut s’agir de récupérer un corpus d’articles en texte intégral ou bien un corpus de références d’articles avec les titres d’articles et les premières lignes.
Récupérer des articles en texte intégral permet une analyse plus poussée, mais c’est aussi la méthode la plus complexe et onéreuse.
D’autant plus que si on constitue son corpus sur le Web, il est de plus en plus rare de trouver des articles de presse gratuits et si on utilise des agrégateurs de presse payants, il est fréquent d’avoir une limite dans le nombre d’articles que l’on peut consommer chaque mois. Pour des raisons budgétaires, il est donc peu envisageable d’extraire un corpus constitué de milliers d’articles de presse en texte intégral, corpus qui, dans ce cas précis, ne sert que pour la mise en place de la veille.
Déjà abonné ? Je me connecte ici...
La dataviz a un rôle important à jouer dans la réalisation des livrables en permettant notamment de représenter visuellement des informations et des analyses qui auraient pu avoir beaucoup moins d’impact si elles avaient été uniquement restituées sous forme de texte.
Mais utiliser la dataviz dans ses livrables, ce n’est pas appuyer sur un bouton pour récupérer en un clic toute une série de représentations graphiques adaptées à ses problématiques. Ce serait trop beau. C’est en réalité beaucoup plus complexe et fastidieux et nous en avons fait l’expérience à partir d’un exemple concret.
Nous avons récupéré un corpus issu d’une veille concurrentielle réalisée sur le thème des bactéries probiotiques. La veille était réalisée à l’échelle internationale dans des sources diverses et dans différentes langues : presse, blogs, réseaux sociaux, contenus multimédias, etc. Les informations pertinentes étaient ensuite intégrées dans une plateforme de diffusion.
Chaque « pièce d’information » présentait la forme suivante : Titre, descriptif ou résumé, source et date de publication et différents tags pour qualifier l’information et la rendre plus facilement « retrouvable » dans le futur. Parmi les tags, on retrouvait le ou les acteurs concernés, la zone géographique ou encore le type d’information dont il s’agissait, etc.
Imaginons maintenant que nous souhaitons ajouter une dimension plus visuelle et un niveau d’analyse supplémentaire au livrable de veille en y intégrant des dataviz.
Déjà abonné ? Je me connecte ici...