Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Article en accès libre - Enquête 2024 sur les plateformes de veille : quelques mouvements et toujours plus d’IA

Netsources no
171
publié en
2024.08
1673
Réduire Augmenter Taille de la police
Article en accès libre - Enquête 2024 sur les plateformes ... Image 1
Article en accès libre - Enquête 2024 sur les plateformes ... Image 1

En 2022, nous avions déjà mené une première grande enquête sur les plateformes de veille. Elle avait fait l’objet d’un numéro spécial de la revue I2D.

Depuis cette date, le marché s’est transformé avec l’intégration de Digimind dans Onclusive (juillet 2022), les rachats successifs par Chapsvision, après celui de Bertin (AMI EI) en juin 2021, de QWAM (mars 2023) et Geotrend (juin 2023) et de plusieurs autres acteurs de l’OSINT, de la traduction ou de l’analyse de données, ou encore l’acquisition d’Iscope par KB Crawl en février 2024.

En parallèle, et depuis 2020, d’autres acteurs, plus petits et aux publics plus confidentiels, sont apparus sur le marché des éditeurs de veille, avec des solutions souvent boostées par l’intelligence artificielle. Le recours croissant aux technologies d’IA a considérablement accéléré la transformation des tech­nologies de veille.

Il était donc devenu nécessaire d’actualiser notre enquête.

Mathieu Andro est Animateur du réseau de veille des Services du Premier ministre

Corinne Dupin est Consultante et formatrice au sein du cabinet Ourouk

En complément des analyses qui vont suivre, l’ensemble de nos données sont de nouveau accessibles sur notre site d’enquête.

Nous avons contacté pas moins de 70 éditeurs parmi ceux qui avaient déjà répondu à notre précédente enquête, mais aussi parmi ceux que nous avons identifiés entre-temps. Tous n’ont malheureusement pas fait le choix de répondre à nos sollicitations. Nous avons également obtenu des réponses d’éditeurs que nous n’avions pas sollicités et qui ont répondu spontanément et directement à une enquête complètement ouverte.

Le partage des informations recueillies par nos soins vise à faciliter le travail de consultation des organisations qui cherchent à se doter de technologies, mais aussi à dépasser les démarches en silos. Cette initiative a également été pensée pour le bénéfice des éditeurs qui seront peut-être moins surchargés de questions et pourront aussi s’inspirer parfois positivement de leurs concurrents. La sincérité de leurs réponses nous semble être renforcée par la transparence auprès de leurs clients comme de leurs concurrents.

Pour notre nouvelle enquête, nous avons d’ailleurs ajouté des vidéos d’entretiens avec les éditeurs. Elles permettent de mieux connaître leurs cultures d’entreprise, de mettre des visages sur des entre­preneurs, mais aussi de « lever le capot » de leurs outils et de se faire une idée plus concrète de l’ergonomie et du fonctionnement de leurs solutions au-delà de leur seules déclarations. Les éditeurs Cikisi, Esprits Collaboratifs (Curebot), IXXO, KB Crawl, maïplug, niiwaa, Sindup et Wabtch ont ainsi accepté de se prêter au jeu des échanges et démonstrations vidéo.

Qui sont les éditeurs ayant répondu à notre enquête ?

Les éditeurs de plateformes sont généralement franco­phones et s’adressent essentiellement au marché francophone. Au-delà d’un biais évident lié à l’origine géographique des auteurs de l’enquête, il est possible que le métier de veilleur et ses outils soient une spécificité francophone et que dans les pays anglo-saxons, la veille soit davantage une compétence métier partagée.

La plus grande société représentée (en termes d’effectif) est Chapsvision avec 1000 personnes. Elle est suivie par Talkwalker qui a déclaré 400 collaborateurs, Valona (anciennement M-Brain) avec plus de 200, Digimind avec 160 et Akio avec 60 personnes. L’autre côté de l’échiquier est investi par des développeurs informatiques, détenteurs de petites structures, qu’ils soient enseignants-chercheurs (niiwaa, maïplug) ou ex-chargé de veille et de l’innovation (Wabtch).

Tous ces acteurs ne jouent évidemment pas dans la même cour. Si l’ambition générale est celle d’automatiser le recueil d’information, les plateformes de veille intégrées s’adressent de façon préférentielle à de grands comptes, des industriels et des sociétés de service auxquels ils proposent une panoplie de fonctionnalités collaboratives et de modalités de diffusion (portail de lecture, alertes, newsletters…), tandis que les solutions plus modestes d’entrepreneurs (qu’ils désignent eux-mêmes comme de simples « outils de surveillance du web » ou « moteur de recherche de renseignement ») ciblent davantage des PME, des start-up, voire des veilleurs « isolés » moins fortunés et/ou pragmatiques, surtout désireux de perdre le moins de temps possible dans la capture et le traitement des informations.

Quels sont les grands modèles de plateformes ?

Si le modèle de la plateforme « monolithique » proposant des fonctionnalités intégrées pour chaque étape du cycle de la veille est dominant, on observe toutefois que ChapsVision, Coexel, IXXO, KB Suite, Valona et Wabtch offrent la possibilité d’acquérir des modules séparés. Cela permet, par exemple, d’acquérir un module pour la collecte chez un éditeur, un autre module pour la curation chez un autre, possiblement encore un autre module pour la diffusion ou pour l’analyse. La modularité est appréciable lorsque l’entreprise - ou le veilleur - dispose déjà de son propre espace de diffusion (intranet, SharePoint ou CMS quelconque) - auquel cas elle ou il pourra ne se doter que de la seule « brique » de la surveillance.

À l’instar de notre dernière enquête, les sources juridiques restent celles qui sont les plus difficiles à surveiller automatiquement. Seuls Aleph Search, Curebot et KB Crawl ont déclaré une certaine expertise en la matière. Cette difficulté récurrente est probablement liée au modèle économique des éditeurs de sources juridiques, qui se fonde sur la rareté de l’information et les amène à se protéger des robots.

Le modèle économique des éditeurs scientifiques est diamétralement opposé. Fondé sur la recherche de la visibilité et de la citation (facteurs d’impact), il incite les éditeurs à faciliter le crawling ou la surveillance
automatique des publications par des flux RSS complets.

On observe également une spécialisation des types d’outils et une séparation des technologies de social listening et d’e-réputation, lesquelles s’adressent surtout aux acteurs de la communication. C’est le cas d’Akio Insights, Aleph Search, Digimind Social et Talkwalker.

La dichotomie entre veilles sur sources spécifiques et veilles radars par combinaison de mots clés sur de gros bouquets de sources est également en train de s’estomper, la plupart des éditeurs proposant désormais des bouquets de sources.

Les clubs utilisateurs existent chez 56,3 % des éditeurs et sont un moyen privilégié pour capter les besoins d’évolution de leurs solutions.

Les coûts d’acquisition oscillent entre 2 000 € et 200 000 € pour une moyenne de 16 000 € par an. Cela dit, comme il s’agit d’une moyenne sur seulement 6 éditeurs ayant répondu à cette question, elle ne nous semble pas très significative, d’autant que lors de notre dernière enquête, cette moyenne excédait les 40 000 € par an.

Figure 1 : Page d’accueil de notre site-panorama des solutions de veille

Quelles sont leurs fonctionnalités principales ?

La surveillance de contenus audiovisuels, grâce aux technologies de speech to text, reste minoritaire. 4 répondants la proposent (Curebot, Digimind Social, KB Suite et Sindup).

L’écriture collaborative - à savoir la possibilité pour plusieurs personnes d’intervenir simultanément sur un même contenu - est encore plus rare puisque seuls 3 éditeurs l’ont implémentée (Curebot, Digimind Social et Valona). La collaboration entre veilleurs pour dépasser les silos institutionnels, les pratiques de veille collaborative pour effacer la division traditionnelle entre la cellule de veille productrice d’information et les consommateurs de ses contenus semblent encore loin d’être la règle dans les organisations.

La possibilité de veiller à partir d’une image de logo ou de visage n’est proposée que par Aleph Search et Talkwalker.

Pour la diffusion des veilles, 40 % des éditeurs déclarent avoir recours à un CMS comme :

  • WordPress pour Sindup et Siveille,
  • GRCContact pour niiwaa,
  • ou encore dolibarr et Humhub, également pour Siveille.

Concernant l’intelligence artificielle, 43,8 % des éditeurs déclarent la proposer pour détecter de nouvelles sources par apprentissage sur les sources déjà surveillées. C’est le cas d’Akio Insights, Aleph Search, Cikisi, Mytwip (Coexel), Curebot, Digimind Social et niiwaa.

Les fonctionnalités de curation automatisée ou semi-automatisée par apprentissage qu’on appelle aussi machine learning- des contenus validés ou rejetés par les veilleurs sont proposées majoritairement par 56,3 % des éditeurs.

La production de résumés automatiques est déjà majoritaire à 68,8 %. La production de synthèses de plusieurs articles est proposée par la moitié des répondants.

En revanche, la capacité à détecter des contenus produits par de l’intelligence artificielle générative est très minoritaire puisque seule la plateforme Valona la propose. La détection des infox et fake news, de même que l’évaluation du niveau de fiabilité de l’information sont également peu répandues. Seuls Curebot, Digimind Social et la plateforme Valona proposent ce type de service.

L’analyse du sentiment est une technologie déjà largement éprouvée. Elle est proposée par Akio Insights, Curebot, Digimind Social, Market Intelligence ChapsVision, Valona et Talkwalker. Il en est de même pour les analyses sémantiques par data visualisation de corpus de veille ou text mining, qui sont proposées par 43,8 % des répondants. Les cartes géographiques sur les entités nommées sont proposées quant à elles par 68,8 % des répondants.

Principaux éléments de différenciation entre les solutions

Outre les fonctionnalités attendues d’une solution de veille selon les contextes d’usage et les coûts d’acquisition et de fonctionnement, les éléments de différenciation entre les différentes propositions du marché relèvent principalement de l’expérience utilisateur : confort perçu d’utilisation, réduction maximale du bruit, accès rapide à l’information pertinente…

Les filtres proposés pour affiner les requêtes ou faciliter l’exploitation des résultats de la veille contribuent à une expérience qualitative et dynamique, promue notamment par les éditeurs Cikisi ou IXXO :

  • Filtrage par métadonnées, parfois enrichies par l’IA. Par exemple : source, catégorie de sources, zone géographique… ou issues d’un thésaurus métier importé par le client (cas d’IXXO), par terme de recherche, par concept, c’est-à-dire un champ sémantique délimité par autant de requêtes booléennes que de langues, ou par champ contextuel, à savoir un filtre contextuel couvrant toutes les langues, apposé au moyen de l’IA (Cikisi)
  • Filtrage tenant compte des habitudes de lecture identifiées par traitement statistique, en fonction des sources les plus populaires et du type de contenus dernièrement lus, plébiscités, commentés ou capitalisés (Cikisi)
  • Filtrage en fonction du degré de traitement du sujet, de l’article de fond à la simple mention (Wabtch).

La datavisualisation concourt elle aussi à faciliter l’exploitation des contenus : outre l’extraction d’entités nommées et les nuages de mots, assez souvent proposés, la clusterisation ou regroupement de contenus par grandes catégories (Curebot, IXXO…) peut être un plus, tout comme une gamme d’histogrammes, graphiques en mosaïque, cartes comptant une ou plusieurs variables ; par exemple : pays mentionnés dans les contenus, montants de contrats… (Cikisi). La cartographie des co-occurrences peut aussi s’avérer précieuse (IXXO, Geotrend…).

Pour un outil comme niwaa, la datavisualisation n’intervient pas dans l’analyse, mais au moment de la détermination du contexte de recherche, réorienté de façon itérative au fil des propositions algorithmiques.

La personnalisation de la navigation dans la plateforme peut également constituer un motif de choix d’une solution : codes couleurs différents à des fins de repérage (Cikisi, Wabtch..), expérience de lecture dynamisée par les recommandations de son IA Mila vers d’autres « itinéraires de lecture » chez Cikisi…

Un autre facteur de différenciation est la possibilité offerte par certaines solutions de lancer une investigation à partir d’une feuille blanche, sans corpus de sources constitué au départ faute de maîtrise du sujet. IXXO propose ainsi d’explorer ce qui se dit sur le web sur le sujet en question via une douzaine de moteurs de recherche, d’identifier des sous-concepts par traitement statistique, puis d’initier une stratégie de recherche et la création d’agents intelligents venant alimenter un « data lake » c’est-à-dire un corpus de données non structurées, puisqu’il s’agit ici de favoriser la rapidité de constitution d’un corpus et d’imprégnation du sujet.

D’autres comme Curebot proposent, sur des sujets non maîtrisés, de lancer une recherche web en mode exploratoire dans différents moteurs (Google, Bing…), ou encore de lancer sur 1 à 3 mois une campagne de surveillance de milliers de sources via un data broker.

Certains outils font plus radicalement l’économie de l’étape du sourcing : c’est le cas notamment du moteur de veille multilingue niiwaa qui interroge des millions d’enregistrements (data lakes) et des bases de données externes, ouvertes ou fermées,, au moyen de termes de recherche, puis apprend des votes effectués en fonction de la pertinence des items remontés. niwaa et maïplug se passent ainsi également de l’élaboration d’une requête : car comment formuler ce que l’on ne sait pas encore nommer ?.... Le mode interactif d’orientation de la collecte au moyen de votes se veut alors à l’image du mode de fonctionnement du cerveau.

Figure 2 : Aperçu de quelques options de filtrage disponibles sur la plateforme

Changements en perspective dans les pratiques de veille

L’intelligence artificielle, déjà mobilisée par les éditeurs depuis quelques années, notamment pour la recomman­dation de contenus similaires, la traduction automatique des articles en langue étrangère au fil de la lecture et la génération automatique de résumés, est envisagée à présent sous sa forme générative. Le chatbot est le moyen d’interaction pour faciliter l’exploitation des corpus de veille, en permettant de requêter en langage naturel ou « converser » à partir des contenus validés. C’est l’orientation prise par des acteurs comme Curebot, Cikisi, KB Crawl, ou Sindup sur son portail de veille… Cette fonctionnalité nouvelle ouvre le champ de la veille à des consommateurs ponctuels qui viendront l’interroger pour des besoins informationnels précis plus circonscrits dans le temps, davantage que sur des sujets récurrents.

L’IA, de façon plus anecdotique, vient aussi en renfort du scraping chez KB Crawl en détectant les zones pertinentes à surveiller en fonction des habitudes de scraping du veilleur.

Le développement de l’apprentissage automatique dans les solutions de veille sonnera peut-être à terme le glas du requêtage et de la sélection de mots-clés, considérés par bon nombre de veilleurs - comme le concepteur de maïplug - comme lourds, imparfaits, restrictifs, limitants quand l’IA est, elle, en mesure d’embrasser un volume de mots-clés largement plus important et croissant.

Autant dire que dans la perspective de la disparition (programmée ?) du sourcing et du requêtage et du dé­veloppement des capacités de détection, filtrage, re­connaissance, classification et recommandation des systèmes d’IA, le paysage des solutions de veille risque à plus ou moins long terme d’être drastiquement bouleversé, et avec lui les compétences attendues des veilleurs.

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...