Vous n’êtes pas connecté. Certains éléments peuvent ne pas s’afficher correctement.

Newsletter : Brèves de Veille

Cliquez ici pour voir cet envoi en ligne

Bases & Netsources

Newsletter augmentée

08 janvier 2024

Bonjour

Chère communauté Bases & Netsources,

la Rédaction est ravie de vous retrouver pour un nouvelle année 2024 !

Nous vous avons préparé de nouveaux contenus et surtout de nouveaux rendez-vous avec l'ouverture imminente des inscriptions pour deux sessions Masterclass Veille & Search 2024.

Masterclass Veille & Search - IA : une journée consacrée à l'intelligence artificielle (ChatGPT, Bard, Perplexity, Claud,... et d'autres) appliquée dans la son activité de veilleur, connaître et comprendre les outils d'IA afin de correctement positionner sa valeur face à la technologie, comment les insérer dans vos pratiques et une initiation au prompt engineering pour une prise en main optimale.
Masterclass Veille & Search - RSS : une journée dédiée au RSS, étape décisive dans la conception d'un dispositif de veille performant. Les usages et surtout les astuces et nouveautés de ce sujet de veille en expansion.

Pour les pré-inscriptions et plus de renseignements n'hésitez pas à nous contacter à l'adresse : contact@bases-netsources.com

A suivre ... !

BREVES DE VEILLE

L’actualité sous l’angle de la veille et de la recherche d’info

Au sommaire de ce numéro, 3 actualités récentes soigneusement sélectionnées qui pourront avoir un impact sur les professionnels de l’info, veilleurs et analystes à court ou moyen terme.

1. TENDANCES - L’évolution du marché des podcasts et ce que ça veut dire pour la veille

2. SEARCH - Google et X (Twitter) veulent mieux mettre en valeur les trésors du Web

3. IA – L’IA pour interroger des longs documents a des progrès à faire

‍TENDANCES – L’évolution du marché des podcasts et ce que ça veut dire pour la veille

Ce n’est pas parce que Google Podcasts va disparaître (pour être intégré à YouTube Music) que cela va sonner la fin des podcasts et leur intérêt pour le veilleur.

Zoom sur les dernières grandes tendances :

1. Le marché des podcasts évolue mais le bilan est positif pour certains, négatifs pour d’autres. On a d’un côté les podcasts natifs qui gagnent en popularité et en écoute et de l’autre les podcasts de marque/en marque blanche qui eux entrent en crise.

2. Autre tendance à prendre en compte : l’augmentation des modèles payants. C’est par exemple le cas aux Etats-Unis avec le New York Times qui a lancé une app de lecture pour ses podcasts réservés à ses abonnés ou NPR qui réserve certains de ces podcasts à ses abonnés. Au Royaume-Uni, The Economist a choisi de faire passer la quasi-totalité de ses podcasts derrière un paywall.

3. Dernière grande tendance : l’amélioration de l’accessibilité des podcasts dans différentes langues. Spotify a ainsi lancé un projet pilote de traduction de ses podcasts de l’anglais vers l’espagnol, le français et l’allemand.

‍Pourquoi c'est intéressant ?

Ces grandes tendances nous invitent à réfléchir sur la place des podcasts dans nos processus de veille. L’expérience nous montre que les podcasts peuvent être extrêmement pertinents pour certaines veilles avec des contenus que l’on ne retrouve nulle part ailleurs. Le format long laisse d’ailleurs beaucoup plus la place à de l’analyse et au décryptage, ce qui est très précieux.

Ces tendances nous invitent donc à consacrer nos efforts sur podcasts d’information plutôt que sur les podcasts de marques qui sont visiblement dans une mauvaise passe. Mais l’identification de podcasts reste un point sensible.

Il faut aussi avoir conscience que certains podcasts aujourd’hui gratuits pourraient devenir payants. Il faudra alors s’adapter et faire des choix comme on le fait déjà depuis plusieurs années avec la presse.

Voir notre article : « Identifier des podcasts pour sa veille ».

Le développement de produits et fonctionnalités d’IA devrait aussi nous permettre de mieux intégrer les podcasts en langue étrangère à nos veilles. Le cas de Spotify est encore anecdotique mais cela pourrait devenir la norme dans les années à venir. Aujourd’hui, on peut d’ores et déjà injecter des podcasts dans des outils de speech to text pour récupérer la transcription et traduire ensuite ce transcript grâce à des outils de traduction et faire des recherches par mot-clé dessus.

Tout cela fait indéniablement gagner du temps et permet d’inclure des podcasts pertinents dans ses veilles là où on les aurait tout simplement exclus du sourcing il y a quelques années par manque de temps.

‍Pour aller plus loin :

🎁 – Notre recommandation de podcast à intégrer à sa veille métier :
TechSources, une pépite avec des intervenants de qualité pour découvrir des sources (newsletters, podcasts, sites...) mais aussi des outils et des méthodes/pratiques à intégrer à ses propres veilles.

SEARCH - Google et X (Twitter) veulent mieux mettre en valeur les trésors du Web

Il y a quelques semaines, Google a annoncé une mise à jour de ses algorithmes de classement appelée « Hidden Gems » (soit « pépites cachées »).

Le but : mettre en valeur des contenus offrant une expertise ou une expérience unique émanant notamment des médias sociaux, blogs et forums et en favorisant les informations utiles créées pour les humains plutôt que pour le classement dans les moteurs de recherche.

‍A quelques jours d’intervalles, X (ex-Twitter) a quant à lui annoncé une « mise à jour majeure » de son algorithme pour inclure des comptes plus petits.

Le but visé est ici sensiblement le même : faire découvrir aux utilisateurs de nouveaux comptes qui correspondent à leurs besoins informationnels mais seraient jusqu’à présent passés inaperçus.

‍Pourquoi c'est intéressant ?

Ce mouvement opéré par Google et X n’est certainement pas désintéressé, il en va surtout de leur survie face aux assistant IA pour le premier et face à la fuite des grands comptes pour l’autre.

Mais si les algorithmes réussissent à réellement faire ressortir ces pépites, c’est plutôt une bonne nouvelle pour les veilleurs notamment pour la phase de sourcing. Cela fait en effet des années qu’il est de plus en plus difficile d’identifier les sources expertes les plus pertinentes tant les pages de résultats sont polluées par des résultats commerciaux ou des résultats informatifs, certes, mais rédigées par des entreprises et des marques (le fameux marketing de contenus)

Suite à la mise à jour Google, certains sites commencent depuis à voir une augmentation du trafic depuis Google, c’est par exemple le cas de certains forums hébergés sur Google groups.

En attendant des résultats concrets, on continuera à peaufiner son sourcing en tirant parti du trio gagnant : outils, sources et mots-clés et en partant à la recherche de pépites informationnelles qui n’ont pas forcément pignon sur rue.

‍Pour aller plus loin :

IA – L’IA pour interroger des longs documents a des progrès à faire

Un des grands espoirs de l’IA pour la veille et la recherche d’information est de réussir à traiter et analyser des très gros volumes de données pour en extraire des informations et signaux, ce qu’il est impossible de faire humainement ou qui est extrêmement chronophage.

Deux tests récents nous montrent que la route pour en arriver là est encore longue.

‍1er TEST : Le premier exemple nous vient de Gregory Kamradt, un entrepreneur spécialisé dans l’IA qui a testé les capacités de GPT4 à retrouver des informations/faits dans des textes longs (jusqu’à 128 000 tokens – D’après ChatGPT, un document de 128 000 tokens pourrait occuper environ 250 à 300 pages.

Il en ressort que les performances de GPT-4 ont commencé à se dégrader au-delà de 73 000 tokens (150 à 180 pages). Au-delà d’une certaine taille de document, GPT-4 a donc beaucoup plus de mal à retrouver une info qui est pourtant bien présente. Et là où il s’avère le plus mauvais, c’est quand l’information se trouve dans la première moitié du document à l’exception du tout début de l’article. GPT-4 réussissait en revanche très bien à retrouver les informations placées au tout début du document et dans la 2e moitié.

Il en conclut qu’il faut partir du principe qu’il n’y a aucune garantie que les outils utilisant GPT-4 sont capables de retrouver des informations dans des documents.

Gregory Kamradt avait ensuite fait un test similaire avec Claude 2.1 et arrivait à la conclusion que Claude retrouvait bien les informations placées au début et à la fin du document mais moins celles au milieu et que la performance se dégradait quand le document faisait plus de 90 000 tokens (180 à 220 pages).

Source : Pressure Testing GPT-4-128K With Long Context Recall

2ème TEST : Deuxième exemple, fourni cette fois-ci par Anthropic, l’entreprise qui est derrière l’IA Claude pour répondre au test mené par Gregory Kamradt. Eux, ont comparé les performances de Claude 2.0 et 2.1 à retrouver des informations dans des longs textes. Les tests menés par leurs équipes montrent globalement que les performances s’améliorent entre Claude 2.0 et Claude 2.1.

Mais la qualité des réponses varie selon la taille du document : quand le document fait 70 000 tokens (140 à 170 pages), Claude 2.1 retrouve moins bien les informations placées au milieu du document. Quand le document fait 195 000 tokens (400 à 500 pages), c’est quand l’information est placée au début du document qu’il est le plus mauvais même si le taux d’erreur n’est évalué qu’à 4%.

Source : Test Anthropic

‍Pourquoi c'est important ?

Dans un contexte où les veilleurs se posent le plus en plus la question d’utiliser des outils qui permettent de résumer et d’interroger des documents et des contenus, ces tests nous rappellent qu’aucun outil ou fonctionnalité IA pour interroger des document ne nous garantit de trouver l’information que l’on cherche même si elle s’y trouve. S’il la trouve, tant mieux, s’il ne trouve pas, il ne faut surtout pas s’arrêter à cette réponse et on embrayera sur d’autres méthodes de recherche notamment par mot-clé classique.

Plus que jamais, dans un contexte où on utilise de plus en plus d’outils de recherche « boîte noire », il faut multiplier les méthodes et les outils quand on fait de la veille et des recherches. Autant les outils de recherche professionnels (agrégateurs de presse payants, bases de données, serveurs, moteurs des lecteurs de flux RSS, etc.) nous garantissent de retrouver tous les documents citant les mots-clés que nous avons entrés (mais le volume à traiter peut être titanesque), autant tous les autres outils fonctionnant avec des algorithmes de pertinence et de sélection ne nous apportent aucune garantie de retrouver une information ou de fournir la meilleure réponse à la question posée.

Il faut donc pouvoir combiner les deux approches sans en abandonner une au profit de l’autre.

‍Pour aller plus loin : Les meilleurs outils IA pour résumer et interroger les contenus de la veille

NOTRE LIGNE EDITORIALE ET NOTRE INDÉPENDANCE

Depuis plus de 35 ans, nous maintenons une indépendance totale vis-à-vis de tous les acteurs et outils que nous analysons dans nos colonnes, qu'il s'agisse de serveurs de bases de données, d'outils de recherche, de plateformes de veille, d'éditeurs de solutions, ainsi que de tout fournisseur de contenus.

Nous n'incluons jamais de publi-reportage et tous nos contenus sont exclusifs.

Merci de continuer à soutenir les éditeurs indépendants !

Se désinscrire de cette newsletter