|
|
Bonjour
|
Chère communauté Bases & Netsources,
la Rédaction est ravie de vous retrouver pour un nouvelle année 2024 !
|
|
---|
|
Nous vous avons préparé de nouveaux contenus et surtout de nouveaux rendez-vous avec l'ouverture imminente des inscriptions pour deux sessions Masterclass Veille & Search 2024.
-
Masterclass Veille & Search - IA : une journée consacrée à l'intelligence artificielle (ChatGPT, Bard, Perplexity, Claud,... et d'autres) appliquée dans la son activité de veilleur, connaître et comprendre les outils d'IA afin de correctement positionner sa valeur face à la technologie, comment les insérer dans vos pratiques et une initiation au prompt engineering pour une prise en main optimale.
-
Masterclass Veille & Search - RSS : une journée dédiée au RSS, étape décisive dans la conception d'un dispositif de veille performant. Les usages et surtout les astuces et nouveautés de ce sujet de veille en expansion.
Pour les pré-inscriptions et plus de renseignements n'hésitez pas à nous contacter à l'adresse : contact@bases-netsources.com
A suivre ... !
|
|
---|
L’actualité sous l’angle de la veille et de la recherche d’info
Au sommaire de ce numéro, 3 actualités récentes soigneusement sélectionnées qui pourront avoir un impact sur les professionnels de l’info, veilleurs et analystes à court ou moyen terme.
1. TENDANCES - L’évolution du marché des podcasts et ce que ça veut dire pour la veille
2. SEARCH - Google et X (Twitter) veulent mieux mettre en valeur les trésors du Web
3. IA – L’IA pour interroger des longs documents a des progrès à faire
|
|
---|
|
TENDANCES – L’évolution du marché des podcasts et ce que ça veut dire pour la veille
Ce n’est pas parce que Google Podcasts va disparaître (pour être intégré à YouTube Music) que cela va sonner la fin des podcasts et leur intérêt pour le veilleur.
|
|
Pourquoi c'est intéressant ?
Ces grandes tendances nous invitent à réfléchir sur la place des podcasts dans nos processus de veille. L’expérience nous montre que les podcasts peuvent être extrêmement pertinents pour certaines veilles avec des contenus que l’on ne retrouve nulle part ailleurs. Le format long laisse d’ailleurs beaucoup plus la place à de l’analyse et au décryptage, ce qui est très précieux.
Ces tendances nous invitent donc à consacrer nos efforts sur podcasts d’information plutôt que sur les podcasts de marques qui sont visiblement dans une mauvaise passe. Mais l’identification de podcasts reste un point sensible.
Il faut aussi avoir conscience que certains podcasts aujourd’hui gratuits pourraient devenir payants. Il faudra alors s’adapter et faire des choix comme on le fait déjà depuis plusieurs années avec la presse.
|
|
Le développement de produits et fonctionnalités d’IA devrait aussi nous permettre de mieux intégrer les podcasts en langue étrangère à nos veilles. Le cas de Spotify est encore anecdotique mais cela pourrait devenir la norme dans les années à venir. Aujourd’hui, on peut d’ores et déjà injecter des podcasts dans des outils de speech to text pour récupérer la transcription et traduire ensuite ce transcript grâce à des outils de traduction et faire des recherches par mot-clé dessus.
Tout cela fait indéniablement gagner du temps et permet d’inclure des podcasts pertinents dans ses veilles là où on les aurait tout simplement exclus du sourcing il y a quelques années par manque de temps.
|
|
---|
🎁 – Notre recommandation de podcast à intégrer à sa veille métier : TechSources, une pépite avec des intervenants de qualité pour découvrir des sources (newsletters, podcasts, sites...) mais aussi des outils et des méthodes/pratiques à intégrer à ses propres veilles. |
|
---|
SEARCH - Google et X (Twitter) veulent mieux mettre en valeur les trésors du Web
Il y a quelques semaines, Google a annoncé une mise à jour de ses algorithmes de classement appelée « Hidden Gems » (soit « pépites cachées »).
Le but : mettre en valeur des contenus offrant une expertise ou une expérience unique émanant notamment des médias sociaux, blogs et forums et en favorisant les informations utiles créées pour les humains plutôt que pour le classement dans les moteurs de recherche.
|
|
|
Pourquoi c'est intéressant ?
Ce mouvement opéré par Google et X n’est certainement pas désintéressé, il en va surtout de leur survie face aux assistant IA pour le premier et face à la fuite des grands comptes pour l’autre.
Mais si les algorithmes réussissent à réellement faire ressortir ces pépites, c’est plutôt une bonne nouvelle pour les veilleurs notamment pour la phase de sourcing. Cela fait en effet des années qu’il est de plus en plus difficile d’identifier les sources expertes les plus pertinentes tant les pages de résultats sont polluées par des résultats commerciaux ou des résultats informatifs, certes, mais rédigées par des entreprises et des marques (le fameux marketing de contenus)
.
Suite à la mise à jour Google, certains sites commencent depuis à voir une augmentation du trafic depuis Google, c’est par exemple le cas de certains forums hébergés sur Google groups.
En attendant des résultats concrets, on continuera à peaufiner son sourcing en tirant parti du trio gagnant : outils, sources et mots-clés et en partant à la recherche de pépites informationnelles qui n’ont pas forcément pignon sur rue.
|
|
IA – L’IA pour interroger des longs documents a des progrès à faire
Un des grands espoirs de l’IA pour la veille et la recherche d’information est de réussir à traiter et analyser des très gros volumes de données pour en extraire des informations et signaux, ce qu’il est impossible de faire humainement ou qui est extrêmement chronophage.
Deux tests récents nous montrent que la route pour en arriver là est encore longue.
|
|
|
1er TEST : Le premier exemple nous vient de Gregory Kamradt, un entrepreneur spécialisé dans l’IA qui a testé les capacités de GPT4 à retrouver des informations/faits dans des textes longs (jusqu’à 128 000 tokens – D’après ChatGPT, un document de 128 000 tokens pourrait occuper environ 250 à 300 pages.
Il en ressort que les performances de GPT-4 ont commencé à se dégrader au-delà de 73 000 tokens (150 à 180 pages). Au-delà d’une certaine taille de document, GPT-4 a donc beaucoup plus de mal à retrouver une info qui est pourtant bien présente. Et là où il s’avère le plus mauvais, c’est quand l’information se trouve dans la première moitié du document à l’exception du tout début de l’article. GPT-4 réussissait en revanche très bien à retrouver les informations placées au tout début du document et dans la 2e moitié.
Il en conclut qu’il faut partir du principe qu’il n’y a aucune garantie que les outils utilisant GPT-4 sont capables de retrouver des informations dans des documents.
Gregory Kamradt avait ensuite fait un test similaire avec Claude 2.1 et arrivait à la conclusion que Claude retrouvait bien les informations placées au début et à la fin du document mais moins celles au milieu et que la performance se dégradait quand le document faisait plus de 90 000 tokens (180 à 220 pages).
|
|
---|
2ème TEST : Deuxième exemple, fourni cette fois-ci par Anthropic, l’entreprise qui est derrière l’IA Claude pour répondre au test mené par Gregory Kamradt. Eux, ont comparé les performances de Claude 2.0 et 2.1 à retrouver des informations dans des longs textes. Les tests menés par leurs équipes montrent globalement que les performances s’améliorent entre Claude 2.0 et Claude 2.1.
Mais la qualité des réponses varie selon la taille du document : quand le document fait 70 000 tokens (140 à 170 pages), Claude 2.1 retrouve moins bien les informations placées au milieu du document. Quand le document fait 195 000 tokens (400 à 500 pages), c’est quand l’information est placée au début du document qu’il est le plus mauvais même si le taux d’erreur n’est évalué qu’à 4%.
|
|
---|
Pourquoi c'est important ?
Dans un contexte où les veilleurs se posent le plus en plus la question d’utiliser des outils qui permettent de résumer et d’interroger des documents et des contenus, ces tests nous rappellent qu’aucun outil ou fonctionnalité IA pour interroger des document ne nous garantit de trouver l’information que l’on cherche même si elle s’y trouve. S’il la trouve, tant mieux, s’il ne trouve pas, il ne faut surtout pas s’arrêter à cette réponse et on embrayera sur d’autres méthodes de recherche notamment par mot-clé classique.
Plus que jamais, dans un contexte où on utilise de plus en plus d’outils de recherche « boîte noire », il faut multiplier les méthodes et les outils quand on fait de la veille et des recherches. Autant les outils de recherche professionnels (agrégateurs de presse payants, bases de données, serveurs, moteurs des lecteurs de flux RSS, etc.) nous garantissent de retrouver tous les documents citant les mots-clés que nous avons entrés (mais le volume à traiter peut être titanesque), autant tous les autres outils fonctionnant avec des algorithmes de pertinence et de sélection ne nous apportent aucune garantie de retrouver une information ou de fournir la meilleure réponse à la question posée.
Il faut donc pouvoir combiner les deux approches sans en abandonner une au profit de l’autre.
|
|
|
NOTRE LIGNE EDITORIALE ET NOTRE INDÉPENDANCE
Depuis plus de 35 ans, nous maintenons une indépendance totale vis-à-vis de tous les acteurs et outils que nous analysons dans nos colonnes, qu'il s'agisse de serveurs de bases de données, d'outils de recherche, de plateformes de veille, d'éditeurs de solutions, ainsi que de tout fournisseur de contenus.
Nous n'incluons jamais de publi-reportage et tous nos contenus sont exclusifs.
Merci de continuer à soutenir les éditeurs indépendants !
|
|
|
---|
|
|