Avec les modules complémentaires (appelés aussi « add-ons » et « add-ins ») des suites bureautiques de Microsoft et Google, il est possible de booster à l’IA ses logiciels de rédaction, tableurs et présentations. Cela permet de bénéficier des fonctionnalités de ChatGPT tout en restant dans son environnement de travail. Nous avons testé une douzaine d’extensions gratuites, et voici les quatre utiles à connaître.
Notre chouchou, et pas seulement car il est développé par une entreprise française ! Talarian a développé deux modules, un pour la suite Microsoft (Word+Excel) et un autre pour la suite Google (Docs+Sheets).
On les trouve sur le site de Talarian, sur la Marketplace de Google Workspace ou dans le catalogue de modules complémentaires de Microsoft, via notamment le menu. Pour faire fonctionner ce logiciel avec ChatGPT, il est nécessaire créer une clé API sur ChatGPT (voir le tuto réalisé par WeDoData).
Avec Excel ou Sheets, cette extension permet de nettoyer et d’enrichir sa base de données en introduisant directement dans son document les invites (ou prompts) prérédigées de ChatGPT. Le plus impressionnant est sans doute lorsqu’on extrait ou ajoute des informations en ligne en décrivant simplement son besoin en langage naturel, sans recourir à des formules complexes.
Par exemple, pour compléter une liste de noms d’entreprises avec leurs départements, numéros de téléphones ou les villes d’établissement, on ajoute une colonne et il suffit d’insérer une invite préenregistrée dans une cellule, comme
=GPT(« indique les numéros de téléphone »)
. Pour plus d’exemples, voir notre article Maîtriser l’open data et l’IA pour transformer et exploiter les données différemment, NETSOURCES N° 168, Janvier-février 2024.
Attention toutefois au risque d’hallucinations dans ce cas. Pour le limiter, penser au prompt, testé et approuvé « Si tu ne sais pas, n’invente pas
», qui réduit grandement la marge d’erreur. Sur Word et Docs, l’extension fonctionne en français et il est possible de créer ou modifier du texte.
La documentation brevet constitue une source inestimable d’information pour établir une veille technologique et concurrentielle, ou même évaluer la valeur d’une entreprise. Au moins une vingtaine de bases de données brevet totalement ou partiellement gratuit sont désormais disponibles sur le WEB. S’il est difficile d’établir une hiérarchie entre elles, deux produits se détachent du lot : Espacenet, produit par l’Office Européen des Brevets, et Patentscope de l’OMPI (Organisation Mondiale de la Propriété Intellectuelle). Quel produit choisir, et faut-il choisir ?
Le contenu d’une base de données brevet se décline en plusieurs éléments : offices couverts, sur quelle période, pour quelles données (données bibliographiques, texte intégral, etc.), et avec quel délai de disponibilité.
La couverture des deux services fait l’objet de pages Web dédiées régulièrement mises à jour.
Patentscope annonce couvrir 79 offices, et Espacenet 104 concernant les informations bibliographiques et 68 concernant le texte intégral. Toutefois, pour certains offices la couverture est très partielle, ou les mises à jour plus ou moins tardives, allant jusqu’à plus d’un an de délai à compter de la date de publication. Hors de ce cas de figure, on tombe côté Espacenet à 70 offices couverts pour les données bibliographiques et 33 pour les données de texte intégral ; côté Patentscope on arrive à 55 offices dont la couverture est régulière concernant les informations bibliographiques. ; par rapport au texte intégral, les plages couvertes n’étant pas précisées, seul le nombre de documents OCRisés l’étant, il est difficile de conclure.
Au vu des chiffres disponibles, et nonobstant quelques lacunes informationnelles, certaines différences non spectaculaires peuvent être notées concernant les six offices essentiels (Européen, Américain, Chinois, Japonais, Coréens et l’OMPI). Patentscope ne couvre pas les documents japonais antérieurs à 1964, là où Espacenet couvre à partir de 1961 pour les documents A (correspondant à la demande de brevet), et 1926 pour les B (correspondant au brevet délivré). On a aussi 2,5 ans supplémentaires de documents coréens de type Y sur Espacenet. Concernant les US, la période 1790 - 1835 est affichée comme disponible sur Patentscope. Mais cette période ne correspond à l’interrogation qu’à 1659 documents, et les données disponibles sont souvent très parcellaires.
Nous vous donnons rendez-vous sur le stand E75 lors du salon Iexpo-Documation, qui se tiendra du 19 au 21 mars prochain.
📣 Ne manquez pas notre atelier gratuit : "Faut-il externaliser sa veille ?"
Animée par Anne-Marie Libmann, Directrice des Opérations et Aurélie Vathonne, Responsable Pôles Veille & Formation chez FLA CONSULTANTS;
Dans un monde en constante évolution, la veille stratégique est devenue un outil essentiel pour rester compétitif. Mais se pose la question : faut-il externaliser cette fonction ?
Animé par notre équipe d'experts chevronnés, cet atelier est spécialement conçu pour les professionnels et les directions désireux de comprendre les tenants et aboutissants de cette démarche.
Ensemble, nous explorerons les avantages de l'externalisation de la veille tout en abordant les défis à relever pour une mise en œuvre efficace.
Animée par Anne-Marie Libmann, Directrice des Opérations, FLA CONSULTANTS
Intervenants :
Ne manquez pas cette opportunité unique d'enrichir vos connaissances et d'échanger avec des spécialistes du domaine. Réservez dès maintenant votre place et venez découvrir comment la veille externalisée peut propulser votre entreprise vers le succès !
Nous avons hâte de vous retrouver à cet événement incontournable de l'industrie de la gestion de l'information et de la veille stratégique !
Nous lançons ce grand sondage destiné à tous nos abonnés et lecteurs réguliers ou irréguliers, afin de recueillir des informations précieuses sur vos besoins, vos préférences et attentes. Cela nous permettra de réévaluer notre ligne éditoriale et de créer des contenus qui répondent à vos besoins spécifiques.
Merci de votre participation !
Au sommaire de ce numéro, 3 actualités soigneusement sélectionnées qui pourront avoir un impact sur les professionnels de l’info, veilleurs et analystes à court ou moyen terme.
Google SGE met en avant des pages habituellement absentes de la première page
IST et IA – Le passage à l’indexation automatique dans Medline et Pubmed : 47% des articles contiennent désormais des erreurs
L’essor des newsletters locales
Une récente analyse d'Authoritas sur Google SGE (la fonctionnalité d’IA de génération de réponses directement intégrée en haut des résultats de Google mais qui n’est pas encore disponible en Europe) a révélé que les réponses générées par SGE ne correspondent presque jamais (dans 93.8% des cas) aux liens des 10 premiers résultats de recherche organique.
Cela pourrait donc permettre à des sites habituellement mal référencés ou en tout cas absents du top 10 d’être plus visibles. Et par extension, pour le professionnel de l’information de voir des pages et sites pertinents qu’il n’avait pas nécessairement l’habitude de voir apparaître. Mais attention à ne pas se réjouir trop vite : SGE vient tout juste d’arriver et personne ne sait encore quelles sont les techniques et méthodes pour réussir à bien s’y positionner. Quand ce sera le cas, il est possible que les sites habituellement bien référencés reprennent tout simplement leur position de leaders…
Toujours est-il qu’il y a quand même une tendance générale à vouloir mieux faire émerger des contenus de qualité, mais peu visibles :
Et sinon, on peut continuer à utiliser les méthodes des professionnels des informations pour aller dénicher des pépites et trésors sur le Web :
- Sourcing, de la théorie à l’épreuve de la pratique
- Comment enrichir son sourcing grâce à Google Sheets, Airtable & les autres ?
- Identifier des podcasts pour sa veille
- Sourcing : comment détecter des médias réellement nouveaux ?
- Veille internationale : comment trouver des sources en langue étrangère ?
On s’intéressera maintenant à une présentation qui a été faite lors de la conférence annuelle 2023 de l’association des bibliothèques de la santé du Canada et dont le support vient d’être récemment mis en ligne à propos de l’usage de l’indexation (MeSH) par IA dans Medline.
On rappellera que dans Medline et PubMed, les articles sont indexés avec un système de mots-clés hiérarchisés appelé MeSH (Medical Subject Headings). Et cela s’avère très utile pour la recherche d’information.
Depuis avril 2022, tous les articles se voient attribués leur MeSH via l'indexation automatisée (IA). La présentation examine la capacité de l'IA à identifier et représenter correctement les concepts clés d'un article. Les résultats montrent que 47 % des articles examinés présentaient des problèmes au niveau des MeSH, affectant ainsi leur récupération potentielle lors de recherches.
Le basculement à un système d’indexation 100% IA montre à ce stade une dégradation de la qualité de l’indexation et par extension de la recherche. Car on aura dans les résultats à la fois plus de bruit avec des articles non pertinents qui ont reçu des MeSH qui ne les concernent pas et à la fois un risque accru de passer à côté d’articles pertinents qui, eux, n’ont pas reçu le(s) MeSH qu’ils devraient avoir.
La recherche via l’indexation MeSH ne peut ainsi plus, à ce stade, être considérée comme aussi fiable que le passé et nécessite une attention accrue.
Il est donc nécessaire de ne pas se reposer uniquement sur l’indexation pour effectuer ses recherches mais aussi de réaliser des recherches par mot-clés classiques sur le titre, abstract, etc.
On comprend en lisant la présentation que la vérification par un humain de l’indexation automatisée n’a ici rien de systématique : « Selon la NLM (National Library of Medicine), les MeSH attribués par l'IA sont déterminés sur la base des termes du titre, du résumé et des termes et de l'indexation des enregistrements "voisins et connexes", avec un examen humain et une curation des résultats "le cas échéant". »
Et cela n’augure rien de bon pour l’avenir de Medline et Pubmed en termes de qualité d’indexation. L’IA peut indéniablement avoir un rôle à jouer pour l’indexation en faisant gagner du temps et en ingérant de très gros volume de données mais l’IA fait aussi beaucoup d’erreurs et a besoin d’être améliorée, corrigée et entraînée en permanence. Il y a donc besoin d’une couche de vérification humaine pour corriger les erreurs mais aussi améliorer l’algorithme.
Sur ce thème, on conseillera un récent épisode du podcast « Le code a changé » de France Inter intitulé « Les dames de l’algorithmes » qui nous parle d'un groupe d'annotatrices travaillant pour le Palais de Justice et qui entraînent un programme d'IA sur un programme d'anonymisation automatique des décisions de justice. Et qui nous rappelle par la même occasion que l’IA n’a rien de magique et que derrière, il y a souvent beaucoup d’humain !
Pour aller plus loin sur la question de l’intégration de l’IA dans les métiers de l’information :
Faire de la veille, c’est d’abord réussir à identifier les meilleures sources d’information sur les sujets qui nous intéresse. Et ces sources peuvent se présenter sous de multiples formats : sites Web, blogs, comptes sur les réseaux sociaux, mais aussi de plus en plus newsletters.
Et l’une des tendances que l’on peut observer du côté des newsletters, c’est la multiplication de newsletters locales ou hyperlocales développées par des médias et journalistes à travers le monde.
Le magazine britannique The Lead a par exemple annoncé le lancement de 10 newsletters locales, chacune dédiée à une ville du nord de l’Angleterre. Toujours en Angleterre, on retrouve ce modèle de newsletter locale comme avec The Mill, une newsletter d’actualités dédiée à la ville de Manchester ou The Sheffield Tribune pour la ville de Sheffield. Et en France, Nice Matin ne cesse de développer son offre de newsletters locales. Derniers ajouts en date : FicaNice pour Nice et De la Rade au Faron pour Toulon.
Quand on a une dimension locale à inclure à sa veille en France ou à l’international, on ne pense pas nécessairement aux newsletters locales, d’autant que les newsletters ont eu un gros passage à vide pendant des années avant de revenir en force depuis quelques années (voir notre article de 2021 « Substack ou le symbole du retour en force des newsletters pour la veille »).
On a donc grandement intérêt à aller investiguer dans la direction de newsletters locales même si elles ne sont pas toujours faciles à identifier.
Dans notre récent article « Sourcing : l'info locale se renouvelle », on décrypte pour vous cette tendance des newsletters locales mais aussi les nouvelles formes que peut prendre l’information locale bien loin du schéma traditionnel du titre de presse classique et on vous explique comment réussir à les identifier.
Depuis les années 90, l’Open Access, porté par l’essor d’Internet et la philosophie de la science ouverte, a profondément transformé l’accès aux publications scientifiques en démocratisant la diffusion des connaissances.
Cette révolution a été marquée par la création d’archives ouvertes et de moteurs de recherche académiques, facilitant l’accès, libre ou payant, à des articles scientifiques. Elle s’est amplifiée avec la création de plateformes avancées, des initiatives pour l’accès aux citations et résumés, et le développement d’outils dopés à l’intelligence artificielle qui améliorent l’accès, l’analyse, et l’utilisation des données scientifiques.
Tout en gardant à l’esprit les défis notamment en matière de financement et de droits d’auteur, nous avons exploré l’apport de ces ressources ouvertes aux chercheurs, veilleurs et documentalistes et les nouvelles possibilités d’interaction avec les données.
En septembre dernier, nous évoquions la question de la veille sur les réseaux sociaux, qui depuis le déclin de X (Twitter) devient de plus en plus fragmentée (cf. La veille sur les réseaux sociaux s’annonce de plus en plus fragmentée, BASES n°417, Septembre 2023). Si cette question subsiste et continue à rendre la veille sur les réseaux sociaux toujours plus complexe et chronophage, ce n’est pas la seule difficulté à laquelle est aujourd’hui confronté le veilleur.
L’autre dimension à prendre en compte, c’est l’essor du dark social depuis quelques années et du shadow social, nouvelle tendance théorisée par Marie Dollé en ce début d’année.
C’est un fait aujourd’hui bien documenté, les internautes partagent de moins en moins de contenus de manière publique sur les réseaux sociaux et ont plutôt tendance à se reporter sur des espaces plus restreints composés de leurs proches, cercles d’amis ou communautés qui se rassemblent autour d’intérêts communs.
Sur les réseaux sociaux, il existe donc des espaces privés et fermés que l’on appelle le dark social et des espaces à mi-chemin entre le public et le privé que Marie Dollé appele le shadow social et qui ne cessent de prendre de l’ampleur.
Lire aussi :
La veille sur les réseaux sociaux s’annonce de plus en plus fragmentée (09/2023)
Comment utiliser Discord pour ses veilles et ses recherches ? (09/2023)
Veille Instagram : quoi, comment, pour quoi faire ? (06/2022)
Réussir à utiliser LinkedIn pour la veille et la recherche d’information (06/2022)
Qu’on se rassure, le dark social n’a rien à voir avec le dark web et d’éventuels contenus et pratiques illicites. La comparaison est plutôt à chercher du côté du Web visible et invisible et sa fameuse image d’iceberg, car le dark social représente la partie immergée et donc invisible des réseaux sociaux.
Le dark social, ce sont donc ces espaces privés sur les réseaux sociaux où les internautes communiquent, partagent des contenus, mais qui ne sont pas référencés par les moteurs de recherche Web ou internes aux réseaux sociaux et sont donc invisibles aux non-membres.
Il faut revenir aux années 90 pour voir émerger le mouvement de la science ouverte, principalement sous la forme de l’« open access », porté par la volonté de donner un accès libre et gratuit aux publications scientifiques.
Cela va se matérialiser au départ sous la forme d’archives ouvertes. L’archive ouverte ArXiv avec ses preprints, une des pionnières en la matière, a été créée en 1991.
La deuxième phase de développement se situe ensuite dans les années 2000 avec l’essor de l’Internet grand public. L’archive ouverte française HAL est ainsi lancée en 2001.
Beaucoup plus récemment, le développement des plug-ins d’accès à la littérature scientifique a permis de repérer beaucoup plus simplement un article disponible en libre accès quelque part sur le Web, éventuellement sous forme de preprint ce qui n’était pas toujours évident.
Par ailleurs, quand on parle d’open access, il faut bien distinguer :
● D’une part l’accès gratuit au document primaire (l’original);
● D’autre part l’accès à une plateforme ou à un moteur permettant de rechercher puis de visualiser gratuitement uniquement des références d’articles et de proceedings et aussi parfois de chapitres de livres.
Pour rendre un livrable et une formation efficaces en vérifiant le niveau de compréhension de son public ou tout simplement pour rajouter une touche de divertissement, le quiz est un outil pédagogique qui peut s’avérer un précieux allié. Et aujourd’hui avec les modèles d’IA générative, un quiz peut être créé en une minute, ou presque. Florilège de nos 4 outils préférés.
Lire aussi :
Livrables : trois outils IA pour maximiser vos présentations (11/2023)
4 générateurs de videos freemiums au banc d’essai (10/2023)
Le text to mindmap depoussiere les cartes mentales (09/2023)
Opexams est une plateforme pédagogique qui propose la génération de quiz parmi d’autres fonctionnalités.
Son « Quiz Generator » est accessible sans inscription. Le quiz est généré à partir d’un texte à fournir (jusqu’à 3000 signes environ) et, comme toujours avec ces outils IA, le procédé est simplifié au maximum : on copie son texte, puis on sélectionne les options suivantes : le type de quiz (choix multiples, vrai/faux ou questions ouvertes), la langue, le nombre d’options par question (cinq maximum), puis on clique sur « Générer un quiz ».
L’option « par sujet » permet d’entrer uniquement un thème de son choix, qu’il soit dans le domaine scolaire ou professionnel. Aux options précédentes, s’ajoute le niveau de difficulté souhaité (facile/moyen/difficile).
Notre habitude est de construire des stratégies complexes, mêlant synonymes, mots écrits de différentes façons (crosslink ou « cross link » par exemple), avec des opérateurs booléens, de proximité, des possibilités d’exclure des thématiques et, enfin, de multiples possibilités de combiner des étapes. Autant le dire tout de suite, ces stratégies ne sont pas transposables en l’état dans ces nouveaux outils.
Pour réaliser nos tests, nous avons donc dû utiliser des stratégies relativement simples qui puissent fonctionner sur tous les outils. Nous nous sommes limités aux références d’articles ou de conférences, incluant les preprints qui sont de plus en plus pris en compte. En revanche nous n’avons pas, dans la mesure du possible, pris en compte les chapitres d’ouvrages et les thèses. Les recherches se font dans le titre, ce qui n’est pas toujours simple, certains systèmes n’offrant pas cette option, obligeant à faire des comptages manuels. Nous avons envisagé de tester une recherche par affiliation mais cette fonctionnalité n'est pas disponible dans tous les moteurs.
Cette comparaison entre les serveurs et les outils gratuits ne pouvant se faire que sur des stratégies simples, on laisse de côté la puissance de recherche et le confort d’utilisation pour ne comparer que le nombre de réponses. Par ailleurs, il est évident que ces tests n’ont aucune valeur statistique et que l’on ne peut rien généraliser à partir de leurs résultats.