Le moteur de recherche décentralisé Presearch a lancé récemment une option de géolocalisation au choix, une pratique essentielle pour identifier des sources et rechercher des informations au niveau international.
Depuis l’arrêt de l’option de localisation des recherches chez Google il y a quelques années, le plus simple pour localiser sa recherche où on le souhaite consistait souvent à utiliser des VPNs ou petites extensions spécialisées comme Geolocalized Search, USearch from… (« Sortir de la recherche géolocalisée sur Google », BASES n° 395, septembre 2021).
D’autres moteurs, récemment lancés, intègrent également directement cette fonctionnalité comme Kagi Search ou encore Neeva.
Au cours des derniers mois, Facebook a retiré une multitude de fonctionnalités intéressantes pour le pro de l’info, souvent après à peine un an d’utilisation : les newsletters « Bulletin » qui devaient concurrencer Substack, le moteur d’offres d’emploi, les podcasts, et même l’onglet Facebook News semble sur la sellette après l’annonce en novembre dernier du remplacement des journalistes en charge de la curation par des algorithmes.
En France, le contrat de Facebook avec une filiale de l’AFP pour la vérification des informations s’est aussi arrêté. Les médias, dont le contenu n’est vu que par 3 % des utilisateurs, ne seraient pas rentables pour la plateforme. D’autant qu’en France Facebook rémunère la diffusion des contenus en provenance des médias au titre des droits voisins.
Depuis la mise à jour du moteur en juillet dernier (et le remplacement de son interface), nombreux sont les professionnels qui regrettent l’ancienne interface.
Qu’à cela ne tienne, Légifrance a procédé à quelques améliorations récemment au niveau de la recherche. Outre une dizaine de corrections de bugs, on notera les nouveautés suivantes :
Nul n’a pu y échapper. Dans les médias, au bureau… on ne parle que de cela : ChatGPT est-il en train de ringardiser Google ?
Au regard de la recherche d’informations, ChatGPT n’est pourtant pas assez fiable pour être utilisé de façon professionnelle. D’ailleurs, ce bot conversationnel n’a pas vocation à devenir un moteur de recherche. En revanche, son impact sur la recherche d’information est réel et il est intéressant d’explorer dès maintenant les usages en la matière, en ce qu’ils préfigurent ceux des années à venir.
Difficile de résumer ChatGPT, un bot gonflé à l’intelligence artificielle, à une seule fonctionnalité : créateur de contenu (et de code), moteur de réponse, traducteur, générateur de résumé… ChatGPT fait tout cela à la fois. Il peut donc être utilisé à chaque étape de la veille, qu’il s’agisse de l’identification des besoins, du sourcing, ou de l’analyse.
Pourquoi est-il populaire ? Du fait de son interface de dialogue simplifiée, à laquelle on accède après inscription. Une fois cette formalité établie, une barre de dialogue s’ouvre en bas de page. C’est là que l’on pose ses questions. L’outil y répond en haut et la conversation défile, comme une conversation avec n’importe quel chatbot.
Contenu d’un nouveau type, parfois éphémère, mais qui s’affirme comme un media d’information « puissant », le podcast d’information est issu à 65 % de la presse écrite. Il est alors conçu soit comme un canal complémentaire, soit comme un véritable produit d’information avec un contenu original (dit natif), que l’on ne retrouve nulle part ailleurs.
En tant que professionnel de l’information, le veilleur est à l’affut de toute information, quel que soit son format. Avec le podcast, il se heurte à une variété de contenus et d’accès dont dépendra la collecte.
Il faut non seulement le collecter, mais aussi le traiter et l’intégrer à sa production documentaire ou à son livrable de veille.
Voir « Les nouveaux formats des médias appellent de nouvelles méthodes et outils de recherche », NETSOURCES n°150, janvier-février 2021
L’intégration de l’IA dans les outils de recherche est le grand sujet de ce début d’année 2023. Et cela s’applique également au monde des moteurs de recherche académique.
Il y a quelques mois, nous présentions Elicit, un moteur innovant qui se présente comme un assistant dopé à l’IA
Voir notre article « Elicit, un nouveau moteur scientifique au banc d’essais » - BASES n°404 - juin 2022
Dans la même veine, nous nous intéressons maintenant à un nouvel outil : Consensus dont nous allons analyser les capacités, les forces, les faiblesses et la valeur ajoutée pour le professionnel de l’information.
Exporter ses résultats de recherche peut être utile pour identifier ou analyser un corpus. Le MediaLab de Sciences Po a conçu 2 « Google Bookmarklets » pour exporter ses résultats en fichier .csv.
1. Rendez-vous à cette adresse
2. Glissez les deux icônes dans la barre de favoris du navigateur pour installer les deux boutons. Rappel : pour afficher votre barre de favoris : Ctrl+Maj+B
ou dans les options de vos favoris.
3. Effectuez votre recherche sur Google.
4. La première icône « Switch to Classic Google » permet de définir les modalités d’extraction : nombres de résultats et langage. Cliquez sur le bouton ‘Redirect Me’ pour valider votre configuration.
5. La seconde icône « Extract Google Results Page » qui, comme son nom l’indique, exportera les résultats dans le fichier csv correspondant. Si vous souhaitez décharger plusieurs pages de résultats, il faudra alors cliquer sur le bouton « Keep Existing Results & continue to the next page ». Cette option agrègera au fur et à mesure les résultats. Quand vous avez suffisamment de données, cliquez sur le bouton « Download Complete csv».
Une fois téléchargé, le fichier csv peut nécessiter quelques manipulations complémentaires pour réattribuer les cellules à des champs. Une ultime étape un peu fastidieuse mais un moindre mal compte tenu de l’opportunité que cela représente !
Le nouveau moteur prometteur Neeva vient de lancer une fonctionnalité pour faciliter la lecture des résultats issus du réseau social Reddit (réseau, qui rappelons-le a une place très importante aux Etats-Unis mais gagne aussi en popularité en Europe). Cependant, cette fonctionnalité n’est pas encore disponible en France mais devrait arriver prochainement !
Fonctionnement
Le moteur regroupe dans une rubrique « Discussions », les résultats issus des forums et réseaux sociaux. Quand un résultat provient de Reddit, il propose une option « Summary » qui génère, grâce à son IA, un résumé automatique avec la question initiale posée et un résumé des 5 commentaires les plus « importants » selon différents critères : nombre de votes, longueur de la réponse et popularité de l’auteur.
Avantage pour la recherche d’information et la veille
PubMed, moteur académique spécialisé dans le biomédical, vient d’ajouter une nouvelle fonctionnalité à son moteur de recherche qui permet aux utilisateurs de déterminer le nombre de mots maximum entre deux termes. Dans un contexte où les fonctionnalités de recherche sophistiquées tendent à disparaître, il est très appréciable de voir un moteur qui en réintroduit pour nous permettre de mieux cibler nos recherches sans être trop restrictif !
Exemple : pour rechercher le terme hip à deux mots maximum du terme pain, on écrira la requête suivante : "hip pain"[Title/Abstract:~2]
Les termes à rechercher à proximité sont à mettre entre guillemets, les champs où les mots clés doivent apparaître entre crochets comme par exemple [Title/Abstract]
et le tilde suivi d’un chiffre ~N
correspond au nombre maximum de mots entre les termes de recherche.
Dans notre exemple, cela permet de retrouver des documents citant « Hip related pain » ou « pain in right hip ».
Depuis leur apparition il y a un peu moins de 400 ans, les revues scientifiques ont été confrontées à de nombreuses évolutions : le passage du papier au numérique, l’apparition des preprints, le développement de l’open access et plus largement de l’open science, etc.
Mais s’il y a bien quelque chose qui n’a que très peu changé, c'est la structure même de l’article scientifique. Malgré une transformation digitale, la version numérique de l’article, souvent en PDF, est presque toujours semblable à ce qui existait déjà au format papier.
Certains acteurs commencent à modifier la structure même de l’article scientifique ou tout du moins à proposer un modèle de diffusion qui ne soit plus limité à ce format très codifié et où les différentes parties d’un article peuvent vivre indépendamment les unes des autres.