Pour les professionnels de l’information, les opérateurs booléens représentent la clé de voûte d’une stratégie de recherche et de veille réussie.
Si de plus en plus d’outils de recherche (notamment gratuits) font disparaître les opérateurs booléens et encore plus les opérateurs de recherche avancés (opérateurs de proximité, troncature, etc.), Google, lui, n’a pas choisi cette voie-là.
Le géant américain qui reste un outil incontournable pour la veille et la recherche d’information permet depuis ses débuts (en 1998 déjà !) d’utiliser les opérateurs booléens AND
(par défaut), OR
et NOT
(matérialisé sous la forme d’un tiret -
).
Avec Google, impossible de s’ennuyer, car l’actualité ne s’arrête jamais : nouveaux produits, évolutions de fonctionnalités, revirement de stratégie, etc. Et ce début d’année 2020 ne manque pas de nouveautés qui vont venir impacter le quotidien des professionnels de l’information pour le meilleur et pour le pire.
Les évolutions majeures concernent peu le moteur Web de Google mais surtout ses verticales thématiques : Google Datasets, Google Podcasts, ou encore Google Actualités.
Pour la troisième année consécutive, nous avons assisté à la journée « Search Solutions » à Londres où se côtoient ceux qui font les moteurs (ingénieurs, data scientists, informaticiens, etc.) et ceux qui les utilisent (professionnels de l’information et du SEO).
L’intelligence artificielle et plus particulièrement le machine learning et le NLP (Natural Language Processing) étaient encore une fois au cœur de la très grande majorité des présentations.
Lire aussi :
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.
On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs
La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.
Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.
Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.
Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.
Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.
Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
L’évaluation des sources a toujours fait partie du métier de veilleur mais certaines évolutions récentes nous invitent à revoir la façon dont nous considérons chaque catégorie de sources.
Lire aussi : Comment l'instabilité des modèles de la presse en ligne ébranle les dispositifs de veille
On a en effet souvent tendance à accorder plus de crédibilité à des sources « classiques » comme la presse ou la littérature scientifique où il y a, en principe, une vérification des informations ou une validation par les pairs qu’à des sources plus « nouvelles » comme les médias sociaux notamment, où n’importe quel internaute peut dire à peu près ce qu’il veut.
La recherche d’information sur le Web en 2019 n’est pas une sinécure et rester à jour sur cette question est un véritable challenge. Ce que l’on croyait acquis il y a 6 mois peut être balayé d’un simple coup de vent, car les méthodes et outils évoluent, changent et disparaissent plus vite que jamais.
Il faut sans cesse se remettre en question, s’informer, se former.
Lire aussi :
Tracer ses recherches pour gagner en expertise et en productivité
Trois nouveaux outils de recherche au banc d’essai
La recherche d’information par géolocalisation
Quand on effectue des recherches d’information dans un cadre professionnel, il ne subsiste bien souvent que le livrable final qui ne contient que les informations jugées pertinentes à un instant T pour un sujet donné. Ce livrable est généralement conservé, archivé et on peut dans ce cas le retrouver et effectuer des recherches sur son contenu si besoin est.
Mais la recherche représente bien plus que cela et ne peut se limiter à ce document final et ce qu’il contient : en amont, il y a différentes requêtes testées sur différents outils de recherche, des sites et pages Web visités, des informations et sources mises de côté, d’autres éliminées, une navigation de site en site, de page en page ou de document en document, etc.
Il est de plus en plus rare de garder des traces précises, détaillées et structurées de tout le cheminement de la recherche. Cheminement qui est d’ailleurs de moins en moins linéaire et de plus en plus « brouillon » ou, du moins, qui fonctionne de plus en plus par tests et investigations successives. Il y a bien eu une époque où les stratégies et résultats de recherche étaient sauvegardés et capitalisés dans des bases de données internes. Mais personne n’y allait jamais et ces projets ont généralement été abandonnés.
Lire aussi :
Rechercher différemment - Dossier Spécial
Trois nouveaux outils de recherche au banc d’essai
La recherche d’information par géolocalisation
Si la recherche d’information actuelle reste grandement tributaire des mots-clés, il existe d’autres méthodes plus ou moins nouvelles pour faire ressortir des informations utiles et complémentaires : recherche par l’image grâce à des outils de recherche inversée, recherche de logo dans des images ou vidéos, recherche à partir d’une URL ou encore recommandations de contenus à partir des autres contenus visualisés par les utilisateurs, etc.
Il en existe une autre, liée à l’avènement des médias sociaux que l’on pourrait qualifier de recherche par géolocalisation, que nous n’avions pas encore eu l’occasion d’aborder dans le détail. L’idée est ici de récupérer et retrouver tous les contenus publiés à un endroit précis grâce aux coordonnées géographiques (latitude et longitude) et données GPS souvent associés aux contenus.
Lire aussi :
Rechercher différemment - Dossier Spécial
Trois nouveaux outils de recherche au banc d’essai
Tracer ses recherches pour gagner en expertise et en productivité
Pour interroger le Web visible, les professionnels de l’information continuent d’utiliser principalement Google, tout simplement parce que la pertinence des résultats reste bien supérieure à celles de ses concurrents.
La majorité des alternatives apparues au cours des dernières années se concentrent sur le respect de la vie privée à l’image de Qwant, DuckDuckGo, Ecosia, etc. Et malheureusement pour les professionnels de l’information, aussi intéressant que cela puisse être, cela n’améliore en rien la qualité et la pertinence des résultats. C’est même plutôt l’inverse...
Mais Google de son côté, même s’il reste meilleur, change très rapidement et ne cesse de se dégrader du point de vue de la recherche d’information professionnelle. Il faut bien l’admettre, nous ne sommes pas et ne serons jamais son public cible !
Il est donc crucial de continuer à chercher des alternatives ou du moins des compléments à nos outils actuels et notamment Google pour interroger le Web de surface, mais aussi accéder au Web profond.
Sur ce sujet, la France n’est pas la plus mal lotie avec de nouveaux outils venant se positionner sur de nouvelles façons de rechercher de l’information. Au cours des derniers mois, nous en avons repéré trois nouveaux, très différents dans leurs approches, stratégies et modèles économiques : Geotrend, Needle, Netguide.
Lire aussi :
Rechercher différemment - Dossier Spécial
La recherche d’information par géolocalisation
Tracer ses recherches pour gagner en expertise et en productivité
Lors de la dernière édition d’i-expo en mars dernier, une table ronde a rassemblé un panel d’experts représentant toutes les facettes du secteur de l’information.
Étaient présents :
Frédéric Martinet, consultant et formateur en intelligence économique, et créateur du blog Actulligence
Véronique Mesguich, consultante et formatrice, auteur de l’ouvrage « Rechercher l’information stratégique sur le web : sourcing, veille et analyse à l’heure de la révolution numérique », (DeBoeck, 2018, collection «Information et stratégie»).
Qui n’a jamais rêvé d’un outil de recherche ou de veille unique, multi sources et multi contenus qui, à partir d’une seule requête, fournirait l’intégralité des résultats utiles et pertinents sur un sujet donné ?
Si cette question occupe les outils de recherche et éditeurs de veille depuis des décennies, force est de constater que la possibilité de rechercher en un seul et même endroit sur des contenus toujours plus nombreux et disparates reste un idéal vers lequel la plupart cherchent toujours à tendre.
Lire aussi :
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
LinkedIn est un outil de recherche puissant pour tout ce qui a trait à la recherche sur les personnes mais également depuis peu pour le contenu.
Irina Shamaeva, auteur du blog https://booleanstrings.com spécialisé dans la recherche d’information et le sourcing appliqué aux ressources humaines et au recrutement, a publié un intéressant récapitulatif des opérateurs de recherche existants sur LinkedIn, parmi lesquels certains fonctionnent mais ne sont même pas documentés par LinkedIn (voir figure 1 - Pour abonnés uniquement).
Google vient d’annoncer le lancement de deux nouveaux opérateurs de recherche liés à la recherche par date.
Il s’agit de des opérateurs before:AAAA-MM-JJ
ou before:AAAA/MM/JJ
et after:AAAA-MM-JJ
ou after:AAAA/MM/JJ
pour rechercher des résultats publiés avant ou après une certaine date.
Par exemple, after:2019-04-02
permet de limiter aux résultats publiés après le 2 avril 2019.
On peut également utiliser la syntaxe before:AAAA
et after:AAAA
et le moteur recherchera alors tout ce qui a été publié après le 1er janvier de l’année en question.
Cette fonctionnalité très utile, même si les dates de publication estimées par Google ne sont pas toujours parfaitement exactes, existe dans les filtres de Google depuis de nombreuses années. On peut en effet se rendre dans l’onglet Outil puis Date et choisir « moins d’1h », « moins de 24h », « moins d’une semaine », « moins d’1 mois », « moins d’un an » ou « période personnalisée ».
Lire aussi :
Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, etc. : rechercher sur des contenus très disparates
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
Il est plus que jamais indispensable de se former en continu à ses problématiques métiers et de réaliser sa propre veille sur la veille pour rester un expert. Car le monde de l’information change de plus en plus vite.
Mais suivre l’actualité des acteurs et outils de la veille et de la recherche d’information est de plus en plus chronophage et souvent difficile à intégrer à ses tâches du quotidien...
Pour cette raison, nous avons décidé de consacrer désormais deux pages de chaque numéro de NETSOURCES à cette veille métier avec :
Lire aussi :
L’évolution de la frontière gratuit/payant impacte la veille stratégique et technologique
Quand les outils de veille intègrent les contenus payants à leurs offres
Retour sur le Challenge de la veille 2019
La recherche d’information est au cœur des métiers de l’information depuis toujours et on a parfois le sentiment de tout savoir à son sujet. Mais la recherche d’information telle qu’elle était pratiquée il y a plus de 30 ans (lors du lancement de BASES par exemple) n’a plus grand chose à voir avec celle que nous pratiquons aujourd’hui. Elle se transforme d’ailleurs plus vite que jamais...
D’un côté, rechercher de l’information n’a jamais eu l’air aussi simple et accessible. On dispose en effet de nombreux outils gratuits proposant des interfaces intuitives et que l’on peut interroger en langage naturel.
Mais de l’autre, nous vivons aujourd’hui dans un monde avec une surabondance de sources, outils, méthodes et informations.
La recherche d’information n’a en réalité peut-être jamais été aussi complexe et multiple.
Lire aussi :
Un regain d’énergie et de vitalité pour les outils de recherche
Bien interroger les outils de recherche gratuits : une multitude de méthodes
Si, comme nous avons pu le voir, le paysage des outils de recherche a évolué, c’est également la façon de les interroger qui a beaucoup changé en quelques années.
Au départ, tous les outils ou presque proposaient au minimum une recherche booléenne simple.
Par recherche booléenne, nous faisons référence ici à des requêtes structurées plus ou moins longues où l’on combine des mots-clés grâce aux opérateurs booléens classiques AND, OR, NOT mais aussi des opérateurs avancés (opérateur de proximité, recherche dans le titre, recherche sur un type de fichier, troncature, etc.).
Lire aussi :
Un regain d’énergie et de vitalité pour les outils de recherche
Google évolue, les documentalistes plus utiles que jamais
Comment bien interroger Google en 2018
L'information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?
Si la veille et la recherche d’information professionnelle restent avant tout des activités réalisées le plus souvent sur « grand écran » au bureau, il n’en reste pas moins que les pratiques évoluent vers plus de mobilité.
Les professionnels de l’information sont parfois amenés à devoir suivre en temps réel certaines problématiques sensibles ou à risque, et ce, quel que soit l’endroit où ils se trouvent.
D’autre part, pour réaliser sa propre veille métier, cruciale pour rester au courant des dernières tendances, des évolutions et des nouveautés liées à la veille, la recherche d’information ou plus largement tout ce qui a trait à l’infodoc, il n’est plus toujours possible de le réaliser sur son temps de travail au bureau. Ainsi, de nombreux lecteurs de BASES et NETSOURCES nous indiquent qu’ils lisent nos revues papier dans les transports en commun !
Lire aussi :
Recherche-t-on différemment à l’heure du « Mobile First » ?
Les challenges qui attendent les professionnels de la veille et de la recherche d’information en 2019
« Rechercher l’information stratégique sur le web » : votre nouveau guide au quotidien
Rechercher l’information stratégique sur le web
Le Web d’aujourd’hui s’émancipe de plus en plus du contenu textuel avec une part toujours plus importante de contenus multimédias. Et de fait, la recherche Web traditionnelle par mot-clé évolue également avec une progression importante de la recherche vocale et de la recherche visuelle et d’images.
Durant cette deuxième session de la journée Search Solutions 2018, il a été question de recherche vocale chez Google d’une part et de recherche d’images chez les journalistes d’autre part.
Lire aussi dans ce dossier :
Les moteurs de recherche vers toujours plus de recommandations de contenus
Cette année encore, nous avons eu l’occasion d’assister à la journée d’étude Search Solutions à Londres organisée par BCS (Chartered Institute for IT) et qui a eu lieu le 27 novembre dernier.
Cette manifestation annuelle regroupe à la fois des acteurs des moteurs de recherche (développeurs, ingénieurs, data scientists, etc.) mais aussi les utilisateurs de ces moteurs, notamment les professionnels de l’information.
C’est l’occasion d’avoir une vision claire des dernières tendances et axes d’évolution chez les moteurs de recherche, qui, rappelons-le sont pour la plupart avant tout orientés vers le grand public comme Google, Bing ou encore les réseaux sociaux. Mais toutes ces évolutions ont également un impact fort sur l’avenir des pratiques de recherche et de veille des professionnels de l’information.
Lire aussi dans ce dossier : De la recherche par mot-clé à la recherche vocale et visuelle
Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...
Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.
Pas toujours facile de suivre toutes les évolutions de Google quand on sait par exemple qu’il modifie son algorithme plus de 1 600 fois par an. Heureusement, toutes ces modifications ne revêtent pas la même importance et toutes n’ont pas d’impact sur la recherche d’information professionnelle.
Toujours est-il qu’en ce mois de septembre, les nouveautés sont nombreuses et méritent d’être signalées.
On commencera donc par le lancement d’un nouveau moteur dédié aux données publiques appelé « Google Dataset Search » accessible à l’adresse suivante : https://toolbox.google.com/datasetsearch.
La recherche d’articles de presse est un exercice classique pour les professionnels de l’information.
Pour autant, s’il existe de multiples outils et méthodes pour retrouver en ligne le contenu textuel d’articles parus dans des revues et journaux papier, cela s’avère nettement plus compliqué lorsque l’on souhaite retrouver les articles avec leur mise en page originale.
Il existe aujourd’hui de multiples manières de rechercher de l’information et cela ne se limite plus à l’insertion de mots-clés dans une boîte de recherche : on peut utiliser des images, des sons, des blocs de texte, tirer parti de recommandations automatiques, etc.
Les grands moteurs de recherche Web comme Google et Bing notamment, dont le développement se focalise toujours un peu plus vers la recherche mobile et vocale ont fait évoluer la façon dont il est possible de les interroger. Et le recours à l’intelligence artificielle chez ces mêmes moteurs permet d’ailleurs une meilleure compréhension de l’intention de l’utilisateur et par là-même une simplification potentielle des requêtes.
Quand il s’agit d’effectuer des recherches bibliographiques ou de réaliser une revue de littérature, Google Scholar apparaît généralement en tête de liste chez les chercheurs, universitaires, étudiants et même certains professionnels de l’information.
Une réalité qui est particulièrement surprenante, la rigueur de la démarche de recherche scientifique semblant a priori incompatible avec le mode de recherche très pauvre, proposé par Google Scholar dans des amas d’informations non structurées, et dont on ne connaît pas les contours.
Lire aussi dans ce dossier :
La perversité de Google Scholar
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés