L’entreprise spécialisée dans le SEO Ahrefs, basée à Singapour, mais fondée par l’Ukrainien Dmytro Gerasymenko, vient de dévoiler son propre moteur de recherche, Yep.com, qui se veut un émule du moteur Brave et ambitionne de prendre quelque part de marché au mastodonte Google et, dans une moindre mesure, à Bing.
À la différence des moteurs tels qu’Ecosia et DuckDuckGo, Yep.com dit utiliser pour son moteur un index développé en interne, à l’instar de Brave Search (voir notre article « Brave Search, You et Presearch : les nouveaux moteurs passés au crible », BASES n° 397 de novembre 2021), et non sur des API dérivant ou s’appuyant sur les index de Google et Bing.
L’index s’appuie donc pour l’instant sur AhrefsBot, un crawler « fait maison » pour indexer le Web, au rythme de 8 milliards de pages web toutes les 24 heures, selon la société.
La prochaine étape prévue sera de créer un YepBot indépendant des algorithmes d’Ahrefs.
Lire aussi :
Brave Search, You et Presearch : les nouveaux moteurs passés au crible
Le site Abondance indique que l’index « est mis à jour toutes les 15 à 30 minutes » et que « la société ajoute 30 millions de pages web et en supprime 20 millions » par jour, sans que l’on connaisse les critères de sélection (liens morts, pages trop anciennes et non actualisées, etc.).
« Yep » est le mot anglais pour « yes » dans un contexte familier. L’interface est particulièrement épurée et aisée à comprendre et utiliser (cf. Figure 1. Interface d’accueil de Yep et Figure 2. page des résultats de Yep.com)
Figure 1. Interface d’accueil de Yep
Figure 2. Page des résultats de Yep.com
Rien de renversant dans sa présentation, ce qui est aussi bien, afin de ne pas déstabiliser l’utilisateur, très (trop ?) habitué à la présentation Google/Bing.
Ce qui va nous intéresser, c’est son positionnement, le business model que le moteur indique mettre en place et la place de ce moteur dans la boîte à outils du veilleur.
Déjà abonné ? Connectez-vous...
La conférence AI-SDV revient essentiellement en présentiel, cette année, à Vienne, les 10 et 11 octobre prochains.
Les sujets traités par les 22 conférenciers concerneront la recherche avancée, le text mining, les techniques de visualisation, etc..
Un aperçu du pré-programme paraît très engageant : https://haxel.com/ai-sdv
Alors que ces dernières années, l’interface de Google Actualités n’avait pratiquement plus aucun un intérêt pour la veille et la recherche et qu’il valait mieux passer par l’onglet « Actualités » du moteur web de Google, Google Actualités (ou Google News) a récemment introduit des fonctionnalités inédites.
Plusieurs d’entre elles découlent d’une utilisation accrue de l’IA et sont particulièrement prometteuses pour la veille et la recherche d’information, à tel point qu’elles pourraient bien amener le professionnel de l’info à reconsidérer l’interface pour ses recherches, en plus du moteur web classique.
Google Actualités a récemment lancé une nouvelle interface pour Google Actualités. Cette nouvelle version reste dans la droite ligne des dernières évolutions de Google sur l’ensemble de ses produits et Google cherche à collecter le plus d’informations possible sur le profil et les habitudes de ses usagers.
Google précise d’ailleurs sans détour son parti pris concernant sa politique de contenu dans le court disclaimer suivant :
« Ces articles sont classés en fonction de leur qualité, de l’originalité et de l’actualité de leur contenu, de votre activité et de vos achats précédents dans Google Actualités, ainsi que de votre activité dans d’autres produits Google. Google peut avoir un contrat de licence avec certains éditeurs, mais cela n’a aucun impact sur le classement des résultats. »
Cet update est donc naturellement une invitation à la personnalisation avec plus de filtres, du contenu spécial Fact Checking, des sujets proposés en fonction des recherches Google faites précédemment et de la recommandation de contenus boostée par l’IA.
Cet article vise à présenter les récentes évolutions et nouveautés et proposer des pistes sur la manière de se les approprier et de réintégrer Google Actualités dans ses démarches de recherche ou de veille.
Figure 1 : Capture d’écran de la nouvelle interface Google Actualité
L’internaute arrive donc sur une interface découpée
Contrairement à la précédente interface, l’accent est beaucoup plus mis sur l’actualité locale et la recommandation de contenus.
Déjà abonné ? Connectez-vous...
Malgré l’existence d’outils de recherche scientifiques, professionnels, payants et performants comme STN, Proquest Dialog, Scopus ou encore Web of Science, on constate au quotidien que Google Scholar et quelques autres moteurs académiques gratuits sont, et restent, des piliers de la recherche d’articles scientifiques. Soit en complément des serveurs et bases de données professionnelles soit comme point d’accès unique à la littérature scientifique.
Les différents moteurs académiques qui composent le marché - dont Google Scholar - ont récemment évolué aussi bien en termes de fonctionnalités proposées que de positionnement pour répondre aux besoins des utilisateurs, mais aussi pour trouver des modèles économiques viables.
Quand on fait de la veille scientifique, technique ou innovation, il faut donc embrasser ces changements et évolutions et les inclure à ses pratiques de veille et de recherche d’information.
Mais ce n’est pas si simple...
Dans cet article, nous faisons donc le point sur tout ce tout ce qu’il y a aujourd’hui à connaître à propos des moteurs scientifiques et académiques quand on recherche de l’information ou quand on fait de la veille.
Précisons que nous nous intéressons exclusivement aux moteurs académiques au sens strict du terme et non aux outils de recommandations automatiques scientifiques, aux outils de recherche par réseaux de citations, etc. qui connaissent également des développements intéressants. Mais cela fera l’objet d’autres articles à venir.
Lire aussi :
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique - Dossier spécial Data
De nouveaux moteurs gratuits pour concurrencer Google Scholar
Rechercher des articles scientifiques anciens : entre intuition et méthodologie
Les nouveaux outils de recommandation pour l’IST
Lors de son lancement en 2004, Google Scholar a véritablement révolutionné la recherche d’information scientifique et l’accès à la littérature académique avec un outil de recherche gratuit, une couverture très large et internationale et la capacité à indexer et à rechercher sur le texte intégral des articles scientifiques (même s’il ne donne pas ensuite accès au texte intégral de tous les articles).
S’en est suivie une longue période où l’outil a peu évolué et n’a fait l’objet que de très peu de communication du côté de Google. Il n’y a qu’à se rendre sur le blog officiel de Google Scholar pour s’en convaincre avec à peine 2 ou 3 articles et annonces par an au cours des dernières années. Annonces qui sont même parfois anecdotiques et n’apportent rien aux internautes qui recherchent de l’information ou font de la veille.
Le contraste avec le moteur Web de Google, qui ne cesse d’innover et de communiquer sur son intégration de l’IA est criant… On notera d’ailleurs que certains professionnels à la recherche d’articles scientifiques préfèrent passer par le moteur Web de Google que par Google Scholar.
Depuis quelque temps cependant, Google semble accorder un peu plus d’importance à Google Scholar avec l’ajout de nouvelles fonctionnalités. Et ce qui est étonnant, c’est que Google Scholar communique sur certaines de ces nouveautés, mais une petite partie seulement. Les autres nouveautés sont découvertes un peu par hasard par des professionnels de l’information experts ou des chercheurs au gré de leurs tests et de leurs recherches. Nous allons donc nous intéresser à toutes les nouveautés de Google Scholar qu’il faut retenir, qu’elles soient annoncées officiellement par Google ou non.
Déjà abonné ? Connectez-vous...
Tout le monde connaît Google Scholar pour rechercher dans la littérature académique (articles de revues scientifiques et académiques, thèses, preprints, comptes-rendus de conférences, etc.). On connaît moins les autres moteurs académiques qui composent le paysage et pourtant ils ont toute leur place dans la panoplie d’outils pour les chercheurs, les ingénieurs et les professionnels de l’information.
Dans cet article, nous avons choisi de tester un nouveau moteur académique : Elicit.
Comment vient-il se positionner dans l’univers des moteurs académiques et quelle est sa valeur ajoutée par rapport à des outils comme Google Scholar, Lens, Dimensions quand on a besoin de rechercher de l’information scientifique et technique ?
Lire aussi :
De nouveaux moteurs gratuits pour concurrencer Google Scholar
Les nouveaux outils de recommandation pour l’IST
L’outil de veille scientifique Meta sacrifié sur l’autel de Facebook
De la référence bibliographique au texte intégral des articles scientifiques, il n’y a pas toujours qu’un pas
Elicit est un nouveau moteur académique entièrement gratuit lancé en 2021 qui ne ressemble à aucun autre (cf. Figure 1. Interface d’Elicit).
Il a été créé par Ought, un laboratoire de recherche à but non lucratif localisé aux États-Unis qui reçoit des subventions d’organismes comme l’Open Philanthropy, Jaan Tallin, le Future of Life Institute, etc.
Figure 1. Interface d’Elicit
Le parti pris d’Elicit est de se positionner comme assistant de recherche dopé à l’IA, un choix audacieux quand on sait à quel point les outils IST à base d’IA ont aujourd’hui du mal à trouver leur place. Au départ construit comme un moteur mixte mêlant recherche sémantique et recherche par mot-clé classique, Elicit est aujourd’hui uniquement un moteur sémantique.
Voir notre article : Comment faire évoluer sa recherche d’information scientifique avec les nouveautés de Google Scholar et les autres ?
L’outil vise avant tout le chercheur qui a besoin de réaliser des revues de littérature dans le domaine scientifique, mais par extension il peut intéresser toute personne qui a besoin d’explorer la littérature scientifique et académique.
A l’image du moteur Web de Google aujourd’hui, Elicit est un assistant et n’a pas donc pas vocation à comprendre des requêtes traditionnelles par mots-clés. Nous avons fait le test et il n’est effectivement pas conçu pour cela.
Déjà abonné ? Connectez-vous...
Rechercher des experts est une problématique courante de la recherche d’information scientifique et technique.
Quand on dispose de bases de données et serveurs scientifiques payants tels que Scopus, Web of Science, STN ou encore Dialog Solutions, l’exercice présente relativement peu de difficultés. Ces outils ont en effet développé avec les années des fonctionnalités, notamment de datavisualisation, qui permettent l’identification d’experts en faisant ressortir les auteurs les plus prolifiques et les plus cités sur une thématique donnée. Certains ont également développé des outils de recherche d’experts ou ont racheté des outils dédiés existant sur le marché. De plus, ces outils ont l’avantage de proposer des langages de recherche sophistiqués qui permettent d’avoir une approche très fine et donc d’identifier les spécialistes de n’importe quel sujet, aussi précis soit-il.
Mais quand on ne dispose pas d’accès à ces outils payants et qu’il faut réussir à identifier des experts en n’utilisant que des outils gratuits, cela s’avère nettement plus chronophage et compliqué.
Dans cet article, nous explorons le nouveau moteur du CEA dédié à la recherche d’experts et nous revenons ensuite sur les autres solutions gratuites qui existent aujourd’hui sur le marché pour identifier des experts scientifiques.
Lire aussi :
Search Lab : 3 méthodologies de recherche clé-en main
Identifier experts, influenceurs ou talents : sources et méthodologie
Comment trouver les meilleurs experts
Tout au long de cet article, nous prendrons un exemple de recherche d’experts pour illustrer la méthodologie : il s’agira d’essayer d’identifier des experts/spécialistes des microalgues en France. La recherche se fera en français et en anglais, car il ne faut pas oublier que la grande majorité des articles de recherche sont en anglais même quand il s’agit de chercheurs français.
Le CEA (Commissariat à l’Énergie Atomique) vient tout juste de lancer un moteur, CEA360 dont l’ambition est de permettre la découverte des activités de recherche du CEA.
L’idée est intéressante, car le CEA est un organisme gigantesque qui est loin de se limiter à la seule thématique de l’énergie atomique et dont les entités sont réparties aux quatre coins de la France.
Parmi les thématiques couvertes par le CEA, on trouve également l’assainissement, la défense et la sécurité, les différentes énergies, l’environnement, le numérique et les nouvelles technologies ou encore la santé et la science du vivant.
Jusqu’à présent, il n’était pas évident pour quelqu’un d’extérieur au CEA de se repérer dans cet immense organigramme et de réussir à repérer les bonnes entités en lien avec ses thématiques de recherche.
Déjà abonné ? Connectez-vous...
Les publications défensives sont nées à la toute fin des années 1950, c’est-à-dire avant l’apparition des banques de données brevets et même des banques de données tout court.
On les appelle aussi « defensive publications », « technical disclosures » ou encore « defensive disclosures » en anglais.
Il était alors beaucoup plus difficile qu’aujourd’hui de trouver de l’art antérieur (prior art en anglais) qui n’était disponible que sous forme papier.
Cette notion d’art antérieur fait référence aux informations et documents publiés antérieurement au dépôt d’un brevet, connus du public en général et qui peuvent affecter de près ou de loin la « brevetabilité » d’une invention.
Lire aussi :
Déterminer la valeur d’un brevet : des outils stratégiques pour l’entreprise
Minesoft change d’échelle
OMPI (Organisation Mondiale de la Propriété Intellectuelle) met en ligne des "Patent Landscapes"
Nous avons testé IPRally, l'outil qui veut révolutionner la recherche brevets avec de l'IA
A cette époque était apparue la nécessité de publications spécialisées dans la diffusion volontaire d’art antérieur. Cela dans le but de répondre au besoin d’inventeurs qui ne souhaitaient pas que leur invention soit brevetée par quelqu’un d’autre (pour différentes raisons que nous verrons plus loin) mais qui voulaient néanmoins pouvoir l’exploiter eux-mêmes, même en renonçant à l’exclusivité que confère un brevet (à condition qu’il soit solide).
Le but de ces publications dans des médias spécialisés était principalement qu’un concurrent et/ou un examinateur de brevet sache où chercher ces publications dites « défensives ».
On notera que les réflexions parfois très théoriques sur les publications défensives ont été à la mode il y a quelques années déjà. Cela explique les dates de publication parfois anciennes des articles et publications traitant de ce sujet. Mais cela n’empêche pas que ces réflexions restent d’actualités.
Aujourd’hui, les recherches d’antériorités brevets ne se limitent pas uniquement à ces publications et vont bien au-delà pour deux raisons :
Il n’en reste pas moins que des publications défensives existent toujours, sont toujours publiées et que leurs archives sont disponibles. Il ne faut donc pas négliger la piste de ces publications lors de toute recherche d’antériorité brevet.
Dans cet article, nous nous intéresserons tout d’abord aux cas où il faut établir une publication défensive et nous verrons ensuite quelles publications existent encore aujourd’hui et comment y accéder.
On peut identifier plusieurs situations dans lesquelles le recours par un inventeur à une publication défensive est une bonne stratégie :
Déjà abonné ? Connectez-vous...
Comme chaque année, Google organise au mois de mai sa fameuse conférence annuelle appelée Google I/O (pour Input/Output). Deux jours de show à l’américaine avec des annonces de nouveautés de produits et de fonctionnalités.
Nous les avons analysées en détail pour voir comment cela allait faire évoluer la recherche d’information et la veille professionnelle.
Trois grands axes d’innovation ressortent cette année : l’un concernant la vidéo et notamment YouTube, un second l’image et un usage accentué de l’IA et le dernier la traduction appliquée à différents types de contenus.
Lire aussi :
Comment intégrer YouTube dans votre dispositif de veille
La recherche sur Google se meurt, et maintenant ?
Comment s’adapter aux nouveautés et restrictions de la recherche d’image inversée sur le Web ?
Google n’est plus un moteur de recherche ni de réponses, mais un assistant virtuel
Le professionnel de l’info face à un Google en perpétuel mouvement
Comment utiliser Google pour des questions complexes ? Restez simple
YouTube propose déjà depuis quelque temps des sous-titres et transcriptions automatiques de qualité très variables pour les vidéos hébergées sur sa plateforme.
La transcription et les sous-titres automatiques ne fonctionnent que pour 13 langues actuellement : allemand, anglais, coréen, espagnol, français, indonésien, italien, japonais, néerlandais, portugais, russe, turc et vietnamien.
Comme ces fonctionnalités ne sont pas activées par défaut, on rappellera qu’on accède :
Lors la conférence annuelle, nous avons donc appris qu’il était désormais possible de traduire à la volée les sous-titres automatiques dans n’importe quelle langue supportée par Google Translate.
Les sous-titres automatiques sont donc « activables » pour les 13 langues annoncées précédemment et il est ensuite possible de visualiser la traduction de ces sous-titres.
À titre d’exemple, il est donc possible de visualiser une vidéo en turc (l’une des 13 langues supportées), activer les sous-titres automatiques puis choisir de visualiser ces sous-titres en français (cf. Figure 1.).
Déjà abonné ? Connectez-vous...
Les contenus multimédias et notamment les vidéos et les podcasts continuent de se multiplier sur le Web et les réseaux sociaux, avec des contenus potentiellement pertinents et professionnels pour la veille et la recherche d’information, que l’on ne retrouve pas nécessairement sous un autre format.
Mais tous ces contenus restent difficiles à appréhender et à intégrer pleinement dans nos processus de veille ou de recherche. À tous les niveaux d’ailleurs, qu’il s’agisse du sourcing, de la collecte, de l’analyse ou de la diffusion.
Trouver ces contenus est un premier défi, car on ne recherche généralement que sur les métadonnées (titre, descriptif, tags), ce qui est très (trop) restrictif. Et les solutions qui indexent en texte intégral et permettent de rechercher efficacement sur le contenu sont généralement onéreuses.
Une fois que l’on a identifié des vidéos a priori pertinentes, les analyser et capitaliser sur leur contenu est un défi tout aussi grand.
C’est à cette phase que nous allons nous intéresser dans cet article avec un outil qui coche pratiquement toutes les cases : Azure Video Indexer qui est gratuit, performant et simple à utiliser.
Lire aussi :
Comment intégrer YouTube dans votre dispositif de veille
Avec le Live Streaming, les médias innovent mais le veilleur souffre
Recherche et veille Radio Télévision : les meilleurs outils
Mediatree veut faire profiter les veilleurs et professionnels de l’information de sa technologie de veille audiovisuelle
La révolution multimédia bouscule la veille
Dans cet article, nous expliquons en détail la démarche à suivre pour utiliser tout le potentiel de l’outil et récupérer les transcriptions de vidéos et podcasts et les explorer. Dans un second temps, nous évaluons les qualités et défauts de cet outil et son intérêt pour toute personne confrontée à la veille ou la recherche d’information sur les contenus multimédias.
Azure Video Indexer est une application qui utilise l’IA pour extraire des données de vidéos et contenus audio : la transcription en speech to text tout d’abord, mais l’outil va également plus loin : détection d’entités nommées, de marques de noms de personnes, analyse du sentiment, traduction de la transcription dans la langue de son choix, reconnaissance faciale, etc.
Il est gratuit à condition de ne pas charger plus de 10 heures de vidéos ou contenus audio. Au-delà, le paiement se fait à la minute. Mais il suffit de supprimer des vidéos/podcasts de sa bibliothèque et ainsi redescendre en dessous des 10 heures de contenus indexés pour continuer à l’utiliser gratuitement.
Déjà abonné ? Connectez-vous...
ArchiRès est le nom d’un réseau de bibliothèques des écoles nationales supérieures d’architecture (ENSA) et du paysage en France, mais également d’instituts en Belgique, au Maroc et au Liban. C’est aussi un portail documentaire du même nom qui donne accès à un catalogue de recherche commun aux différents organismes membres d’Archirès.
Une nouvelle version de ce portail vient de voir le jour le 28 mars dernier.
Nous avons exploré pour vous cette ressource et évalué son intérêt pour la veille et la recherche d’information.
Lire aussi :
Zoom sur les ressources de l’AURG pour l’urbanisme et l’aménagement
Zoom sur le portail de l’INRS sur la santé et sécurité au travail
Zoom sur Cerema Doc, la plateforme documentaire du climat et territoires de demain
Zoom sur le portail documentaire Eau & Biodiversité
Figure 1. Interface d’ArchiRès
Lorsqu’on est peu familier domaine de l’architecture et du paysage, il n’est pas simple d’identifier les bons mots-clés et notamment les termes techniques.
On trouve sur le portail d’ArchiRès un thésaurus très pointu et riche : qui permettra d’identifier les termes les plus appropriés à utiliser.
ArchiRès pourra également jouer un rôle dans une démarche de sourcing thématique pour identifier des ressources spécialisées pertinentes mais aussi des organismes spécialisés.
On y trouvera :
Déjà abonné ? Connectez-vous...