À côté des outils de reconnaissance faciale payants créés par Clearview, Thales ou Amazon, des moteurs de recherche faciale sont accessibles gratuitement sur le web, et à tout public. Mais que peut-on en tirer dans un contexte de recherche et de veille professionnelle ?
On pourrait penser que la reconnaissance faciale n’est rien d’autre que de la recherche d’image inversée, consacrée aux visages. Il existe d’ailleurs une option « Face » dans Google Images. Mais à la lecture des résultats, on comprend que l’outil n’a vraisemblablement pas été conçu pour prendre en charge la reconnaissance faciale individuelle.
Surtout, il s’agit de deux technologies différentes, aux usages différents :
● La recherche d’image inversée utilise un algorithme de recherche d’image permettant de comparer une image uploadée sur un moteur de recherche à celles qui sont disponibles publiquement sur internet. Elle est donc utilisée pour trouver la source d’une image et/ou en vérifier l’authenticité, ce qui permet à un professionnel de l’information de vérifier la source et la fiabilité d’une information. Appliquée à une personne en l’absence de données d’identification, cette recherche nécessite de se fier à la légende de la photo, si légende il y a, pour identifier la personne.
● La reconnaissance faciale utilise elle aussi des algorithmes de recherche, mais également des données biométriques (écartement des yeux, couleur de peau, etc.). Les photos auxquelles l’image source est comparée peuvent provenir du web ouvert (sites d’actualités, de mariages, blogs, etc.), mais aussi, en théorie, de bases de données. Contrairement à la recherche inversée, ce sont des visages identifiés par l’IA de l’outil qui remontent dans les résultats de recherche.
Au-delà de la comparaison d’images, la reconnaissance faciale permet ainsi d’identifier une personne en recherchant à partir de n’importe quelle image… similaire ou non, ou même des images prises à des années d’intervalle.
C’est pourquoi elle est aujourd’hui très prisée pour identifier des personnes dans des domaines tels que la sécurité (lutte contre la fraude), la biométrie (accès biométriques) ou la publicité (e-réputation). Elle soulève toutefois des questions en matière de protection de la vie privée et de la sécurité des données personnelles, raison pour laquelle son utilisation est réglementée en Europe, et même interdite dans certaines villes américaines.
Dans ce contexte, la reconnaissance faciale peut-elle profiter à un professionnel de la veille ? Pour répondre à cette question, nous avons exploré cinq outils gratuits ou à faible budget, que l’on a classés en trois usages.
Déjà abonné ? Connectez-vous...
Le bouleversement de ce début d’année 2023, c’est bien évidemment le lancement grand public de ChatGPT et plus largement la course à l’intégration de l’IA générative dans tous les outils du quotidien et du monde professionnel.
Les moteurs de recherche Web dans leur ensemble se sont tous précipités pour intégrer cette dimension à leurs moteurs, certains intégrant directement GPT-3 ou 4 comme Bing et d’autres préférant utiliser d’autres modèles.
Cette intégration de l’IA générative et conversationnelle dans les moteurs apporte sans conteste une dimension nouvelle à la recherche d’information sur le Web.
Mais est-ce que cela améliore réellement les moteurs Web ? Cela permet-il de trouver plus rapidement de l’information, de trouver des informations qui n’arrivaient pas à émerger dans les moteurs de recherche, d’explorer plus en profondeur la fameuse longue traîne ?
Lire aussi :
Les moteurs gratuits, c’est fini
L’actu du Veilleur : plein phare sur l’IA
Quels outils utiliser pour bénéficier de ChatGPT ?
Nous avons testé Kagi Search, un nouveau challenger de Google
Presearch permet de chercher depuis la localisation de son choix
Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info
C’est ce que nous avons voulu explorer dans cet article en proposant tout d’abord un tour d’horizon des solutions d’IA génératives qui ont été intégrées aux moteurs de recherche ces derniers mois - et ils sont nombreux - et en évaluant ensuite ce que cela change en matière de performance et d’efficacité quand on recherche de l’information sur le Web. Alors que Google restait indétrônable depuis des années pour les professionnels de l’information, est-ce que l’apparition de ces assistants rebat les cartes et faut-il revoir sa stratégie sur les moteurs de recherche ?
Nota Bene
L’apparition de ChatGPT auprès du grand public et plus largement des IA génératives et la multiplication des outils qui utilisent ces technologies pour de multiples usages constituent un sujet extrêmement vaste. Pour cet article, nous avons choisi un angle bien précis : l’intégration d’IA génératives par les moteurs de recherche classiques déjà présents sur le marché et le bouleversement que cela peut représenter pour la recherche d’information.
Comprendre l’intégration de l’IA générative dans les moteurs nécessite d’avoir certains éléments de contexte en tête. C’est donc ce par quoi nous commencerons cet article.
OpenAI avec le lancement de ChatGPT a réussi l’exploit d’éclipser tous les autres acteurs travaillant sur les sujets de l’IA générative et à imposer son produit sur le marché. Mais en réalité, cela fait des années que plusieurs acteurs et notamment les Gafams travaillent sur le développement d’IA conversationnelles et génératives qui pourraient venir enrichir les moteurs de recherche.
En 2017 déjà, nous avions assisté à la conférence « Search Solutions » à Londres où l’un des Research Scientists de Google était venu expliquer que l’un des axes de développement de Google était alors la recherche conversationnelle.
Voir l’article « De la recherche classique à la recherche conversationnelle » (BASES, n°354, décembre 2017) que nous avions écrit à l’époque.
On retiendra avec attention que ce même intervenant avait alors évoqué les conditions nécessaires pour la mise en place opérationnelle d’un système de recherche conversationnelle au sein des moteurs :
● le système doit permettre d’expliciter le besoin réel de l’utilisateur ;
● le système doit révéler à l’utilisateur ses capacités et son corpus afin de lui montrer ce qu’il peut faire ou non ;
● le système et l’utilisateur peuvent chacun prendre l’initiative d’intervenir quand cela est utile ;
● des éléments de mémoire doivent être introduits. L’utilisateur doit pouvoir faire référence à des choses qu’il a dites plus tôt dans la conversation ou dans d’autres conversations ;
● le système doit être capable d’apporter si besoin des ensembles d’information complémentaires et de les agréger.
En 2017, aucun système n’arrivait à réunir les différentes conditions pour pouvoir l’implémenter dans le moteur de recherche. Dans les années qui ont suivi, Google a continué à intervenir dans différentes conférences sur le thème de la recherche conversationnelle, mais cela n’avait pas été intégré dans des produits grand public, tout simplement parce que les conditions n’étaient toujours pas réunies. Fin 2022, aucun acteur (et pas seulement Google) travaillant sur le sujet n’avait encore jugé les technologies suffisamment matures pour les lancer auprès du grand public.
Mais OpenAI est passé par là et a pris tout le monde de court en mettant sur le marché un produit qui ne remplit pas toutes les conditions, mais qui est impressionnant. Le coup de maître (ou l’inconscience selon les points de vue) d’OpenAI à « dégainer en premier » et éclipser tous les autres acteurs marque, dans tous les cas, un tournant. Et un retour en arrière est plus qu’improbable. Face à ce lancement, tous les moteurs de recherche ou presque ont voulu sauter dans le train en marche : Google pour ne pas donner l’impression de ne plus être le leader du « Search » sur le Web et les autres moteurs pour avoir enfin une chance de surpasser Google.
Déjà abonné ? Connectez-vous...
Des changements dans les flux algorithmiques qui modifient la veille
Les réseaux sociaux proposent pratiquement tous par défaut un flux d’information algorithmique que l’utilisateur peut faire défiler pour trouver des contenus susceptibles de l’intéresser.
Pendant longtemps, le flux des utilisateurs des réseaux sociaux était constitué essentiellement de contenus publiés par ses amis, les personnes ou comptes suivis et agrémentés de quelques contenus sponsorisés. Comme tout flux algorithmique, il s’agit d’une sélection de contenus et non de l’intégralité des contenus publiés par ses contacts.
Si la notion de sélection ne change pas, les contenus proposés, eux, sont en train de changer et on voit de plus en plus de contenus émanant de personnes en dehors de notre réseau.
Lire aussi :
Comment récupérer des flux RSS sur les réseaux sociaux ?
Comment surveiller TikTok : un réseau social atypique pour le veilleur
Facebook : toutes les clefs pour ouvrir ce coffre bien fermé à la veille ou la recherche
Reddit, réseau social méconnu en France, mais véritable atout pour la recherche spécialisée
Réussir à utiliser LinkedIn pour la veille et la recherche d’information
Search Quiz : Êtes-vous à jour dans votre veille réseaux sociaux
Sur Twitter par exemple, le flux d’information que l’on voit sur sa page d’accueil appelé « Pour vous » contient de plus en plus de contenus émanant de comptes que l’on ne suit pas. Et cela ne va pas aller en s’améliorant, car Elon Musk vient tout juste d’annoncer que seuls les comptes ayant souscrit un abonnement payant à Twitter Blue pourront apparaître dans le flux « Pour vous ».
Cela ne semble pas encore mis en place, car nous sommes toujours capables de visualiser dans ce flux des contenus émanant de comptes que nous suivons et qui n’ont pas souscrit d’abonnement, mais cela devrait changer très prochainement.
LinkedIn vient de faire une annonce similaire et s’apprête à bouleverser le fil d’actualité en y introduisant des publications suggérées par son IA, en fonction des centres d’intérêt de l’utilisateur, y compris en provenance de profils en dehors de son réseau.
Impact sur la veille
Il faut donc avoir ces évolutions bien en tête quand on fait de la veille directement dans les plateformes des réseaux sociaux. On va avoir d’un côté des flux algorithmiques qui vont permettre d’aller toujours plus loin dans la « veille radar » en détectant des contenus en dehors son champ et de ses sources habituelles et de l’autre des flux non algorithmiques (l’équivalent du flux « Abonnement » sur Twitter ou du classement « récent » sur LinkedIn) qui correspondent à la « veille cible » avec des contenus émanant quasi exclusivement de sources/comptes préalablement identifiés lors de son sourcing. Les deux types de flux ont leur utilité et seront donc de plus en plus différents l’un de l’autre, mais de plus en plus complémentaires.
Une des grandes tendances de ces dernières semaines sur les réseaux sociaux, c’est la course aux certifications payantes, ces petits badges de couleur apposés aux comptes sur les réseaux sociaux.
Déjà abonné ? Connectez-vous...
Il y a quelques mois maintenant, Twitter avait annoncé la fin de son API gratuite au profit d’une API payante. Après quelques mois de flottement, Twitter n’a finalement pas coupé l’accès à son API à la date prévue et a tout même annoncé garder une API gratuite allégée pour pouvoir publier du contenu directement sur Twitter. En revanche, impossible pour l’utilisateur de collecter, récupérer et analyser les contenus. Il y a quelques semaines, le couperet est finalement tombé, l’accès à l’API gratuite a été révoqué pour tous les acteurs qui l’utilisaient.
Si au départ, tous les acteurs proposant des fonctionnalités de veille, de création de flux RSS, d’analyse pour Twitter se voulaient rassurants, l’optimisme n’a été que de courte durée. Et en quelques jours seulement, on a assisté à une véritable hécatombe avec des fermetures et des retraits de fonctionnalités en cascade.
Les agrégateurs de flux RSS Feedly et Inoreader ont annoncé le retrait de leurs fonctionnalités de surveillance de Twitter. Une majorité de plateformes de veille classiques ont été dans l’obligation de faire de même (à l’exception des plateformes de social media monitoring). Les petits outils de création de flux RSS qui avaient une option spécifique pour Twitter sont également concernés. Et les nombreux outils uniquement centrés sur Twitter comme Twitterdaily, Tweetbeaver ou encore Hoaxy n’ont eu d’autre choix que de fermer boutique.
À ce stade, il n’est pas question d’abandonner toute tentative de faire de la veille sur Twitter. Les multiples réseaux sociaux qui se sont positionnés comme des alternatives à Twitter n’ont pas encore trouvé leur public et de nombreux internautes continuent de publier des contenus pertinents pour la veille sur Twitter.
Quelles méthodes et outils nous reste-t-il pour faire de la veille sur Twitter ? C’est ce que nous avons exploré dans cet article.
Lire aussi :
Le guide ultime de la veille et la recherche d’information sur Twitter (06/2022)
Réussir à utiliser LinkedIn pour la veille et la recherche d’information (06/2022)
Veille Instagram : quoi, comment, pour quoi faire ? (06/2022)
Comment intégrer YouTube dans votre dispositif de veille (04/2022)
Comment surveiller TikTok : un réseau social atypique pour le veilleur (04/2022)
Du côté des outils gratuits ou bon marché, nous avons eu la bonne surprise de découvrir que Nitter, un outil qui permet de naviguer sur Twitter sans compte et de récupérer des flux RSS fonctionnait toujours.
Certaines fonctionnalités ont cessé de fonctionner, mais d’autres continuent d’être utilisables, car il utilise une API « non officielle » (donc non pérenne). C’est le cas notamment de la fonctionnalité permettant de récupérer un flux RSS sur un compte Twitter ce qui permet d’être alerté à chaque fois qu’un nouveau contenu est publié par ce même compte sur Twitter (Cf. Figure 1. Récupération d’un flux RSS sur Nitter).
Déjà abonné ? Connectez-vous...
OpenAlex est un nouvel outil qui vient se positionner sur le créneau de Google Scholar, Dimensions, Lens.org et les autres. Son but : devenir un catalogue qui recense un maximum de publications scientifiques, mais aussi chercheurs et institutions, une sorte de bibliothèque d’Alexandrie de l’IST version Web.
OpenAlex est un projet de l’organisation à but non lucratif OurResearch financé par Arcadia, un fonds qui œuvre pour la préservation de la culture et la promotion du libre accès.
Nous avons testé la version Alpha (la bêta sortira en juillet prochain) pour savoir ce qu’elle avait à nous offrir et quelle pouvait être sa valeur ajoutée par rapport aux outils déjà en place.
Lire aussi :
De nouveaux moteurs gratuits pour concurrencer Google Scholar
Elicit, un nouveau moteur scientifique au banc d’essai
Recherche bibliographique : moteurs gratuits ou grands serveurs payants, que choisir ? (06/2022)
Dans tout moteur académique, la question du corpus est primordiale. OpenAlex indexe 250 millions de contenus, dont 43,8 millions en libre accès, ce qui en fait un des acteurs avec le plus gros corpus après Google Scholar.
Pour se repérer dans la taille des différents corpus, on pourra jeter un coup d’œil au tableau comparatif proposé par OpenAlex sur son site Web et que nous avons reproduit ici en figure 1.
Déjà abonné ? Connectez-vous...
Nous avons déjà, à de multiples reprises, parlé des documents scientifiques d’origine chinoise référencés dans les banques de données et les serveurs d’origine chinoise ou occidentale.
Dès 2006, nous avions évoqué cette question notamment dans un article consacré au marché chinois de l’information à partir d’une conférence donnée au Salon Online de Londres (demander le BASES n°233 - décembre 2006 à Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.).
Depuis, les initiatives chinoises se sont multipliées et l’offre et l’accessibilité se sont élargies de plusieurs façons :
Lire aussi :
Retour de l’indexation de la littérature chinoise dans Chemical Abstracts
DBpia une base de données académique coréenne
Brevets et littérature scientifique: l'irrésistible développement de la Chine
Nous avons donc choisi pour cet article de faire un tour d’horizon des principales bases de données qui, à ce jour, nous paraissent apporter une réelle valeur ajoutée par rapport à une offre déjà très riche des serveurs occidentaux, dans le domaine de l’information scientifique et technique en général : articles, thèses, normes, etc.
Nous excluons de ce tour d’horizon les banques de données biomédicales qui représentent un monde à part, compte tenu des nombreuses informations disponibles concernant la médecine chinoise traditionnelle (TCM, « Traditional Chinese Medicine ») incluant des comparaisons avec la médecine occidentale.
Déjà abonné ? Connectez-vous...
Dans le cadre d’une recherche d’informations, le premier réflexe pour identifier des sources est généralement de cibler des médias, des experts, voire des annuaires. Mais il existe une autre ressource utile pour fournir de l’information et à laquelle on pense moins : les listes de sources disponibles sur des tableurs en ligne comme Google Sheets ou Airtable et qui se multiplient.
La volonté de partager des listes de sources sur le Web a toujours existé, surtout avec l’avènement du Web 2.0. Mais le format ainsi que les outils de partage et d’hébergement de ces listes ont évolué. Il y a eu le temps des annuaires (qui sont finalement des sortes de listes), le temps des blogrolls sur les blogs, des outils de bookmarking, des FollowFriday et des listes sur Twitter, etc.
Aujourd’hui, outre Google Sheets, de nouveaux outils de création de bases de données ‘no-code’ et de tableurs en ligne ont vu le jour, dont le plus connu est Airtable (https://airtable.com/). Ces tableurs sont souvent partagés publiquement par des experts, consultants ou autres acteurs d’un secteur particulier, qui disposent en échange de la gratuité du service.
Ces listes plus ou moins exhaustives peuvent se révéler précieuses, car elles constituent un pré-tri de l’information opéré par une personne suffisamment intéressée et experte pour entreprendre ce travail de recherche et de structuration. Elles permettent donc d’aller au-delà pour dénicher des sources utiles, voire des pépites, ou même des idées de structuration de l’information.
Mais elles présentent un problème : la difficulté à les identifier. Souvent nées d’une initiative personnelle, elles sont :
On découvre donc souvent ces listes un peu au hasard de ses pérégrinations sur le Web. Nous nous proposons donc de présenter ici une démarche construite, avec une recherche structurée en ligne, pour éviter de passer à côté de ces pépites.
Déjà abonné ? Connectez-vous...
Recherche législative française et européenne facilitée, augmentation de la visibilité des questions citoyennes…
Le début d’année 2023 a été riche pour l’information institutionnelle. Or, le suivi et l’analyse de l’activité des institutions publiques et de leurs représentants permettent d’anticiper l’évolution d’un cadre réglementaire et d’y déceler des opportunités. Mais, doté d’un jargon et d’un circuit de l’information propres, ce type de sources reste parfois difficile d’accès. Zoom sur les nouveautés à retenir et les nouveaux outils à découvrir !
Après les agrégateurs de sources ouvertes Pappers Entreprise, puis Pappers Justice, Pappers Politique met en avant l’information institutionnelle française et européenne, de l’élaboration à la promulgation d’une loi.
Voir notre article Une nouvelle fonctionnalité pour Pappers, BASES n° 409, décembre 2022
Lire aussi :
Bercy crée son propre annuaire des entreprises
Une nouvelle fonctionnalité pour Pappers
Sélection des sources d’information institutionnelles (françaises et internationales)
Pour cela, il utilise les données quotidiennes de l’Assemblée nationale, du Sénat et de Lex-Europa (site officiel de la législation européenne), à partir de juin 2017 pour la France et de janvier 2018 pour l’Europe :
Cinq filtres de recherche sont proposés :
La consultation de Pappers Politique est particulièrement bien conçue pour faciliter la compréhension des documents et de leur contexte législatif. Contrairement à une liste de liens non structurée, chaque document est présenté sous forme d’extrait surtitré et d’indicateurs. Sous chaque extrait, des tags cliquables précisent la nature du document (Question écrite, Question au gouvernement, Dossier législatif) ; l’institution et le député concernés.
Et chaque document est contextualisé par une frise chronologique de son évolution au sein des institutions.
Cette version bêta manque d’exhaustivité, mais, l’élargissement à la couverture européenne est très intéressant (d’autant qu’elle est gratuite), car elle n'existait pas sur ce type d’outils comme Légifrance, ou sur les plateformes de veille institutionnelle payantes comme Dixit (https://www.dixitplatform.com/) ou Follaw (https://www.follaw.sv/).
Déjà abonné ? Connectez-vous...
L’actualité politique est un jeu de ping-pong. Elle est faite de prises de position, et en retrouver l’origine permet de couvrir ses rebonds avec précision et fiabilité. Mais qu’il s’agisse de débats, d’interviews ou de discours, la surveillance et la vérification des interventions publiques constituent une vraie difficulté technique pour les professionnels de l’information.
Premièrement, car ce type de contenu est en grande partie diffusé dans un format audiovisuel, alors que les méthodes et les outils des professionnels de la veille reposent surtout sur du texte. Et même quand ces discours, interviews et citations existent au format textuel (dans des articles de presse par exemple), ils restent très difficiles à identifier et il est nécessaire d’avoir recours à des requêtes longues et complexes pour explorer tout le champ lexical de la prise de parole. Pour savoir comment rechercher des déclarations au format textuel, on pourra se référer à l’article « Retrouver les déclarations d’une personnalité : sources et méthodes » BASES n° 341 - Octobre 2016 qui reste encore d’actualité pour ce qui est des méthodes proposées.
Deuxièmement, parce que ces sources audiovisuelles restent difficiles à intégrer dans un livrable de veille. Cette étape peut alors nécessiter une écoute longue et minutieuse, une transcription parfois coûteuse, quand il ne s’agit pas de faire soi-même un montage pour en supprimer des extraits… Et tout cela, pour en tirer une ou deux lignes de citations pertinentes, généralement, donc… au format écrit.
Retrouver des discours et déclarations de personnalités publiques issues de sources audiovisuelles représente donc un double défi !
Lire aussi :
Retrouver les déclarations d’une personnalité : sources et méthodes
Pour la veille audiovisuelle, il existe bien Mediatree (https://www.mediatree.fr/), acteur « historique » du secteur (Voir notre article « Mediatree veut faire profiter les veilleurs et professionnels de l’information de sa technologie de veille audiovisuelle », BASES n° 380, avril 2020) mais ses fonctionnalités de recherche se focalisent sur la recherche de mots-clés cités dans une vidéo et pas spécifiquement les discours de personnalités publiques. Et l’autre outil intéressant dont nous parlions en 2016, Storyzy (https://storyzy.com/), ne s’intéresse plus aux citations et s’oriente aujourd’hui vers l’OSINT et la lutte contre la désinformation.
Dans ce « désert », l’arrivée du moteur de recherche et d’analyse pluralisme.fr(https://www.pluralisme.fr/), qui suit automatiquement et en temps réel - ou presque - les prises de parole de 1 400 personnalités politiques dans des dizaines de radios et télévisions françaises est donc une excellente nouvelle pour les professionnels de l’information. Nous l’avons testé pour voir ce qu’il avait à nous offrir.
Déjà abonné ? Connectez-vous...
Une citation est, dans un document donné, une référence à un autre document antérieur, traitant en général d’un sujet connexe. Les citations sont bien connues dans le domaine des articles scientifiques où leur nombre est souvent utilisé pour évaluer la qualité d’une publication.
Le développement du mouvement de la science ouverte (open access mais aussi open citations) donne un coup de projecteur aux citations et références, ainsi qu’à leur rôle dans le processus de recherche d’informations et de veille.
De nombreux outils s’emparent de ces données, désormais accessibles librement, pour proposer des fonctionnalités de recherche spécifiques et on voit également l’apparition de nombreux petits outils, souvent gratuits, qui se donnent pour mission d’explorer les réseaux de citations, offrant une autre manière de rechercher des documents pertinents et/ou d’identifier des experts.
On trouve aussi les citations dans les brevets. Et même si elles sont librement accessibles depuis longtemps, la recherche par les citations reste un champ trop peu exploré lors d’une recherche brevets.
Lire aussi :
Le brevet est-il un signal faible pour l'innovation ? (10/2022)
Savoir utiliser les publications défensives dans une stratégie brevet (05/2022)
Déterminer la valeur d’un brevet : des outils stratégiques pour l’entreprise (03/2022)
La recherche de citations et de références boostée par l’IA et les « open citations »
Nous allons voir dans cet article qu’elles offrent une large gamme de possibilités pour un public très divers : PME détentrice de brevets, désireuse de savoir qui empiète sur son territoire ; inventeur, souhaitant évaluer la nouveauté de son invention ; analyste financier, souhaitant évaluer la valeur d’un brevet ; historien des sciences et techniques mais aussi bien sûr le professionnel de l’information et veilleur ! Penchons-nous sur la multitude d’informations que l’on peut tirer de l’exploitation de ces citations.
Déjà abonné ? Connectez-vous...