Lors de recherches ou de veilles sur le Web, il n’est pas rare de rencontrer des documents ou des pages Web comportant un gros volume de données chiffrées que l’on souhaite récupérer. Il peut s’agir par exemple de tableaux sur un site internet, d’informations au sein d’un fichier PDF protégé, etc.
Malheureusement, il est souvent impossible de copier-coller l’ensemble de ces données de façon simple et rapide.
S’ensuit alors une longue séance de Ctrl C-Ctrl V pour extraire manuellement les informations utiles... Mais ce temps peut être considérablement réduit grâce à un outil d’extraction de données.
Lire aussi :
Méthodologie et outils pour la recherche de statistiques
Comment rechercher des données chiffrées sur Google et moteurs de recherche généralistes ?
Trouver des informations financières : un exercice de recherche coûteux en efforts et en ressources
Dans le monde de l’information se côtoient deux types de données : les données structurées et les données non structurées.
Selon B. Bathelot du site Internet Définitions Marketing, les premières sont les « éléments précis (film, recette de cuisine, individu, etc.) dont les caractéristiques sont décrites au sein de la page par des balises spécifiques. Un film peut ainsi être décrit par son titre, sa durée, son réalisateur, ses acteurs, etc. La description d’une recette peut être structurée par son titre, sa durée, sa difficulté, une image, les ingrédients, etc. ». Ainsi, ces balises permettent aux moteurs de recherche de comprendre la nature de l’élément et de le mettre en avant lors d’une recherche par un utilisateur.
À l’inverse, les secondes sont toutes les informations qui n’entrent pas dans ce système de traitement et d’interprétation par les machines informatiques (PDF, courriels, fichiers textes, tableaux, images, etc.).
On comprend donc la difficulté qu’implique cette définition pour la recherche d’éléments chiffrés, qui rentrent dans la plupart des cas dans la catégorie des données non structurées.
Il faut donc explorer chaque document, chaque page internet, pour copier-coller manuellement ces données ou mieux utiliser des outils d’extraction de données.
Déjà abonné ? Connectez-vous...
TENDANCES • Veille et recherche : le retour de la sélectivité face à la quantité
AGENDA • MasterClass Search & Veille 2020
METHODOLOGIE • Comment trouver des outils de recherche d'information thématiques ?
PANORAMA • Open data : les outils de recherche issus des données de data.gouv.fr
OUTILS DE VEILLE • Ces nouveaux outils qui surfent sur la sélectivité des sources
METHODOLOGIE • Comment construire ses propres outils de recherche d'information thématiques ?
Déjà abonné ? Connectez-vous...
Le besoin de sélectivité et de qualité de l’information et des sources plutôt que de la quantité fait un retour sur le devant de la scène, et ce, pour plusieurs raisons.
Dans un contexte de surinformation croissante, il y a tout d’abord une prise de conscience qu’il est contre-productif de vouloir tout surveiller et qu’on se retrouve juste noyé sous l’information. D’autre part, la mise en lumière de la désinformation et des fake news a fait prendre conscience que toutes les sources d’information n’ont pas la même valeur.
Les médias comme Le Monde, The Guardian ou encore le Times ont récemment annoncé avoir revu courant 2019 leur stratégie éditoriale pour produire moins de contenus, mais de meilleure qualité, ce qui leur avait permis d’augmenter leur audience et leurs ventes.
Instagram vient tout juste d’annoncer une fonctionnalité pour faire le tri dans ses abonnements.
Google lui-même n’a pas abandonné ses verticales thématiques comme Google Scholar ou Google Actualités. Il a même choisi de créer une nouvelle verticale avec Google Datasets (jeux de données issues de l’open data et des données de la recherche) qui vient tout juste de sortir de sa version bêta et propose de nouvelles fonctionnalités. Enfin, il vient également d’ajouter un moteur de recherche à son interface Google Podcasts.
Lire aussi :
Comment trouver des outils de recherche d’information thématiques ?
Open data : les outils de recherche issus des données de data.gouv.fr
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?
Déjà abonné ? Connectez-vous...
Les données en open data sont une mine d’or pour la recherche et la veille professionnelle. Seul problème, la très grande majorité des moteurs et plateformes d’open data ne permettent que de rechercher sur les métadonnées, ce qui ne permet pas d’exploiter tout leur potentiel.
Fort heureusement, de plus en plus d’acteurs créent des outils de recherche (moteur, base de données interrogeable, carte interactive) à partir des données disponibles sur les plateformes d’open data. Et ces outils peuvent être d’une aide précieuse.
Lire aussi :
Comment trouver des outils de recherche d’information thématiques ?
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?
Déjà abonné ? Connectez-vous...
Il y a un besoin croissant d’outils de recherche thématiques pour la recherche d’information professionnelle. Et fort heureusement, de nombreux outils thématiques se développent depuis quelques années. Dans un article paru en 2017 dans BASES « L’avenir de la recherche sera-t-il thématique ? » - BASES n°351, septembre 2017, nous avions évoqué cette tendance.
Deux ans et demi après, elle se confirme et de nouveaux outils de recherche thématiques continuent de voir le jour. Pour autant, identifier ces outils n’est pas toujours évident, car ils n’ont pas la même visibilité ni la même force de frappe que les grands outils de recherche sur le marché.
Lire aussi :
L’avenir de la recherche sera-t-il thématique ?
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?
Nous nous intéresserons aussi plus spécifiquement à 3 aspects qui prennent de plus en plus d’ampleur :
Les outils de recherche thématiques et spécialisés se divisent en deux catégories :
- ceux qui se focalisent sur un type de documents et contenus (PDF, présentations, rapports, études de marché, statistiques, appels d’offres, images, vidéos, etc.)
- ceux qui se focalisent sur un secteur d’activité ou une thématique précise (secteur pharma, recherche sur les entreprises, agroalimentaire, juridique, etc.)
Dans cet article, nous nous intéresserons surtout à la deuxième catégorie.
Pour illustrer cette méthodologie, nous prendrons l’exemple suivant : « l’identification de projets de construction dans plusieurs pays ».
Déjà abonné ? Connectez-vous...
Alors que la majorité des grandes plateformes de veille sur le marché intègrent toujours plus leurs contenus et des types de sources de plus en plus diversifiées (sites, Web, médias sociaux, littérature scientifique, presse payante, vidéos, etc.), d’autres acteurs choisissent le chemin inverse à l’image de DeepNews et ses newsletters de veille thématiques.
Deepnews est à la base un projet lancé en 2016, mais ce n’est qu’au début de l’année 2020 que l’entreprise a lancé ses premiers produits publics : des newsletters en anglais en grande partie automatisées sur un sujet donné.
Chaque newsletter regroupe une sélection d’articles de presse, à valeur ajoutée, de qualité et jugés les plus pertinents sur un sujet donné. L’utilisateur dispose du titre des articles, du nom de la source, du lien vers l’article, d’une indication sur le caractère gratuit ou payant de l’article, d’un extrait pertinent en quelques lignes et, pour certains articles, d’un commentaire de l’éditeur avec des éléments de contexte sur la source ou sur le contenu.
Lire aussi :
La curation pour les managers : le sens de l’information vu par Curation Corp
Ces start-ups qui investissent le champ de l’évaluation des sources et contenus
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Comment construire ses propres outils de recherche d'information thématiques ?
En outre, à l’instar de tous les nouveaux outils que l’on voit apparaître en ce moment, l’outil met l’accent sur l’IA. Son slogan est d’ailleurs : « utiliser le machine learning pour mettre en avant le journalisme de qualité sur Internet ».
En termes de produits, Deepnews propose :
Déjà abonné ? Connectez-vous...
Dans un contexte de surinformation, les outils de recherche généralistes ne sont pas en mesure de répondre seuls à des besoins d’information complexes qui nécessitent d’avoir une vision d’ensemble d’un sujet.
Google effectue une sélection de 100 à 200 résultats qu’il juge les plus pertinents. Les agrégateurs de presse ne disposent pas de toutes les sources pertinentes sur une thématique ou un secteur d’activité. Les plateformes de veille ont une antériorité limitée et ne sont pas conçues pour être des outils de recherche, même si cela évolue un peu depuis quelques années.
Quand on travaille sur des sujets, thématiques ou secteurs d’activité récurrents, on a donc intérêt à se créer ses propres outils de recherche thématiques que l’on peut aller interroger dès qu’une question ponctuelle ou une étude se présente.
Lire aussi :
ILI 2019 : une vision anglo-saxonne de l’avenir des professionnels de l’information
La curation pour les managers : le sens de l’information vu par Curation Corp
Ces start-ups qui investissent le champ de l’évaluation des sources et contenus
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
La première étape indispensable est celle du sourcing. De même que l’étape du sourcing est indispensable dans un processus de veille, elle l’est tout autant pour la construction d’un outil de recherche.
Puisque nous cherchons à mettre en place des outils de recherche thématiques, on privilégiera des sources spécialisées BTP ou des parties de sites dédiées à cette thématique.
À titre d’exemple, on n’ajoutera pas l’intégralité du site des Echos mais uniquement les articles publiés dans la rubrique « Immobilier / BTP ».
Nous ne détaillerons pas dans cet article comment faire un sourcing précis et détaillé, mais il faudra bien prendre en compte les sources suivantes :
Déjà abonné ? Connectez-vous...
TENDANCES • La révolution multimédia bouscule la veille
PANORAMA
• Outils de recherche de vidéos : des métadonnées au speech to text
• Outils de recherche sur les contenus audios : un segment encore pauvre
• Outils de recherche d’images : des métadonnées à la reconnaissance de texte, d’objets et de visages
METHODOLOGIE • Mettre en place une veille sur les contenus multimédias
OUTILS DE VEILLE • Comment valoriser les contenus multimédias dans un livrable de veille ?
INDEX • Index NETSOURCES 2019
Déjà abonné ? Connectez-vous...
La veille ou la recherche de contenus connaît certainement aujourd’hui un réel bouleversement qu’il est encore difficile de bien mesurer : la présence de plus en plus forte de vidéos, podcasts, infographies comme médias d’information à part entière.
Coexistant à côté des sources d’information traditionnelles, ou encore, cas plus complexe, intégrés dans ces mêmes médias traditionnels, de plus en plus de journaux, surtout dans la sphère économique, sociale et politique, en créent et diffusent (incluent) dans leur version numérique.
Les veilleurs et plus généralement tous les professionnels de l’information, traditionnellement orientés vers la recherche et l’analyse de contenus textuels, vont devoir rapidement se préoccuper de l’intégration de ces nouveaux réservoirs d’informations pour au moins deux raisons.
- D’une part, les données présentes dans ces vidéos, podcasts ou encore infographies risquent de ne pas se retrouver sur les supports textuels.
- D’autre part, ces nouveaux formats sont plus que de simples supports, ils constituent, du fait de leur professionnalisation, de plus en plus des moyens d’information à part entière, avec leurs propre dynamiques, recherches et analyses.
Lire aussi :
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche sur les contenus audios : un segment encore pauvre
Outils de recherche d’images : vers la reconnaissance de texte, objet et visage
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?
En pratique, cela reste souvent plus facile à dire qu’à faire.Faire de la veille ou des recherches sur des contenus multimédias reste aujourd’hui bien plus compliqué et « frustrant » que sur des contenus textuels classiques. On ne recherche bien souvent que sur des métadonnées, ces contenus peuvent être très mal mis en valeur, décrits et indexés par leurs auteurs et on peut difficilement passer en revue un contenu audio ou vidéo comme on le ferait pour un texte en lecture rapide.
Certaines initiatives prometteuses de recherche d’information multimédia grand public et gratuites, développées il y a quelques années, sont en voie de disparition.
Par exemple le moteur de speech to text Voxalead vient de fermer ses portes après des années d’abandon et Telescoop, l’excellent moteur du contenu télé, dont nous avions parlé il y a quelques années existe toujours, mais ne permet plus de faire grand chose.
Pourtant, les technologies existent et ne cessent de s’améliorer grâce aux progrès de l’intelligence artificielle : il est ainsi possible de transcrire en texte les contenus audio des vidéos et podcasts grâce aux technologies de speech to text. Il est possible de repérer des logos ou encore d’identifier des visages dans des images et vidéos, . Malheureusement, bon nombre de ces technologies ne sont pas accessibles en ligne pour l’internaute lambda et sont réservées aux clients d’outils spécialisés qui requièrent un budget conséquent.
C’est à toutes ces questions que nous avons choisi de répondre de ce numéro de NETSOURCES.
Déjà abonné ? Connectez-vous...
Intéressons-nous maintenant à la recherche d’images. Nous avons choisi ici de nous focaliser sur la recherche d’images pour trouver des informations ou répondre à une question dans un cadre professionnel.
Nous n’aborderons pas la question des images libres de droits ou photos de stocks pour illustrer ses livrables.
La recherche d’images est plus complexe qu’elle n’y paraît au premier abord, car il coexiste différentes façons de rechercher :
il y a tout d’abord la recherche classique par mot-clé où la recherche porte sur des métadonnées ou - c’est encore très rare - sur du contenu textuel présent dans des images ;
la recherche inversée par l’image où le point de départ est une image et non du texte et où l’on recherche des images identiques ou similaires.
Lire aussi :
La révolution multimédia bouscule la veille
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche sur les contenus audios : un segment encore pauvre
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?
Parmi les moteurs d’images, on retrouve les moteurs classiques comme Google Images, Bing Images, Qwant images, DuckDuckGo images, Yandex Images.
On trouve également des moteurs comme Creative Commons Search (https://search.creativecommons.org) ou Flickr mais ils sont tout de même rarement utiles pour trouver des informations dans un cadre professionnel, car il s’agit souvent de photos personnelles. Néanmoins, on gardera en tête que certaines entreprises, associations, organisations utilisent Flickr pour stocker les photos de leurs événements et on pourra s’en servir dans certains cas précis.
Nous avons repris notre exemple sur le marché des chèques cadeaux en France pour tester ces différents moteurs et leurs forces et faiblesses dans un contexte de recherche professionnel.
Nous avons entré sur tous ces moteurs la requête marché des chèques cadeaux en France
(voir figure 1.)
Figure 1. Performance des différents moteurs d’images concernant la requête « Wedoogift »
Moteur | Pertinence des résultats | Fonctionnalités de recherche |
Google Images | +++ | +++ |
Bing Images | + | +++ |
Yandex Images | 0 | +++ |
Qwant Images | ++ | ++ |
DuckDuckGo Images | ++ | ++ |
Déjà abonné ? Connectez-vous...