Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Il est vrai que la recherche de données est aujourd’hui un challenge.
Les données et datasets sont aujourd’hui nombreux sur le web ouvert mais très fragmentés, et les identifier relève parfois du parcours du combattant...
La première difficulté réside dans l’hétérogénéité des datasets. Si les données sont partagées et mises en ligne librement, elles ne sont pas pour autant bien décrites par des métadonnées et les mots-clés qui leur sont associés ne sont pas nécessairement les meilleurs ni les plus adaptés. De fait, ces datasets sont donc difficilement identifiables. De plus, les différents acteurs n’utilisent pas tous les mêmes référentiels de métadonnées et on se retrouve face à une très grande variété de datasets et de métadonnées.
D’autre part, elles sont peu visibles dans les résultats des moteurs de recherche traditionnels et mal indexées. En effet, dans le cas des datasets, la recherche s’effectue généralement sur les métadonnées1 uniquement et non sur du texte intégral ou les données elles-mêmes, comme c’est le cas sur des articles ou des pages web. On a donc intérêt à ce qu’elles soient bien décrites.
Enfin, même s’il existe une multitude d’initiatives, plateformes, entrepôts de données, outils de recherche dédiés, etc., ils restent peu visibles et peu harmonisés.
Avec Google Dataset Search, Google vient donc se positionner sur un créneau où il y a un réel besoin. Est-il le plus légitime pour le faire ? Son outil répond-il vraiment aux besoins et problématiques d’une recherche d’information professionnelle ? C’est ce que nous verrons dans la suite de cet article.
Déjà abonné ? Connectez-vous...