Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
On pourra retrouver la définition de « données de la recherche » dans le premier article de ce numéro de BASES (Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?)
On rappellera qu’il peut s’agir aussi bien de fichiers excel, d’images, de morceaux de codes, de texte, de documents, de vidéos, de visualisations graphiques, de données géographiques, audio, etc. Cela concerne toutes les disciplines qu’il s’agisse des sciences humaines et sociales ou sciences dures.
Et ces données peuvent avoir une très grande valeur dans un contexte de veille et de recherche d’information.
Avant de se plonger dans les sources et méthodes, il convient de se familiariser avec cet univers pour mieux le comprendre et bien y effectuer des recherches.
Les données de la recherche que l’on retrouve sur le web s’inscrivent dans le mouvement de l’open science/ science ouverte qui vise à rendre la recherche scientifique et ses données accessibles à tous.
Les jeux de données sont généralement hébergés dans des entrepôts de données (repositories). On peut voir également apparaître des termes comme research data repositories, research data initiatives, data repositories, digital data repositories.
On notera que les termes anglais sont beaucoup plus utilisés que les termes français même dans un environnement francophone.
On constate qu’il existe une multitude d’entrepôts, probablement des milliers, certains pluridisciplinaires et d’autres très spécialisés, qu’il serait bien évidemment impossible de lister dans leur intégralité ici.
Nous avons donc choisi de présenter les grandes sources (annuaires, moteurs) permettant de les identifier ainsi que des méthodes pour les identifier sur le Web.
Ces jeux de données sont souvent dotés de DOI (Digital Object identifier) ou autre identifiant numérique (à l’image des articles scientifiques) qui permettent de les identifier et de les retrouver de manière pérenne.
Les jeux de données peuvent être reliés aux articles scientifiques pour lesquels ils ont été créés et sont donc identifiables via l’article en question ou bien ils peuvent exister indépendamment et être recherchés via des moteurs de recherche (web, moteur interne des entrepôts, etc.).
En termes de fonctionnalités, on peut généralement rechercher sur les métadonnées associées à ces jeux de données mais très rarement sur les données elles-mêmes, ce qui est un élément crucial à prendre en compte. On ne recherche pas sur des métadonnées comme on recherche sur du fulltext ou plutôt pourrait-on dire sur du « fulldata ».
Déjà abonné ? Connectez-vous...