Depuis les années 90, l’Open Access, porté par l’essor d’Internet et la philosophie de la science ouverte, a profondément transformé l’accès aux publications scientifiques en démocratisant la diffusion des connaissances.
Cette révolution a été marquée par la création d’archives ouvertes et de moteurs de recherche académiques, facilitant l’accès, libre ou payant, à des articles scientifiques. Elle s’est amplifiée avec la création de plateformes avancées, des initiatives pour l’accès aux citations et résumés, et le développement d’outils dopés à l’intelligence artificielle qui améliorent l’accès, l’analyse, et l’utilisation des données scientifiques.
Tout en gardant à l’esprit les défis notamment en matière de financement et de droits d’auteur, nous avons exploré l’apport de ces ressources ouvertes aux chercheurs, veilleurs et documentalistes et les nouvelles possibilités d’interaction avec les données.
En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
Cela fait des années que le mouvement de l’open dans le monde scientifique et académique ne cesse de prendre de l’ampleur : l’open access d’abord puis l’open citations, mais aussi l’ouverture des données de la recherche,
Pour rappel, les données de la recherche correspondent à « l’ensemble des informations collectées, observées ou créées sous une forme numérique ou non, par les chercheurs dans le cadre d’un projet de recherche et à partir desquelles ils bâtissent leurs hypothèses. » (source : https://bu.univ-amu.libguides.com/donneesrecherche/definition-DR).
Il n’existait pas jusqu’ici d’initiative nationale pour la diffusion et la recherche des données de la recherche française (alors qu’il existe depuis des années un portail national pour les données publiques issues des collectivités et de l’État appelé data.gouv.fr). C’est désormais chose faite avec le lancement le 8 juillet dernier de la plateforme Recherche Data Gouv (https://entrepot.recherche.data.gouv.fr/).
Le mouvement de l’Open Data (ouverture et mise à disposition des données) concerne principalement les données dites « publiques », c’est à dire produites par des organismes publics ou affiliés (ministères, collectivités locales, état, organismes publics comme l’assurance maladie, Pôle Emploi, l’INSEE, entreprises publiques etc.) mais l’Open Data dans le secteur privé commence également à se développer.
L’ouverture des données en France mais également dans le reste du monde représente donc une véritable opportunité pour les personnes confrontées à des problématiques de veille et de recherches d’information.
Les plateformes/portails Open Data permettent en effet d’accéder gratuitement à une multitude de données brutes, certes, mais vérifiées, relatives à des secteurs comme le transport, l’urbanisme, l’économie, la culture, la santé, etc.
Avant le mouvement de l’Open Data, apparu il y a quelques années maintenant, on rappellera que ces données étaient souvent difficilement accessibles même pour des professionnels experts de la recherche.
Il y a quelques semaines, EDF annonçait le lancement de sa plateforme open data (opendata.edf.fr), une bonne nouvelle pour les professionnels de l’information susceptibles de rechercher des informations dans le secteur de l’énergie.
Mais au-delà de l’annonce d’EDF en tant que telle, ce qui est intéressant, c’est que cette nouvelle plateforme est initiée par une entreprise alors qu’on est plus habitué à entendre parler d’open data dans le secteur public. On l’oublierait presque mais les entreprises, elles aussi, peuvent lancer leurs plateformes d’open data et mettre en ligne certains jeux de données, même si on est très loin d’une ouverture des données à très grande échelle.
Les professionnels de l’information sont souvent à la recherche de données chiffrées, qu’il s’agisse de données financières, de tarifs, de statistiques, de données douanières, de taille ou capacité de production d’usines, de données démographiques, de données géographiques, etc.
Ces données souvent cruciales ne sont pas simples à identifier et éparpillées à travers le Web sur une grande diversité de supports.
Dans ce numéro de NETSOURCES, nous avons choisi de nous intéresser exclusivement aux données chiffrées et de faire le point sur ce type de recherche un peu particulier :
Lire aussi :
Comment rechercher des données chiffrées sur Google et moteurs de recherche généralistes ?
Trouver des informations financières : un exercice de recherche coûteux en efforts et en ressources
Economiser du temps grâce aux outils d’extraction de données
Les données en open data sont une mine d’or pour la recherche et la veille professionnelle. Seul problème, la très grande majorité des moteurs et plateformes d’open data ne permettent que de rechercher sur les métadonnées, ce qui ne permet pas d’exploiter tout leur potentiel.
Fort heureusement, de plus en plus d’acteurs créent des outils de recherche (moteur, base de données interrogeable, carte interactive) à partir des données disponibles sur les plateformes d’open data. Et ces outils peuvent être d’une aide précieuse.
Lire aussi :
Comment trouver des outils de recherche d’information thématiques ?
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?
Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Pas toujours facile de suivre toutes les évolutions de Google quand on sait par exemple qu’il modifie son algorithme plus de 1 600 fois par an. Heureusement, toutes ces modifications ne revêtent pas la même importance et toutes n’ont pas d’impact sur la recherche d’information professionnelle.
Toujours est-il qu’en ce mois de septembre, les nouveautés sont nombreuses et méritent d’être signalées.
On commencera donc par le lancement d’un nouveau moteur dédié aux données publiques appelé « Google Dataset Search » accessible à l’adresse suivante : https://toolbox.google.com/datasetsearch.
Nous apprenions il y a quelques jours que Pubmed testait une nouvelle interface. Celle-ci est accessible sur Pubmed Labs (https://www.ncbi.nlm.nih.gov/labs/pubmed) et n’a pas vocation à supplanter l’interface actuelle pour le moment. Le but étant de tester de nouvelles fonctionnalités.
Parmi les nouveautés, on notera :
Claritive Analytics qui a récemment racheté les activités Propriété Intellectuelle de Thomson a annoncé son intention d’investir dans Web of Science en élargissant sa couverture de l’ « Emerging Sources Citation Index ». L’index passera ainsi de 5 000 revues émergentes à 7 500 et ce sont dix années d’archives qui seront également proposées dans le cours de l’année.
Les « fake news » et la désinformation ne cessent de faire la Une des médias en cette période d’élection. Facebook et Google se sont eux-mêmes lancés dans la course au fact checking en proposant un meilleur contrôle du contenu partagé en ligne et en lançant ou en s’associant à des outils et projets de fact checking, en l’occurrence de vérification des informations.
En France, plusieurs initiatives coexistent depuis plusieurs années mais le dernier en date vient d’être lancé par le quotidien Libération. Checknews (http://checknews.fr/), c’est son nom, se définit comme un moteur de recherche humain pour lutter contre la désinformation. Les internautes posent leurs questions sur le moteur : si une réponse à cette question existe déjà, il est renvoyé vers cette réponse. Dans le cas contraire, sa question va être traitée par un journaliste qui va se charger de vérifier les faits et rédiger une réponse.
EBSCO a récemment étendu son partenariat avec Claritive Analytics (qui a repris les activités scientifiques et propriété intellectuelles de Thomson Reuters) afin de proposer BIOSIS Previews et Zoological Record via EBSCOhost. Rappelons que BIOSIS Previews est l’une des plus importantes bases de données bibliographiques en sciences biologiques et que Zoological Record est l’une des plus anciennes bases bibliographiques dédiée à la biologie animale.
Le MeSH 2017 est maintenant disponible. Chaque année la National Library of Medecine (NLM) fait évoluer son célèbre thesaurus MeSH (Medical Subject Headings) avec ajout, suppression ou modification des termes. La banque de données accessible sur plusieurs serveurs va être entièrement rechargée avec cette version (sur Dialog-Proquest notamment).
La base de donnée LiSSa (www.lissa.fr) qui propose plus de 860 000 articles médicaux en français propose une nouvelle version. Parmi les nouveautés, le tri par pertinence, une compatibilité avec tout type d’écran et un nouveau formulaire de recherche avancée.
Quertle, le développeur de la première plateforme de découverte et d’analyse visuelle de données biomédicales basée sur un système d’intelligence artificielle collabore désormais avec Elsevier pour intégrer Science Direct au sein de son outil.
Clarivate Analytics lance une nouvelle version de son outil de gestion bibliographique EndNote. EndNote X8 offre désormais la possibilité de partager une bibliothèque de références, des références, des PDFs et des annotations avec 100 personnes maximum, la possibilité de travailler simultanément sur une bibliothèque partagée en temps réel, du stockage illimité sans coût additionnel et l’ajout d’un flux d’activité pour voir les nouveaux membres ou les changements apportés aux bibliothèques partagées.
L’organisation des Nations-Unies pour l’Alimentation et l’Agriculture (FAO) vient de lancer une nouvelle version de sa base de données statistique FAOSTAT. Au programme des nouveautés, une interface plus moderne et adaptée à la lecture sur supports mobiles, de nouvelles fonctionnalités de recherche et de filtrage et la possibilité de télécharger des ensembles de données personnalisées, des cartes et graphiques. Le nouveau site propose également une nouvelle fonction avec un ensemble d’indicateurs-clés prêts à l’emploi.
Google et ses concurrents ont du souci à se faire. Le parlement français a récemment voté la loi « création » qui oblige entre autres les moteurs à payer une redevance pour indexer et afficher des photos dans leurs moteurs d’images. La redevance devra être versée auprès d’une société de gestion collective agréée, telle que la SAIF, l’ADADGP, ou une autre structure ad hoc.
A l’exception des professionnels de l’image et de la photographie qui enregistreront leurs œuvres auprès de ces organismes de gestion, il est hautement improbable que le citoyen lambda qui publie des images sur le Web touche le moindre centime en droit d’auteur de la part de ces organismes. Certains dénoncent également le déséquilibre entre Google et des petits moteurs de recherche indépendants qui ne disposent pas du budget de Google et qui préfèreront désindexer certaines images car ils ne pourront pas supporter ces nouveaux coûts.
De son côté, le moteur de recherche DuckDuckGo, qui se positionne sur le créneau des moteurs qui respectent la vie privée, s’améliore et propose de nouvelles fonctionnalités de recherche. Les dernières en date : la possibilité de filtrer les résultats par date (past day, past month, etc.) et l’ajout de sitelinks pour certains sites. Rappelons que les sitelinks sont des liens affichés au-dessous de certains sites dans les résultats et sont destinés à faciliter la consultation du site par les internautes. La structure des liens du site est analysée afin de définir des raccourcis permettant aux internautes de gagner du temps et de trouver rapidement l’information qu’ils recherchent.
Factiva a récemment lancé une application Iphone permettant de suivre l’actualité en tout lieu et à tout moment. Cette application donne accès aux alertes, newsletters et actualités issues des titres présents dans Factiva. Il est possible de sauvegarder les articles pour les lire plus tard sans avoir de connexion internet.
La base de donnée Inspec (littérature scientifique et technique) est désormais accessible sur Proquest (nous rappelons qu’elle était déjà accessible depuis bien longtemps sur la plateforme Proquest Dialog et sur STN).
Proquest a également lancé récemment neuf bases de données régionales avec plus de
3 000 titres de revues académiques (business, science, sciences humaines et sociales, médecine, etc.). Les neuf bases sont les suivantes : Australie & Nouvelle Zélande, Europe continentale, Europe de l’Est & Europe Centrale, Asie de l’Est et du Sud, Inde, Amérique latine et péninsule ibérique, Afrique & Moyen-Orient, Turquie, Royaume-Uni & Irlande.
L’Open Data fait régulièrement la Une de l’actualité française depuis 2010 avec l’ouverture des premières données publiques dans notre pays.
Nous avons eu plusieurs fois l’occasion de publier des articles dans Bases sur l’Open Data mais il s’agissait surtout de lister les nouvelles initiatives en France et ailleurs dans le monde.
Nous avons décidé qu’il était temps de nous lancer dans un article de fond sur les apports de l’Open Data pour les professionnels de l’information.
La DILA (direction de l’information légale et administrative) réalise une avancée notable dans l’ouverture des données publiques en France en mettant en ligne le données de trois de ses bulletins officiels particulièrement intéressants pour les entreprises du point de vue des informations économiques qu’elles contiennent.
- le BODACC (bulletin officiel des annonces civiles et commerciales) depuis 2008 avec une mise à jour journalière ;
- le BOAMP (Bulletin officiel d'annonces des marchés publics) depuis 2005 avec une mise à jour journalière ;
- le BALO (Bulletin des annonces légales obligatoires) depuis le 1er avril 2005.
On attend la diffusion gratuite (article 19 de la loi Macron) des données du registre national du commerce et des sociétés (RNCS), données qui sont collectées en amont par les greffes des tribunaux de commerce et dont la diffusion gratuite, par voie électronique, est confiée à l'Institut national de la propriété intellectuelle (INPI).
Ce registre est constitué à partir des données d'entreprises collectées lors de dépôts d'actes.
OATAO (Open Archive Toulouse Archive Ouverte) s'inscrit dans le cadre du Pôle de Recherche et d'enseignement Supérieur "Université de Toulouse".
Pour l'instant l'INPT (Institut National Polytechnique de Toulouse), l'ENVT (Ecole Nationale Vétérinaire de Toulouse), l'ISAE (Institut Supérieur de l'Aéronautique et de l'Espace) et l'ENFA (Ecole Nationale de Formateur Agronomique) participent au projet.
Cette archive contient près de 10 000 documents depuis 2008, dont environ la moitié d'articles, un quart de thèses et un quart de conférences.
On est impressionné par le nombre de téléchargements de certains documents.
C'est ainsi que la thèse de 2005 "Le fromage de chèvre, spécificités technologiques et économiques" a été téléchargée plus de 28 000 fois !
On notera que les documents les plus consultés sont essentiellement dans les domaines vétérinaires et agronomiques.
La présentation du « plan digital » de la SNCF le 10 février 2015 a été l’occasion pour la société d’aborder la question de l’Open Data, notamment concernant les horaires de ses TGV.
Bien que la généralisation du wifi dans les gares et les trains de la SNCF ainsi que l’application unifie aient été les deux annonces les plus médiatiques de cette présentation, le groupe ferroviaire a aussi annoncé l’ouverture de toutes ses données concernant les horaires des TGV.
Pour l’instant, seuls les horaires des TER, Transilien et Intercités sont librement accessibles par les usagers, un oubli du TGV qui avait notamment été remarqué par la fondation « Open Knowledge », spécialisée dans l’Open Data et connue pour son classement annuel des meilleurs pays en la matière (la France se classe à l’heure actuelle en troisième position des pays les plus ouverts en matière de données).