En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
Prenons par exemple ce document https://sante.gouv.fr/IMG/pdf/ListeESvolontaires2013.pdf qui dresse une liste des hôpitaux en France en 2013, trouvé par une requête Google « liste hôpitaux en France PDF
».
Figure 1 : L’extraction de données ave DUST. Sur simple demande.
La différence entre ces outils réside non seulement dans la qualité de l’extraction, mais surtout dans les formats de documents importables et exportables.
Déjà abonné ? Connectez-vous...