Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Economiser du temps grâce aux outils d’extraction de données 

Netsources no
145
publié en
2020.03
506
Economiser du temps grâce aux outils d’extraction de ... Image 1
Economiser du temps grâce aux outils d’extraction de ... Image 1

Lors de recherches ou de veilles sur le Web, il n’est pas rare de rencontrer des documents ou des pages Web comportant un gros volume de données chiffrées que l’on souhaite récupérer. Il peut s’agir par exemple de tableaux sur un site internet, d’informations au sein d’un fichier PDF protégé, etc.

Malheureusement, il est souvent impossible de copier-coller l’ensemble de ces données de façon simple et rapide.

S’ensuit alors une longue séance de Ctrl C-Ctrl V pour extraire manuellement les informations utiles... Mais ce temps peut être considérablement réduit grâce à un outil d’extraction de données.

Nous détaillerons dans cet article les différents types d’outils existant sur le marché et les méthodes communes pour les utiliser. Mais avant cela, il convient de définir ce que sont les données structurées et non structurées.

Lire aussi :

Méthodologie et outils pour la recherche de statistiques
Comment rechercher des données chiffrées sur Google et moteurs de recherche généralistes ?
Trouver des informations financières : un exercice de recherche coûteux en efforts et en ressources


Définition : données structurées et non structurées

Dans le monde de l’information se côtoient deux types de données : les données structurées et les données non structurées.

Selon B. Bathelot du site Internet Définitions Marketing, les premières sont les « éléments précis (film, recette de cuisine, individu, etc.) dont les caractéristiques sont décrites au sein de la page par des balises spécifiques. Un film peut ainsi être décrit par son titre, sa durée, son réalisateur, ses acteurs, etc. La description d’une recette peut être structurée par son titre, sa durée, sa difficulté, une image, les ingrédients, etc. ». Ainsi, ces balises permettent aux moteurs de recherche de comprendre la nature de l’élément et de le mettre en avant lors d’une recherche par un utilisateur.

À l’inverse, les secondes sont toutes les informations qui n’entrent pas dans ce système de traitement et d’interprétation par les machines informatiques (PDF, courriels, fichiers textes, tableaux, images, etc.).

On comprend donc la difficulté qu’implique cette définition pour la recherche d’éléments chiffrés, qui rentrent dans la plupart des cas dans la catégorie des données non structurées.

Il faut donc explorer chaque document, chaque page internet, pour copier-coller manuellement ces données ou mieux utiliser des outils d’extraction de données.

tags

Déjà abonné ? Connectez-vous...

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...