En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
● Nombre de titres de presse écrite (2021, Ministère de la Culture) : 3872
● Nombre de radios (2022, Arcom) : + 1000
● Nombre de chaînes de télévision (2022, Arcom) : 30 chaînes nationales
● Classement de médias numériques (2021, Mind Media, par nombre d’abonnés) : Le Monde, L’Équipe, Le Figaro, Ouest-France, Les Échos, Libération, Le Parisien.
Vivendi (V. Bolloré) : Groupe Canal + (Canal+, Canal+ Cinema, Planète+, Canal+ Sport), CNews, C8, CStar), Prisma Media (Géo, Femme actuelle, Gala), Lagardère News (JDD, Europe 1, Paris Match, RFM, Europe 2, Elle International), etc.
La connaissance des médias est une compétence essentielle du sourcing et de l’analyse dans la veille informationnelle. Pourtant, les professionnels de la veille et des médias ne se côtoient que trop rarement. Or, connaître l’univers - et la diversité - médiatique est justement ce qui permet de constituer un corpus complet, c’est-à-dire qui prend en compte l’ensemble des opinions autour d’une question. Visite guidée, à l’aube d’une prochaine disruption médiatique.
Le paysage médiatique français est constitué d’un grand nombre de titres traditionnels : plus de 5000 titres de presse écrite, radios et chaînes de télévision en 2021, selon les chiffres du ministère de la Culture et de l’Arcom.
Les médias locaux évoluent et cela impacte directement le sourcing et les pratiques de veille. Comment identifier et intégrer ces sources et verticales dans son sourcing ?
Il y a des veilles et des recherches d’information où la dimension locale est primordiale. L’information locale qu’il faut réussir à capter, c’est alors celle fournie par des journaux locaux, radios et TV locales, collectivités locales, mais aussi par des internautes désireux de partager des informations.
Ces différentes sources vont permettre d’obtenir des informations uniques et stratégiques notamment au niveau de la politique et de l’économie locale.
En France, quand on pense information locale, on pense avant tout à la PQR (presse quotidienne régionale) et à la PHR (presse hebdomadaire régionale) et par extension à un secteur touché de plein fouet par les difficultés rencontrées par la presse depuis des années.
On aurait vite fait d’extrapoler et de se dire que la veille locale en France risque d’être de plus en plus compliquée avec des sources et des informations locales moins nombreuses. Mais malgré ce sombre tableau, l’information locale n’a pas dit son dernier mot et se renforce même à différents niveaux et via différents canaux.
Dans cet article, nous explorons cette évolution et examinons ses répercussions sur la veille et la recherche d’informations.
Les médias des collectivités locales sont des sources essentielles d’informations régionales au rôle bien singulier. Et comme l’intégration de ces ressources dans une veille reste un véritable défi, comment identifier, surveiller et intégrer ces médias à son système de veille.
Parmi les sources utiles pour trouver de l’information locale en France, les journaux des collectivités (communes, communautés de communes, départements ou régions) sont en bonne position. Ces médias ont une place bien à part dans le paysage des médias locaux. Ils ont la forme d’un journal ou d’un magazine, mais sont généralement la voix de l’équipe politique en place, à l’exception des quelques pages réservées à l’opposition.
Une fois que l’on a bien conscience du positionnement et des biais associés à ce type de publication, il n’en reste pas moins qu’on peut y trouver de l’information locale intéressante et parfois exclusive pour sa veille, notamment sous les angles de la politique et de l’économie locale, des acteurs locaux et de l’événementiel local.
Pourtant, réussir à les utiliser pour sa veille est loin d’être simple, car il n’existe à ce jour aucun agrégateur, outil centralisateur pour ce type de contenus et on se retrouve avec une multitude de magazines plus ou moins accessibles aux modalités et formats différents.
Dans cet article, nous verrons comment identifier ces médias, comment les mettre sous surveillance ou effectuer des recherches sur leurs contenus et comment leur trouver une place adéquate dans son système de veille.
Après les moteurs de recherche et les médias sociaux, l’IA générative redistribue de nouveau les cartes pour les médias d’information. Avec des impacts considérables sur la production, la diffusion et la monétisation du contenu. Comment les médias s’adaptent-ils et comment cela affecte-t-il l’activité de veille ? Petit tour des initiatives en cours.
Dans ses recherches, au cours de ses analyses ou de la réalisation de ses livrables, le professionnel de la veille est de plus en plus exposé, de façon plus ou moins subtile, à l’information en provenance des IA génératives.
Au départ, les réponses créées par les chatbots d’IA générative comme ChatGPT, Bard et quelques autres, lui ont offert un autre mode d’accès à l’information : un accès direct aux réponses, sans cliquer sur les sources. Et cet usage devrait perdurer si l’on en croit la prochaine version de Google, SGE, qui valorise les réponses générées par IA au détriment des résultats de recherche présentés sous forme de liens.
Mais le contenu généré par IA commence aussi à concurrencer les médias sous une autre forme : des sites entièrement créés par IA s’invitent en effet dans les résultats des moteurs de recherche. Leur contenu, écrit pour correspondre aux règles actuelles de SEO, serait même mieux référencé que celui des médias. Récemment, le service américain de notation de l’actualité NewsGuard a identifié près de 600 sites Web (ils étaient 49 en mai dernier) qui fonctionnent avec peu ou pas d’intervention humaine. Et un site généré par l’IA produit jusqu’à 1200 articles par jour, contre 100 pour Le Monde ou 250 pour le New York Times ! Certains sont même financés par la publicité.
Les médias ont donc raison de craindre une baisse de leur propre trafic, qui provient à plus de 90 % de Google. Pour la veille, cela signifie davantage de difficultés à trouver certains contenus en provenance de médias pertinents, soudainement noyés dans des pseudos sites d’actualités générés par l’IA, mais difficiles à identifier, car ils reprennent les codes graphiques des sites d’actualités. Ce qui nécessite donc davantage de rigueur encore en phase de sourcing.
Dans la plupart des entreprises, la veille brevet est souvent négligée. La veille brevet peut pourtant être une source d’informations précieuse pour l’intelligence concurrentielle. Elle permet de suivre l’évolution des technologies, d’identifier les concurrents, et d’exploiter toutes les opportunités de marché en développant une vraie stratégie. Entretien avec Philippe Borne, Délégué Régional de l’INPI pour la Région Grand Est (1), et également rédacteur occasionnel pour notre lettre BASES à titre d’expert.
François Libmann : La veille brevet a un potentiel qui nous semble sous-évalué dans le domaine de l’intelligence concurrentielle. Comment l’interprétez vous ?
Philippe Borne : Beaucoup d’entreprises ont une vision très juridique du brevet, considéré uniquement comme un outil de protection, et donc avec des stratégies brevet très traditionnelles. Et du fait de cette vision, on retrouve la même attitude en ce qui concerne la veille brevet. Cette vision très juridique du brevet en France a pour conséquence qu’il n’est pas tenu compte de son potentiel en tant que source d’informations pour l’intelligence concurrentielle. Cela ne vient, en effet, pas à l’esprit qu’on puisse faire de la veille technologique sur ce type d’information.
(1) Philippe Borne s’exprime ici à titre personnel et les opinions qu’il expose n’engagent que lui-même.
Une veille peut s’effectuer sur un très grand nombre de sources telles que les publications dans différents types de presse (généraliste, scientifique…), le web et, en particulier Google ou des sites spécialisés, les réseaux sociaux, les visites de foires et salons, les conférences…
Dans un très grand nombre de cas, particulièrement pour la veille technologique et concurrentielle, il ne faut surtout pas négliger les différentes dimensions de la propriété industrielle : brevets, marques ainsi que dessins et modèles.
Tout d’abord, précisons le vocabulaire, car il y a un fort risque de confusion.
On rappellera en premier lieu qu’un brevet est une sorte de contrat entre l’État en général et un inventeur. En échange de l’exclusivité de l’usage d’une technologie sur une durée pouvant, en général, aller jusqu’à 20 ans, la description de cette technologie est rendue publiquement accessible, après une période de 18 mois, et constitue une information scientifique/technique.
Le titulaire du brevet peut exploiter lui-même sa technologie ou décider s’il autorise un/des tiers à l’exploiter et, dans ce cas, sous quelles conditions (vente du brevet, concession d’une licence).
On oublie trop souvent que les brevets ont un intérêt pour la veille concurrentielle. Et pourtant, en savoir un peu plus sur la politique brevet d’une entreprise est souvent très utile : par exemple, S’il s’agit de l’un de vos concurrents, cela peut être intéressant de connaître les techniques sur lesquelles il dispose d’une capacité d’interdiction, Si c’est un potentiel partenaire, cela peut être très pertinent avant de signer un accord de collaboration de connaître son niveau de sensibilité à la propriété industrielle. Et s’il s’agit d’un des fournisseurs auprès duquel vous vous approvisionnez en composants indispensables, s’il dispose de brevets sur ces composants, cela peut vouloir dire que vous ne pourrez vous fournir ailleurs. Et cette liste est loin d’être exhaustive.
Alors comment collecter des informations sur la politique brevet d’un concurrent, d’un partenaire, d’un fournisseur…. sans se ruiner ? Et comment entrer et comprendre les bases du monde des brevets, qui peut paraître inaccessible aux non-initiés ?
Toutes les données brevet sont publiques, accessibles dans des bases de données dont beaucoup sont en accès libre, comme Espacenet ou Patentscope. Dans cet article, nous allons vous montrer comment les retrouver.
Pour cela nous partirons d’un exemple concret en nous intéressant à la politique brevet de Volocopter, une startup allemande conceptrice d’un taxi volant à propulsion électrique qu’elle ambitionne de faire voler à l’occasion des Jeux olympiques de Paris, à l’été 2024.