L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
Disons-le franchement, la confusion règne entre les noms des produits/outils (par exemple, un chatbot), des modèles de langage et des algorithmes. Ils ont parfois le même nom alors qu’il s’agit de trois entités distinctes. Le veilleur, en tant qu’utilisateur final, manipule des outils. Ces derniers reposent sur un modèle de langage (LLM), qui lui-même repose sur un algorithme (et un mode d’apprentissage).
Par exemple, chatGPT est un outil (un chatbot) qui fonctionne avec le LLM propriétaire GPT 3.5, qui désigne aussi son algorithme. Gemini est à la fois un chatbot de Google accessible gratuitement, mais aussi le nom de son modèle de langage (LLM) qui n’est pas en open source non plus, ainsi que de son algorithme !
Enfin, certains outils, comme le moteur de recherche Perplexity, reposent sur un modèle mixte. Il a développé son propre modèle mais il utilise aussi Copilot (outil propriétaire de Microsoft) et LLaMA (modèle ouvert de Meta).
Par ailleurs, malgré une expansion marquée récemment par la success story de Mistral, la startup « française » créée il y a quelques mois et déjà valorisée à deux milliards de dollars pour son modèle de langage open source, cette licence reste minoritaire dans les outils IA du veilleur.
Sur le portail d’outils IA Futurepedia qui recense plus de 5 000 outils (voir notre article en accès libre, Focus IA : notre sélection d’annuaires d’outils IA, BASES N°414, Mai 2023) et dispose d’un filtre Open source
, on note cette proportion :
● 20 générateurs de prompts sur 132 sont en open source
● 15 générateurs de texte sur 294
● 0 outil de réécriture sur 28
● 7 outils de copywriting/aide à la rédaction sur 209
● 2 outils marketing sur 81
Mais dans la dizaine d’outils consultés, rares sont ceux qui précisent leur modèle de langage !
Cette faible proportion d’outils s’explique par le fait que les modèles de langage accessibles en open source s’adressent davantage aux développeurs qu’aux utilisateurs finaux.
Une autre explication réside sans doute dans le fait que les LLM open source manquent encore de fine tuning, ou ajustement. Or, c’est cette phase finale qui assure un niveau de précision suffisant, pour être exploité par un utilisateur final.
Déjà abonné ? Connectez-vous...