Bases & Netsources - Bases - Quand les LLM disent « limite atteinte » : comprendre et maîtriser ses quotas d’IA

Anne-Marie LIBMANN

Bases no

447

publié en

2026.05

79

Tokens, GPU, énergie : ce que cache la facturation

Derrière chaque requête se cache un coût physique réel (GPU, énergie, mémoire) - c’est ce coût qui explique les plafonds. L’unité de mesure en est le token : environ les trois quarts d’un mot anglais, unité dans laquelle le modèle découpe tout ce qu’il reçoit et génère. Un résumé court en mobilise quelques centaines ; l’analyse d’un corpus, plusieurs dizaines de milliers.

Les abonnements payants n’achètent pas des messages illimités, mais une enveloppe de ressources gérée par fenêtres glissantes (*) – des périodes mobiles de quelques heures durant lesquelles la consommation est mesurée en continu, sans remise à zéro à heure fixe.

(*) De l’ordre de 3 à 5 heures selon les plateformes.

Payant ne veut pas dire illimité

Le plan gratuit est limité aux modèles légers : quota épuisé en quelques dizaines d’échanges par jour.

L’abonnement payant (~20 $/mois) donne accès aux modèles puissants, aux agents, au raisonnement avancé et aux uploads - mais il n’est pas illimité pour autant :

ChatGPT Plus : accès illimité à GPT-5 Instant (usage courant) ; accès limité à GPT-5 Thinking (raisonnement avancé), soumis à des fenêtres glissantes.
Claude et Gemini : même principe : accès étendu sur les modèles courants, plafonds stricts sur les modèles coûteux.
Fonctionnalités coûteuses (agents, thinking) : limites hebdomadaires spécifiques.

LIRE AUSSI

Le context engineering : orchestrer l'information pour les agents IA, Netsources N°179 - nov - dec 2025

Le prompt, un art pour la veille stratégique et la recherche d'information (dossier en deux parties), Netsources N°177 - juil - août 2025 et N°178 - sept-oct 2025

Les hausses tarifaires des modèles : vers une intelligence artificielle à deux vitesses ?, Bases N°437 - juin 2025

Déjà abonné ? Connectez-vous...

Connexion