La nouvelle a fait chuter le prix de la RAM et du stockage flash. Jusqu'ici, faire mémoriser votre contexte à une IA relevait du défi. À chaque nouveau prompt, elle oubliait toutes vos conversations. Mais une innovation majeure de Google a totalement changé la donne.
Par défaut, un grand modèle de langage (LLM) est un génie amnésique. Il a ingurgité l'intégralité d'Internet pendant son entraînement, mais sa mémoire de travail, à l'instant T — ce qu'on appelle la fenêtre de contexte — se réinitialise à chaque nouvelle conversation. Si vous voulez qu'une IA analyse les documents ultra-secrets de votre entreprise ou les logs d'une application sans les envoyer intégralement aux serveurs d'OpenAI, il faut lui greffer une mémoire externe. Pour résoudre ce problème cognitif, l'industrie s'écharpe aujourd'hui sur trois méthodes.
Les « Giga Contextes » (à l'américaine)
Pendant longtemps, la mémoire à court terme d'une IA se limitait à l'équivalent de quelques pages de texte (environ 3 000 mots). Aujourd'hui, on assiste à la course aux armements des giga contextes. Des modèles comme Gemini Pro (Google) ou Claude Opus peuvent désormais avaler jusqu’à un million de tokens d'un coup, soit 700 000 à 800 000 mots : c’est pratiquement 10 livres entiers en langue anglaise (le ratio moyen entre les mots et le nombre de tokens dépend de la langue). Le principe ? On ne trie plus rien. Vous prenez l'intégralité de vos archives comptables sur dix ans, tout le code source d'une application, le code pénal, et vous balancez tout dans le prompt avant de poser votre question.
Le cynisme technique : c'est l'équivalent cognitif du gavage d'oie. C'est d'une lenteur absolue, ça coûte une fortune en puissance de calcul à chaque requête, et, surtout, l'IA subit le memory drift (la dérive mémorielle). Noyée sous l'information, elle commence à faire des contresens en liant un détail insignifiant de la page 4 à un enjeu crucial de la page 8 000. Retrouver une information critique dans un million de tokens reste chercher une aiguille dans une botte de foin numérique.