IA - Tu ne tueras point... ou pas.

Mode clair Mode sombre

Temps de lecture : 9 minutes

9 avril 2026

Création de deepfakes pornographiques ou politiques, malwares toujours plus puissants… Malgré les annonces des grandes compagnies, imaginer une IA inoffensive est un leurre. Jailbreak, ablitération… les techniques de détournement sont nombreuses. Alors, devons-nous accepter cette nouvelle réalité ?

La promotion des IA se fonde sur la mise en avant de produits bien lisses, bridés par des armées de modérateurs, d’ingénieurs et de juristes « Trust & Safety » qui transpirent à l’idée que leur modèle lâche une recette de crystal meth à votre ado de 15 ans. « Tu ne tueras point », « Tu ne généreras pas de code malveillant », l’esprit des lois de la robotique d’Asimov est recyclé sans retenue. Sauf que la réalité démontre que l’alignement moral des LLM (Large Language Models) est une vaste blague, un vernis qui craque à la première pichenette.

Plongeons alors dans les entrailles de l’IA uncensored : du mind-trick psychologique au charcutage mathématique, en passant par le tuning de garage. Accrochez-vous, on fait sauter tous les verrous !

Le jailbreak, ou comment saturer le cerveau d’une IA

Oubliez les prompts encodés en Base64 (un système qui transforme le texte en une suite de caractères illisibles) ou en « leetspeak » (ce langage où on remplace des lettres par des chiffres ou des symboles, comme « 1337 » pour « elite »). Ces méthodes sont repérées presque instantanément par les systèmes de sécurité d’Anthropic ou d’OpenAI.

Prenez « Spiritual Spell », connu aussi sous le pseudonyme de Vichaps. Cet ancien militaire américain s’est reconverti en chercheur spécialisé dans le « Red Team » : il teste volontairement les failles des intelligences artificielles, un peu comme un hacker éthique qui simule des attaques pour renforcer les défenses.

Un jour, alors qu’un « Maître du Donjon » – c’est le nom donné au système de garde-fou chargé de bloquer toutes les demandes dangereuses, illégales ou contraires à l’éthique – refusait de répondre à ce qu’il demandait, il a décidé de consacrer beaucoup de son temps à « jailbreaker » les modèles d’IA, soit d’en contourner les restrictions de sécurité intégrées.

Sa méthode de prédilection ? Le Peeling Onions (l’épluchage d’oignons). Plutôt que de forcer la porte de manière frontale, il la contourne en s’appuyant sur trois piliers psychologiques :

Le langage naturel : il s’agit de s’adresser à la machine le plus normalement du monde. Les IA sont intrinsèquement entraînées pour être « sycophantes », c’est-à-dire complaisantes et avides de satisfaire l’utilisateur. Dès qu’elles repèrent des mots ou des tournures typiques d’un « hacker » (comme des termes techniques suspects, des demandes de piratage ou un vocabulaire agressif), elles déclenchent immédiatement une alerte et bloquent la réponse. En évitant complètement ce lexique, Vichaps empêche ces systèmes de sécurité de sonner l’alarme. Son approche reste douce, polie et en apparence inoffensive, ce qui lui permet de progresser couche après couche sans éveiller les soupçons. L’IA privilégie alors son inclination naturelle à rendre service plutôt que le strict respect de ses directives de sécurité.

La division de l’attention : un modèle de langage dispose d’une capacité de calcul et d’attention limitée par requête. La technique consiste à dissimuler la commande pernicieuse sous une avalanche de détails descriptifs ou sensoriels secondaires. En demandant à l’IA de se concentrer sur l’odeur métallique d’un atelier des années 90 ou l’esthétique d’un décor précis, chaque « token » dépensé pour l’imagination est soustrait aux algorithmes de modération. Le modèle, saturé par la charge narrative environnementale, exécute la requête principale sans opposer de résistance.

Les récits imbriqués : c’est l’application détournée du jeu de rôle. L’utilisateur façonne un persona, par exemple une romancière rédigeant une œuvre de fiction dystopique. Pour un LLM, la cohérence narrative prime souvent sur l’injonction morale. Il ne s’agit plus de lui demander d’accomplir une action illégale, mais de décrire avec authenticité une scène de son roman où un personnage l’accomplit. L’IA, stimulée par cet exercice d’improvisation, livre les informations sensibles au nom de l’immersion littéraire.

L’ablitération : la lobotomie mathématique

Si le jailbreak relève de la manipulation, il exige néanmoins un effort constant de contournement. Que se passe-t-il lorsqu’on souhaite obtenir un modèle affranchi de toute contrainte éthique, et ce, de manière permanente ?

C’est ici qu’intervient l’ablitération (contraction d’ablation et d’itération, qui résonne avec son quasi-synonyme « oblitération »), un concept popularisé par un chercheur connu sous le pseudonyme de FailSpy.

Contrairement au réentraînement classique, l’ablitération s’apparente à une intervention chirurgicale post-conception, opérée directement sur les matrices de poids du modèle. Les chercheurs ont mis en évidence l’existence d’une « direction de refus » au sein de l’espace d’activation des LLM. Lorsqu’une IA s’apprête à formuler une fin de non-recevoir du type « Je suis désolé, mais en tant qu’IA, je ne peux pas… », ses réseaux neuronaux s’activent selon un vecteur très précis et identifiable.

IA : peut-on coder la morale ?

J’approfondis

L’opération consiste donc à isoler cette direction vectorielle et à la soustraire par une simple opération d’algèbre linéaire (une orthogonalisation). Le résultat est pour le moins troublant : la machine conserve l’intégralité de ses capacités cognitives, de sa logique et de son savoir, mais se voit physiquement amputée de son mécanisme de blocage. Un modèle ainsi « ablitéré » générera le code d’un malware ou d’un script offensif de scan de vulnérabilités sans la moindre hésitation.

Le fine-tuning : l’école du vice sur mesure

Si l’ablitération supprime la notion de refus, le réentraînement fin (fine-tuning) permet, quant à lui, d’inculquer activement des comportements illicites. L’hégémonie de firmes comme OpenAI s’estompe face à la prolifération de modèles ouverts (à l’instar des modèles Qwen d’Alibaba ou des modèles de Mistral), dont les poids sont téléchargeables librement.

L’enjeu se situe dans l’accessibilité de ces technologies. Avec une puissance de calcul relativement modeste (quelques cartes graphiques louées dans le cloud pour quelques centaines ou milliers de dollars) et des méthodes d’optimisation comme LoRA, il est désormais possible à n’importe quel passionné de s’approprier un modèle de base et de le personnaliser avec ses propres jeux de données. Or, par définition, ces bases de données échappent à toute supervision.

IA : comment greffer une mémoire à un poisson rouge ?

J’approfondis

En alimentant un modèle avec des discussions extraites de forums du Dark Web, des dépôts de code malveillant, des manuels de guérilla ou des archives de campagnes de hameçonnage (phishing) ultra-ciblées, l’usager crée une IA experte en illégalité. Le modèle assimile le ton, la méthodologie et l’efficacité des données qu’il a ingérées, devenant ainsi une arme numérique façonnée sur mesure.

Génération visuelle : l’industrialisation des deepfakes

Si les dérives textuelles posent un risque sécuritaire majeur, le franchissement des barrières morales prend une dimension encore plus vertigineuse avec les modèles de génération visuelle.

Les acteurs majeurs tels que Midjourney ou Nano Banana ont déployé des filtres drastiques pour prévenir la génération d’images sensibles, de figures politiques ou de contenus sous droits d’auteur, tétanisés par le risque de scandales médiatiques. Mais l’écosystème open source, avec des modèles comme Stable Diffusion, Wan, LTX ou Flux, permet, avec les techniques précédentes, tous les excès.

Une fois ces modèles débridés ou entraînés sur des données non filtrées, la manipulation d’images passe à une échelle industrielle. La création de deepfakes pornographiques non consentis, impliquant des personnalités publiques (Taylor Swift en fut récemment la cible) ou de simples anonymes, devient un processus automatisé. De la même manière, la fabrication de fausses preuves vidéo destinées à compromettre un adversaire, à alimenter une campagne de chantage ou à orienter une élection ne requiert plus d’expertise technique pointue : c’est l’affaire de quelques clics.

Du point de vue de l’internaute, et même du journaliste, le plus important est plus que jamais d’aiguiser son esprit critique et de respecter une logique généralement efficace : toujours recouper une information à partir de sources distinctes de qualité.

Enfin, l’aspect le plus sombre de cette technologie réside dans la génération de matériel pédopornographique par IA, atteignant un niveau de photoréalisme impossible à distinguer d’authentiques clichés. Ces modèles fonctionnant en vase clos, souvent en local sur une simple carte graphique d’un PC gamer, échappent à tout mécanisme de contrôle : il n’y a pas d’API à couper, pas d’adresse IP à bannir et pas de filigrane pour les différencier de photos ou de vidéos réelles. N’importe quel esprit malveillant peut ainsi transformer sa machine en une manufacture d’horreurs, produisant du contenu abusif à la chaîne.

L’éternel avantage de l’attaquant

In fine, le battage médiatique et institutionnel autour de la « sécurité de l’IA » témoigne d’une certaine hypocrisie, ou, au moins, d’une amnésie historique quant à une règle fondamentale de l’informatique, de la délinquance et des conflits. De tout temps, que ce soit dans l’histoire de la stratégie militaire (la course perpétuelle entre le projectile et le blindage) ou dans la cybersécurité moderne (les vulnérabilités zero-day devançant inévitablement les antivirus), l’attaquant a toujours conservé l’ascendant sur le défenseur. L’offensive dicte le rythme de l’évolution technologique ; le bouclier ne fait que s’adapter, avec un perpétuel temps de retard.

Vouloir concevoir une intelligence artificielle absolument et intrinsèquement inoffensive relève du non-sens absolu. Cela reviendrait à forger un couteau performant qui s’obstinerait à refuser de trancher de la chair humaine tout en coupant un steak à la perfection. C’est mathématiquement, logiquement et philosophiquement voué à l’échec. La vulnérabilité n’est pas uniquement technologique, elle est organique.

C’est donc avant tout la responsabilité — et la volonté — de l’usager qui déterminent l’impact d’une IA. Les mesures de protection algorithmiques, les réglementations européennes, qu’il s’agisse de garde-fous, de méthodes d’alignement ou de modérateurs humains, importent finalement assez peu à grande échelle : elles finiront toujours par céder face à l’ingéniosité et à la détermination de cybercriminels, d’acteurs étatiques ou d’individus économiquement motivés par l’absence de limites. L’intelligence artificielle n’est qu’un puissant levier cognitif et créatif. C’est la main humaine, et elle seule, qui choisit la direction vers laquelle elle veut amener une technologie.

« Tu ne tueras point ? » Peut-être. Mais l’humain, derrière un clavier ou non, lui, ne s’en est jamais privé.