“Fable 5 de retour : les États-Unis lèvent les restrictions, Anthropic propose une norme de sévérité pour les jailbreaks”

Ce qui s’est passé

Le 12 juin, le gouvernement américain a appliqué des contrôles à l’exportation aux modèles les plus récents d’Anthropic — Claude Fable 5 et Claude Mythos 5 — obligeant l’entreprise à restreindre l’accès aux ressortissants étrangers. L’ordre étant entré en vigueur immédiatement et Anthropic ne disposant d’aucun moyen fiable de vérification de nationalité en temps réel, elle a suspendu l’accès aux deux modèles pour tous les utilisateurs. Le gel a duré près de trois semaines.

Le déclencheur : des chercheurs d’Amazon ont découvert une technique permettant de contourner les classifieurs de sécurité de Fable 5, l’incitant à identifier des vulnérabilités logicielles et — dans un cas — à produire un code d’exploit de démonstration. Le gouvernement a répondu par des restrictions à l’exportation.

Les propres tests d’Anthropic ont toutefois révélé que la technique signalée n’exposait pas de capacités uniques. Chaque modèle testé — y compris Claude Opus 4.8, GPT-5.4, GPT-5.5 et Kimi K2.7 — pouvait produire les mêmes résultats.

Le 30 juin, les contrôles à l’exportation ont été levés. Fable 5 a été déployé mondialement le 1er juillet sur Claude.ai, Claude Platform, Claude Code et Claude Cowork. Mythos 5 a été restauré pour un ensemble d’organisations américaines approuvées dans le cadre du programme Glasswing.

Des garde-fous renforcés

Anthropic a détaillé son approche de « défense en profondeur » : des classifieurs entraînés pour bloquer quatre catégories d’activités — les utilisations interdites (ransomware, développement de malwares, exfiltration de données), les utilisations duales à haut risque (développement d’exploits, tests d’intrusion), les utilisations duales à faible risque (scan de vulnérabilités) et les utilisations bénignes. La marge de sécurité de Fable 5 a été délibérément élargie par rapport à tout modèle précédent, bloquant davantage de requêtes bénignes pour capturer plus de requêtes nuisibles.

Un nouveau classifieur, entraîné en collaboration avec le gouvernement, bloque désormais la technique de jailbreak signalée par Amazon dans plus de 99 % des cas. Le CAISI du NIST a validé indépendamment les garde-fous.

Un cadre de sévérité des jailbreaks

L’élément le plus visionnaire est le cadre provisoire d’Anthropic pour évaluer la sévérité des jailbreaks. Il n’existe actuellement aucune norme sectorielle pour classer le danger d’un jailbreak donné — certains ne débloquent que des comportements mineurs, tandis que les jailbreaks universels démantèlent l’ensemble du dispositif de sécurité d’un modèle.

Le cadre proposé catégorise les jailbreaks sur un spectre : intrusions mineures dans la marge de sécurité, jailbreaks nuisibles ciblés (débloquant des comportements dangereux spécifiques) et jailbreaks universels (débloquant un large éventail de nuisances). Anthropic a publié le cadre provisoire publiquement et ouvert un programme HackerOne invitant les chercheurs en sécurité à soumettre des jailbreaks contre Fable 5.

Pourquoi c’est important

Cet épisode illustre une tension récurrente : les modèles d’IA de pointe sont désormais réglementés comme des armes, avec des garde-fous croissants et une supervision gouvernementale. La réponse d’Anthropic — publier la taxonomie des classifieurs, proposer une norme sectorielle et ouvrir un bug bounty public — traite la sécurité non pas comme un secret concurrentiel mais comme une infrastructure partagée.

Reste à savoir si le cadre de jailbreak gagnera du terrain. Mais avec les partenaires Glasswing Amazon, Microsoft et Google déjà à la table, Anthropic parie que le secteur est prêt à standardiser la manière dont il aborde — et corrige — les défaillances de sécurité de l’IA.

FAQ

Q : Fable 5 est-il désormais accessible à tout le monde ? Oui. Fable 5 est disponible mondialement sur Claude.ai, Claude Platform, Claude Code et Claude Cowork. Les utilisateurs Pro, Max, Team et certains utilisateurs Enterprise bénéficient de jusqu’à 50 % de leurs limites d’utilisation hebdomadaires inclus jusqu’au 7 juillet, après quoi l’accès à Fable 5 nécessite des crédits d’utilisation.

Q : Qu’en est-il de Mythos 5 ? Mythos 5 est uniquement disponible pour les organisations américaines approuvées dans le cadre du projet Glasswing. Un accès plus large est en attente de coordination gouvernementale.

Q : Puis-je signaler un jailbreak que j’ai trouvé ? Oui. Anthropic a lancé un programme HackerOne à l’adresse hackerone.com/anthropic. Les chercheurs en sécurité peuvent soumettre des jailbreaks contre Fable 5 pour examen.

Q : Qu’est-il arrivé à Claude Opus 4.1 ? Par ailleurs, Anthropic a déprécié Claude Opus 4.1 (claude-opus-4-1-20250805) avec un retrait sur l’API prévu pour le 5 août 2026.

"Fable 5 de retour : les États-Unis lèvent les restrictions, Anthropic propose une norme de sévérité pour les jailbreaks"

Ce qui s’est passé

Des garde-fous renforcés

Un cadre de sévérité des jailbreaks

Pourquoi c’est important

FAQ

Pour aller plus loin