Claude Opus 4.7 : ce qui change vraiment dans un workflow SaaS
Anthropic a sorti Opus 4.7. Sur le papier, une incrémentation. Dans un workflow de studio qui livre en production, plusieurs changements obligent à retoucher prompts, budgets tokens et permissions Claude Code.
Anthropic a publié Opus 4.7 ce 16 avril 2026. La fiche produit tient en quelques lignes : meilleur en ingénierie logicielle, vision plus fine, suivi d'instructions plus strict, même prix qu'Opus 4.6. En apparence, rien de spectaculaire.
Mais plusieurs changements vont obliger les équipes qui opèrent Claude en production à remettre les mains dans le moteur. Les prompts soigneusement calibrés pour 4.6 ne seront pas portables tels quels. Les budgets tokens vont dériver. Le comportement par défaut de Claude Code a changé. Tout ce qu'on avait stabilisé mérite une passe. Voici ce qu'on en retient après nos premiers runs sur l'API, ce que ça change dans un workflow de studio qui livre en production, et les pièges à anticiper avant de migrer.
Des instructions prises au pied de la lettre
Le changement qui va le plus vous affecter à court terme n'est ni le score SWE-bench, ni la vision haute résolution. C'est la manière dont le modèle lit vos prompts.
Anthropic le dit sans détour1 : Opus 4.7 suit les instructions beaucoup plus littéralement que le précédent. Les prompts qui fonctionnaient bien avant peuvent maintenant produire des résultats inattendus, parce que le modèle interprète moins librement et saute moins de consignes. C'est un bon comportement sur le fond — un agent qui fait ce qu'on lui demande vaut mieux qu'un agent qui devine. Mais pour une équipe qui a passé plusieurs semaines à faire converger un prompt système, c'est une vraie nouvelle.
Les tournures conditionnelles héritées des précédents modèles ("si tu penses que…", "dans certains cas…") peuvent maintenant produire des comportements plus binaires que prévu. Les contraintes implicites ("adopte un ton professionnel") gagnent à être rendues explicites. Les instructions vagues qu'Opus 4.6 lisait avec bienveillance, Opus 4.7 les applique telles qu'elles sont écrites.
Avant de basculer une charge de prod, il faut faire tourner la suite d'évals avec les prompts existants et repérer où le modèle diverge. Sur ce qu'on a testé jusqu'ici, 4.7 fait mieux — mais différemment. Les prompts sculptés pour 4.6 ne sont pas portables à l'identique.
xhigh, nouveau défaut dans Claude Code
Deuxième changement à planifier : un niveau d'effort supplémentaire xhigh s'ajoute entre high et max. Dans Claude Code, c'est maintenant le niveau par défaut sur tous les plans1.
La conséquence est immédiate sur la facture. Vos sessions Claude Code vont consommer plus de tokens à contexte identique, et Anthropic recommande d'ailleurs1 de démarrer en high ou xhigh pour les usages codage et agent — ce qui suggère en creux que les niveaux inférieurs ne valorisent pas complètement ce que le modèle sait faire.
Couplé au nouveau tokenizer qui fait gonfler le même input de 1 à 1,35x selon le type de contenu1, la hausse peut être sensible si rien n'est ajusté. Les alertes de budget et les plafonds stricts par utilisateur sont à repasser avant bascule. De notre côté, on garde high par défaut sur les tâches courtes et bien cadrées, et on réserve xhigh aux chantiers où la rigueur paie vraiment : refactor important, debug sur des systèmes complexes, revue avant livraison. Le gain de qualité justifie le coût quand le problème est assez dur pour en avoir besoin.
/ultrareview et auto mode étendu
Deux ajouts concrets dans Claude Code méritent d'être testés tout de suite.
La commande /ultrareview1 lance une session de revue dédiée qui relit les changements et signale les bugs et problèmes de design qu'un relecteur attentif attraperait. Les utilisateurs Pro et Max ont trois essais gratuits pour s'en faire une idée. CodeRabbit, qui opère à grande échelle sur du code review, rapporte une hausse de recall de plus de 10 % sur les bugs les plus difficiles à détecter1. Pour un studio qui enchaîne des PR sur plusieurs projets en parallèle, un deuxième regard systématique avant merge a du sens.
L'auto mode, lui, s'étend aux utilisateurs Max1. C'est la permission qui laisse Claude décider seul de ses actions sans demander confirmation à chaque commande. Moins permissif que le skip-all-permissions complet, nettement plus fluide que le mode classique où chaque appel shell déclenche un prompt. Sur les tâches longues qui pouvaient durer plusieurs heures d'interactions ping-pong, c'est un vrai gain en débit. La feature avait été introduite fin mars sur les comptes Pro2, elle concerne maintenant les comptes Max.
Vision : ce que la haute résolution débloque
Opus 4.7 accepte des images jusqu'à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels — plus de trois fois ce que les modèles Claude précédents géraient1. C'est un changement au niveau du modèle lui-même, pas un paramètre d'API, donc les images envoyées sont automatiquement traitées en meilleure définition.
En pratique, ça ouvre plusieurs usages qui étaient jusqu'ici bancals. Les agents computer use peuvent lire des captures d'écran denses sans rater un bouton ou un élément d'UI. L'extraction de données depuis des diagrammes complexes, schémas techniques ou formulaires scannés devient plus fiable. Et la revue de maquettes ou de captures UI où le pixel-perfect compte est enfin réaliste. XBOW, qui fait du pentest autonome, rapporte un saut de 54,5 % à 98,5 % sur son benchmark d'acuité visuelle entre 4.6 et 4.71. Ce genre d'écart change le périmètre des tâches qu'on peut raisonnablement confier à un agent.
Le revers existe : les images haute résolution consomment plus de tokens. Quand le cas d'usage ne dépend pas de détails fins, downsampler avant envoi reste une bonne pratique1.
Tokens : prévoir une hausse, mesurer le net
Le sujet tokens mérite qu'on s'y arrête parce qu'il va surprendre certaines équipes. Trois effets se cumulent sur 4.7 par rapport à 4.6. Le nouveau tokenizer d'abord, qui fait gonfler l'input de 1 à 1,35x selon le type de contenu1. Les reasoning tokens ensuite, plus volumineux aux niveaux d'effort élevés, en particulier sur les tours tardifs des sessions agent1. Et enfin xhigh qui devient le défaut dans Claude Code1.
Anthropic publie1 une courbe qui montre un meilleur ratio score/tokens sur 4.7 à tous les niveaux d'effort, d'après leur évaluation agentic interne. Le rapport qualité/prix net s'améliorerait donc, mais ça se vérifie sur le trafic réel de chaque équipe. Pour piloter ça, Anthropic lance les task budgets en beta publique sur l'API1, qui permettent de guider la dépense de tokens sur les runs longs. Pour qui opère des agents en prod avec des contraintes de coût unitaire, c'est le levier à tester en priorité.
Les garde-fous cyber, hérités de Glasswing
Un dernier point vaut la peine d'être noté parce qu'il touche ce que vous pouvez — ou ne pouvez plus — demander au modèle. Anthropic a annoncé la semaine dernière Project Glasswing, un programme de cyberdéfense qui déploie Mythos Preview auprès d'une cinquantaine d'organisations partenaires (AWS, Apple, Microsoft, CrowdStrike, Linux Foundation) pour sécuriser des infrastructures logicielles critiques3.
Opus 4.7 s'inscrit dans le prolongement de cette démarche. Anthropic indique avoir « expérimenté des efforts pour réduire de manière ciblée » les capacités cyber du modèle par rapport à Mythos Preview, et 4.7 embarque des garde-fous automatisés qui détectent et bloquent les requêtes signalant des usages cyber interdits ou à haut risque1. Les professionnels de la sécurité qui ont des besoins légitimes — recherche de vulnérabilités, tests d'intrusion, red-teaming — peuvent rejoindre le Cyber Verification Program mis en place à cette occasion1.
La portée pour un studio SaaS classique reste marginale, mais mérite d'être connue. Si certains de vos agents testent des endpoints, analysent des logs de sécurité ou manipulent du code lié à de l'authentification, il se peut que des requêtes qui passaient sans encombre sur 4.6 déclenchent maintenant un refus. Anticiper ce cas évite de bloquer une équipe en prod sur un faux positif.
Disponibilité et prochaines étapes
Trois éléments factuels à garder en tête. Le pricing est identique à 4.6 : 5 $ par million de tokens en entrée, 25 $ par million en sortie1. La disponibilité est immédiate sur l'API Claude, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry1. Et l'identifiant du modèle sur l'API est claude-opus-4-71.
Sur les produits Claude grand public, 4.7 est déployé dès maintenant. Pour nos propres workflows studio, on bascule progressivement : d'abord la R&D interne, ensuite les chantiers client une fois les évals repassées et les prompts système retravaillés.
Ce qu'on en fait chez NXL Forge
Trois choses vont changer concrètement dans notre pratique.
Nos prompts système d'agents de build et de test sont en revue. Le passage au mode d'instruction littéral modifie le contrat : on réécrit les zones qui reposaient sur l'interprétation souple de 4.6, et on rend explicites les comportements qu'on laissait au modèle.
Le budget tokens par projet est recalibré. La hausse annoncée sur les entrées plus la consommation accrue de xhigh va se voir sur les gros chantiers. On met xhigh là où la qualité prime — refactor, debug complexe, revue avant merge — et on reste sur des niveaux plus bas pour les tâches courtes et bien cadrées.
/ultrareview entre dans notre pipeline de revue avant livraison. Un agent autonome qui relit une session de plusieurs heures de code avec l'œil d'un senior, c'est exactement le genre de filet dont on a besoin pour maintenir un niveau de qualité constant sur des livraisons rapides.
Opus 4.7 n'est pas un saut architectural comme Mythos3. C'est une itération dense qui corrige et optimise un modèle qu'on utilisait déjà au quotidien. L'essentiel du travail consiste à s'assurer que votre stack existante en tire le meilleur, ce qui passe par un peu de maintenance plutôt que par une réécriture.
Si vous bâtissez un SaaS et que vous voulez discuter de la manière d'intégrer ces outils dans votre workflow de dev, parlons-en. On peut aussi estimer votre projet avec l'estimateur de coût ou partir d'un cahier des charges généré.
Sources
Footnotes
-
Introducing Claude Opus 4.7 — Anthropic News, 16 avril 2026. Annonce officielle du modèle : capacités, benchmarks, pricing, nouveautés Claude Code et API. <a href="https://www.anthropic.com/news/claude-opus-4-7" target="_blank" rel="noopener noreferrer">https://www.anthropic.com/news/claude-opus-4-7</a> ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20
-
Claude Code sort du terminal — Blog NXL Forge, 30 mars 2026. Analyse de l'introduction de computer use et auto mode dans Claude Code. <a href="https://nxlforge.com/blog/claude-code-computer-use-auto-mode-2026" target="_blank" rel="noopener noreferrer">https://nxlforge.com/blog/claude-code-computer-use-auto-mode-2026</a> ↩
-
Claude Mythos : le modèle qu'on ne peut pas avoir change déjà tout — Blog NXL Forge, 10 avril 2026. Analyse du modèle Mythos Preview non publié et du programme Project Glasswing. <a href="https://nxlforge.com/blog/claude-mythos-builders-saas-2026" target="_blank" rel="noopener noreferrer">https://nxlforge.com/blog/claude-mythos-builders-saas-2026</a> ↩ ↩2
Votre idée mérite un vrai logiciel.
Du formulaire d'adhésion au logiciel industriel sur mesure — NXL Forge associe expertise senior et IA de pointe. Livré avant que les autres vous aient rappelé.