Jeudi 28 mai, on terminait une session de refacto sur un module client quand la notification est tombée : Opus 4.8 dans Claude Code, avec une nouvelle bête appelée Dynamic Workflows. On a relancé la même tâche dans la foulée pour voir, par curiosité plus que par méthode rigoureuse. Ce qui suit n'est donc pas un benchmark, c'est une lecture à chaud d'un truc qu'on utilise tous les jours en production.
Le pitch d'Anthropic tient en une phrase : Claude Code peut maintenant planifier un gros chantier, le découper, envoyer les morceaux à des centaines de sous-agents qui tournent en parallèle, vérifier les résultats intermédiaires et reprendre une exécution interrompue là où elle s'était arrêtée1. On passe d'un assistant qui code une étape à la fois à une couche d'orchestration. La nuance n'est pas cosmétique pour qui livre du logiciel.
Le chiffre qui fait parler, et pourquoi il faut s'en méfier un peu
Anthropic met en avant une migration de 750 000 lignes de code menée du coup d'envoi jusqu'au merge, avec la suite de tests existante comme seul juge de paix2. Les reprises presse citent 11 jours et un taux de réussite des tests de 99,8 %3. C'est le genre de chiffre conçu pour atterrir directement sur le bureau d'un CTO, et il atterrit.
Sauf qu'un taux de tests verts à 99,8 % ne dit rien de la qualité de la suite de tests elle-même. On a tous vu des bases de code couvertes à 90 % qui passent au vert en laissant filer des régressions métier que personne n'avait pensé à tester. La barre, c'est la suite de tests existante. Si elle est faible, le 99,8 % est faible aussi. Ce n'est pas une critique du modèle, c'est juste une mise en garde sur ce qu'on lit dans le chiffre.
Et on ne sait rien de la base migrée : son âge, sa dette, le nombre de cas tordus. Une migration propre sur du code récent et bien typé n'a pas grand-chose à voir avec un legacy de quinze ans où chaque module a ses propres conventions. Bref, le benchmark prouve que la mécanique d'orchestration tient sur un gros volume. Il ne prouve pas qu'elle tiendra sur votre gros volume à vous.
Ce qui nous intéresse vraiment : le modèle dit quand il doute
Le truc le plus utile d'Opus 4.8 n'est pas l'orchestration. C'est une histoire d'honnêteté. Anthropic affirme que le modèle est environ quatre fois moins susceptible qu'Opus 4.7 de laisser passer sans commentaire un défaut dans le code qu'il vient de produire4. Les testeurs en amont décrivent un modèle qui signale plus volontiers ses incertitudes et avance moins d'affirmations non étayées4.
Pour un studio qui pilote des modèles supervisés par des humains, c'est la vraie nouvelle. Un agent qui code vite mais qui ment par omission sur ses propres approximations, c'est un agent qu'il faut relire ligne à ligne. Un agent qui lève la main et dit "là je ne suis pas sûr de cette hypothèse sur le format de la date", c'est un agent qu'on peut superviser à l'échelle. La différence entre les deux, c'est tout ce qui sépare un gadget d'un outil de production.
L'orchestration, c'est puissant, et c'est exactement là que la supervision devient critique
Les Dynamic Workflows sont en research preview, réservées aux plans Max, Team et Enterprise5. Un gros modèle comme Opus planifie, distribue le travail à des workers plus petits, contrôle les résultats et rend des points d'étape au lieu de forcer le développeur à attendre une longue passe opaque1. Sur le papier, c'est ce qu'on bricolait à la main depuis des mois.
Mais multiplier les agents, c'est aussi multiplier les endroits où une mauvaise hypothèse se propage. Quand un agent unique se trompe, vous avez un fil à dérouler. Quand cent sous-agents partent d'une spécification mal posée, vous avez cent morceaux cohérents entre eux et collectivement à côté de la plaque. L'auto-vérification intégrée limite la casse, elle ne remplace pas la relecture d'un humain qui connaît le métier du client.
Notre méthode n'a pas changé avec cette sortie : un développeur senior cadre, le modèle exécute, le développeur valide. Les Dynamic Workflows déplacent le curseur sur le volume qu'un même senior peut superviser, pas sur le besoin de supervision. C'est une nuance qu'on aimerait voir plus souvent dans les annonces, et qu'on ne voit jamais.
Le contexte de marché, en deux mots
Opus 4.8 sort 41 jours après Opus 4.7, le cycle le plus court jamais vu chez Anthropic pour un modèle phare3. La presse y voit une réponse à un accueil tiède d'Opus 4.7 et à la pression d'OpenAI et Google côté outils de code3. Le prix standard ne bouge pas (5 $ le million de tokens en entrée, 25 $ en sortie), et le fast mode tourne à 2,5 fois la vitesse pour trois fois moins cher qu'avant5.
Une réserve pour finir, parce qu'on ne va pas vous vendre du rêve. Des évaluations tierces, notamment d'Andon Labs, relèvent des régressions sur certains benchmarks économiques simulés6. Un modèle meilleur sur SWE-Bench peut être moins bon ailleurs. La leçon qu'on en tire, après deux ans à faire tourner ces modèles en prod : on ne change pas de version sur la foi d'une annonce, on la teste sur ses propres tâches avant de la mettre entre les mains d'un client. Ça vaut pour Opus 4.8 comme pour le reste.
Footnotes
-
TechCrunch : Anthropic releases Opus 4.8 with new 'dynamic workflow' tool. « Claude Code alongside Opus 4.8 can now carry out codebase-scale migrations. » 28 mai 2026. Lire l'article ↩ ↩2
-
Technology.org : Anthropic Releases Claude Opus 4.8 With Dynamic Workflows. Migration à l'échelle de la base de code, du kickoff au merge. 29 mai 2026. Lire l'article ↩
-
Memeburn : Claude Opus 4.8: Anthropic Launches Its Most Capable AI Model Yet. 750 000 lignes migrées en 11 jours, 41 jours après Opus 4.7. 30 mai 2026. Lire l'article ↩ ↩2 ↩3
-
Neowin : Anthropic launches Claude Opus 4.8 with better coding. Quatre fois moins susceptible de laisser passer ses propres défauts. 28 mai 2026. Lire l'article ↩ ↩2
-
gHacks : Anthropic Releases Claude Opus 4.8 With Effort Controls and Dynamic Workflows. Research preview pour Enterprise, Team et Max ; tarif standard inchangé. 30 mai 2026. Lire l'article ↩ ↩2
-
Let's Data Science : Anthropic Releases Claude Opus 4.8 with Faster, Honest Reasoning. Régressions relevées par Andon Labs sur des benchmarks économiques simulés. 29 mai 2026. Lire l'article ↩