Un benchmark publié cette semaine mesure ce que devient le code des agents IA après dix itérations. Verdict : il se dégrade quand le code humain, lui, reste stable. Conséquences pour qui maintient du logiciel Odoo dans la durée.

Un papier passé presque inaperçu cette semaine mérite qu'on s'y arrête. SlopCodeBench, déposé sur arXiv par une équipe autour d'Aws Albarghouthi et Frederic Sala, ne mesure pas si un agent résout un ticket. Il regarde ce que devient le code quand l'agent revient dessus dix fois.¹

Le résultat fait mal. Les auteurs ont testé 20 problèmes et 93 points de contrôle avec 11 modèles, dont Claude Sonnet et Opus 4.5/4.6, plusieurs GPT-5 et GLM 4.7. Aucun agent ne boucle un problème de bout en bout. Le meilleur, Opus 4.6, plafonne à 17,2 % de checkpoints réussis.¹

Le piège du taux de réussite

On vit depuis deux ans avec une obsession, le score SWE-bench. Et il monte vite. Claude Fable 5 est sorti en disponibilité générale le 9 juin et trône en tête du classement SWE-bench Verified à 95,0 %.² Le chiffre impressionne. Il trompe aussi.

SWE-bench pose une seule question. L'agent corrige-t-il un bug isolé sur un dépôt qu'il n'a jamais touché ? Une passe, un patch, le test repasse au vert. C'est utile. Mais ce n'est pas mon métier au quotidien, ni le vôtre si vous maintenez du logiciel qui dure.

SlopCodeBench prend le problème à l'envers. L'agent étend sa propre solution précédente, sous une spec qui bouge et qui le force à trancher des choix d'architecture sans lui dicter la structure interne. C'est exactement la situation d'un module qu'on fait grossir sprint après sprint.

Ce que le code agentique devient

Le papier suit deux signaux qui parlent fort. La verbosité, soit la part de code dupliqué ou redondant. L'érosion structurelle, soit la complexité qui se concentre dans des fonctions déjà trop lourdes.¹

Les deux grimpent presque toujours. La verbosité augmente dans 89,8 % des trajectoires, l'érosion dans 80 %.¹ Comparé à 48 dépôts Python open source, le code des agents est 2,2 fois plus verbeux.¹

Le détail qui m'a fait tiquer porte sur l'évolution dans le temps. Sur 20 dépôts humains suivis dans leur historique git, le code reste à peu près stable. Le code agentique se dégrade à chaque itération. Côté humain, 55 % des dépôts montrent une érosion qui monte. Côté agent, 79 %.¹ Le logiciel maintenu par des gens vieillit mal parfois. Celui que maintient un agent vieillit mal plus souvent et plus fort.

J'ajoute le clou final des auteurs. Ils ont tenté des prompts qui réclament de la qualité. Ça remonte le point de départ. Ça n'arrête pas la dégradation. Et ce code plus propre coûte plus de tokens sans faire bouger le taux de réussite.¹ Donc non, on ne s'en sort pas avec un meilleur prompt système.

Pourquoi ça tombe pile cette semaine

Le calendrier a de l'ironie. Pendant qu'un papier documente l'entropie du code agentique, l'industrie accélère dans l'autre sens. Le 2 juin, Cognition a retiré la marque Windsurf et relancé l'IDE en Devin Desktop. L'éditeur n'est plus l'écran d'accueil. À la place, un Agent Command Center affiche une vue Kanban où vous pilotez une flotte d'agents locaux et cloud.³ Cascade passe en fin de vie le 1er juillet et cède la place à Devin Local, réécrit en Rust.³

La direction est limpide. On orchestre des agents en parallèle. On en lance dix au lieu d'un. Sauf que SlopCodeBench suggère une contrepartie brutale. Dix agents qui empilent du code, c'est dix fois plus de dette si personne ne tient la barre architecturale.

Ce que ça change pour nous

Chez NXL Forge, on conçoit des modules Odoo avec l'IA, mais on les implémente avec Sudokeys et on les maintient ensuite. La nuance n'est pas cosmétique. Un module de trésorerie comme Cash Flow Pro vit sur plusieurs versions d'Odoo. La V18 et la V19 n'ont pas les mêmes API, et un module qui érode à chaque ajout devient ingérable au moment de la montée de version.

Ma conviction de praticien tient en une phrase. L'IA excelle pour produire une première version et reste médiocre pour la faire vieillir proprement. Le choix d'architecture, le découpage, le refus d'une fonction de 200 lignes, tout ça reste humain. Le papier le confirme noir sur blanc, les agents manquent de la discipline de conception qu'exige le développement itératif.¹

Donc on garde la relecture là où elle compte vraiment. On la concentre aux points de jonction, quand le module grossit, quand la spec bouge. C'est là que l'érosion s'installe, et c'est là qu'un œil humain paie.

Le bon réflexe n'est pas de fuir les agents. C'est de cesser de les juger sur le seul taux de réussite. Demandez à voir le code après la cinquième itération, pas après la première. Vous saurez vite à qui vous parlez.

Si vous bâtissez sur Odoo et que la dette technique de vos personnalisations vous inquiète, on peut en parler via la page contact. C'est précisément le genre de question qu'on traite avant d'écrire la première ligne.

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks — « no agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Erosion rises in 80% of trajectories and verbosity in 89.8%. Agent code is 2.2x more verbose than 48 open-source Python repos. Human code stays flat while agent code deteriorates with each iteration (55% of human repos show rising erosion versus 79% of agent trajectories). » Déposé le 25 mars 2026 (v1). https://arxiv.org/html/2603.24755v1 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
SWE-bench Verified Leaderboard — Claude Fable 5 (Anthropic), disponibilité générale le 9 juin 2026, en tête de SWE-bench Verified à 95,0 %. https://llm-stats.com/benchmarks/swe-bench-verified ↩
Windsurf is now Devin Desktop — « Cognition rebranded Windsurf to Devin Desktop on June 2, 2026. The Agent Command Center is the default screen, a single Kanban view for every local and cloud agent. Devin Local replaces Cascade as the primary local agent (rewritten in Rust); legacy Cascade is usable through July 1st. » https://devin.ai/blog/windsurf-is-now-devin-desktop/ ↩ ↩²

Le code que les agents IA produisent vieillit mal

Le piège du taux de réussite

Ce que le code agentique devient

Pourquoi ça tombe pile cette semaine

Ce que ça change pour nous

Sur le même thème

93 % des devs codent avec l'IA, la livraison n'a pas bougé

Anthropic débranche Fable 5 sur ordre fédéral : 72 heures de vie

Aujourd'hui, votre forfait Copilot devient un compteur

Une question, un projet Odoo ?

Le code que les agents IA produisent vieillit mal

Le piège du taux de réussite

Ce que le code agentique devient

Pourquoi ça tombe pile cette semaine

Ce que ça change pour nous

Footnotes

Sur le même thème

93 % des devs codent avec l'IA, la livraison n'a pas bougé

Anthropic débranche Fable 5 sur ordre fédéral : 72 heures de vie

Aujourd'hui, votre forfait Copilot devient un compteur

Une question, un projet Odoo ?