Skill-creator avec des evals, Copilot CLI en v1.0, GPT-5.4 dans Copilot : la semaine a été chargée côté outillage. Ce qui change concrètement pour les équipes qui shipent.

Trois sorties notables en une semaine. Pas de grands discours, mais des avancées concrètes sur deux fronts distincts : Anthropic continue de consolider Claude Code en vrai environnement de production, GitHub franchit un cap symbolique avec son CLI.

Skill-creator : les skills Claude Code deviennent testables

C'est la sortie la plus significative côté Anthropic cette semaine. Le 3 mars, ils ont mis à jour skill-creator — l'outil qui permet de créer des Agent Skills pour Claude Code, Cowork et Claude.ai — avec un système d'évaluation complet. ¹

Le problème qu'ils adressent est réel : la plupart des auteurs de skills sont des experts métier, pas des développeurs. Ils construisent des skills qui semblent fonctionner, sans aucun moyen de vérifier que ça tient dans la durée. Au prochain changement de modèle, surprise.

La mise à jour apporte trois choses concrètes :

Des evals sans code. Vous définissez des prompts de test, vous décrivez ce qu'une bonne réponse doit contenir, et skill-creator juge les sorties. Le principe ressemble aux tests unitaires — mais sans avoir à écrire une ligne de code.

Un mode benchmark. Il fait tourner un ensemble standardisé d'évaluations et trace les métriques : taux de réussite, temps d'exécution, tokens consommés. Utile après une mise à jour de modèle pour savoir si un skill a régressé.

Un comparateur A/B. Deux versions d'un skill, évaluées en aveugle par un agent. Vous savez laquelle est meilleure avant de déployer.

Anthropic distingue deux types de skills : ceux qui comblent une lacune du modèle de base ("capability uplift"), et ceux qui encodent un workflow d'équipe ("encoded preference"). La distinction est utile parce que le premier type devient moins pertinent au fur et à mesure que les modèles progressent — les evals vous signalent exactement quand.

GPT-5.4 dans GitHub Copilot

Le 5 mars, OpenAI a déployé GPT-5.4 dans GitHub Copilot — accessible aux plans Pro, Pro+, Business et Enterprise. ² Le modèle est présenté comme particulièrement efficace sur les tâches agentiques multi-étapes avec des appels d'outils.

Ce qui est intéressant ici, c'est moins le modèle lui-même que la logique produit de GitHub. Copilot se positionne de plus en plus comme un orchestrateur multi-modèles : Claude Sonnet 4.6, GPT-5.4, Gemini — vous choisissez selon la tâche. La concurrence entre les labs profite directement aux utilisateurs finaux, sans friction de migration.

La télémétrie du plan mode est également disponible depuis le 2 mars dans les dashboards enterprise ³ — les équipes peuvent maintenant mesurer l'adoption réelle de l'agent mode par leurs développeurs, et non plus juste du chat. C'est un signal que GitHub considère le plan mode comme suffisamment mature pour le tracer séparément.

Copilot CLI passe en v1.0

Le 6 mars, Copilot CLI a quitté le statut expérimental pour atteindre la v1.0 générale. ⁴ C'est un cap symbolique : GitHub considère que l'outil est prêt pour une adoption large.

La version 1.0 embarque notamment des agents spécialisés directement dans le terminal (Explore pour l'analyse de codebase, Task pour l'exécution de commandes), un mécanisme d'auto-compaction au-delà de 95% du contexte, et un mode MCP qui permet aux serveurs de déclencher des flux OAuth hors-bande. Ce dernier point est important pour les intégrations d'entreprise où les tokens doivent être gérés séparément.

On note aussi des guardrails renforcés : les commandes shell avec expansions potentiellement dangereuses déclenchent désormais une confirmation explicite. Après les incidents sur des outils similaires, c'est une direction sage.

Ce que ça dit du moment

La tendance de fond reste la même : les outils de codage IA se "productisent". On passe de "ça marche souvent" à des mécanismes qui garantissent la répétabilité — tests, benchmarks, permissions explicites, métriques d'adoption.

Pour les équipes qui développent des applications SaaS avec ces outils, c'est structurant. Un skill Claude Code qui génère des specs ou des tests n'a de valeur que s'il se comporte de façon prévisible dans le temps. Les evals de skill-creator comblent exactement ce vide.

Les agent teams de Claude Code restent en mode expérimental pour l'instant, mais la direction est claire : plusieurs instances qui se coordonnent, se challengent, et convergent sur une solution. On teste ça activement sur notre estimateur de coût — le retour d'expérience viendra.

Improving skill-creator: Test, measure, and refine Agent Skills — Anthropic annonce que skill-creator permet désormais d'écrire des evals, de lancer des benchmarks et de comparer deux versions de skills en aveugle, sans écrire de code. Disponible sur Claude.ai, Cowork et en plugin Claude Code. — claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills — 3 mars 2026 ↩
GPT-5.4 is generally available in GitHub Copilot — GitHub déploie GPT-5.4 d'OpenAI dans Copilot pour les plans Pro, Pro+, Business et Enterprise. Le modèle est présenté comme particulièrement performant sur les tâches agentiques multi-étapes et les raisonnements complexes. — github.blog/changelog/2026-03-05-gpt-5-4-is-generally-available-in-github-copilot/ — 5 mars 2026 ↩
Copilot metrics now includes plan mode — GitHub intègre la télémétrie du plan mode dans les métriques Copilot enterprise. Les équipes peuvent désormais tracer l'adoption de l'agent mode séparément du chat classique dans les dashboards. — github.blog/changelog/2026-03-02-copilot-metrics-now-includes-plan-mode/ — 2 mars 2026 ↩
GitHub Copilot CLI v1.0 — Releases — Le CLI Copilot atteint la disponibilité générale en v1.0 le 6 mars 2026. La release embarque des agents spécialisés (Explore, Task), l'auto-compaction de contexte, un flux MCP OAuth hors-bande et des guardrails renforcés sur les commandes shell à risque. — github.com/github/copilot-cli/releases — 6 mars 2026 ↩

Les agents de codage passent à l'échelle industrielle

Skill-creator : les skills Claude Code deviennent testables

GPT-5.4 dans GitHub Copilot

Copilot CLI passe en v1.0

Ce que ça dit du moment

Sur le même thème

L'agent IA chargé d'auditer du code tiers exécute l'attaque

SWE-bench à 95 % : ce que le score d'un agent de code ne dit pas

Le code IA passe la revue fonctionnelle, pas la revue de sécurité

Une question, un projet Odoo ?

Les agents de codage passent à l'échelle industrielle

Skill-creator : les skills Claude Code deviennent testables

GPT-5.4 dans GitHub Copilot

Copilot CLI passe en v1.0

Ce que ça dit du moment

Footnotes

Sur le même thème

L'agent IA chargé d'auditer du code tiers exécute l'attaque

SWE-bench à 95 % : ce que le score d'un agent de code ne dit pas

Le code IA passe la revue fonctionnelle, pas la revue de sécurité

Une question, un projet Odoo ?