Anthropic Dévoile Claude Sonnet 4.5 : Plus Rapide, Plus Intelligent, mais Toujours Deuxième dans la Course au Codage

Anthropic dévoile Claude Sonnet 4.5 : plus rapide, plus intelligent, mais toujours deuxième dans la course au code

Le nouveau grand modèle linguistique (LLM) montre de réels progrès dans les tâches longues et complexes et le support de codage, mais peine toujours à égaler GPT-5 Codex sur les problèmes les plus ardus.

SAN FRANCISCO — Anthropic a lancé lundi son dernier modèle d'IA, Claude Sonnet 4.5, avec des affirmations audacieuses. La société l'a qualifié de « meilleur modèle de codage au monde ». Mais un examen plus approfondi révèle une autre réalité. Oui, le modèle est plus rapide et plus résilient que ses prédécesseurs. Cependant, des tests indépendants montrent qu'il reste en deçà de GPT-5 Codex d'OpenAI dans des domaines clés qui importent le plus aux développeurs professionnels.

Le lancement intervient seulement quatre mois après Sonnet 4, rappelant la rapidité avec laquelle les entreprises d'IA rivalisent pour se surpasser. Anthropic et OpenAI publient désormais des mises à jour majeures presque chaque trimestre. Les observateurs ont remarqué qu'Anthropic cadence souvent ses annonces pour éclipser celles d'OpenAI. Par exemple, Opus 4.1 d'Anthropic a été lancé juste avant le lancement de GPT-5 en août.

Conçu pour l'endurance, pas seulement pour la vitesse

Anthropic mise gros sur la robustesse. Selon les tests de l'entreprise, Sonnet 4.5 peut mener à bien des projets de codage complexes pendant plus de 30 heures d'affilée sans perdre sa concentration. C'est un bond par rapport aux modèles plus anciens, qui avaient tendance à s'éloigner de la tâche pendant les longues sessions.

Les chiffres le confirment. Sur SWE-bench Verified — un banc d'essai qui mesure la performance en ingénierie logicielle réelle — Sonnet 4.5 a obtenu un score plus élevé que tout modèle Anthropic précédent. Sur OSWorld, qui teste la capacité de l'IA à gérer des systèmes informatiques complets, il est passé de 42,2 % en juin à 61,4 % aujourd'hui.

En pratique, cela signifie que le modèle peut désormais faire plus que simplement écrire du code. Il peut naviguer sur des navigateurs web, remplir des feuilles de calcul et même compléter de longs formulaires en ligne grâce à l'extension Chrome d'Anthropic. Les développeurs bénéficient également de nouveaux outils comme des points de contrôle dans Claude Code, qui leur permettent d'enregistrer la progression sans Git, un terminal plus élégant et une intégration intégrée à Visual Studio Code.

La confrontation avec la réalité

Les ingénieurs de notre équipe d'ingénierie CTOL.digital ont salué sa vitesse et sa fiabilité pour le travail quotidien, comme la révision des demandes de tirage (pull requests), le débogage et la gestion de projets multifichiers. La fonctionnalité de points de contrôle a particulièrement été appréciée.

Mais la lune de miel a pris fin lorsqu'ils lui ont demandé de s'attaquer à des défis plus ardus. Le travail complexe de front-end l'a mis en difficulté. Dans certains cas, il ignorait la structure existante ou la configuration d'authentification d'un projet, ce qui peut faire planter des applications d'une manière qu'aucun développeur ne souhaite.

« Pour le codage au quotidien, c'est excellent », a expliqué un ingénieur de notre équipe d'ingénierie. « Mais lorsque nous sommes confrontés à des problèmes de logique complexes ou à des bogues de production épineux, GPT-5 Codex reste notre premier choix. »

Le constat ? De nombreux membres de l'équipe se retrouvent à utiliser un système à deux modèles : Sonnet 4.5 pour les tâches de routine et GPT-5 pour les tâches difficiles. Cette approche pourrait équilibrer les coûts et la productivité jusqu'à ce qu'Anthropic réduise l'écart.

Construire pour l'avenir des agents

Au-delà du modèle lui-même, Anthropic prépare discrètement le terrain pour quelque chose de plus grand. La société vient de lancer le SDK Claude Agent, la même boîte à outils que celle derrière Claude Code. Avec lui, les développeurs peuvent créer des agents autonomes capables de gérer des tâches de longue haleine, de gérer les autorisations et de se coordonner entre plusieurs sous-agents.

Anthropic organise également une démonstration de cinq jours « Imagine with Claude » pour les utilisateurs premium. Lors de cet événement, Sonnet 4.5 construit des logiciels réels et fonctionnels à partir de zéro, en direct et sans script. Bien que présentée comme une expérience, elle laisse entrevoir l'ambition de l'entreprise de dépasser les assistants de codage pour devenir de véritables collaborateurs IA.

La tarification reste la même — 3 dollars par million de jetons d'entrée et 15 dollars par million de jetons de sortie — maintenant Claude fermement dans la catégorie premium tandis que les concurrents réduisent leurs tarifs.

La sécurité toujours au premier plan

Anthropic n'a pas oublié l'alignement. Sonnet 4.5 est présenté comme son modèle le plus sûr à ce jour, montrant moins de signes de flatterie, de tromperie ou d'autres comportements risqués. Il résiste également mieux aux attaques par injection de prompts qu'auparavant, ce qui est crucial lorsque des agents fonctionnent au sein de systèmes réels.

Le modèle est livré avec des protections de niveau de sécurité IA 3, incluant des filtres qui détectent les entrées dangereuses liées au développement d'armes. Ces filtres bloquent parfois du matériel inoffensif, mais Anthropic affirme que les fausses alertes ont diminué d'un facteur dix depuis les versions précédentes.

Pression de toutes parts

La survie d'Anthropic semble moins précaire après cette version, mais la menace demeure. Elle a déjà perdu sa position de joyau de la couronne en tant que meilleur LLM de codage – nos problèmes les plus ardus ne sont désormais résolubles qu'avec GPT-5 High/Pro. À ce stade, Anthropic ne peut concurrencer que sur le prix et les cas d'utilisation quotidiens. Mais si Gemini 3 surpasse Sonnet 4.5 en matière de codage tout en étant moins cher – restant sur la frontière de Pareto – Anthropic pourrait être en sérieuse difficulté, car le plus grand avantage de ses modèles a jusqu'à présent résidé dans les tâches de codage quotidiennes.

Avis aux investisseurs

Pour les investisseurs, le message est clair : le marché des grands modèles linguistiques mûrit rapidement. Les gains sont désormais incrémentiels, et la véritable différenciation pourrait bientôt venir de l'intégration, du verrouillage de l'écosystème ou du réglage fin spécifique à l'industrie – et non de la puissance brute.

Les développeurs, quant à eux, sont peu susceptibles de s'en tenir à un seul fournisseur. La démarche la plus intelligente est de mélanger et d'associer les modèles en fonction de la tâche. Cela pourrait réduire les bénéfices des créateurs de modèles, mais créer des opportunités pour les entreprises développant des outils d'orchestration.

Le risque est le plus aigu pour les entreprises qui ne vendent que des modèles de base. À mesure que les fonctionnalités convergent et que les clients changent facilement, le pouvoir de fixation des prix pourrait s'effondrer bien avant que les coûts d'exploitation ne diminuent. Les hyperscaleurs, avec leurs poches profondes et leurs offres cloud, pourraient accélérer cette tendance.

Avertissement : Cet article reflète les conditions actuelles et les tendances du marché. Les résultats passés ne garantissent pas les performances futures. Les lecteurs devraient rechercher des conseils financiers indépendants avant de prendre des décisions d'investissement.