Le modèle de codage IA chinois GLM-4.6 égale les performances de Claude Sonnet 4 lors de tests en conditions réelles tout en ne coûtant que trois dollars par mois.

Par
CTOL Editors - Lang Wang
7 min de lecture

Le GLM-4.6 chinois s'attaque à la suprématie de la Silicon Valley en matière de codage IA – pour une fraction du coût

Ce nouveau modèle rivalise avec Claude Sonnet 4 pour le codage réel tout en réduisant de 30 % l'utilisation des tokens, offrant à l'IA chinoise une chance sur le marché mondial des développeurs.

L'industrie chinoise de l'IA a lancé un défi audacieux. Zhipu, l'une des entreprises d'IA les plus ambitieuses du pays, vient de lancer le GLM-4.6, un modèle axé sur le codage qui, selon les évaluations de l'industrie, rivalise avec le Claude Sonnet 4 d'Anthropic pour les tâches de programmation quotidiennes. Le plus frappant ? Il y parvient tout en réduisant les coûts jusqu'à 85 %.

Ce lancement intervient au cœur d'une saison de déploiements chargés en septembre, qui a déjà vu le GPT-5 Codex d'OpenAI, le Claude Sonnet 4.5 d'Anthropic et le V3.2 de DeepSeek arriver sur le marché. Contrairement aux batailles précédentes qui tournaient autour de l'affichage de scores de référence, la course s'oriente désormais vers ce qui intéresse réellement les développeurs : des outils abordables qui accomplissent le travail.


Des performances qui font sensation

Pour tester le GLM-4.6, Zhipu a mis en place 74 défis de codage réels au sein de l'environnement de développement Claude Code. Les résultats ont ensuite été rendus publics pour vérification sur Hugging Face. Le résultat en a surpris beaucoup : le GLM-4.6 n'a pas seulement battu Claude Sonnet 4 dans plusieurs tâches, il a également laissé tous les autres concurrents chinois loin derrière.

Les défis n'étaient pas de simples benchmarks académiques et arides. Au lieu de cela, ils imitaient de véritables problèmes rencontrés par les développeurs – comme la création d'interfaces utilisateur, l'automatisation du traitement de documents et la conception de tableaux de bord riches en données.

Un test notable a demandé au modèle de compresser un document de recherche d'OpenAI de 64 pages en une infographie HTML propre d'une page. Les évaluateurs ont qualifié le résultat de « solide et bien structuré ». Bien qu'il n'ait pas été aussi visuellement soigné que la sortie de Claude Sonnet 4.5, il a surpassé des modèles qui coûtaient beaucoup plus cher.

Dans un autre test, le modèle a construit un tableau de bord de données sur le « Tourisme de la Semaine d'Or 2024 », avec des animations et des graphiques denses. Des évaluateurs indépendants ont déclaré que la performance du GLM-4.6 était à la hauteur de celle de Claude Sonnet 4.5 – une réalisation majeure pour toute entreprise qui dépend de tableaux de bord élégants et fonctionnels.

Cependant, tout n'était pas parfait. Sur SWE-bench Verified, un benchmark de codage largement utilisé, le GLM-4.6 a obtenu un score de 68 %, à égalité avec DeepSeek-V3.2 mais en deçà des 77,2 % de Claude Sonnet 4.5.


Efficacité : l'arme secrète

Là où le GLM-4.6 excelle vraiment, c'est en matière d'efficacité. Il consomme environ 30 % moins de tokens que son prédécesseur, le GLM-4.5. Pour les tâches de raisonnement, la baisse est encore plus marquée : de 16 000 tokens à seulement 9 000. Cela en fait le modèle de raisonnement chinois le plus économe du marché.

Les temps de réponse oscillent autour de 35 secondes – suffisamment rapide pour le placer parmi les modèles de « deuxième rang » les plus rapides.

Comme l'a dit un membre de l'équipe d'ingénierie de CTOL.digital : « Les développeurs ne veulent plus seulement des champions des classements. Ils veulent des modèles capables de gérer de vraies conversations, de travailler avec des outils et de ne pas épuiser les budgets. » Le GLM-4.6 semble cocher toutes ces cases.


Un prix qui bouscule le marché

L'efficacité se traduit par des économies, et Zhipu en fait bénéficier ses utilisateurs. Son « GLM Coding Plan » démarre désormais à seulement 20 yuans – soit environ trois dollars (USD) – par mois. C'est environ un septième du coût des offres concurrentes. Le plan couvre « des dizaines à des centaines de milliards » de tokens chaque mois, une allocation suffisamment généreuse pour la plupart des développeurs à temps plein.

En outre, l'abonnement comprend la reconnaissance visuelle, des capacités de recherche et une intégration « plug-and-play » avec des outils comme Claude Code, Roo Code et Cline. Pour les développeurs, la proposition de valeur est simple : des performances proches de Claude 4 pour une somme modique.


Améliorations techniques et compromis

Zhipu n'a pas seulement ajusté ses prix. Le GLM-4.6 étend sa fenêtre contextuelle de 128 000 à 200 000 tokens, surpassant ainsi les 128 000 de DeepSeek-V3.2. Cela lui permet de gérer de vastes bases de code ou de longues documentations en une seule fois.

Le modèle affiche également une meilleure exécution des instructions, de meilleures capacités arithmétiques et une sortie linguistique plus propre par rapport aux versions précédentes. Mais il y a des bémols. Les erreurs de syntaxe ont bondi à 13 % sur divers langages de programmation, contre seulement 5,5 % dans le GLM-4.5. Les développeurs travaillant en Go le remarqueront plus que la plupart.

Il y a une autre particularité : dans les tâches de raisonnement longues et complexes, le GLM-4.6 s'arrête parfois prématurément au lieu de trouver une réponse par la force brute. Les évaluateurs ont qualifié cela de « tendance à la concession » – probablement le prix de son optimisation agressive des tokens.


Une perspective plus large : la souveraineté des puces

Sous la surface se cache quelque chose d'une importance stratégique encore plus grande : l'indépendance en matière de puces. Le GLM-4.6 est le premier modèle de production à exécuter l'inférence en précision mixte FP8+Int4 sur des puces Cambricon. Il fonctionne également nativement en FP8 sur le matériel Moore Threads en utilisant vLLM.

Si ces optimisations tiennent la route, les entreprises chinoises pourraient enfin desserrer leur dépendance vis-à-vis des GPU NVIDIA – une vulnérabilité clé étant donné les restrictions d'exportation américaines. Comme l'a résumé l'équipe d'ingénierie de CTOL.digital : « Si l'entraînement et l'inférence fonctionnent tous deux sans problème sur des puces nationales, la Chine bâtit une pile d'IA plus autonome. »


La rivalité s'intensifie

La vague de lancements de modèles en septembre souligne à quel point la course au codage IA est devenue féroce. DeepSeek-V3.2 a réduit de plus de moitié les prix de son API. Le GPT-5 Codex d'OpenAI a introduit la « coupe » de tokens de « réflexion » pour réduire les coûts. Le Claude Sonnet 4.5 d'Anthropic a progressé dans le raisonnement complexe.

Les entreprises chinoises, autrefois considérées comme de simples suiveuses, innovent désormais de manière à attirer l'attention mondiale. Le mélange d'efficacité, d'intégration de puces et de prix bas du GLM-4.6 n'est pas un hasard – cela fait partie d'une stratégie claire pour conquérir les développeurs du monde entier.

Le modèle est déjà opérationnel : les utilisateurs internationaux peuvent le trouver sur z.ai, les utilisateurs chinois sur bigmodel.cn, et des versions open source sont disponibles sur Hugging Face et ModelScope. Les applications de chat grand public et les API d'entreprise le déploient également.


Ce que disent les développeurs

Les retours d'expérience pratiques sont prometteurs. Les développeurs signalent une génération front-end plus fluide, moins de blocages et une recréation rapide d'anciens projets dans des frameworks modernes comme Vue 3. Certains ont même construit des agents autonomes utilisant des outils pour extraire des données et générer de la documentation locale sans accroc.

Dans les scénarios front-end, le GLM-4.6 égale ou même surpasse souvent Claude 4. Cependant, Claude Sonnet 4.5 conserve son avantage dans les tâches de raisonnement complexes et sur les documents longs.


Le bilan

Dans le paysage actuel de l'IA, la puissance brute n'est plus le seul facteur. La stratégie de déploiement, l'efficacité et le coût comptent tout autant. Le GLM-4.6 équilibre ces trois aspects. Ce n'est pas le meilleur interprète absolu, mais il s'en approche suffisamment dans la plupart des cas – et il est bien moins cher.

Pour de nombreux développeurs, cette combinaison sera irrésistible. Un analyste l'a qualifié de « modèle de codage national le plus utilisable » et de concurrent crédible aux offres occidentales.

Reste à savoir si cela marque le début d'une compétitivité chinoise à long terme ou juste un avantage temporaire. Mais une chose est claire : en octobre 2025, le GLM-4.6 a changé la donne concernant ce que les développeurs devraient s'attendre à payer pour un codage IA de pointe.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales