Le Développeur 24h/24 : Entre promesse et péril du dernier modèle de codage d'OpenAI, GPT-5.1-Codex-Max
Les équipes d'ingénierie rapportent des résultats mitigés alors que le nouveau modèle soulève des questions sur le rôle de l'IA dans le développement logiciel.
Le dernier modèle de codage d'OpenAI peut fonctionner de manière autonome pendant plus de 24 heures d'affilée, compressant automatiquement sa mémoire pour rester concentré sur des tâches logicielles complexes qui épuiseraient les développeurs humains. Pourtant, alors que la technologie atteint de nouvelles frontières, les premiers adoptants découvrent que la capacité brute ne se traduit pas toujours par une productivité pratique.
L'entreprise a lancé GPT-5.1-Codex-Max mercredi, le présentant comme une percée dans le codage « agentique » — des systèmes d'IA capables de gérer de manière autonome des tâches d'ingénierie de plusieurs heures. Le modèle a atteint un score projeté de 77,9 % au test vérifié SWE-Bench, devançant les versions récentes d'Anthropic et de Google. Les benchmarks internes ont montré des améliorations encore plus marquées, passant de 66,3 % à 79,9 % lors de l'évaluation interne d'ingénierie d'OpenAI.
Cependant, l'équipe d'ingénierie de ctol.digital offre un portrait plus nuancé des capacités de la technologie. Leur examen interne révèle un outil qui excelle dans certains contextes tout en trébuchant dans d'autres — un modèle qui pourrait définir la prochaine phase du développement assisté par l'IA.
« Une meilleure qualité de codage sur le long terme et de révision de code », a noté l'équipe ctol.digital dans son évaluation, louant la « capacité de raisonnement soutenu plus forte du modèle pour les tâches de plusieurs heures ». Certains ingénieurs l'ont trouvé « incroyablement bon » face à Sonnet 4.5 d'Anthropic dans des flux de travail spécifiques. L'équipe a confirmé les allégations d'efficacité d'OpenAI, observant environ 30 % moins de jetons de calcul nécessaires pour des résultats similaires.
Pourtant, ces gains s'accompagnaient de réserves importantes. Les ingénieurs de ctol.digital ont signalé des « préoccupations concernant la vitesse, la fiabilité et l'exhaustivité des builds complexes » et une « dégradation de la qualité perçue au cours du dernier mois pour certaines charges de travail ». Alors qu'OpenAI vante des améliorations de vitesse de 27 à 42 %, l'équipe d'ingénierie a expérimenté quelque chose de différent : une génération qui « peut sembler plus lente que Claude/Sonnet sur les tâches interactives », avec des taux de sortie de jetons d'environ 18 par seconde comparés à 80 par seconde pour les systèmes concurrents.
L'écart entre les performances de benchmark et l'utilité dans le monde réel est apparu le plus clairement dans la génération d'applications de bout en bout. L'équipe ctol.digital a documenté des « bugs d'interface utilisateur, des scripts défaillants, des implémentations partielles » — précisément le genre de travail pour lequel OpenAI affirme que le modèle excelle lors de sessions prolongées. Les ingénieurs ont constaté que le système pouvait être « vague ou divagant sous certaines invites, nécessitant des instructions précises », suggérant que l'autonomie du modèle reste limitée par la supervision humaine.
OpenAI aborde certaines de ces préoccupations de manière oblique dans ses documents de publication. « À mesure que Codex devient plus capable de gérer des tâches de longue haleine, il est de plus en plus important pour les développeurs de revoir le travail de l'agent avant d'apporter des modifications ou de déployer en production », prévient l'entreprise. La déclaration reconnaît ce que l'expérience de ctol.digital confirme : ces systèmes font encore des erreurs, et à mesure qu'ils produisent plus de code, « le vérifier et le comprendre pour un débogage futur devient plus difficile ».
L'entreprise rapporte que 95 % de ses ingénieurs utilisent Codex chaque semaine et ont constaté une augmentation de 70 % des pull requests depuis son adoption. Mais ces métriques internes pourraient ne pas saisir les frictions documentées par les équipes externes – les réponses plus lentes, les implémentations incomplètes, la nécessité d'« instructions précises » pour éviter les sorties divagantes.
La technologie représente une véritable avancée en matière de raisonnement soutenu et de gestion de la mémoire. Pourtant, l'examen de ctol.digital suggère que l'industrie fait face à une question plus fondamentale : à mesure que les agents d'IA deviennent capables de travailler de manière autonome pendant des heures ou des jours, la charge de révision, de compréhension et de débogage de leur production annulera-t-elle les gains de productivité ? La réponse pourrait déterminer si ces systèmes deviendront des partenaires de codage indispensables ou des outils d'autocomplétion élaborés et coûteux.
