Google Dévoile une IA qui peut naviguer sur le Web comme un humain—mais le vrai travail ne fait que commencer

Par
CTOL Editors - Ken
5 min de lecture

Google dévoile une IA capable de naviguer sur le web comme un humain — mais le vrai travail ne fait que commencer

Le modèle Gemini 2.5 d'utilisation informatique vise à prendre en charge les tâches numériques répétitives, mais les premiers utilisateurs devraient s'attendre à des accrocs.

Google DeepMind a lancé son modèle Gemini 2.5 d'utilisation informatique, un système d'IA capable de cliquer, de taper et de faire défiler des sites web et des applications, tout comme un être humain. Ce modèle, désormais disponible en avant-première via l'API Gemini, marque une étape importante vers la transformation de l'IA en un assistant pratique capable de gérer les tâches numériques répétitives que beaucoup d'entre nous redoutent.

Voici comment cela fonctionne : l'IA examine une capture d'écran, interprète ce que l'utilisateur souhaite, vérifie ses actions précédentes, puis décide de la prochaine étape — cliquer sur un bouton, remplir un formulaire, faire défiler la page. Après chaque action, elle reçoit une nouvelle capture d'écran, et la boucle continue jusqu'à ce que la tâche soit terminée ou que le modèle reste bloqué.

Google affirme que Gemini 2.5 atteint une précision de plus de 70 % avec un temps moyen par tâche d'environ 225 secondes. Sur les benchmarks standards tels qu'Online-Mind2Web, WebVoyager et AndroidWorld, il surpasse ses rivaux. Au sein de Google, des équipes l'utilisent déjà pour les tests d'interface utilisateur, le Projet Mariner et de nouvelles fonctionnalités du Mode IA de la recherche.

Certains premiers testeurs sont impressionnés. « Gemini 2.5 d'utilisation informatique est loin devant tout ce que nous avons essayé — 50 % plus rapide et plus précis que les outils concurrents », a déclaré Poke.com, un service d'assistant IA participant au programme pilote de Google.

Pourtant, tout le monde n'est pas prêt à célébrer. Nos propres ingénieurs chez CTOL.digital ont trouvé le système « prometteur pour l'automatisation et les tests de navigateur » mais aussi « précoce, axé sur le web et capricieux lorsque les tâches se compliquent ». Leur verdict : il est utile maintenant, mais nécessite de grandes améliorations en termes de vitesse et de fiabilité avant de pouvoir être véritablement transformateur.

Utilisation informatique de Gemini 2.5 (googleapis.com)
Utilisation informatique de Gemini 2.5 (googleapis.com)

Sécurité dès la conception — Ou juste pour la forme ?

Ce qui distingue le modèle de Google, c'est son approche de la sécurité. Chaque action passe par un service de sécurité avant d'être exécutée, ce qui aide à se prémunir contre trois risques majeurs : l'utilisation abusive par les utilisateurs, le modèle lui-même faisant quelque chose d'inattendu, ou des invites malveillantes cachées dans des sites web.

Les développeurs peuvent même exiger une confirmation de l'utilisateur avant des étapes risquées comme des achats, le contournement de CAPTCHA ou le contrôle de systèmes sensibles. Contrairement à ses rivaux qui ajoutent des filtres après coup, Google a intégré ces garde-fous directement dans le modèle.

Cela pourrait s'avérer un avantage considérable. Nos analystes ont noté : « Les révisions par action et les politiques au niveau du système sont les bonnes valeurs par défaut. Cela ne bloquera pas toutes les injections de commandes, mais cela facilite grandement l'adoption en entreprise, en particulier dans les secteurs réglementés. »

Si Google transforme ce réviseur en un service autonome et personnalisable — permettant aux entreprises d'y intégrer leurs propres règles et approbations — cela pourrait donner au géant technologique un véritable avantage sur le marché.

Ce qu'il peut faire — et ce qu'il ne peut pas

Actuellement, Gemini 2.5 excelle dans les navigateurs web. Il se montre prometteur avec les applications mobiles, mais le contrôle du système d'exploitation au niveau du bureau reste hors de portée. Cela pourrait en fait être intentionnel.

« La plupart des automatisations les plus précieuses se trouvent derrière les connexions web — des choses comme les formulaires, les consoles d'administration et les outils SaaS », a observé notre équipe. « Des boucles plus rapides et plus étroites sur le web sont plus efficaces que le contrôle lourd du système d'exploitation pour la majorité des flux de travail d'entreprise. »

Les points forts semblent être l'automatisation basée sur le navigateur, les tests d'interface utilisateur, la navigation structurée sur les sites et la saisie de données. En fait, l'équipe de paiement de Google affirme que l'utilisation de Gemini 2.5 comme solution de secours pour les tests de bout en bout fragiles a réduit le temps de récupération manuelle de plusieurs jours.

Mais les limites sont claires. Les tâches prennent encore des minutes, pas des secondes, ce qui exclut le support client à haut volume. Les performances diminuent sur les problèmes ouverts ou les défis de type puzzle. Et dans l'utilisation quotidienne, la version d'aperçu varie suffisamment pour que les développeurs aient besoin de tentatives supplémentaires et d'une supervision humaine.

Impact sur les entreprises et la vue d'ensemble

Notre analyse suggère que les vrais gagnants ne seront pas les startups de « conduite de navigateur par IA ». Celles-ci ressemblent plus à des fonctionnalités qu'à des entreprises à part entière. La plus grande opportunité réside dans la construction de solutions verticales — des copilotes spécialisés pour les industries réglementées, une infrastructure de test résiliente, des outils de sécurité et des plateformes de surveillance des performances.

« Les entreprises durables combineront des API natives, le pilotage d'interface utilisateur comme solution de secours, des flux de travail structurés, des contrôles de sécurité intégrés et des outils de révision adaptés aux humains », a expliqué notre équipe. « La barrière concurrentielle n'est pas seulement l'agent — c'est la connaissance des processus, les intégrations et les données. »

La concurrence ne reste pas immobile. Anthropic développe une automatisation de bureau plus large via Claude. Les projets open source se multiplient, offrant aux développeurs de nombreuses alternatives. Les entreprises intelligentes concevront des systèmes suffisamment flexibles pour changer de fournisseur à mesure que la technologie mûrit, plutôt que de parier sur un seul.

En résumé

Gemini 2.5 d'utilisation informatique est un progrès, pas de la magie. Il place la barre plus haut pour la manière dont l'IA navigue dans le monde numérique, avec des fonctionnalités de sécurité renforcées et des benchmarks compétitifs. Mais il s'agit toujours d'une infrastructure — utile pour automatiser le travail de routine, pas un agent de science-fiction capable de gérer tout ce que vous lui demandez.

Pour l'instant, les entreprises devraient le cibler sur des flux de travail très spécifiques et de grande valeur, avec des indicateurs de succès clairs et des plans de secours. La technologie deviendra plus rapide et plus intelligente avec le temps. La vraie décision est de savoir s'il faut l'adopter tôt et composer avec les imperfections actuelles, ou attendre une expérience plus fluide qui ne manquera pas d'arriver à mesure que Google et ses rivaux feront progresser la frontière technologique.

CECI N'EST PAS UN CONSEIL EN INVESTISSEMENT

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales