Google dévoile une TPU optimisée pour l'inférence, un protocole d'agent d'IA ouvert et une suite de médias génératifs complète pour les entreprises

L'audacieuse triade IA de Google : Ironwood, Agent2Agent et Vertex Generative Media définissent un nouveau paradigme pour l'IA en entreprise

Lors de la conférence Cloud Next 25 d'aujourd'hui, Google Cloud a dévoilé un trio d'annonces révolutionnaires en matière d'IA qui marquent un tournant majeur dans l'infrastructure, l'interopérabilité et les capacités créatives de l'intelligence artificielle en entreprise. Chaque lancement — la TPU Ironwood, le protocole Agent2Agent et la suite Vertex AI Generative Media — est une réussite en soi. Mais ensemble, ils forment une thèse convaincante : l'avenir de l'IA est axé sur l'inférence, piloté par des agents et nativement multimodal.

De la redéfinition du supercalcul avec les 42,5 exaflops stupéfiants de puissance de calcul optimisée pour l'inférence d'Ironwood, à la normalisation de la communication entre agents d'IA avec Agent2Agent, en passant par la compression de semaines de production créative en quelques heures avec le pipeline génératif de Vertex, Google Cloud ne se contente pas d'itérer. Il orchestre une superstructure d'IA d'entreprise avec des ambitions qui dépassent de loin la norme actuelle fragmentée et gourmande en ressources.

"L'ère de l'inférence" : Ironwood TPU redéfinit l'infrastructure de l'IA

Sous le bourdonnement industriel du refroidissement liquide et la lueur des centres de données à grande échelle, un nouveau type d'intelligence est en train de naître — non pas dans l'apprentissage, mais dans la compréhension. Ironwood, l'unité de traitement Tensor de septième génération de Google, marque un tournant décisif dans l'évolution du matériel d'IA : c'est la première puce de l'entreprise spécialement conçue pour l'inférence, l'acte de déployer des modèles déjà entraînés pour raisonner, répondre et réagir à l'échelle.

"C'est une nouvelle frontière informatique", a fait remarquer un architecte système connaissant bien le déploiement d'Ironwood. "Nous avons eu du matériel axé sur l'apprentissage pendant une décennie. Mais l'inférence est l'endroit où la valeur en temps réel est fournie — aux utilisateurs, dans les flux de travail, dans les résultats commerciaux."

Avec jusqu'à 9 216 puces refroidies par liquide fournissant un nombre inimaginable de 42,5 exaflops, Ironwood éclipse même l'actuel supercalculateur le plus puissant du monde, El Capitan, d'un facteur de 24. Ses mises à niveau SparseCore, 192 Go de HBM par puce et 1,2 Tbps de réseau inter-puces créent un maillage à faible latence et à large bande passante, optimisé pour les exigences distribuées des grands modèles linguistiques et des simulations scientifiques.

Mais, point notable, Ironwood offre 2x plus de performance par watt que son prédécesseur et est presque 30x plus efficace que la TPU v1 de 2018, un bond architectural qui signale une nouvelle viabilité économique et environnementale pour le déploiement de l'IA à grande échelle.

"Vous regardez un système qui peut soutenir le raisonnement sur des milliers de milliards de jetons, à travers les modalités, en temps réel — et le faire à la moitié du coût énergétique", a noté un analyste cloud. "Ce n'est pas seulement de la performance. C'est un levier stratégique."

Agent2Agent : Résoudre le problème d'intégration le plus pressant de l'IA

Alors qu'Ironwood déploie une puissance de calcul brute, le protocole Agent2Agent de Google s'attaque à un autre problème : la communication entre agents. Lancé aujourd'hui avec le soutien de plus de 50 partenaires d'entreprise — dont Salesforce, SAP, PayPal et Deloitte — A2A introduit un protocole ouvert qui permet aux agents d'IA de coordonner les tâches et d'échanger du contexte à travers des systèmes, des cadres et des fournisseurs cloisonnés.

À la base, A2A cherche à répondre à un dilemme de longue date de l'industrie : si chaque outil d'IA fonctionne dans son propre jardin clos, comment peuvent-ils travailler ensemble pour résoudre des problèmes commerciaux de bout en bout ?

Construit sur HTTP, JSON-RPC et SSE, la conception open-source d'A2A suit cinq principes directeurs : architecture sécurisée par défaut, prise en charge des tâches longues avec des boucles de rétroaction, messagerie agnostique aux modalités (texte, vidéo, audio) et autonomie complète de l'agent sans dépendance aux outils. Des fonctionnalités clés comme les Cartes d'Agent pour la découverte des capacités et les cycles de vie des tâches fournissent une structure pour les collaborations complexes.

Un cas d'utilisation convaincant ? L'embauche. Un gestionnaire pourrait charger un assistant IA de trouver des candidats. Cet agent engage des agents de sourcing spécialisés, planifie des entretiens, gère les boucles de rétroaction et exécute des contrôles de conformité — le tout grâce à la messagerie inter-agents activée par A2A.

Les analystes suggèrent que l'impact à long terme pourrait être plus profond que de simples gains de productivité.

Vertex AI Generative Media : Une plateforme, toutes les modalités, qualité entreprise

Alors qu'Ironwood alimente le back-end et qu'Agent2Agent orchestre les flux de travail, la suite Generative Media étendue de Vertex AI permet aux entreprises de créer, de marquer et de diffuser des expériences — le tout à partir d'invites textuelles.

L'ajout phare est Lyria, un modèle de texte à musique qui produit un son haute fidélité et émotionnellement nuancé à travers les genres. Les entreprises l'utilisent déjà pour remplacer les bibliothèques de musique de stock par des bandes sonores personnalisées et libres de droits alignées sur les ambiances et les récits des campagnes.

Pendant ce temps, Veo 2 introduit la génération de vidéos cinématiques avec des outils d'édition comme l'inpainting, l'outpainting et le contrôle du chemin de la caméra — offrant aux agences de nouveaux niveaux de direction créative. Chirp 3 apporte le clonage vocal personnalisé à partir de seulement 10 secondes d'entrée et des capacités de diarisation, débloquant de nouvelles utilisations dans l'accessibilité, la stratégie de marque et l'analyse audio. Imagen 3 améliore les détails, l'éclairage et la suppression d'objets pour la génération d'images, renforçant l'engagement de Google envers un contenu visuel de qualité professionnelle.

Essentiellement, chaque résultat est régi par des fonctionnalités de sécurité d'entreprise :

Filigrane SynthID pour la traçabilité
Filtres de sécurité pour bloquer les invites nuisibles
Gouvernance des données pour protéger les données d'entraînement des clients
Indemnisation de la propriété intellectuelle pour protéger les entreprises contre les réclamations de droits d'auteur

La synthèse stratégique : Une vision au-delà de la somme de ses parties

Ce qui rend ce trio plus que de simples lancements impressionnants, c'est la cohérence philosophique entre eux. Chaque offre est conçue non seulement pour surpasser ses rivaux de manière isolée, mais pour fonctionner comme un système imbriqué :

Ironwood fournit la dorsale évolutive et optimisée pour l'inférence pour la diffusion de modèles en temps réel.
Agent2Agent permet aux agents autonomes alimentés par ces modèles de fonctionner de manière fluide à travers les systèmes.
Vertex Generative Media fournit la charge utile créative, transformant l'intelligence en sortie — instantanément et à l'échelle.

Cette pile est plus qu'une mise à niveau technique. C'est un manifeste : l'IA doit être proactive, composable et sécurisée pour l'entreprise. Elle doit agir en votre nom sur toutes les plateformes. Elle doit créer sans friction. Et elle doit le faire sans compromettre l'énergie, l'éthique ou l'intégration.

Dans un marché encombré d'écosystèmes fermés et de solutions étroites, l'approche modulaire, ouverte et évolutive de Google Cloud pourrait bien émerger comme la couche d'infrastructure de choix pour la prochaine vague d'entreprises natives de l'IA.

"Ce qu'ils ont construit n'est pas un produit", a observé un chercheur indépendant en IA. "C'est un système d'exploitation pour l'économie de l'IA d'entreprise."

Dernier mot : Une avancée pour l'infrastructure, mais la véritable révolution ne se produit pas dans l'entreprise

Bien que les annonces de Google soient technologiquement impressionnantes (du moins d'après les communiqués de presse autoproclamés) — de l'architecture optimisée pour l'inférence d'Ironwood à l'élégante ouverture d'Agent2Agent et à la puissance générative de bout en bout de Vertex — nous restons sceptiques quant au fait que ces avancées entraîneront une transformation à court terme dans les environnements d'entreprise traditionnels.

En fait, nous pensons que la véritable innovation se déroule ailleurs : avec les consommateurs, les créateurs et les startups natives de LLM qui créent des produits en dehors des murs des organisations en place. Comme l'a observé Andrej Karpathy, il s'agit peut-être de la première technologie transformationnelle à inverser la courbe d'adoption descendante habituelle — offrant une valeur exponentielle aux individus bien avant que les entreprises ou les gouvernements n'absorbent pleinement son potentiel.

Les piles d'IA d'aujourd'hui, aussi sophistiquées soient-elles, sont toujours confrontées aux mêmes frictions d'entreprise : systèmes hérités, frais généraux de conformité, garde-fous de la marque et aversion pour le risque. Pour les grandes organisations, même les meilleurs outils les rendent souvent juste un peu meilleurs dans ce qu'ils font déjà, ce qui, nous en sommes fermement convaincus, n'est pas l'avenir à venir.