En direct de La Vegas. Plus de 32 000 personnes sont attendues à Las Vegas pour assister à l’évènement Next de Google Cloud qui se tient du 9 au 11 avril 2025. Si Thomas Kurian, le patron du fournisseur cloud est présent, c’est bien Sundar Pichai, CEO d’Alphabet qui a démarré l’évènement. Il a remis la stratégie IA du groupe en perspective, en rappelant le besoin d’une infrastructure performante et à très faible latence. « Nous allons accélérer les investissements avec 75 Md$ prévus dans la création de datacenter dans les prochaines années », explique le dirigeant.
Une manière de répliquer aux différentes initiatives comme le projet Stargate (OpenAI, Softbank et Oracle) prévoyant 500 Md$ d’investissement et à l’heure où certains acteurs comme Microsoft suspendent la création de nouveaux datacenters IA. Il ajoute avoir déjà un socle important de 200 datacenters dans le monde et de plus de 2 millions de km de fibres optiques.
Ironwood, un TPU taillé pour l’inférence
Mais l’IA est de plus en plus gourmande en termes de ressources de calcul. Dans ce cadre, Google Cloud a présenté la septième génération de son TPU (Tensor Processing Unit) connu sous le nom de code Ironwood. Il succède à Trillium dévoilé en mai 2024 et s’adresse aux traitements des tâches d’inférence. Pour rappel, l’inférence est l’opération dans laquelle un modèle d'IA fournit une réponse à partir de données à distinguer de l'étape d'entraînement d'un modèle. « Le développement des agents IA mobilisant des modèles de raisonnement nécessite des besoins de calcul supplémentaires », explique sur scène Amid Vahdat, vice-président en charge du machine learning, systèmes et cloud IA chez Google Cloud.
Le TPU Ironwood promet de gains de performance notamment dans la gestion de la mémoire HBM. (Créit Photo: JC)
Dans le détail, les TPU Ironwood seront accessibles en pods de 256 ou de 9 126 puces. Dans cette dernière configuration, Google Cloud revendique une capacité de calcul de 45,2 exaflops. Chaque puce est capable de traiter 4,16 Tflops. En matière de mémoire, les pods peuvent gérer jusqu’à 192 Go de HBM et améliorent la bande passante à 7,2 To/s (contre 1,638 To/s pour les Trillum). Le transfert de données entre les puces est aussi amélioré avec la technologie ICI (inter-chip interconnect) à 1,2 To/s. Si le fournisseur se garde de comparer les puces Ironwood avec ses prédécesseurs directs, il les évalue par rapport aux TPU 5vp : les gains sont donc bien présents mais dans des ratios à relativiser. A noter que les TPU Ironwood sont fournis avec SparseCore, décrit comme un accélérateur spécialisé dans le traitement des embeddings volumineux. Il est accompagné de Pathway, un runtime ML développé par Deepmind proposant un calcul distribué entre plusieurs puces TPU. Disponibles à la fin de l’année, les TPU Ironwood sont aussi une réponse à la concurrence qui développent leurs propres puces IA comme les Trainium d’AWS ou Maia 100 chez Microsoft.
Des instances sous Blackwell de Nvidia et Cloud WAN
Nvidia n’est pas absente de Next, même si l’accent a été mis sur les puces IA maison. Google Cloud a en effet annoncé le mois dernier la disponibilité des instances A4 fonctionnant sur les accélérateurs B200 (Blackwell). A l’occasion de l’évènement, il a dévoilé en preview les instances A4X reposant sur l’architecture GB200 NVL72 (combinant des CPU Grace sur Arm et des GPU Blackwell). Google Cloud a rajouté des optimisations comme Cluster Director (anciennement Hypercompute Cluster) qui propose de déployer et de gérer un groupe d'accélérateurs comme une seule unité avec des machines virtuelles physiquement colocalisées. Enfin concernant les évolutions de Nvidia, Amid Vahdat précise que Google Cloud sera le premier à proposer les GPU Rubin présentés à la dernière GTC.
Enfin sur la partie réseau, la société présente Cloud WAN, le backbone qui sert pour les services de Google (Gmail, Youtube ou le moteur de recherche). Il s’appuie sur un réseau composé de plus de 2 millions de kilomètres de fibre, 33 câbles sous-marins et 202 points de présence. Ce service de réseau étendu s’adresse aux entreprises qui ont des besoins de connectivités performantes. Deux cas d’usages sont mis en avant : la connectivité inter-régionale pour relier des datacenters dispersés et celle entre les filiales. Cloud WAN comprend plusieurs éléments, les liens Cloud Interconnect (pour relier les datacenters des entreprises à Google Cloud), Cross-Cloud Interconnect (pour le multicloud avec des liens directs vers les autres fournisseurs de cloud). Google Cloud ajoute en preview l’option Cross-Site Interconnect qui fournit des connexions privées point à point de niveau 2 à des débits de 10 Gbps ou 100 Gbps.
Commentaire