En 2023, AWS s’était associé avec Nvidia pour présenter le projet Ceiba mêlant HPC et IA. En 2024, à l’occasion de l’évènement Re :Invent qui se déroule à Las Vegas du 2 au 6 décembre, le fournisseur de cloud a dévoilé le projet Rainer. Il s’agit d’un cluster de calcul dédié à l’IA pouvant embarquer des centaines de milliers de puces Trainium 2. L’annonce intervient dans un contexte où Amazon a investi 8 Md$ dans Anthropic à l’origine du modèle Claude et veut promouvoir ses infrastructures (plutôt que les GPU de Nvidia) pour l'entraînement des IA. Des sociétés comme Apple évaluent le recours aux puces Trainium d'AWS.
Les puces Trainium 2 ont été dévoilées l’année dernière à Las Vegas en même temps que la puce Graviton 4. Cette deuxième version est quatre fois plus rapide que la première itération, la rendant plus adaptée à l'entraînement d'énormes modèles avec des centaines de milliards de paramètres. La puce comprend huit « neuroncores » intégrant différents moteurs (tensor, vectoriel, scalaire) dont GPSIMD. Il s'agit d'extraits de code de bas niveau hautement spécialisés que les équipes de machine learning utilisent pour améliorer les performances de leurs réseaux neuronaux. Les huit neuroncores sont soutenus par 96 gigabytes de mémoire HBM, qui est considérablement plus rapide que d'autres variétés de RAM. La puce Trainium2 déplace les données entre son pool HBM et les neuroncores à une vitesse pouvant atteindre 2,8 térabits par seconde (via une technologie maison baptisée NeuronLink).
La puce Trainium d'AWS est issue du rachat d'Annapurnalabs en 2015. (Crédit Photo : AWS)
La puce Trainium 3 pour fin 2025
Les centaines de milliers de puces Trainium2 du projet Rainier sont organisées en UltraServers Trn2. Il s'agit de serveurs développés en interne qu'AWS a présentés aujourd'hui en même temps que le cluster de calcul. Chaque machine comprend 64 puces Trainium2 qui peuvent fournir 83,8 pétaflops de performance lors de l'exécution d'opérations FP8 éparses, un type de calcul que les modèles d'IA utilisent pour traiter les données. A noter que les serveurs ne sont pas localisés au même endroit, AWS a réparti les machines sur plusieurs sites. Pour remédier à la problématique de latence, le fournisseur a développé la technologie Elastic Fabric Adapter, un dispositif réseau qui accélère le flux de données entre les puces IA. En juillet dernier, AWS avait présenté sa stratégie sur son infrastructure réseau d’IA. L’entreprise prévoit d’achever la construction du projet Rainer en 2025.
Lors de son intervention en conférence plénière, le CEO d'AWS Matt Garman a souligné que les instances Trn2 UltraServer pour l’entraînement des IA sont disponibles. Il précise que par rapport à des instances basées sur Nvidia les nouveaux clusters AWS sont 30 à 40 % moins chers. Le dirigeant en a profité aussi pour annoncer le développement de Trainium 3, qui offrira des performances quatre fois supérieures à celles de sa puce actuelle. Elle sera disponible pour les clients à la fin de l'année 2025.
Commentaire