Baptisée HGX H200, la plateforme dédiée à l'IA annoncée par Nvidia exploite des accélérateurs GPU H200, reposant sur une évolution de l'architecture Hopper. L'entreprise s'associe également à HPE pour proposer un système de supercalculateur, reposant sur ses circuits SuperChip Grace Hopper GH200, créés spécialement pour l’entraînement de l'IA générative. L'intérêt croissant des entreprises pour l'IA a stimulé la demande de GPU Nvidia pour les tâches d'IA générative et les charges de travail de calcul à haute performance. Le GPU H200 est un des premiers à exploiter une mémoire à large bande passante HBM3e (High Bandwith Memory), 50 % plus rapide que l'actuelle HBM3. Celle-ci peut délivrer 141 Go de mémoire à 4,8 téraoctets par seconde, soit une capacité doublée et une bande passante 2,4 fois supérieure à celle du GPU A100 précédent. C’est en août dernier que Nvidia a dévoilé le premier processeur exploitant de la HBM3e avec la plateforme Grace Hopper Superchip GH200. À l’époque, le fondateur et CEO de l’entreprise, Jensen Huang, avait déclaré que ce « GPU avait pour ambition de répondre à la demande croissante d'IA générative ».
« L'introduction du GPU H200 permettra d'améliorer encore les performances », a aussi déclaré l’entreprise dans un communiqué, ajoutant que, par rapport à la version H100, cette architecture doublera presque la vitesse d'inférence sur le LLM Llama-2 de Meta, qui compte 70 milliards de paramètres. Ces derniers se rapportent à la manière dont les réseaux neuronaux sont configurés. « Pour créer de l'intelligence avec l'IA générative et les applications HPC, il est nécessaire de traiter efficacement et à grande vitesse des quantités massives de données en utilisant une mémoire GPU rapide et de grande taille », a déclaré Ian Buck, vice-président du groupe hyperscale et HPC chez Nvidia, dans un communiqué accompagnant l'annonce. « Avec le GPU H200, la plateforme de supercomputing d'IA de bout en bout la plus performante de l'industrie est devenue plus rapide pour résoudre certains des défis parmi les plus importants au monde ».
Une capacité de 32 pétaflops
Nvidia devrait commencer à livrer ces systèmes HGX reposants sur le H200 au deuxième trimestre 2024. Le H200 Tensor Core sera disponible dans les cartes serveur HGX H200 avec des configurations à quatre et huit voies. « Un HGX H200 à huit voies fournit plus de 32 pétaflops pour le calcul deep learning FP8 et 1,1 To de mémoire agrégée à large bande passante pour les performances les plus élevées dans les applications d'IA générative et de HPC », a précisé Nvidia. Un ordinateur de 1 pétaflop peut calculer au moins mille billions, ou un quadrillion, d'opérations en virgule flottante par seconde. Le FP8 est une spécification de format de virgule flottante à huit bits. Elle facilite le partage des réseaux de deep learning entre plateformes matérielles. Le H200 peut être déployé dans n'importe quel type de centre de données, sur site, dans le cloud, dans le cloud hybride et à la périphérie. Il sera également disponible avec la plateforme Grace Hopper Superchip GH200, combinant des puces ARM et des GPU.
Des Superchips Grace Hopper GH200 pour entraîner l'IA de HPE
Deux semaines après avoir révélé que le supercalculateur britannique Isambard-AI serait construit avec la technologie de supercalculateur Cray EX de HPE et alimenté par des Superchips Grace Hopper GH200, les deux entreprises se sont à nouveau associées pour fournir un système de supercalculateur clé en main qui soutient le développement de l'IA générative. Le système comprend des logiciels d'IA et d'apprentissage machine préconfigurés et prétestés, ainsi que des superordinateurs refroidis par liquide avec réseau, stockage et services. Basée sur la même architecture qu'Isambard-AI, la solution s'intégrera à la technologie de supercalculateur HPE Cray et sera animée par les Superchips Grace Hopper GH200, accélérant de 2 à 3 fois la formation des modèles d’IA pour les centres de recherche en IA et les grandes entreprises. « Ensemble, cette solution offre aux entreprises l'échelle et les performances sans précédent requises pour les charges de travail de big AI, telles que la formation de grands modèles de langage (Large Language Model, LLM) et de modèles de recommandation d'apprentissage profond (Deep Learning Recommendation Model, DLRM) », a déclaré HPE dans un communiqué. Le système sera généralement disponible en décembre par l'intermédiaire de HPE dans plus de 30 pays.
Commentaire