Nvidia a profité de la GPU Technology Conference (GTC) organisée du 18 au 21 mars à San José, Californie, pour lancer des serveurs blade sur site et annoncer une librairie d'accélération IA pour le cloud. Le serveur blade RTX peut héberger jusqu'à 40 GPU de génération Turing dans un boîtier 8U, et il est possible de combiner plusieurs boîtiers pour créer un « pod » pouvant accueillir jusqu'à 1280 GPU fonctionnant comme un seul système et utilisant la technologie Mellanox comme interconnexion de stockage et de réseau. Cela explique probablement pourquoi Nvidia a payé près de 7 milliards de dollars pour acquérir Mellanox. À la différence de l'IA, domaine où Nvidia est devenu leader, le serveur Blade RTX est destiné au rendu 3D, au ray tracing et aux jeux dans le cloud. Le concepteur a déclaré que cette configuration permettra de réaliser des rendus d'images 3D réalistes en temps réel pour la réalité virtuelle (VR) et la réalité augmentée (AR). Également présents au GTC, Dell EMC, HPE, Lenovo, ASUS et Supermicro ont tous annoncé des serveurs RTX.

Concernant l'intelligence artificielle, Nvidia a introduit la bibliothèque CUDA-X AI, seule librairie d'accélération de bout en bout au monde pour la science des données, selon le concepteur. Le langage CUDA de Nvidia utilise une syntaxe C++ pour programmer spécifiquement ses GPU. Typiquement, un workflow d'apprentissage profond, d'apprentissage machine et d'analyse des données passe par le traitement des données, la détermination des caractéristiques, le training, la vérification et le déploiement. Ce sont des étapes très différentes qui nécessitent généralement différents types de traitement. CUDA-X AI utilise les GPU NvidiaTensor Core pour traiter le pipeline IA de bout en bout. Son adoption initiale est considérable. CUDA-X AI a été adoptée par les principaux services cloud comme Amazon Web Services, Google Cloud Platform et Microsoft Azure, mais aussi par Charter, PayPal, SAS et Walmart.

Moins gourmand en énergie

Concernant les serveurs sur site, Nvidia a introduit une génération de processeurs GPU T4 qui, selon Jen-Hsun Huang, le CEO de Nvidia, ne consomme que 70 watts d'énergie, très en deçà de la consommation habituelle des cartes accélératrices. « Ces GPU ont la taille d'une barre chocolatée et s'intègrent dans tous les serveurs de datacenters les plus courants ». Comme d'habitude, Nvidia a annoncé que ces GPU seraient supportés par les principaux fournisseurs de serveurs. Cisco, Dell EMC, HPE, Inspur, Lenovo et Sugon proposent désormais tous des serveurs Nvidia T4 GPU pour l'analyse de données, l'apprentissage machine et l'apprentissage profond.

De plus, Amazon Web Services a annoncé la sortie de sa dernière instance équipée d'un GPU, précisant qu'elle prenait en charge les GPU T4 Tensor Core de NVIDIA. Cette instance sera destinée en particulier à traiter des charges d'apprentissage machine. Le service Elastic Container Service pour Kubernetes d'Amazon prendra également en charge T4. « Parce que les GPU T4 sont extrêmement efficaces pour l'inférence IA, ils sont bien adaptés aux entreprises qui recherchent des solutions cloud puissantes et rentables pour déployer des modèles d'apprentissage machine en production », a déclaré dans un article de blog Ian Buck, vice-président et directeur général de l'informatique accélérée chez Nvidia.