Il y a vingt ans, Nvidia a pris la décision stratégique d'élargir son champ d'action du domaine de l’affichage 2D/3D à celui du calcul haute performance (HPC). Les mathématiques représentent une part importante du HPC, et le GPU est, de par sa conception, un coprocesseur mathématique massif doté de milliers de noyaux fonctionnant en parallèle. Cette décision s'est avérée payante : au cours de son dernier trimestre, Nvidia a enregistré un chiffre d'affaires record de 14,5 milliards de dollars pour les centres de données, soit une hausse de 41 % par rapport au trimestre précédent et de 279 % par rapport au trimestre de l'année précédente. Plus encore que dans le domaine des jeux, les GPU de Nvidia sont désormais la norme en matière de traitement de l'IA. Évidemment, beaucoup d’entreprises convoitent le trône de Nvidia, et pas seulement des concurrents évidents comme AMD et Intel. Parmi elles, il y a aussi des start-ups comme SambaNova, Cerebras, GraphCore, Groq, et d’autres encore, qui prétendent toutes de pouvoir offrir des solutions plus adaptées pour traiter les grands modèles de langage (LLM) et d'autres tâches de l'IA (machine learning et inférence). Intel cherche aussi une alternative au GPU avec son processeur Gaudi3 (en plus de sa gamme Max GPU pour les centres de données). Tous ces fournisseurs cherchent à profiter d'une énorme opportunité : Precedence Research a estimé le marché du hardware pour l'IA à 43 milliards de dollars en 2022, et à 240 en 2030 !
Limites de la technologie GPU
« Le CPU n'est pas idéal pour un traitement dédié comme l'IA, car il prend en charge beaucoup de choses polyvalentes qu'il n'a pas forcément besoin de faire, comme alimenter le système », a expliqué Glenn O'Donnell, vice-président senior et analyste chez Forrester Research. « Le CPU consomme de l'énergie et utilise des circuits qui ne sont pas vraiment nécessaires. Alors, pourquoi ne pas avoir une puce optimisée pour un usage spécifique ? », a-t-il demandé. « Le processeur TensorFlow de Google [lancé en 2015] en est probablement l'un des exemples les plus flagrants. Il est optimisé pour cet algorithme de flux tensoriel et pour le traitement nécessaire à l'analyse de flux tensoriel. Ce n'est pas un compromis. Il a été conçu pour ça », a ajouté M. O'Donnell. « Le GPU est confronté au même problème : il a été conçu dans les années 1990 pour l'accélération des jeux en 3D et, comme le CPU, il pourrait aussi être plus efficace », fait remarquer Daniel Newman, analyste principal chez Futurum Research. « Dans la construction générale, l'architecture est encore basée sur une sorte de modèle de noyau, ce qui signifie que l’on fait une chose à la fois et qu’on a besoin d'une puce hôte pour orchestrer tous les modèles, ou d'autres parties des modèles, qui doivent être calculés. Il y a donc beaucoup d'intercommunication entre les puces, qui désassemblent le modèle pour le diviser en morceaux afin d'alimenter chacun des GPU, qui le réassemblent pour construire les modèles de fondation », a-t-il expliqué.
Elmer Morales, fondateur, CEO et responsable de l'ingénierie chez Ainstein.com, une plateforme qui permet aux particuliers et aux entreprises de créer leur propre assistant autonome, a déclaré qu'aux premiers jours de l'IA et du HPC, l'industrie avait utiliser les GPU parce qu'ils étaient déjà disponibles et qu'ils offraient « une solution prête à l’emploi ». Aujourd’hui, les fournisseurs de solutions alternatives aux GPU promettent une meilleure option. « Il est clair que le GPU fait du bon travail pour entrainer des modèles très différents, et on peut apprendre à les déployer très rapidement », a déclaré Rodrigo Liang, cofondateur et CEO de SambaNova Systems. « Mais quand on passe à des grands modèles de langage, on commence à en sentir les limites. Quand on atteint la taille de GPT, il faut utiliser des milliers de puces, et il devient difficile de les faire fonctionner efficacement », a-t-il ajouté. James Wang, directeur senior du marketing produit chez Cerebras Systems, est du même avis et affirme que la puce GPU est tout simplement trop petite. La puce Wafer-Scale Engine-2 (WSE-2) créée par Cerebras Systems a la taille d'une pochette d'album. Alors que le GPU Hopper possède quelques milliers de noyaux, le WSE-2 en possède 850 000 et l’entreprise revendique une largeur de bande mémoire 9 800 fois supérieure à celle du GPU. « La quantité de mémoire détermine l'ampleur du modèle que l’on peut former », a expliqué M. Wang. « La taille du GPU et la mémoire qui l'accompagne établissent la limite. Si l’on veut aller plus loin, le problème devient beaucoup plus difficile. Et il faut compenser tous les points faibles du GPU par de la programmation ». M. Morales a également déclaré que le GPU était tout simplement trop petit pour les modèles massifs, et que le modèle devait être réparti entre des milliers de GPU pour être traité. « La latence mise à part, c'est juste trop petit si le modèle n'est pas adapté ». Quatre-vingts gigaoctets, soit la quantité de mémoire d'un GPU Nvidia H100, « ne suffisent pas pour un grand modèle », a-t-il déclaré. En revanche, une puce physiquement plus grande, avec plus de noyaux et plus de mémoire, permet de traiter une plus grande partie d'un modèle de langage volumineux par puce, ce qui signifie qu'il faut moins de puces pour effectuer le travail. Cela se traduit par une consommation énergétique plus faible, et la consommation d'énergie est une préoccupation majeure pour les charges de travail d'IA à forte intensité de processeur.
Hardware et software regroupés autour d’un écosystème
Même si l'accent est mis sur leurs accélérateurs, des start-ups comme Cerebras et SambaNova sont plus que de simples designers de puces, ce sont des développeurs de systèmes complets. Elles fournissent le matériel serveur et une pile logicielle pour faire fonctionner les applications. Mais il en va de même pour Intel, AMD et Nvidia. Tous trois sont connus pour leur silicium, mais ils déploient des efforts importants et massifs en matière de logiciels et compilateurs autour de l'IA. Les écosystèmes logiciels ont servi deux objectifs : d’abord, soutenir le matériel, et ensuite, enfermer les clients dans leurs plates-formes respectives. « Un GPU ou même un CPU en soi est assez inutile », a déclaré M. O'Donnell. « L'une des raisons pour lesquelles Nvidia est devenu le géant de ce secteur est liée au fossé qu'il a construit autour de sa plateforme de développement Cuda. Remplacer le matériel GPU de Nvidia par du matériel Intel n’est donc pas si simple en raison de l'écosystème logiciel. M. Wang explique que l'industrie de l'IA dans son ensemble, de Nvidia à Cerebras, adopte désormais les logiciels libres, ce qui évite le lock-in des fournisseurs ou des plateformes (comme Nvidia l'a fait avec Cuda), car les logiciels sont multiplateformes. Les clients peuvent donc choisir le matériel et ne sont pas obligés de choisir une plate-forme en fonction du logiciel disponible. « Le passage à l'open source est un phénomène très récent », a déclaré M. Wang. « Il s'est avéré très utile pour l'industrie, parce que, au final, une personne a payé pour le logiciel, mais tous les autres en profitent. Nous voulons que les start-ups et nos clients aient le choix, qu'ils puissent utiliser plusieurs fournisseurs, mélanger et reprogrammer les choses comme ils l'entendent pour éviter le verrouillage du réseau », a aussi déclaré M. Morales d'Ainstein. Ainstein utilise les systèmes Grok de xAI, soutenu par Elon Musk, mais ses agents d'intelligence artificielle fonctionnent sur toutes les plateformes.
Un design qui favorise la programmabilité
M. O'Donnell pense que demain, le traitement de l'IA reposera sur des puces programmables personnalisées, « des FPGA sur stéroïdes », a-t-il déclaré. « On peut reprogrammer un FPGA pour qu'il fasse différentes choses. Et il les fera assez bien. Il faut s’attendre à une véritable avancée dans ce domaine, probablement au cours de la deuxième moitié de cette décennie », a-t-il ajouté. M. Morales abonde dans le même sens, affirmant que les fournisseurs de matériel ne peuvent pas être enfermés dans un seul type de modèle. « Les fabricants de hardware vont devoir proposer des puces programmables similaires, que l’on peut réutiliser pour faire fonctionner différents modèles », a-t-il déclaré. « Les entreprises auront le choix d'utiliser un appareil pour n'importe quoi, avec n'importe quel modèle. À mon avis, c'est vers ce genre de solution que l'industrie va s'orienter ». M. O'Donnell ne pense pas que la plupart de ces start-ups aient beaucoup de chances de dominer le marché, surtout face à des monstres comme Nvidia et Intel. Mais, selon lui, « certaines trouveront leur créneau et s'en sortiront bien. Peut-être que l'une d'entre elles va exploser. Mais certaines pourraient être rachetées pour récupérer une partie de leur propriété intellectuelle », a-t-il déclaré.
Pour rappel, nous avions consacré un dossier à ce sujet proche en juillet 2022 : Les accélérateurs viennent booster les datacenters.