Un dernier livre blanc de Google explique que l'utilisation de commutateurs de circuits optiques embarqués dans son dernier supercalculateur TPU v4 d’entrainement IA débouche sur de bien meilleures performances et une plus grande efficacité énergétique que la concurrence. Les Tensor Processing Units du fournisseur, composants de base de ses supercalculateurs d'IA, sont essentiellement des ASIC, ce qui signifie que, contrairement aux CPU et GPU à usage général utilisés dans de nombreux systèmes d'apprentissage de l'IA, leur fonctionnalité est intégrée au niveau du hardware. Dans son document, la firme de Moutain View explique comment, en interconnectant plus de 4000 TPU par commutation de circuits optiques, il a pu atteindre des vitesses 10 fois supérieures à celles des modèles précédents tout en consommant moins de la moitié de l'énergie.
Vers une IA plus performante et moins chère
Selon le livre blanc, la clé réside dans la possibilité offerte par la commutation de circuits optiques (effectuée ici par des commutateurs conçus par Google) de modifier de manière dynamique la topologie d'interconnexion du système. Comparé à un système comme Infiniband, couramment utilisé dans d'autres domaines du calcul intensif, l'éditeur affirme que son système est moins cher, plus rapide et nettement plus économe en énergie. « Deux caractéristiques architecturales majeures du TPU v4 ont un faible coût mais des avantages considérables », indique l'ouvrage. « Les processeurs de flux de données SparseCore accélèrent l'intégration des modèles d'apprentissage profond de 5 à 7 fois en fournissant une architecture de flux de données dite sea-of-cores (soutenue par une très grande quantité de cœurs de processeurs) qui permet aux intégrations d'être placées n'importe où dans la mémoire physique de 128 Tebibyte (TiB) - 128 x 240 bytes - du supercalculateur TPU v4 », précise encore le document.
Selon Peter Rutten, vice-président de la recherche chez IDC, les gains d'efficacité décrits dans l'article de Google résultent en grande partie des caractéristiques inhérentes du matériel utilisé - les ASIC bien conçus sont presque par définition mieux adaptés à leur tâche spécifique que les processeurs d'usage général qui tentent de faire la même chose. « Les ASIC sont très performants et économes en énergie », a-t-il déclaré. « Si on les connecte à des commutateurs de circuits optiques sur lesquels on peut configurer dynamiquement la topologie du réseau, on obtient un système très rapide », a-t-il ajouté. Même si, pour l’instant, le système décrit dans le livre blanc n’est destiné qu'à l'usage interne de Google, M. Rutten fait remarquer que les leçons tirées de la technologie en question pourraient s'appliquer largement à l’entraînement de l’IA pour l'apprentissage machine. « Il y a des implications dans le sens où Google dispose d’une sorte de scénario des meilleures pratiques », a encore déclaré M. Rutten. « C’est une alternative aux GPU, donc en ce sens, c'est un travail intéressant ».
La comparaison avec Nvidia, peu claire
Google a également comparé les performances du TPU v4 à celles des systèmes basés sur les GPU A100 de Nvidia, des composants couramment utilisés dans les systèmes HPC. Mais M. Rutten fait remarquer que ce dernier avait depuis lors mis sur le marché des processeurs H100 beaucoup plus rapides, ce qui pourrait réduire la différence de performances entre les systèmes. « Google compare son TPU à un GPU d'ancienne génération », a-t-il déclaré. « Mais en fin de compte, cela n'a pas vraiment d'importance, car ce processus est interne de Google pour développer des modèles d'IA, et il fonctionne pour eux ».