Avec sa puce Telum, IBM compte accélérer l'IA sur ses mainframes z16

Doté d'un système d'accélération pour l'inférence IA, la puce Telum pour mainframe d'IBM est attendue en mi-2022 avec les systèmes z16.

Au dernier salon Hot Chips (du 22 au 24 août et pour la seconde fois en mode virtuel), IBM a présenté le Telum, son prochain processeur pour mainframes série Z, spécialement conçu pour accélérer les transactions dans les métiers de la banque et de l'assurance, ainsi que les interactions avec les clients et la détection des fraudes. Gravé en 7 nm, le Telum sera fabriqué sur les lignes de production de Samsung et intègre 22,5 milliards de transistors sur une superficie de 530 mm². Le processeur se compose de 17 couches avec une horloge de base cadencée à un peu plus de 5 GHz. La conception du Telum est très différente de celle de son prédécesseur pour System z15. Il comporte 8 cœurs qui peuvent chacun exécuter deux threads en SMT2, des accélérateurs de charge de travail intégrés et 32 Mo de ce qu'IBM appelle le cache semi-privé de niveau 2. Le cache L2 est dit semi-privé parce qu'il est utilisé pour construire une connexion L3 virtuelle partagée de 256 Mo entre les cœurs de la puce. Il s'agit d'une augmentation de 1,5 fois de la taille du cache par rapport au z15 gravé lui en 14 nm.

L'ensemble de la conception a été pensé pour le traitement d’applications en temps réel - par conséquent, l'accent est mis sur les performances à thread unique. Le processeur se présente sous la forme d'un module qui comprend en fait deux processeurs Telum étroitement couplés, de sorte qu'on arrive à 16 cœurs par socket. Les systèmes Z d'IBM rangent leurs processeurs dans ce que l'on appelle des tiroirs, avec quatre sockets par tiroir. Les systèmes pourront évoluer de 8 à 32 processeurs sur un seul rack. Si huit des puces Telum sont utilisées dans un rack, elles sont également connectées les unes aux autres et peuvent former un cache L4 virtuel d'une capacité allant jusqu'à 2 Go. Pour l’instant, IBM ne fournit pas d'autres détails, mais insiste sur les capacités de traitement IA de sa puce capable, selon big blue, d’assurer les traitements d'inférence en temps réel nécessaire à l'intelligence artificielle.

Le processeur Telum sera fabriqué par Samsung sur une ligne de production 7 nm, alors que les puces du z15 sont gravées en 14 nm. (Crédit IBM)

Lutter contre la fraude

Les mainframes IBM sont encore largement utilisés pour le traitement des transactions en ligne (OLTP) et l'un des problèmes de l'OLTP est que la fraude n'est généralement détectée qu'après avoir été commise. Il est très difficile d'effectuer une analyse en temps réel sur des millions de transactions, en particulier lorsque l'analyse et la détection des fraudes sont effectuées loin des transactions et des données critiques, explique IBM. L'IA pourrait aider, mais les charges de travail d'IA ont des exigences de calcul beaucoup plus importantes que les charges de travail d'exploitation. “En raison des exigences en matière de latence, la détection complexe des fraudes ne peut souvent pas être effectuée en temps réel, ce qui signifie qu'un mauvais acteur pourrait avoir déjà acheté des biens avec une carte de crédit volée avant que le détaillant ne sache qu'une fraude a eu lieu", a déclaré la société dans un billet de blog annonçant l’arrivée de Telum.

Cette puce a donc été conçue pour des charges de travail financières en temps réel, spécifiques à l'IA. On ne sait pas exactement comment elle fonctionnera. Les mainframes z16 basés sur Telum ne sont pas attendus avant la seconde moitié de 2022.