IBM enrichit sa gamme de stockage avec le Spectrum Scale Elastic Storage System 3500. Conçu pour travailler en tandem avec les serveurs HPC DGX de Nvidia pour les tâches d’entraînement de l'IA, l’ESS 3500 est équipé d'une paire de contrôleurs AMD Epyc Rome 7642 (avec 48 cœurs à 2,30 GHz) plus rapide et offre un débit plus élevé. Jusqu'à 91 Go/s, contre 80 Go/s pour les anciens modèles. Ce modèle 2U accueille jusqu’à 12 ou 24 SSD flash NVMe PCI 4.0 au format 2,5 pouces (3,84 To, 7,68 To ou 15,36 To ) pour une capacité brute maximale de 368 To. Mais il peut atteindre jusqu'à 1 Pétaoctet (Po) grâce à la compression LZ4, une première pour cette gamme de serveurs ESS, puisque les modèles précédents (ESS 3000 et 3200) sont dépourvus de cette fonction. Autre changement : le CPU et la DRAM du contrôleur ont changé, le 3500 ayant moins de DRAM, 512 Go, que les 768 Go maximum du 3200. Mais le 3500 possède un processeur plus rapide, un Epyc Rome 7642, contre un Epyc Rome 7552 (48 cœurs à 2,20 GHz) pour le 3200.
Reposant sur l’OS RHEL 8.4 de Red Hat, l'ESS 3500 fonctionne avec Spectrum Scale, le système de fichiers distribué Scale-out de big blue qui couvre les besoins sur site, dans le cloud et en périphérie (edge). Selon IBM, « Spectrum Scale est une solution de stockage définie par logiciel permettant de traiter de grandes quantités de données dans un environnement distribué sur un cluster Spectrum Scale unique ». En complément, Spectrum Scale RAID erasure coding vient assurer une meilleure résilience en cas de panne pour reconstruire plus rapidement les volumes. Le serveur utilise deux contrôleurs actifs avec des ports Ethernet 100Gbit ou InfiniBand 200Gbit HDR et un processeur AMD Epyc 48 cœurs sur chaque contrôleur pour gérer les 24 SSD NVMe. Le 3500 cible principalement les systèmes HPC DGX de Nvidia bardés de GPU et de mémoire, mais pas de stockage. Pour ce faire, il utilise la technologie GPUDirect Storage de Nvidia, qui crée un chemin de données direct entre les GPU et le stockage via les protocoles NVMe ou NVMe over Fabrics (NVMe-oF).
Normalement, les données doivent être chargées dans le CPU et la mémoire principale avant d'être déplacées vers le GPU pour être traitées. Mais GPUDirect permet au système de contourner complètement le CPU et la mémoire principale et fournit une connexion directe entre le stockage et la mémoire du GPU. IBM affirme qu'avec ce système, le fabricant de pièces automobiles Continental a pu améliorer de 70 % le temps d’entraînement de l'IA pour les véhicules à conduite autonome en utilisant Spectrum Scale et ESS 3500 avec un système DGX. L'ESS 3500 est disponible dès maintenant.