Comment répondre aujourd’hui d’un point de vue technique et de manière optimale aux besoins de performances des applications, très gourmandes en ressources, comme celles liées à l’IA ou celles qui analysent massivement des données ? Par l’informatique composable ou désagrégée qui consiste à exploiter un pool d'infrastructures physiques ou virtuelles qui peuvent être provisionnées à la demande selon les besoins. C’est bien dans cette voie que de nombreux fondeurs et fabricants s’orientent et innovent à l’image d’Intel, d’AMD, de Liqid ou encore la start-up Unifabrix. En effet, cette dernière que notre rédaction a rencontrée lors d’un IT Press Tour en Israël a dévoilé une plateforme baptisée Smart Memory Node et basée sur le protocole CXL 3.0 (en préversion) pour accélérer la circulation des flux de données dans les serveurs dédiés au calcul intensif et à l’IA. Ce protocole d’interconnexion CXL, devenu un standard, promet plus de bande passante et un meilleur partage de la mémoire entre les composants dans les serveurs. Ce protocole ouvert qui fonctionne sur la couche physique du bus PCIe 5.0 est d’ailleurs déjà supporté (en version 1 pour l’heure) par les processeurs Intel Xeon Scalable Sapphire Rapids et AMD Epyc Genoa. En novembre 2020, CXL est passé en version 2.0 avec à la clé la mise en commun de la mémoire. Cette dernière est la capacité de traiter la mémoire attachée à CXL comme une ressource fongible qui peut être allouée et désallouée de manière flexible à différents serveurs (c'est-à-dire des nœuds ou des hôtes) en fonction des besoins. Ce meilleur usage de la mémoire aide notamment les opérateurs de datacenters à réduire le coût par bit de mémoire, car ce qu’ils dépensent uniquement en mémoire est très élevé. Un autre avantage de cette désagrégation de la mémoire, c’est la réduction de la perte des données lors d’un redémarrage ou d’une mise à jour d’un serveur. Chez Intel, le support de CXL 2.0 est prévu pour 2024. En août 2022, c’est la version 3.0 de CXL qui a été introduite. Basée sur la technologie PCIe 6.0, la v.3.0 apporte, sans latence supplémentaire, deux fois plus de bande passante (à 64 GT/s - Gigatransfert/seconde) que les deux versions précédentes (à 32 GT/s), la prise en charge de la commutation à plusieurs niveaux de type Fabric et des améliorations de cohérence pour le partage de mémoire. La technologie CXL sera surtout aboutie avec cette version 3 notamment sur le partage de la mémoire. En effet, le partage de la mémoire permet à une région donnée de la mémoire d'être accessible simultanément par plusieurs hôtes tout en garantissant que chaque hôte voit les données à jour, sans besoin d’un programme dédié. Cela permet de concevoir des clusters pour résoudre des problèmes importants grâce à des constructions de mémoire partagée. Chez Intel, le support de CXL 3.0 est prévu pour 2025. A terme, tous les serveurs sous AMD, Intel ou ARM (Ampere par exemple) embarqueront la technologie CXL.
Des SmartNIC et DPU pour mieux optimiser les ressources CPU
Toujours dans cette approche à mieux exploiter les ressources figure également la démocratisation des accélérateurs de type SmartNIC dont le but premier est de décharger les CPU dans les serveurs. En plus du simple contrôleur Ethernet, une SmartNIC est équipée de processeurs multicœurs et d’accélérateurs de performances comme les DPU (data processing unit). Ces derniers libèrent ainsi de précieux cycles CPU qui peuvent être utilisés pour améliorer les performances des applications, ils déchargent donc le traitement des fonctions de mise en réseau, de sécurité et de stockage. Par exemple du côté réseau, ces tâches peuvent inclure le filtrage de paquets, l’horodatage, la déduplication, le shunt et la classification de flux, des fonctions qui ne sont pas assurées par une carte contrôleur classique, et même des fonctions plus complexes comme les protocoles de tunnellisation superposés tels que VxLAN. Dans le monde virtualisé du stockage, une SmartNIC fonctionne également comme un contrôleur gérant les disques durs et les SSD. Dans le cas d’un SSD, elle booste ainsi les vitesses de transfert de fichiers en facilitant l’exécution de NVMe sur le protocole TCP/IP par exemple. De ce fait, la SmartNIC décharge l’intégralité de cette tâche d’accès à la mémoire du processeur et signifie que la mémoire flash n’a plus besoin d’être directement connectée au processeur. Là aussi, dans cette galaxie des SmartNIC, les fondeurs historiques de CPU et GPU Intel, AMD et Nvidia sont extrêmement prolifiques grâce à des développements internes, mais aussi aux nombreux rachats effectués. Ces mêmes fondeurs font aussi partie prenante du projet Monterey de VMware pour repenser les infrastructures sous VMWare Cloud Foundation (VMware vSphere, VMware vSAN et VMware NSX) dans les datacenters en utilisant les ressources des accélérateurs matériels. Dans le cadre du projet Monterey de VMware, les processus réseau tels que le trafic réseau et le pare-feu distribué, entre autres, seront déchargés sur la SmartNIC ; ce qui signifie que les ressources sont contournées du serveur x86, mais aussi le trafic lui-même. Le projet Monterey facilitera également l'installation d'ESXi et NSX sur le DPU lui-même, et par conséquent, déchargera les ressources CPU requises du x86 vers le DPU et libérera non seulement des ressources sur x86 pour les machines virtuelles à consommer, mais fournira également une couche de sécurité supplémentaire. Alexandre Caussignac, directeur technique de VMware France, prend l’exemple de vSAN Max alimenté par vSAN ESA (Express Storage Architecture) qui propose un stockage partagé centralisé à l'échelle du pétaoctet pour les clusters vSphere. L’architecture ESA permet de doper les performances et a cette capacité à débloquer des espaces de stockage.
Commentaire