Les datacenters sont des consommateurs d'énergie notoires, et l'augmentation de la puissance du réseau et du traitement requise pour gérer les charges de travail de l'IA ne fera qu'exacerber le problème de durabilité. Comme le fait remarquer Denise Lee, vice-présidente du bureau d'ingénierie et de durabilité de Cisco, les progrès de l'infrastructure d'IA (serveur, stockage et réseau) peuvent être en contradiction avec les objectifs de consommation d'énergie. Mais des efforts sont entrepris dans les centres de données pour répondre à l’usage croissant de l'IA et du ML tout en gardant à l'esprit l'efficacité énergétique, le refroidissement et la performance. Denise Lee a listé trois tendances qui, selon elle, favorisent la prise conscience des enjeux énergétiques et de durabilité aux États-Unis et dans le monde. Tout d'abord, les organisations non gouvernementales (ONG) sensibilisent aux émissions de carbone, aux gaz à effet de serre et à leur impact sur l'atmosphère. « De plus, des initiatives gouvernementales, comme le Green Deal européen, débouchent sur la mise en place de politiques axées sur la durabilité pour la rénovation des bâtiments afin d’en améliorer l'efficacité énergétique, par exemple, et sur la limitation de la construction de nouveaux centres de données », a déclaré Mme Lee.
Par ailleurs, « dans le secteur privé, les entreprises s'engagent en faveur d'un développement net-zéro et neutre en carbone et utilisent les évaluations fournies par le Climate Disclosure Project (CDP) », a-t-elle ajouté. Cette organisation mondiale recueille des données déclarées par les entreprises sur les risques et les opportunités liés au changement climatique, à la sécurité de l'eau et à la déforestation. Ces données sont utilisées par les investisseurs, les entreprises et les régulateurs pour traiter les questions de durabilité. « Ces données du CDP sont très intéressantes pour prendre des décisions commerciales », a estimé Mme Lee. C’est le cas, par exemple, pour évaluer l'impact environnemental des centres de données pour l'IA, pour décider où construire de nouveaux centres de données et déterminer la quantité d'énergie renouvelable par rapport à l'énergie non renouvelable disponible sur le réseau local. À l'avenir, les entreprises devront se confronter à un certain nombre de questions clés sur les exigences de performance des centres de données, la consommation d'énergie, le refroidissement, l'espace et l'impact sur l'infrastructure réseau.
Les recommandations de Cisco
Dans un récent billet de blog, Mme Lee a posé certaines questions spécifiques que les propriétaires et opérateurs de centres de données devront prendre en compte dans une perspective de développement durable au moment d’aménager leurs environnements pour l'IA :
- Implications pour le réseau : « L’Ethernet est actuellement le support dominant de l'IA pour la majorité des cas d’usage qui requièrent une économie de coûts, une échelle et une facilité de prise en charge. Selon le groupe Dell'Oro, d'ici à 2027, jusqu'à 20 % de tous les ports de commutation des centres de données seront alloués aux serveurs d'IA, preuve de l'importance croissante des charges de travail d'IA dans les réseaux des centres de données », a écrit Mme Lee. « De plus, le défi que représente l'intégration des GPU dans l'infrastructure des centres de données est une préoccupation notable du point de vue de l'alimentation et du refroidissement. Cela peut nécessiter des modifications substantielles, comme l'adoption de solutions de refroidissement liquide et des ajustements de la capacité d'alimentation ».
- Défis en matière de performance : « L’utilisation d’accélérateurs GPU est essentielle pour l'apprentissage et l'inférence de l'IA/ML, mais elle peut représenter un défi pour l'infrastructure IT des centres de données du point de vue de l'alimentation et du refroidissement. Les charges de travail de l'IA nécessitant des GPU de plus en plus puissants, les centres de données ont souvent du mal à répondre à la demande de ressources en calcul haute performance. Les gestionnaires et les développeurs de centres de données bénéficient donc d'un déploiement stratégique des GPU afin d'optimiser leur utilisation et leur efficacité énergétique », a encore écrit Mme Lee.
- Contraintes de puissance : « L'infrastructure IA/ML est essentiellement limitée par la puissance de calcul et la mémoire. Le réseau joue un rôle crucial en connectant de multiples éléments de traitement, en répartissant souvent les fonctions de calcul sur différents nœuds, ce qui impose des exigences importantes en matière de capacité et d'efficacité énergétique. Répondre aux exigences strictes en matière de latence et de débit tout en minimisant la consommation d'énergie est une tâche complexe qui nécessite des solutions innovantes ».
- Stratégies d'adoption : « Les premiers utilisateurs des technologies d'IA de nouvelle génération ont reconnu que le support des charges de travail d'IA à haute densité imposait généralement d’utiliser des centres de données multisites ou de microcentres de données », a poursuivi Mme Lee. « Ces centres de données à plus petite échelle sont conçus de telle façon qu’ils peuvent gérer les demandes de calcul intensif des applications d'IA. Cependant, cette approche exerce une pression supplémentaire sur l'infrastructure réseau, qui doit être très performante et résiliente pour prendre en charge la nature distribuée de ces déploiements de centres de données ».
- Le refroidissement : c’est un autre élément important à prendre en compte dans les centres de données qui gèrent des charges de travail d'IA. « Les méthodes traditionnelles de refroidissement par air peuvent être inadéquates dans les déploiements de datacenters d'IA/ML, et elles peuvent également être nuisibles à l'environnement. Les solutions de refroidissement liquide offrent une alternative plus efficace, mais elles nécessitent une intégration minutieuse dans l'infrastructure du centre de données », a préconisé Mme Lee. « L'industrie doit travailler sur le refroidissement liquide. Nous ne pouvons tout simplement pas refroidir les puces à venir », a-t-elle ajouté. En effet, à mesure que la densité des baies de serveurs augmente et que les températures s'élèvent, de plus en plus de centres de données trouvent des moyens d'ajouter le refroidissement liquide à leurs installations. Selon Global Market Insights, le marché mondial du refroidissement liquide des centres de données était estimé à 2 milliards de dollars en 2022 et devrait connaître un taux de croissance annuel composé (TCAC) de 15 % entre 2023 et 2032.
Vers des réseaux plus énergétiques
Une classe relativement nouvelle de système d'alimentation, connue sous le nom de Class 4 Fault Managed Power (FMP), apporte une technologie intéressante qui pourrait contribuer aux efforts de développement durable. Cette Class 4 FMP, adoptée fin 2022 par le National Electrical Code (NEC), peut gérer des niveaux de puissance importants, jusqu'à 2 000 watts, sur de plus longues distances que les anciennes classes de circuits, selon le NEC. Les systèmes Class 4 FMP sont décrits comme « durables », car ils permettent l'utilisation de câbles de plus petit calibre, se passent de conduits et offrent un contrôle intelligent de la distribution d'énergie. Ces attributs peuvent conduire à une réduction de l'utilisation des matériaux et du carbone incorporé par projet, contribuant ainsi à une infrastructure électrique plus durable, selon le NEC. Ils sont conçus pour assurer la distribution de l'énergie dans diverses applications, comme l'alimentation par Ethernet, les appareils de l'Internet des Objets (IoT), les systèmes de bâtiments intelligents, la surveillance et le contrôle des appareils électroniques et électroménagers, les systèmes de sécurité et les composants électroniques dans de grandes zones comme des bâtiments, des stades ou des campus. « La Class 4 FMP est un courant continu 'sans danger pour le toucher', il est donc facile à utiliser », a expliqué Mme Lee. « Nous travaillons rapidement sur cette technologie avec d'autres acteurs du marché pour l'éducation, la sensibilisation et l'adoption de cette technologie au fil du temps ».
Cisco s’intéresse aussi à la « mise en réseau de l'énergie », qui consiste à intégrer des capacités de gestion de l'énergie et des API dans son portefeuille réseaux afin de transformer le réseau en un plan de contrôle pour mesurer, surveiller et gérer l'énergie. « L'idée est de transformer les données en visibilité énergétique en temps réel et en informations que les clients peuvent ensuite utiliser pour optimiser la consommation d'énergie, minimiser les émissions, réduire les coûts et améliorer les capacités de reporting », a expliqué Mme Lee. « La mise en réseau de l'énergie part de l’idée que l’on peut mettre l'énergie en réseau de la même manière que l’on a mis les données en réseau. Si l’on pouvait le faire ensemble sur la même ligne, cela ouvrirait la voie à de nombreux cas d’usage de gestion de l'énergie par les clients », a avancé Mme Lee.
Commentaire