Né en 2017, et installé sur la Technopôle Brest-Iroise (dans la rade de Brest), le supercalculateur Datarmor de l'Ifremer connaît, depuis 2022, un net rajeunissement. Ce chantier de 7,5 M€ qui permet à l'Institut français de recherche dédié à la connaissance de la mer de conserver des capacités de calcul en interne a démarré par une première phase de renouvellement axée sur l'IA.
« Nous voulions être en mesure d'extraire de la connaissance sans forcément avoir besoin de comprendre l'entièreté d'un phénomène ou de répondre à des questions que nous ne savons pas forcément formuler précisément ou encore d'accélérer des traitements combinant plusieurs éléments physiques », détaille Benoit Morin, le responsable des infrastructures HPC de l'institut, arrivé au sein de l'établissement public précisément pour mettre à niveau les infrastructures déployées en 2016-2017.
La mise à niveau de Datarmor pour les applications d'IA, principalement portée par le déploiement de GPU (des solutions denses de Nvidia à 8 GPU par noeud), permet aussi d'aller décrocher ce que l'ingénieur voit comme l'un des premiers bénéfices de cette technologie : la reconnaissance d'images afin, par exemple, d'effectuer de la classification automatique d'espèces marines.
Data : plus de sources, plus de profondeur
Le virage de Datarmor vers des applications à base d'IA souligne également l'importance de la qualité et de la profondeur des données dans la qualité des résultats fournis par les algorithmes. « Plus l'historique de données est riche, plus les résultats le sont, commente Benoit Morin. Par exemple, sur la météo, on peut remonter à une centaine d'années. » Par ailleurs, les sources de données sont elles aussi plus nombreuses et chacune d'entre elles a tendance à générer des volumes croissants. « Par exemple, avec les nouvelles générations de satellites, le pas de mesure a été divisé par deux. Et on a de plus en plus tendance à descendre à des résolutions temporelles de plus en plus fines », illustre l'ingénieur de l'Ifremer. Avec pour conséquence des volumes de données en progression constante.
Le supercalculateur de l'Ifremer a été mis à jour en 2022 avec des noeuds GPU très denses, afin de supporter les applications d'IA. (Photo : D.R.)
Mais au-delà de ce seul paramètre, ce sont également les usages qui évoluent. « De plus en plus, les utilisateurs exploitent l'infrastructure à leur disposition comme une plateforme d'exploration de données », note Benoit Morin. Ce qu'il voit comme un impact du cloud sur les mentalités impose plusieurs réflexions dans la mise à jour de Datarmor. Sur le stockage tout d'abord. « Les performances des disques sont très mauvaises sur les accès aléatoires », note l'ingénieur. Au-delà d'une volumétrie totale appelée à passer de 15 Po en 2020 à 70 Po prochainement (une première tranche de 12 Po venant d'être déployée), l'architecture a été décomposée en trois niveaux : du stockage Flash, des disques traditionnels et du stockage froid sur bande.
Le bon équilibre entre performances et prix
Les grands blocs de données sont dirigés vers des infrastructures IBM, tandis que le stockage de petits blocs (pour les besoins applicatifs, certaines données de projet et les comptes utilisateurs) est assuré par du matériel NetApp, offrant un temps de latence inférieur à 2 ms. Le dispositif de stockage est complété par un robot de sauvegarde sur bandes Jaguar. En tenant compte des besoins de réplication couvrant les éventuelles erreurs, l'Ifremer anticipe d'exploiter plus de 3000 bandes de 50 To chacune.
Benoit Morin, le responsable des infrastructures HPC d'Ifremer : « nous achetons souvent les technologies sur catalogue, avant même leur disponibilité, afin d'être les premiers à les déployer ». (Photo : D.R.)
La transformation de Datarmor en infrastructure d'exploration de données - sachant que les projets requérant les calculs intensifs les plus lourds peuvent ensuite rejoindre des supercalculateurs plus puissants comme le Genci (Grand équipement national de calcul intensif) ou Jean Zay - pousse également Benoit Morin à réfléchir à l'équation économique la plus appropriée à l'évolution des usages. « Au sein de l'Ifremer, tous les utilisateurs ont accès aux ressources de calcul à tout moment, la puissance disponible étant répartie entre les demandeurs. Et nous cherchons à conserver cette souplesse-là. Ce qui est un réel défi avec les ressources GPU, qui sont très sollicitées. » Un enjeu d'autant plus important que ces équipements sont chers. L'ingénieur lorgne donc des matériels moins onéreux, offrant 70% pour une fraction du prix des équipements Nvidia (de 15 à 20%). « Nous avons besoin de niveaux de matériels différents pour accompagner le développement des usages autour du développement et de l'exploration de données », résume Benoit Morin.
Investir pour 7 à 8 ans, un pari
Dans la mise à niveau d'une infrastructure comme Datarmor, la question de l'optimisation et du séquencement des investissements s'avère centrale. « Les cycles de renouvellement des infrastructures s'étirent sur 7 à 8 ans et on nous demande de plus en plus d'étaler les investissements dans la durée », indique le responsable des infrastructures HPC d'Ifremer. Ce qui pose en premier lieu la question de la maintenabilité des infrastructures. Pour Benoit Morin, ces contraintes imposent de capitaliser rapidement sur les dernières générations de technologie et de les intégrer très rapidement pour en bénéficier le plus longtemps possible. « Souvent, nous achetons les technologies sur papier, avant même leur disponibilité, afin d'être les premiers à les déployer », indique l'ingénieur. Une façon de composer avec les cycles de renouvellement standards dans l'industrie (soit 3 ans de commercialisation, souvent assortis de trois années de support étendu). Par exemple, l'Ifremer a été, en mars 2023, le premier client dans le monde pour les baies de stockage Flash NetApp AFF C800 (une plateforme offrant par ailleurs une durée de support de 7 ans).
Ces contraintes ont également poussé Benoit Morin à démarrer la modernisation de Datarmor par la périphérie (avec les noeuds de service ou le réseau), avant de s'attaquer à la mise à niveau des capacités de calcul proprement dites. Au programme, une fois ces fondations posées, le déploiement de nouveaux noeuds de calcul (sur la base d'unités de 128 coeurs, 768 Go de mémoire et 4 To de stockage), ainsi que de systèmes GPU de puissance intermédiaire, moins denses que ceux déjà déployés. Un toilettage qui s'étalera sur les trois prochaines années et qui doit amener Datarmor à une puissance de 850 Tflops, le double du niveau actuel. Tout en conservant la même consommation énergétique globale, voire en l'abaissant légèrement.
« Pour y parvenir, nous misons sur le stockage hiérarchique avec un tiers froid sur bande, sur la densification du nombre de coeurs par processeur et sur l'usage de GPU. Bien que les GPU consomment généralement davantage que les processeurs traditionnels, leur performance par watt est largement supérieure », observe Benoit Morin. Une préoccupation environnementale des plus logiques au sein d'un institut qui ne comprend que trop bien les impacts du changement climatique.