Avec sa dernière puce Xeon Phi pour supercalculateurs, Intel espère franchir un cap en termes de performance. Ce processeur, également appelé Knights Landing, embarque une série de technologies matérielles qui pourraient arriver un jour dans les ordinateurs fixes et portables. À ce jour, la puce Xeon Phi est la plus puissante produite par Intel. Elle comporte aussi un ensemble de capacités jamais offertes par le fondeur. En performance de pointe, Knights Landing peut monter à plus de 3 téraflops. Ce niveau était jusque-là réservé aux puces graphiques haute performance utilisées pour le traitement de calculs mathématiques complexes dans les ordinateurs les plus rapides du monde.
La puce, qui sera intégrée à des supercalculateurs à partir de la seconde moitié de l'année prochaine, a été présentée à l'International Supercomputing Conference ISC'14 qui a lieu cette semaine (22-26 juin) à Leipzig. Le design de Knights Landing s'appuie sur une nouvelle forme de mémoire en piles qui pourrait un jour supplanter la mémoire DDR que l'on trouve dans les PC et serveurs actuels. La puce utilise également une technologie de « fabric » appelée OmniScale qui accélère les transferts de données internes et externes. Combinées ensemble, ces technologies permettent des gains de performance importants et contribuent à résoudre les problèmes de mise à l'échelle qui se posent à mesure que la taille des puces se réduit. Knights Landing est presque trois fois plus rapide que la précédente puce Knights Corner. Celle-ci peut accepter jusqu'à 61 coeurs et atteindre jusqu'à 1,2 téraflops en performance de pointe. « Nous mettons sur le marché des technologies très puissantes en terme de capacité et elles peuvent être exploitées pour une utilisation réelle », a déclaré Rajeeb Hazra, vice-président du Data Center Group d'Intel.
9300 puces Knights Landing au coeur du supercalculateur de la NERSCC
Cori, premier supercalculateur à être équipé de puces Knights Landing, sera déployé en 2016 par le National Energy Research Scientific Computing Center in Berkeley, Californie. Il accueillera environ 9300 puces Knights Landing. La topologie du nouveau système sera basée sur l'interconnexion de Cray, un peu comme Titan, second supercalculateur le plus rapide du monde déployé par le National Laboratory d'Oak Ridge, Tennessee, un centre de recherche qui dépend du ministère de l'Énergie américain.
« Les technologies de Knights Landing pourraient profiter par la suite aux petits serveurs et permettre d'augmenter leur performance », a déclaré le vice-président du Data Center Group d'Intel. « En environnement de calcul distribué, ces serveurs seront plus rapides pour délivrer des services cloud », a-t-il ajouté. Knights Landing contient des coeurs processeurs basés sur l'architecture Silvermont que l'on trouve dans les dernières puces pour smartphone et tablettes Merrifield et Bay Trail d'Intel. Les puces Knights Landing seront produites selon les derniers processus de gravure à 14 nanomètres d'Intel. Ceux-ci permettent de réduire la taille, d'augmenter la vitesse et d'améliorer l'efficacité énergétique globale de la puce Xéon Phi. Rajeeb Hazra n'a pas donné de détails sur le nombre de coeurs, mais il a indiqué qu'il y en aurait plus que dans les versions précédentes. « Le saut en performance sera significatif. Il sera obtenu grâce au nombre de coeurs et à la technologie de traitement », a simplement précisé Rajeeb Hazra.
Intel a intégré une forme de mémoire en piles basée sur la technologie Hybrid Memory Cube de Micron. Celle-ci fournit 15 fois plus de bande passante que la DRAM DDR3 et cinq fois plus de débit que la mémoire émergente DDR4. « Cette technologie mémoire occupe trois fois moins d'espace et consomme cinq fois moins d'énergie que la mémoire DDR4 », a encore déclaré le vice-président du Data Center Group d'Intel. Knights Landing intègre 16 Go de ce nouveau type de mémoire. « C'est sur elle que repose l'accélération des applications de calcul intensif », a expliqué Rajeeb Hazra. Les puces sont constituées d'empilements de modules mémoire reliés entre eux par une connexion filaire appelée Through Silicon Via (TSV), qui contribue aussi à améliorer la performance. La puce pour supercalculateur intègre aussi de la mémoire DDR4 qui peut être utilisée soit comme cache, soit comme mémoire système classique pour des applications moins exigeantes en ressources.
Une technologie d'interconnexion OmniScale taillée pour le HPC
« Cette puce offre également une technologie d'interconnexion appelée OmniScale, conçue pour le calcul HPC », a ajouté Rajeeb Hazra. Le « fabric » servira d'interface hôte pour accélérer les transferts de données entre les processeurs, la mémoire et d'autres composants. Intel n'a pas expliqué en détail comment fonctionnait sa technologie OmniScale, mais, selon le fondeur, les capacités de mise à l'échelle de l'OminiScale dépassent celles de la technologie Infiniband qu'Intel a commencé à intégrer à ses puces.
Le vice-président du Data Center Group d'Intel a précisé que la technologie OmniScale était différente de la technologie Infiniband. Intel a fait un certain nombre d'acquisitions pour élaborer ses technologies réseau et de connectivité on-chip. Le fondeur a notamment racheté le fabricant de matériel réseau Fulcrum Microsystems et les concepteurs de technologies d'interconnexion Qlogic et Cray.
« Intel compte porter la technologie OmniScale sur ses puces serveur Xeon l'année prochaine, mais ce n'est pas tout », a encore déclaré Rajeeb Hazra. En effet, le fondeur veut également inclure la technologie photonique silicium pour accélérer les transferts de données entre serveurs grâce à l'utilisation de lumières et de lasers. Intel a déjà montré sa technologie d'interconnexion optique longue distance supportant le MXC qui permet de réduire la taille des câbles et d'augmenter la vitesse des transferts entre serveurs dans les datacenters. Aujourd'hui, les supercalculateurs utilisent des CPU et des processeurs graphiques pour accélérer les calculs scientifiques et mathématiques complexes. Avec Knights Landing, Intel veut tout rassembler dans une puce unique. « Cela permettrait d'améliorer la performance tout en réduisant la consommation d'énergie », a ajouté Rajeeb Hazra. « Plus besoin non plus d'un coprocesseur et d'un accélérateur. C'est une option très puissante que nous apportons », a-t-il déclaré.