Plus tard ce mois-ci, HP Enterprise livrera ce qui pourrait bien être le premier serveur spécifiquement destiné à l'inférence de l'IA pour l'apprentissage machine. Le processus d'apprentissage machine comporte deux étapes : une étape d’entrainement et une étape d’inférence. L'apprentissage consiste à utiliser les puissants GPU de Nvidia et d'AMD ou d'autres puces hautes performances pour « apprendre » au système d'IA ce qu'il doit rechercher, par exemple la reconnaissance d'images. L'inférence répond si le sujet correspond aux modèles entrainés. Mais un GPU est surdimensionné pour cette tâche, et un processeur beaucoup moins puissant peut suffire. Si le EL8000 est équipé d’un processeur centrale de type Intel Xeon Scalable, il accueille également les puces Cloud AI100 de Qualcomm, qui répondent tout à fait aux besoins de l'intelligence artificielle en périphérie. Elle comporte jusqu'à 16 « cœurs d’IA » et prend en charge les formats de données FP16, INT8, INT16, FP32, tous utilisés pour l'inférence. Il ne s'agit pas de processeurs ARM personnalisés, mais de SoC entièrement nouveaux, spécialement conçus pour l'inférence.
Les charges de travail d'inférence se situent souvent à plus grande échelle et nécessitent généralement une faible latence et un débit élevé pour fournir des résultats en temps réel. Au format 5U (8,4 pouces), ce serveur embarque jusqu’à quatre lames (blades) indépendantes (ProLiant e910 et e920 1U ) regroupées en cluster à l'aide de commutateurs intégrés au châssis à double redondance. Son petit frère, le HPE Edgeline EL8000t, est un système 2U. Il prend en charge deux blades (ProLiant e910 et e920 2U) indépendants.
Deux formats pour la puce AI100 de Qualcomm
Outre ses performances, la puce Cloud AI100 consomme peu d'énergie. Elle est disponible en deux facteurs de forme : soit en carte PCI Express, soit en deux puces M.2 montées sur la carte mère. La carte PCIe affiche une enveloppe thermique de 75 watts, tandis que les deux unités M.2 consomment 15 ou 25 watts. Un processeur courant consomme plus de 200 watts, et un GPU plus de 400 watts. Qualcomm affirme que sa puce Cloud AI 100 prend en charge les principaux formats de modèles standard du secteur, notamment ONNX, TensorFlow, PyTorch et Caffe. Ces modèles peuvent être importés et préparés à partir de modèles pré-entraînés que l’on peut compiler et optimiser pour le déploiement. Qualcomm dispose des outils pour le portage et la préparation des modèles, y compris la prise en charge des opérations personnalisées.
Selon Qualcomm, la puce Cloud AI100 cible le secteur de la fabrication et de l'industrie, et les secteurs ayant des besoins d'IA à la périphérie. C’est le cas par exemple de la vision par ordinateur et du traitement du langage naturel (NLP). Pour la vision par ordinateur, il peut s'agir du contrôle et de l'assurance qualité dans la fabrication, de la détection d'objets et de la vidéosurveillance, ainsi que de la prévention et de la détection des pertes. Pour le traitement du langage naturel, cela inclut la génération de codes de programmation, les opérations d'assistants intelligents et la traduction de langues. Les serveurs Edgeline seront disponibles à l'achat ou en location par l'intermédiaire de HPE GreenLake dans le courant du mois.