En direct de Las Vegas. Après la keynote d’ouverture présentée par Adam Selipsky ce 30 novembre, l’événement annuel d’AWS bat son plein. Au deuxième jour, le discours a porté sur le machine learning – déjà évoqué par Adam Selipsky hier – et repris par Swami Sivasubramanian, en charge des services de ML et VP d’Amazon IA lors de sa keynote. La conférence devait être rythmée par un flot d’annonces, c’est chose faite. En l’espace de deux heures, pas moins de 6 fonctionnalités autour de SageMaker ont été dévoilées, ainsi que trois capacités supplémentaires sur les bases de données et deux autres initiatives pour rendre le machine learning (ML) accessible au plus grand nombre.
Selon Swami Sivasubramanian, le machine learning et l’IA sont deux technologies qui se démocratisent au sein des entreprises, ces dernières étant prêtes à passer à l’échelle. L’objectif est d’offrir une plateforme la plus complète possible qui regroupe l'ensemble de services pour l'ensemble des données, de l'analyse et de l'apprentissage automatique de bout en bout, pour tous les workload et tous les types de données. Aujourd’hui, « plus de 1,5 million de clients d’AWS utilisent les services de base de données, d'analyse ou d'apprentissage automatique » a-t-il précisé. Il fait le constat d’une technologie ML devenue de plus en plus accessible. « Les zettaoctets, soit 1 milliard d'exaoctets, seront bientôt monnaie courante dans le lexique technologique des entreprises » ajoute-t-il.
AWS renforce la plateforme SageMaker
Partant de ce constat, Mr Sivasubramanian a introduit six capacités pour SageMaker, sa plateforme de ML dans le cloud lancée en novembre 2017. Elle permet aux développeurs de créer, former et déployer des modèles de machine learning. En 2020, AWS avait déjà étoffé son service avec l'ajout de plusieurs fonctionnalités. Cette année, il continue sur cette voie. Annoncé hier en avant-première par Adam Selipsky, SageMaker Canvas est une fonctionnalité no-code à destination des analystes métiers pour créer des modèles de ML et générer des prédictions précises sans disposer de connaissances pointues en algorithmie. Le VP en charge de l'IA est donc revenu sur Canvas, afin d’en développer tous les aspects. « Son interface utilisateur intuitive offre la capacité aux utilisateurs de parcourir et d'accéder à des sources de données disparates dans le cloud ou on prem, de combiner des ensembles de données d'un simple clic, d'entraîner des modèles précis, puis de générer d'autres prédictions dès que d’autres données sont disponibles ».
La suite SageMaker voit par ailleurs son catalogue s’agrandir avec Ground Truth Plus, destiné à automatiser le data labeling utile pour entraîner les modèles d'algorithmes. Concrètement, ce service prend en charge différents cas d'utilisation notamment les nuages de points 3D, la vidéo, les images et le texte. Habituellement, ces processus de marquage de données sont examinés par des experts avant de les transmettre au modèle de ML. Là, Ground Truth Plus se charge de ne transmettre à l'humain que des données annotées avec un haut degré de confiance. AWS peut proposer par ailleurs des groupes d'experts dans l'étiquetage des données si besoin est. Un gain de temps et d'efficacité rappelle le fournisseur de cloud.
Autres améliorations notables : celles du service Studio dans SageMaker. Ces évolutions permettront aux data scientists de « découvrir, gérer, créer, finaliser et se connecter aux clusters EMR (Elastic MapReduce) à partir de SageMaker Studio », d'utiliser des « scénarios » - une nouvelle façon de configurer et d'approvisionner les clusters en fonction des besoins du workload - et de se connecter, déboguer et surveiller les tâches Spark exécutées sur un cluster EMR à partir d'un Notebook SageMaker Studio.
L'entraînement et le déploiement étroitement liés
Innover est le mot d’ordre chez AWS en ce qui concerne l’infrastructure et tout particulièrement Sage Maker. A cet effet, un ensemble de trois fonctionnalités liées à la formation et le déploiement ont été dévoilées. Training Compiler, peut accélérer jusqu'à 50 % l'entraînement des modèles de deep learning. « Cette fonction compile automatiquement le code Python de l'utilisateur et génère des noyaux GPU spécifiquement pour son modèle ». Le code d'entraînement utilisera par ailleurs moins de mémoire et de calcul, et s'entraînera donc plus rapidement. Afin d’automatiser les tests de charge et optimiser les performances des modèles sur les instances ML, AWS présente Inference Recommander. Cette fonction est capable de réduire le temps nécessaire pour faire passer les modèles ML du développement à la production et d'optimiser les coûts associés à leur exploitation.
Enfin, AWS a dévoilé un aperçu de SageMaker Serverless Inference, une option pour accélérer le développement et le déploiement des modèles ML sans avoir à configurer ou à gérer l'infrastructure sous-jacente. Il suffit de sélectionner l'option serverless lors du déploiement d’un modèle ML, et SageMaker fournit, met à l'échelle et désactive automatiquement la capacité de calcul en fonction du volume des demandes d'inférence. A noter que l’utilisateur ne paye que pour la durée d'exécution du code d'inférence et la quantité de données traitées, et non pour le temps d'inactivité.
Former les spécialistes de ML de demain
D’autres initiatives, visant à former les utilisateurs et futurs professionnels à l'apprentissage automatique ont été citées par Mr Sivasubramanian. A cet effet, Amazon a dévoilé un aperçu de Lab – rattaché à SageMaker Studio – défini comme un service gratuit pour apprendre et expérimenter le ML. L’utilisateur n’a pas besoin d'un compte AWS, d'une carte de crédit ou de connaissances en matière de configuration du cloud. Studio Lab est basé sur l'IDE JupyterLab et donne aux utilisateurs un accès gratuit aux ressources de calcul pour s’entraîner et expérimenter. Un moyen de réduire la barrière à l'entrée sur ce domaine particulièrement complexe.
AWS met par ailleurs en place un programme de bourses d'études pour aider les étudiants à se préparer aux carrières dans l'IA et le ML. En collaboration avec Intel et Udacity, l'initiative est conçue pour préparer les étudiants ayant peu d’accès aux équipements informatiques, issus de minorités, et avec peu de moyens financiers, aux carrières dans l'apprentissage automatique (ML). Elle est lancée dans le cadre de DeepRacer Student et de Student League. les participants ont notamment accès à des formations en ligne gratuites pour apprendre les bases du ML et de l'apprentissage par renforcement (RL). Les étudiants ont également accès à 10 heures d'entraînement au modèle et à 5 Go de stockage par mois pour participer à la DeepRacer Student League, une compétition mondiale de course autonome exclusivement réservée aux étudiants AWS AI & ML.