L’intelligence artificielle est gourmande en données et en ressources. Mais les entreprises qui tentent l’aventure sont aussi confrontées à des problématiques d’intégration et de traitement. Pour répondre à ces enjeux, IBM vient de dévoiler CodeFlare, un framework open source. Il est construit sur le système de calcul distribué Ray du RISE Lab de l'Université de Californie à Berkeley pour les modèles de machine learning.
Dans un billet de blog, big blue explique que la création de modèles de machine learning est aujourd’hui une tâche manuelle intensive. Les spécialistes doivent d’abord former et optimiser un modèle, ce qui implique des travaux préparatoires comme le nettoyage des données ou l’extraction des caractéristiques. CodeFlare est là pour simplifier ce travail. Pour cela, il utilise une interface basée sur le langage Python pour créer un pipeline, avec lequel il est plus facile d’intégrer, de paralléliser et de partager des données. Ensuite, CodeFlare unifie les flux de travail du pipeline sur plusieurs plateformes de cloud sans avoir à apprendre un langage de workload pour chaque type d’infrastructure.
Une orientation multicloud pour gagner en vitesse de traitement
Big blue a indiqué que les pipelines CodeFlare peuvent être déployés sur n’importe quel cloud, y compris la version serverless Cloud Code Engine d’IBM et OpenShift de Red Hat. Le framework fournit également des alertes pour l’arrivée d’un nouveau fichier par exemple. Il est par ailleurs capable de gérer l’intégration de données issues de plusieurs sources (datalake, systèmes de fichier distribués, …). CodeFlaire est disponible sur le dépôt GitHub d’IBM. Ce dernier a publié des exemples de pipelines fonctionnant sur IBM Cloud et OpenShift. A noter que la concurrence dispose d’outils similaires comme SageMaker Pipelines pour AWS, Azure Machine Learning pipelines pour Microsoft ou Cloud AI Platform Pipelines pour Google Cloud.
Avec cette orientation multicloud, CodeFlare simplifie la tâche des datascientist mais surtout accélère sensiblement les projets de machine learning. IBM explique qu'un de ses clients a utilisé le framework open source pour analyser et optimiser 100 000 pipelines afin de former des modèles d’apprentissage automatique et réduit le temps d’exécution de 4 heures à seulement 15 minutes. Cette question la vitesse est importante, car les jeux de données sont de plus en plus volumineux et donc les traitements du machine learning deviennent plus complexes à exécuter. IBM devrait faire évoluer son framework à l’avenir pour mieux gérer la tolérance aux pannese et améliorer la cohérence. L’ajout d’un outil de visualisation des pipelines est également prévu.