Dans la mise en oeuvre de l’apprentissage machine, l’une des étape délicates est le passage entre l’entraînement d’un modèle et l’introduction des résultats de l’apprentissage dans les environnements de production. C’est sur cette étape qu'intervient notamment la start-up Kaskada avec sa plateforme de « feature engineering » permettant d’extraire les données brutes les plus pertinentes en fonction du domaine couvert par les modèles de machine learning que l'on veut concevoir. La société basée à Seattle a été fondée par trois anciens de Google et AWS qui se sont attelés à simplifier ce processus d’extraction de caractéristiques qui donne du fil à retordre aux data scientists. La plateforme, qui vient d’être lancée après une période de test en mode bêta, se concentre donc sur cette partie du cycle de vie des modèles habituellement très consommatrice de ressources, investies d’une part dans la collecte et le traitement des données et d’autre part dans la mise en production des modèles. Des efforts importants qui font que ces projets sont plus facilement mis en oeuvre par les grandes entreprises, pointe Kaskada.
La solution de la start-up s'appuie sur une infrastructure propriétaire pour traiter les données basées sur les événements et servir les modèles en production. Elle permet aux data scientists d'ingérer les données historiques des datawarehouses et data lakes, de les explorer, de se connecter à des flux de données (Kafka, AWS Kinesis), de définir des relations avec des données event-based, de préparer les « features » pour les modèles, de les tester, de partager leur travail et de collaborer entre eux. Les données préparées sont documentées et centralisées avec un contrôle des versions. La mise en production se fait avec les mêmes « features » que pour l’apprentissage, sans réécriture.
Gratuite pour démarrer sur différents scénarios
« Contrairement à la plupart des produits de gestion de données, Kaskada est accessible aux data scientists individuels comme aux entreprises », souligne Davor Bonaci, co-fondateur et CEO de la société en indiquant que la plateforme est gratuite pour de nombreux scénarios et qu’elle ne nécessite pas d’installation. Les équipes de data scientists peuvent l’utiliser pour différents cas d’usage : la détection de la fraude, la personnalisation, les moteurs de recommandation. Ou encore la tarification dynamique ou d'autres cas d’usage exploitant des données basées sur des événements.
« L’obstacle le plus important pour les data scientists aujourd’hui, ce n’est pas de bâtir des modèles très sophistiqués, c’est l’incapacité des plateformes de données actuelles à établir un pont entre l’apprentissage et la mise en production, en particulier sur le traitement des données provenant des événements », explique dans un communiqué Max Boyd, responsable Data Science chez Kaskada. C’est parce qu’elles ont été confrontées elles-mêmes à ces difficultés par le passé, bloquées par les restrictions des infrastructures pour tirer tout le potentiel des données basées sur les événements, que les équipes de Kaskada ont cherché à faire la différence sur la création de modèles ML exploitant les données event-based.
La plateforme est disponible. Elle peut être démarrée gratuitement sur demande. La tarification se fait ensuite à l’ajout d’utilisateurs, en fonction de l’augmentation des volumes de données gérés et de l’accès à des fonctionnalités complémentaires.