Databricks va proposer un service d'analyse de flux de données dans le cloud basé sur Spark. Sur le même terrain, Google a annoncé DataFlow la semaine dernière sur sa conférence I/O. Pour accompagner le lancement de son service, Databricks vient de lever 33 millions de dollars dans un tour de table (série B) mené par New Enterprise Associates, après un premier investissement d'Andreessen Horowitz.

Selon son CEO, Ion Stoica, Databricks vise un marché un peu différent par rapport à Google. « DataFlow est vraiment destiné aux développeurs alors que nous avons aussi des interfaces de haut niveau pour les data scientists et les spécialistes du traitement des données », explique-t-il. Ce type de service peut être utilisé par les entreprises pour faire de l'analyse d'attrition, par exemple, afin de déterminer pour certains clients cessent d'utiliser un produit, ou bien pour de la détection de fraude, en permettant de repérer une activité malveillante au moment où elle se produit. Spark fournit une alternative à MapReduce pour gérer le traitement des big data s'appuyant sur le framework Hadoop.

Les applications seront portables d'un cloud à l'autre

Databricks garantit la portabilité des applications, les utilisateurs étant en mesure d'amener leurs charges de travail vers d'autres installations Spark si nécessaire. « Vous pouvez prendre votre application et la faire tourner dans un autre cloud », assure Ion Stoica. Aujourd'hui projet Open Source géré par la fondation Apache, le moteur de traitement Spark a été au départ développé par le laboratoire AMP (algorithms, machines and people) de l'Université de Berkeley, en Californie. Il fournit une plateforme pour différentes tâches d'analyse de données incluant, outre le suivi de flux, les requêtes interactives, l'apprentissage machine et de l'analyse de graphe (graph computation). L'équipe de Databricks comporte plusieurs développeurs qui ont travaillé sur le projet.

En proposant Spark sous la forme d'un service permet de ne pas avoir à le mettre en oeuvre en interne, souligne Ion Stoica. « Les clusters sont difficiles à installer et à maintenir. Pour bâtir un pipeline de données, il faut mettre en présence différents outils et l'extraction de données reste ardue ». Au départ, le service Databricks Cloud fonctionnera sur Amazon Web Services. Par la suite, il pourra tourner chez d'autres opérateurs de cloud comme Google.

Au-delà de la plateforme Spark elle-même, Databricks fournira un jeu d'applications pour les tâches analytiques les plus courantes. Les utilisateurs pourront construire leurs propres workflows ou lancer des requêtes et interagir directement avec les données. Les résultats pourront être transférés vers un tableau de bord ou un rapport.Â