Avec l’arrivée de Databricks dans Google Cloud, la plateforme de gestion unifiée des données n’offre pas seulement un 3ème choix à ses clients pour leur déploiement cloud, en dehors d’AWS et Microsoft Azure. Elle leur permet aussi de le faire dans un environnement conteneurisé orchestré par GKE, Google Kubernetes Engine. « Databricks sur Google Cloud est le premier runtime Databricks entièrement basé sur des conteneurs », indique l’éditeur dans un billet en pointant le recours aux services managés de GKE pour la portabilité, la sécurité et l’évolutivité de la plateforme. Ce faisant, l’éditeur américain dit aussi s’inscrire dans la stratégie multi-cloud désormais adoptée par une majorité d’entreprises.
Face à un concurrent comme Snowflake qui rencontre une forte adoption de son datawarehouse natif cloud, Databricks promeut son approche Lakehouse qui combine les bénéfices du datalake et du datawarehouse en s’appuyant sur sa technologie open source Delta Lake. Celle-ci installe une couche de stockage au-dessus des data lakes pour fiabiliser et améliorer la performance d’accès aux données en apportant propriétés ACID, versioning et gouvernance des données. Sur la Google Cloud Platform, Databricks réunit au sein de son architecture unifiée les technologies requises pour pouvoir analyser des flux de données en temps réel (les fondateurs de la société sont à l’origine d’Apache Spark), exécuter des charges de travail SQL, créer des modèles d’apprentissage machine, faire de l’analyse de graphe…
Intégration avec CGS, BigQuery et Looker
Databricks et Google Cloud disent avoir étroitement collaboré pour intégrer la plateforme de données unifiée avec les services de compute, de stockage et d’analyse de données de la GCP. Sur la partie infrastructure, d’une part le recours à GKE, d’autre part, sur le stockage, l’accès en lecture/écriture à GCS depuis Databricks permet d’exécuter plus vite les charges de travail et à moindre coût, indique le fournisseur. Sur l’analytique, la plateforme a conçu un connecteur optimisé pour BigQuery qui facilite l’accès aux données du service de Google en utilisant directement son API de stockage pour les requêtes haute performances. Le connecteur supporte le predicate pushdown (qui permet de filtrer les données et de réduire les I/O) et les requêtes nommées sur les tables et les vues. Il permet aussi d’exécuter directement SQL sur BigQuery et charger les résultats dans un dataframe Spark, détaille Databricks dans un billet. A cela s’ajoute l’intégration avec l’application de business intelligence Looker racheté par Google en 2019 et le support de SQL Analytics.
Le déploiement de la plateforme se fait depuis la marketplace de Google, dans le cadre d’une tarification unifiée, avec une mise en place pilotée depuis la console de la GCP. L’intégration avec le service Identity du cloud public permet aux clients d’utiliser leurs identifiants Google Cloud pour se connecter en SSO et provisionner les utilisateurs sur Databricks. L’éditeur prévoit parmi les cas d’usage les plus fréquents la modernisation des data lakes avec la migration d’environnements Hadoop (on-premise ou cloud) vers Databricks pour améliorer le traitement des données et réduire l’administration et les coûts d’infrastructure par l’ajustement des ressources.
Réduire le coût des traitements de données à grande échelle
Autre cas d’usage, la préparation des données pour l’analyse en réduisant les coût d’ingestion et de traitement des données sur des clusters optimisés pour les traitements de données à grande échelle. « Vous pouvez de façon fiable stocker toutes vos données, structurées, semi-structurées et non structurées, dans un format brut, puis les transformer de façon incrémentale et les agréger pour la BI avec les garanties ACID », expose l’éditeur. Enfin, pour les différents cas d’usage de data science, la technologie Delta Lake s’utilise au-dessus des data lakes créés sur le stockage GCS et tire parti de Delta Engine pour accélérer la performance des requêtes sur les data lakes. Sur la partie apprentissage machine, le service managé MLflow permet aux utilisateurs de concentrer sur la même plateforme la création et l’expérimentation et la transmission des modèles de ML, d’un bout à l’autre du flux de travail allant de la donnée brute jusqu’au résultat.
Ce partenariat avec Google Cloud permet à Databricks d’apporter la brique manquante à sa stratégie multicloud. Quant à Google, il vient renforcer son offre avec une plateforme unifiée de gestion de données particulièrement reconnue sur le marché dont disposait déjà ses deux grands concurrents dans le cloud public. Au début du mois, Databricks a levé 1 milliard de dollars auprès d’investisseurs de premier plan parmi lesquels on retrouvait AWS, ainsi que son investisseur historique Microsoft qu’il avait jusque-là privilégié et avec lequel il a noué des liens étroits.
Commentaire