Avec le service BigQuery Omni, dévoilé la semaine dernière, Google Cloud entend supprimer l'un des principaux problèmes de l’analyse des données : devoir déplacer et unifier les données entre les environnements pour les exploiter. La première version alpha BigQuery Omni permet aux clients privés de Google Cloud de fusionner des données AWS dans l'entrepôt de données BigQuery pour exécuter des requêtes SQL, créer des tableaux de bord ou passer des API, sans avoir à déplacer physiquement les données. Des capacités similaires pour Microsoft Azure arrivent bientôt.
« Le multicloud crée un problème - les données deviennent cloisonnées et l'exécution d'analyses sur ces données nécessite un mouvement de données. Pour résoudre ce problème, BigQuery Omni permet aux clients d'analyser les données où qu'elles se trouvent : Google Cloud, AWS en tant qu'alpha privé et très bientôt sur Microsoft Azure », a déclaré Debanjan Saha, directeur général de l'analyse des données chez Google, lors d'une conférence de presse la semaine dernière. Le déplacement des données est souvent cité comme l'un des principaux problèmes pour les analystes de données, et il s'accompagne souvent de coûts importants en calcul, qui nécessitent une justification auprès de la direction financière. Ici, le responsable promet un service qui offre aux utilisateurs « une expérience de données cohérente en utilisant le même SQL et la même interface utilisateur que ceux utilisés dans BigQuery pour les requêtes, les tableaux de bord et pour exécuter des analyses de cohérence et de familiarité ».
Fonctionnement de BigQuery Omni
En découplant le stockage et le calcul, BigQuery Omni prétend être en mesure de fournir « un calcul résilient sans état qui exécute des requêtes SQL standard », écrit M. Saha. « Alors que les concurrents vous demanderont de déplacer ou de copier vos données d'un cloud public vers un autre, où vous pourriez avoir à supporter des frais de sortie, ce n'est pas le cas avec BigQuery Omni », ajoute-t-il. Le service repose sur la plate-forme Anthos de Google Cloud , qui fournit un moyen unique et cohérent de gérer les charges de travail de Kubernetes dans les environnements de cloud privés et publics.
Cette architecture conteneurisée permet aux données de rester dans son compartiment AWS S3, où elles sont interrogées à l'aide du moteur Dremel de Google Cloud, s'exécutant nativement sur un cluster Anthos dans la même région où les données résident. Les résultats sont ensuite renvoyés à BigQuery, ou à votre stockage de données de votre choix, où ils sont combinés avec d'autres données pertinentes, sans frais de transfert de données associés. M. Saha donne l'exemple d'un détaillant souhaitant interroger de manière transparente à la fois ses données Google Analytics 360 Ads, qui sont stockées dans Google Cloud, et les données de journalisation d'une plate-forme de commerce électronique, qui sont conservées sur AWS S3, pour obtenir une image plus complète des habitudes d’achat d’un client.
Cette structure permet également à Google Cloud de positionner BigQuery Omni comme une solution serverless, permettant aux utilisateurs d’exploiter des données sans avoir à gérer l'infrastructure sous-jacente. « Il sera serverless sur AWS et sur Azure lorsqu'il sera disponible », a expliqué M. Saha à la presse la semaine dernière. « L'idée est de faire du calcul un pool de ressources partagées et comme nous avons plusieurs clients exécutant des requêtes, nous pouvons partager et augmenter ces ressources. Exécutez la requête sur AWS et nous transférerons les résultats vers Google et les joindrons avec les résultats. »
Premiers pas avec BigQuery Omni
Comme M. Saha le décrit dans son article de blog, une fois inscrit à l'alpha privé , les clients peuvent se lancer directement dans l'expérience utilisateur BigQuery sur la console Google Cloud. Vous sélectionnez simplement la région où se trouvent les données et exécutez la requête, sans avoir besoin de formater ou de transformer les données, qu'il s'agisse d'Avro, CSV, JSON, ORC ou Parquet.
Les résultats s'affichent dans BigQuery ou peuvent être exportés vers les plateformes de stockage de données de votre choix, sans avoir à les déplacer manuellement dans les clouds. Vous devrez cependant activer BigQuery pour accéder à ces données via les rôles IAM des autres clouds publics. Après le lancement, le coût d'Omni sera conforme à la tarification de BigQuery , donc en fonction de l'utilisation ou sous forme de taux forfaitaire. Il n'y a pas de frais de stockage supplémentaires en dehors de ce que vous payez déjà à AWS pour le stockage S3, ou même pour Azure à l'avenir.