En 9 ans à peine, le datawarehouse natif cloud de Snowflake s’est largement déployé pour devenir le Data Cloud imaginé par ses fondateurs. C'est-à-dire « opérant dans un réseau inter-cloud mondial et exploité par des centaines d’entreprises pour exécuter leurs charges de travail les plus exigeantes tout en partageant et collaborant autour de leurs données ». Cette semaine, sur le Snowflake Summit 2021 (8-10 juin), Benoît Dageville, président responsable des produits de la société qu’il a co-fondée avec Thierry Cruanes, en a rappelé les caractéristiques. « Premièrement, notre plateforme est délivrée sous la forme d’un service entièrement géré », a-t-il exposé. Une seule plateforme - qui couvre 23 régions des différents fournisseurs de clouds publics, chaque région étant interconnectée - bâtie sur une architecture de données partagées multi-clusters qui peut s’étendre pratiquement sans limite de taille. « Cela permet de nombreuses capacités comme la réplication des données incrémentale entre les clouds pour une véritable continuité de l’activité, et c’est ce qui permet aussi le partage mondial de données. Finalement, les comptes ne sont plus des silos puisqu’ils peuvent être connectés mondialement pour apporter une vision centralisée de l’entreprise à travers une plateforme multicloud, multirégion », décrit le co-fondateur.
Deuxièmement, le Data Cloud permet de consolider en un seul endroit les données et les charges de travail sous la forme d’un système intégré, sans avoir à déployer différents outils pour les gérer. Snowflake supporte de très importants volumes de données structurées et semi-structurées. Et l’une des évolutions actuellement préparées par l’éditeur basé en Californie est la capacité à prendre en charge aussi « dans un futur proche », les données non structurées, texte, images et vidéos, a annoncé Benoît Dageville. Sur le versant data science, Snowflake est également utilisé intensivement pour la préparation de données et l’ingénierie de features. « Snowpark, actuellement en préversion, apporte la programmabilité aux données cloud en permettant à Java et Scala de s’exécuter directement dans la plateforme Snowflake en utilisant exactement le même moteur d’exécution que nous utilisons pour SQL », a rappelé M. Dageville en annonçant le prochain support du langage Python. Par ailleurs, l’équipe de développement produit de l’éditeur travaille sur la prochaine génération d’applications intensives sur les données basées sur Snowflake.
+76% de datasets sur la Data Marketplace en 6 mois
Au-dessus de ces fondamentaux, le Data Cloud présente des capacités de partage des données entre les entreprises et de collaboration avec lesquelles Snowflake a affiché depuis quelques années son ambition de créer un véritable écosystème mondial qui a déjà commencé à s’édifier et prend maintenant de l'ampleur. Le Data Cloud supporte un partage direct de données sur des volumes pratiquement illimités, a pointé le co-fondateur. « Imaginez être capable de partager des bases de données exactement comme vous partageriez des documents avec Google Docs. De la même façon, l'éditeur permet l’accès à des sources externes sans copier les données ». Ces échanges peuvent dès lors s’établir en interne ou avec les partenaires et les fournisseurs, dans un environnement sécurisé et gouverné.
Cela ouvre la voie à de nouveaux types de collaboration à travers les différents secteurs d’activité. « Dans la distribution de détail, les retailers partagent des informations granulaires au niveau des points de vente, en quasi temps réel avec leurs fournisseurs », cite en exemple Christian Kleinerman, SVP Product de la société lors de la conférence. « A mesure que le Data Cloud grossira dans votre industrie, vous aurez de plus en plus de possibilités ». Au cours des six derniers mois, sur sa Data Marketplace qui permet d’accéder à des données monétisées, Snowflake a déjà vu augmenter de 76% le nombre de listes de données disponibles, a indiqué le vice-président produit. Plus d’un quart des 160 fournisseurs qui s’y trouvent actuellement partagent au moins trois listes ou plus. On y trouve par exemple des bases de contacts B2B fournies par ZoomInfo, ou celles de Foursquare.
Intégration avec ServiceNow
Avant d’acheter ces listes de données, les entreprises pourront bientôt en découvrir des échantillons pour s’assurer de leur pertinence par rapport à leurs besoins. Snowflake travaille en ce moment sur une fonction « Essayez avant d’acheter » qui leur permettra de tester si ces datasets s’associent correctement dans leurs propres données. L’achat de l’ensemble de la liste se fera ensuite de façon transparente. D’autres options d’achat de données tierces basées sur l’utilisation seront également proposées dans une prochaine version. L’éditeur prépare par ailleurs une intégration avec la plateforme SaaS ServiceNow (gestion des services IT et métiers dans l’entreprise). « Les clients pourront travailler en quasi temps réel avec les données de ServiceNow, une préversion arrivera dans les prochains mois », a annoncé Christian Kleinerman.
Un deuxième volet d’annonces concerne les fonctions de gouvernance des données à grande échelle sur la plateforme dans cet univers connecté. Des contrôles pourront s’appliquer à travers des processus organisationnels à l’ensemble des données et des rôles. Les capacités de Snowflake seront complétées dans ce domaine par des intégrations renforcées avec les technologies de partenaires. Parmi ceux-ci, la plateforme de gestion de données Alation, qui propose catalogage et gouvernance. L'entreprise prépare également des outils de classification (en préversion privée) et de vues anonymisées (en développement).
Partenariat avec Talend sur la qualité des données
Ce faisant, la R&D du fournisseur californien poursuit ses efforts d’innovations pour continuer à optimiser les performances de sa plateforme. Cela se traduit par exemple par un meilleur support des cas d’usage interactifs avec une amélioration allant jusqu’à x6 sur le débit des requêtes sur un seul cluster de calcul et jusqu’à x8 sur la durée moyenne des requêtes. La réduction du coût du stockage pour les nouvelles données peut aller jusqu’à 30%, a indiqué le SVP Product. L’éditeur simplifie par ailleurs le monitoring et la compréhension de la consommation de ses services. Le support des cas d’usage interactif est en préversion privée, le tableau de bord sur les usages en préversion publique.
Un grand pan des nouveautés concerne la programmabilité des données, dont une partie a été évoquée par Benoît Dageville. Parmi les évolutions notables, Snowpark et Java Functions sont en préversion privée, de même que le support des données non structurées. L’API SQL est de son côté déjà en préversion publique. Un programme d’accélération pour les partenaires se met par ailleurs en place autour de Snowpark. Au chapitre des partenariats, une collaboration étroite s’est nouée avec l’éditeur Talend autour de la gestion de la qualité des données. Ce dernier annonce aujourd’hui Talend Trust Score for Snowflake qui s’appuie sur Snowpark pour évaluer et améliorer l’exactitude des données à analyser directement dans Data Cloud. Enfin, pour faire croître l’offre applicative au sein de l’écosystème en aidant les développeurs et les éditeurs de logiciels à concevoir des applications pour son Data Cloud, Snowflake met en place le programme « Powered by Snowflake ».