Avec son datawarehouse conçu nativement pour le cloud, Snowflake rallie un nombre toujours croissant d’entreprises (4000 clients début juin) autour de sa plateforme Cloud Data englobant la prise en charge de data lakes, l’ingénierie de données et la data science. L’éditeur créé en 2012 par deux ingénieurs français installés dans la baie de San Francisco vient de présenter une série de nouveautés sur sa plateforme, ainsi que la constitution d’un écosystème basé sur ses fonctions d’échanges de données. Snowflake annonce aussi un partenariat avec Salesforce autour d’intégrations natives entre leurs plateformes cloud.
Concrètement, le connecteur Einstein Analytics Output for Snowflake facilitera le déplacement des données de Salesforce dans Snowflake où elles pourront être combinées avec d’autres données et analysées avec Einstein Analytics ou Tableau (racheté l’an dernier par Salesforce). Un autre produit, Direct Data for Snowflake permettra aux utilisateurs d’Einstein Analytics de faire des requêtes directement sur les données gérées dans Snowflake. Tous deux seront disponibles plus tard dans l’année. Rappelons au passage que Salesforce a participé en février au dernier tour de table (479 M$ en série G) réalisé par la société fondée par Benoît Dageville et Thierry Cruanes.
Les comptes Snowflake sont hébergés, au choix des clients, dans les clouds publics Azure, AWS et GCP.
Un partage de données virtuel
Depuis un peu plus d’un an, Snowflake met l’emphase sur sa technologie d’échange de données reposant sur ses capacités Secure Data Sharing, qu’il rend désormais plus largement accessibles dans une préversion publique. Celles-ci permettent aux clients de sa plateforme cloud de connecter leurs systèmes entre eux pour autoriser des partenaires à accéder à certaines de leurs données ou l’inverse. Ce partage repose sur un contrôle d’accès sans aucun mouvement des données, ni réplication.
Dans ce sillage, Snowflake promeut maintenant un écosystème qu’il baptise Data Cloud, avec l’ambition de favoriser le partage sécurisé et gouverné de données entre les entreprises de tous secteurs ou les administrations. La technologie Secure Data Sharing est « virtuelle et sans friction », décrit dans un billet, Frank Slootman, CEO de Snowflake. « Les clients désignent les données à partager et accordent des permissions vers elles. Le destinataire peut alors travailler sur les data en place, sans jamais les détenir physiquement ». Du côté des consommateurs de ces données, cela signifie non seulement que l’on accède aux dernières en date, sans latence, mais aussi que toute actualisation est immédiatement disponible. Et ce, souligne le CEO, quel que soit le cloud dans lequel les données se trouvent et la région géographique où ses datacenters sont installés.
Un compte Snowflake peut à la fois fournir et consommer des données partagées. Il existe également des comptes tiers qui consomment des données partagées à partir d'un seul compte fournisseur. Ci-dessus en gris, les bases de données partagées en lecture seule. (Source : Snowflake).
Ces dernières semaines, l’exemple de Starschema, jeu de données prêtes pour l’analyse autour du Covid-19, a accéléré la mise en oeuvre de la technologie Secure Data Sharing de Snowflake. Plus de 2 000 de ses clients ont déjà effectué des requêtes sur ces données en y associant celles de leurs entreprises pour évaluer les impacts de la crise sanitaire sur leur activité et s’organiser.
Snowsight facilite l'exploration des données
Concernant les évolutions apportées à la plateforme Cloud Data elle-même, la fonctionnalité Snowsight, en préversion, propose une nouvelle navigation dans les données avec l’auto-complétion des requêtes SQL, des filtres pour les répéter avec différentes valeurs et la possibilité de les partager tout en maintenant un contrôle à travers des autorisations d’accès granulaires. Autre avancée, mais en préversion privée pour l’instant, Snowflake travaille sur l’utilisation transparente des vues matérialisées pour accélérer les performances sur les requêtes. Sur la partie traitement, deux autres tailles de clusters, beaucoup plus grandes, vont être accessibles pour les tâches très gourmandes : 5XL et 6XL. Elles arriveront dans les prochaines semaines en préversion privée. Chaque nouvelle taille de cluster double la capacité de traitement par rapport à la précédente.
Dans un billet, l'éditeur présente d’autres évolutions, comme l’optimisation des recherches sur des valeurs spécifiques dans les colonnes constituant une clé de partition pour une table. Il annonce aussi l’arrivée, dans les prochains mois, du support pour les procédures stockées basées sur SQL. La plateforme bénéficie d’autres avancées sur les données géospatiales, le masquage dynamique des données ou sur les pipelines de données, notamment pour ces derniers, la possibilité de définir des fonctions en Java.