La concurrence est forte dans le domaine des catalogues de données, un enjeu essentiel à l’heure de l’IA très consommatrice de data. Et dans cette bataille, deux acteurs se démarquent Databricks et Snowflake. Ce dernier a, il y a quelques jours, dévoilé son offre open source Polaris. Databricks vient de réagir en annonçant lui aussi l’ouverture de son catalogue Unity. Disponible depuis juin 2022 et actualisé avec les capacités d’Okera, il était jusqu’à maintenant accessible en mode fermé en comprenant un contrôle d'accès centralisé, un audit, un lignage et des capacités de découverte de données à travers les espaces de travail de Databricks.

Petite différence entre les deux frères ennemis, Snowflake proposera son catalogue en open source seulement dans 3 mois, alors que l’ouverture d’Unity est disponible dès à présent. « En ouvrant le code d’Unity avant Polaris, Databricks veut se positionner comme premier fournisseur à ouvrir son catalogue de données », observe Hyoun Park, analyste en chef chez Amalgam Insights.

Une ouverture pour éviter le verrouillage

Le catalogue Unity est donc accessible en open source sous licence Apache 2.0, ainsi que toutes ses API. Introduite par l'Apache Software Foundation en 2004, cette licence accorde aux utilisateurs de modifier et de distribuer du code gratuitement. Une fois ouvert, le catalogue fournira aux utilisateurs une interface universelle qui prend en charge les données dans n'importe quel format et environnement de calcul. « Il sera notamment possible de lire des tableaux avec les clients Delta Lake, Apache Iceberg et Apache Hudi via Delta Lake UniForm », a déclaré Databricks. « La version open source prend également en charge le catalogue REST d'Iceberg et les normes d'interface Hive Metastore (HMS) », a ajouté le fournisseur. En outre, Unity Catalog continuera à fournir une gouvernance unifiée pour les actifs d'IA, tels que les modèles d'apprentissage machine (ML) et les outils d'IA générative.

Selon Stewart Bond, vice-président de la recherche d'IDC, l'ouverture des API donne un accès ouvert aux informations sur les données conservées dans l'environnement Databricks. « C’est un moyen de soutenir significativement l'unification des données afin que les consommateurs de données, les ingénieurs et les dirigeants n'aient pas besoin d'utiliser plusieurs outils pour découvrir, gérer et gouverner toutes les données dans une entreprise », a expliqué le consultant. Selon Steven Dickens, responsable des pratiques de clouds hybrides chez The Futurum Group, « cette approche unifiée évite tout verrouillage des fournisseurs et laisse les entreprises choisir les meilleurs outils et plateformes pour leurs besoins tout en assurant une gouvernance et une sécurité cohérentes dans l'ensemble de leur patrimoine de données ».

Un mouvement d’entraînement

L'ouverture du catalogue Unity, qui fait suite à la décision de Snowflake de livrer son catalogue Polaris dans les trois mois, est considérée par les analystes comme une course à l'ouverture et à la conquête des utilisateurs. Selon M. Dickens de Futurum, cette ouverture représente un défi de taille pour des concurrents comme Snowflake, Teradata et Dremio. « L'accent mis sur l'interopérabilité et l'engagement open source permet à Databricks de répondre à un plus large éventail de besoins des clients, en réduisant les frictions liées à la compatibilité des formats de données », a-t-il déclaré. « Teradata et Dremio, bien que forts dans leurs niches respectives, n'ont pas démontré le même niveau d'intégration et d'outils complets pour la gouvernance des données et de l'IA », a ajouté l’analyste.

Cependant, Stewart Bond d'IDC fait remarquer que le succès du catalogue Unity, désormais ouvert, dépendra de la quantité de métadonnées sur les données stockées dans les plateformes concurrentes qui seront mises à la disposition des processus externes. « Unity est encore un catalogue très technique. Le fait de le rendre open source peut accélérer les innovations en matière d'expérience utilisateur au niveau de l'entreprise et rendre Unity plus compétitif », a estimé le consultant.