L’engouement pour Apache Iceberg ne se dément pas. Plusieurs fournisseurs de solutions analytiques intègrent ce format de table ouverte pour stocker des ensembles de données. C’est le cas de Dremio qui vient d’annoncer des fonctionnalités supplémentaires sur ce framework. Par exemple, pour copier des données dans les tables Iceberg, les entreprises et les développeurs doivent utiliser la commande « copy into SQL ».
Copie et rollback des tables Iceberg
« Avec une seule commande, les clients peuvent désormais copier les données de fichiers sous format CSV et JSON stockés dans S3 d’Amazon, Azure Data Lake Storage (ADLS), HDFS et d'autres sources de données prises en charge dans des tables Apache Iceberg en utilisant le format de fichier Parquet en colonnes pour plus de performance », indique la start-up californienne. L’opération de copie est distribuée sur l’ensemble du moteur de stockage sous-jacent afin de charger plus de données.
La société a également introduit une fonction de retour en arrière (rollback) des tables pour les entreprises. Une fonction semblable à une sauvegarde de restauration du système Windows ou à celle de Time Machine sur Mac. Les tables peuvent être sauvegardées soit à un moment précis, soit en snapshot. Pour accéder à cette fonction, les développeurs devront se servir de la commande « rollback ». La société précise par ailleurs qu'elle « facilite d’une table à un état antérieur avec une seule commande ».
L’optimisation des petits fichiers et des connecteurs
Autre commande intéressante : Optimize, pour consolider et optimiser les tailles des petits fichiers. Ces derniers sont créés lors de différents processus comme l’insertion, la mise à jour ou la suppression de données. « Souvent les clients ont de nombreux petits fichiers à la suite d’opérations DML (langage de manipulation de données), ce qui peut avoir un impact sur les performances de lecture et d’écriture sur cette table et utiliser un excès de stockage », observe Dremio. Il ajoute que la commande Optimize peut être activée au sein de Sonar (moteur SQL) à intervalles réguliers pour maintenir les performances.
Doug Henschen, analyste principal chez Constellation Research, constate que les récentes fonctions présentées par Dremio, « devraient améliorer la production des ingénieurs data et des administrateurs systèmes ». La start-up qui a misé très tôt sur les tables Iceberg est en concurrence avec Ahana et Starburst, qui ont annoncé ce support en 2021. D’autres fournisseurs comme Snowflake et Cloudera ont suivi en 2022. En complément des fonctions spécifiques à Apache Iceberg, Dremio lance des connecteurs pour PowerBI de Microsoft, Snowflake et IBM DB2. Sur le premier, les clients des deux solutions, « peuvent désormais utiliser l’authentification unique (SSO) pour accéder aux moteurs Dremio Cloud et Software depuis PowerBI, simplifiant ainsi le contrôle d’accès et la gestion des utilisateurs à travers leur architecture de données ». Pour les deux autres connecteurs, les entreprises pourront ajouter des datawarehouse Snowflake et des bases de données IBM DB2 comme sources de données.
Commentaire