En direct de Las Vegas. Les participants du Summit de 2023 de Snowflake sont au rendez-vous pour écouter et échanger sur les annonces du spécialiste du datawarehouse cloud. Ce dernier avait hier levé le voile sur une thématique, l'IA générative, en signant des accords de partenariat avec Microsoft et Nvidia. Des discussions qui n'empêchent pas le fournisseur de travailler sur son propre LLM, comme le montre la première annonce de l'évènement. Baptisé Document AI, ce grand modèle de langage est construit à partir d’Applica, une plateforme d'IA pour la compréhension des documents, basée en Pologne que la firme a acquis en août 2022. En construisant son propre LLM, la firme apporte davantage d’outils aux utilisateurs afin que ces derniers puissent mieux comprendre les documents et utiliser à bon escient leurs données non structurées. Les entreprises peuvent ainsi extraire des documents des contenus tels que les montants des factures ou les termes des contrats et affiner les résultats à l'aide d'une interface visuelle et du langage naturel.
En s’appuyant sur des documents variés lors d’une démonstration, Christian Kleinerman, vice-président senior responsable des produits de Snowflake pointe du doigt les différents points de blocage que peuvent rencontrer les utilisateurs lors de l’analyse de données. « Ces documents contiennent donc un mélange de champs et de textes libres et leur analyse va soit être sujette à des erreurs et prendre du temps ou bien elle va nécessiter une expertise en ML que je n'ai pas. Mais avec Document AI, je peux le faire sans avoir besoin d'expertise ML ». Par défaut, Document AI utilise un modèle « zero shot », ce qui signifie que tout utilisateur peut obtenir de bons résultats sans avoir à affiner ou à entraîner le modèle. Si besoin, cela est toujours possible en modifiant les réglages pour améliorer les résultats.
Snowflake dévoile un grand modèle de langage destiné à extraire des informations plus approfondies des documents, tout en continuant à faire progresser la plateforme d'un point de vue vitesse et performance. (Crédit : Snowflake)
Ainsi, Document AI analyse en temps réel n’importe quel document à l’aide du LLM. Christian Kleinerman précise qu’à l’aide d’une simple requête SQL, il est possible d’exécuter ce modèle sur tous les documents sélectionnés en une seule fois. Autre avantage, et de taille : le modèle est entièrement intégré à la plateforme Snowflake. Il est donc possible de créer un pipeline utilisant des flux et des tâches pour traiter les documents au fur et à mesure de leur arrivée. Une alerte peut même être configurée pour envoyer un e-mail à chaque fois qu'un document arrive. Snowflake commence avec Document AI – disponible en préversion privée – et prévoit d'étendre ces capacités à d'autres types de données non structurées à l’avenir, sans toutefois préciser lesquelles.
A l'aide du LLM, l'utilisateur extrait des informations de documents puis peut affiner le modèle si besoin et, enfin, le publier et construire le pipeline. (Crédit : CS)
Iceberg Tables, une norme pour la gestion des données signée Snowflake
Dans le même temps, la firme a annoncé des mises à jour des tables Iceberg afin d’apporter de meilleures performances et davantage de gouvernance à la fois pour les données du catalogue de Snowflake et pour celles gérées par un autre catalogue. Pour mémoire, ces dernières ont été dévoilées pour la première fois dans le paysage Snowflake lors du Summit 2022. Christian Kleinerman les avait alors présentées comme des tables de « première classe », « offrant les mêmes fonctions de gestion, de DML et de CRUD que les tables internes, avec des performances similaires ». Aujourd’hui, alors qu'Apache Iceberg continue de gagner en popularité « en tant que norme industrielle pour les formats Open Table », le responsable promet que « Snowflake facilite l'extension de la valeur du Data Cloud aux données Iceberg ». En clair, cela simplifie la gestion des données en éliminant la nécessité pour les entreprises de déplacer ou de copier les données entre les différents systèmes, ce qui induit une réduction des coûts et une meilleure flexibilité. La firme précise qu’à ce jour, des clients tels que Booking.com exploitent aujourd'hui Iceberg Tables. Précisons que cette mise à jour doit prochainement être disponible en préversion privée.
En mettant à jour les Iceberg Tables, apparues il y a seulement un an, Snowflake veut accélérer sur l’interopérabilité. (Crédit : CS)
Avec cette amélioration, Snowflake compte répondre à une problématique de taille qui ne risque pas de disparaître, bien au contraire ; il s’agit de briser les silos. En effet, selon une étude publiée par IDC à ce sujet, au cours des cinq prochaines années, plus de 90 % des données mondiales seront non structurées, sous forme de documents, d'images, de vidéos, de sons, etc. Ce volume massif de données non structurées est régulièrement stocké par les entreprises, mais l'obtention d'informations utiles à partir de ces data a toujours nécessité des processus manuels, sujets aux erreurs, et des compétences d'experts limitées. Et Snowflake compte bien répondre à ce point de blocage : « Nous ouvrons une nouvelle ère de données pour les clients, en exploitant l'IA et en éliminant les silos auparavant liés au format, à l'emplacement, et plus encore, pour révolutionner la façon dont les organisations mettent leurs données au travail et génèrent des informations avec le Data Cloud » conclut Christian Kleinerman.