Le spécialiste du stockage scale-out (née en 2019 que nous avions rencontré l'an dernier) apporte sa pierre à l'édifice dans le domaine de l'AI et des LLM (grands modèles de langage). Data Vast lève le rideau sur sa dernière solution, Data Platform, adressant les différentes couches nécessaires à l'entraînement des différents modèles (services de stockage, bases de données, moteur de calcul).
Data Platform présentée par Vast a été conçue pour gérer tous types de données non structurées et structurées (vidéo, d'images, texte, data stream, ...) générées partout dans le monde et traitées en temps réel. « Cette approche vise à combler le fossé entre les architectures axées sur les événements et les architectures axées sur les données en offrant la possibilité d'accéder aux données et de les traiter dans n'importe quel datacenter cloud privé ou public, de mieux les comprendre en intégrant une couche sémantique interrogeable dans les données elles-mêmes, de calculer continuellement et récursivement les données en temps réel évoluant au fil de chaque interaction », promet le fournisseur.
Data Platform : 4 piliers dont DataEngine pas attendu avant 2024
Data Platform s'articule autour de 4 piliers : DataStore (une architecture de stockage évolutive pour les données non structurées qui élimine la hiérarchisation du stockage), DataBase (couche de base de données sémantique intégrée de manière native). Ainsi que DataEngine (moteur d'exécution supportant SQL et Python couplé à un système notification d'événements et facilitant la gestion des pipelines d'IA), et DataSpace (stocker, extraire et traiter des données provenant de n'importe quel site avec des performances élevées tout en assurant une cohérence stricte entre tous les points d'accès).
Principe d'architecture de la Data Platform de Vast Data comparée à une architecture traditionnelle de gestion des données. (crédit : Vast Data)
« La Data Platform de Vast est radicalement différente de toutes les plateformes de données qui l'ont précédée », a expliqué Merv Adrian, analyste principal chez IT Market Strategy à Venture Beat. « En rassemblant les données structurées et non structurées dans un espace de noms hautement performant et distribué à l'échelle mondiale avec une analyse en temps réel, Vast ne s'attaque pas seulement aux défis fondamentaux des SGBD que sont l'accès aux données et la latence, mais offre également une infrastructure de données véritablement disruptive qui fournit la base dont les organisations axées sur l'IA ont besoin pour résoudre les problèmes qu'elles n'ont pas encore tenté de résoudre ».
DataStore, DataBase et DataSpace sont aujourd'hui en disponibilité générale au sein de la Data Platform, mais il faudra encore patienter 2024 pour DataEngine.