Si les entrepôts de données sont réservés aux inconditionnels du nettoyage (trier, ranger, packager, et supprimer les informations inutiles) et les lacs de données aux fous de l’accumulation (tout garder, parce qu’on ne sait jamais ce qui pourrait servir), le Data Hub de SAP pourrait convenir à tous les autres. Cet outil de gestion de données de SAP doit permettre de traiter uniquement les data utiles - et d’aller les chercher là où elles ont été créées ou stockées - sans qu’il soit nécessaire de les rassembler au même endroit. Des data scientists pourront donc utiliser le hub de SAP pour analyser des données provenant de sources et de systèmes divers.
« Data Hub est une puissante couche de gestion qui permet l'intégration, le traitement et la gouvernance des données », a expliqué Irfan Khan, responsable mondial Database et Data Management Sales de SAP. « L’outil permet d’explorer toutes les données et d'accéder à toutes les informations disponibles. Il ne cherche pas à centraliser ces données dans un lac de données distinct, mais à capturer des données et à accéder aux données là où elles se trouvent », a ajouté hier le responsable mondial de SAP lors de l’annonce du lancement.
Traitement de multiples sources
La notion de hub de données n’est pas nouvelle, mais la solution proposée par l’éditeur allemand est un peu différente : contrairement à MapR ou à Cloudera, qui importent les données dans un cluster Hadoop géant ou dans un autre référentiel central avant de les traiter, SAP maintient les données in situ tant qu’elles ne sont pas utiles. Pour cela, la solution crée des pipelines de données - des flux de données composés d'opérations réutilisables et configurables qui servent au traitement des données extraites de sources diverses. Ces sources incluent aussi bien des fichiers CSV, des API de services Web, que des services cloud commerciaux, ou les magasins de données de SAP. Les opérations de pipeline peuvent faire intervenir des connecteurs pour différents systèmes de fichiers ou API, des analyses ou des bibliothèques d'apprentissage machine comme TensorFlow ou des tâches codées personnalisées.
SAP fournit un outil graphique pour modéliser les flux et les pipelines, ainsi qu’une couche d'orchestration pour déclencher, redémarrer ou annuler les tâches en cas d'échec. « Il peut remplacer des outils d’ordonnancement de flux comme Apache Oozie », a aussi déclaré Irfan Khan. Ajoutant que « l'exécution des opérations de pipeline pouvait être poussée vers d'autres plates-formes, comme le moteur de traitement Vora de SAP » qui précise par ailleurs que « le Data Hub peut être intégré à des produits tiers : il n’est pas nécessaire d'utiliser le mode de traitement ETL de SAP. Informatica convient aussi ». Ou même le système distribué de messagerie open source Apache Kafka.
Un prix en fonction des noeuds de calcul déclarés
Data Hub SAP est généralement disponible. Quant à son prix, « il dépend du nombre total de systèmes et de nœuds de calcul gérés par SAP Data Hub », comme l’a déclaré un porte-parole de SAP. Son utilisation nécessite également une licence pour le moteur de base de données in-memory HANA de SAP. Les clients ayant des licences HANA peuvent les utiliser si elles couvrent une capacité suffisante. Les clients sans licence HANA peuvent acheter la quantité nécessaire de capacités HANA pour exécuter correctement Data Hub.