Trois ans après avoir présenté son offre Analytic Server, un ensemble d’outils dédiés au stockage et à l’analyse de grands volumes de données dans les environnements Hadoop, SAS poursuit le développement de sa plate-forme concurrente du framework Spark. Successeur de MapReduce, Spark est un moteur in-memory qui permet d’analyser des données sur un cluster d’ordinateurs. Et il propose des capacités d'analyse presque en temps réel (des micro-lots en fait avec des intervalles de cinq secondes ou moins) plus riches et plus conjoncturelles que MapReduce.
La plateforme SAS Visual Analytics repose sur une base Hadoop HDFS (avec une à trois réplications des données) associée à une appliance in-memory baptisée LASR Analytic Server et à un serveur applicatif pour diffuser les résultats vers des postes clients. A la différence d’autres solutions qui proposent un simple connecteur Hive pour Hadoop, SAS a réalisé une intégration très poussée de sa plate-forme qui peut travailler avec les principales distributions Hadoop (Cloudera, HortonWorks, MapR et Pivotal). L'offre s'appuie notamment sur SAS/Access Interface to Hadoop qui accède aux données stockées en environnement Hadoop et les charge dans High-Performance Analytics Server en les faisant apparaître de façon native.
Un moteur de plus au-dessus de Yarn
Sébastien Poussart, consultant business analytics chez SAS, est revenu sur la plate-forme Analytic Server : « On arrive avec nos propres algorithmes au-dessus de HFDS pour exécuter des requêtes NoSQL avec Hive avec notre propre moteur d’analyse massivement parallèle [LASR]. Nous ne sommes pas un simple connecteur de plus, nous gérons le cluster pour exécuter les calculs de manière maitrisée grâce à Yarn ». Yarn, qui est la brique fondatrice de Hadoop 2.0, sert en fait de système d'exploitation à Hadoop pour transformer ce qui était une simple plate-forme de données à usage unique pour le traitement par lots, en une plate-forme multi-usages qui permet de traiter des flux continus de données en temps réel. Spark vient par exemple se greffer à Yarn, tout comme le moteur LASR de SAS. Mais l’éditeur originaire de Cary en Caroline du Nord assure pouvoir gérer différents clusters Hadoop avec son gestionnaire. « Notre moteur s’intègre avec les grappes de calcul de différentes distributions pour allouer ou réallouer des tâches avec Yarn […] Presque tous les algorithmes et les bibliothèques SAS d'origine ont été adaptés pour fonctionner avec Hadoop. »
La principale nouveauté est toutefois l’arrivée de Data Loader for Hadoop, une solution en self-service dotée d’une interface HTML pour préparer et intégrer des données sur un cluster de production in-memory. Selon SAS, elle permettrait à des non-experts d'utiliser une interface visuelle pour extraire des données de bases de données relationnelles et les charger dans le framework Open Source, libérant ainsi du temps pour les développeurs Hadoop qui peuvent se concentrer sur des tâches avancées. Dans un billet de blog, HortonWorks indique que 80% du temps des data scientists est utilisé pour la préparation et la conservation des données, plutôt que pour leur exploitation. Lors d’une démonstration avec les données brutes provenant d’un site d’e-commerce, Sébastien Poussart a remonté des logs pour analyser avec un léger différé – le temps de préparer et charger les données en fait - le parcours des clients (connexions, navigation, créations de panier…) afin de mieux comprendre leur comportement. La modélisation BI est quasi instantanée et le consultant assure pouvoir traiter « 100 Go de données en 5 minutes pour l’exploration ». En France, l’éditeur a - jusqu’à présent - simplement travaillé sur des POC Hadoop faute de maturité chez les clients pour un projet avec un gros acteur du e-commerce en cours de déploiement. « Il s’agit en fait d’un POC directement passé en prod pour répondre à un besoin urgent. » Nous devrions en savoir plus sur cet acteur lors du prochain salon Big Data 2015 à Paris (au Cnit de la Défense en fait les 10 et 11 mars).
Commentaire