L’éditeur MapR vient de présenter la version 5.0 de sa distribution Hadoop basée sur la version 2.7 du framework Open Source conçu pour le traitement de très gros volumes de données, cette dernière intégrant la prise en charge des conteneurs Docker. Disponible le mois prochain, MapR 5.0 s’appuie par ailleurs sur le gestionnaire de ressources Yarn. Cette version vient renforcer les capacités d’exploitation en temps réel de la plateforme, explique l’éditeur. Elle a notamment étendu le framework de transport de données haute fiabilité utilisé dans la fonction MapR-DB Table Replication (qui permet des réplications entre différents datacenters) pour fournir des données aux moteurs externes et les synchroniser en temps réel. Le premier moteur de recherche supporté est ElasticSearch (basé sur Lucene).
Par rapport à d’autres distributions Hadoop, celle de MapR étend les fonctionnalités du framework sur les aspects de sécurité (protection des données, authentification des utilisateurs, reprise après sinistre), mais aussi de haute disponibilité et de performances. La version 5.0 apporte d’autres améliorations au niveau de la gouvernance, avec une vérification complète de l’accès aux données par le biais de journaux au format JSON et une prise en charge d'Apache Drill Views pour accéder de façon sécurisée aux données à analyser.
Des modèles pour faciliter les déploiements
Selon Jack Norris, directeur marketing de MapR, de plus en plus d’entreprises déploient de multiples applications sur le même cluster Hadoop. Près d’un client de l’éditeur sur cinq déploient plus de 50 applications distinctes sur un seul cluster, a-t-il indiqué. Dans ce contexte, la dernière version de MapR gère la synchronisation automatisée du stockage, des bases de données et des index de recherche.
Pour faciliter le déploiement de clusters Hadoop, l’éditeur a par ailleurs intégré de nouveaux modèles d’auto-provisionning pour mettre en place un cluster comme s’il s’agissait d’une appliance, sans utiliser de matériel spécifique. Ces modèles peuvent être déployés à l’aide de l’installateur de MapR. Parmi les configurations possible, on trouve les services de Data Lake, d’exploration de données (Interactive SQL avec Apache Drill) et d'analyse sur des données opérationnelles (base NoSQL et MapR-DB).
En janvier dernier, MapR a ouvert un cours en ligne gratuit pour former à Hadoop qui a attiré plusieurs milliers de personnes dès les premières semaines.