MapR Technologies complète sa plateforme intégrée avec le composant Streams, conçu pour recueillir, analyser et agir sur des big data diffusées en flux continu. Cette solution s’appuie sur un système de type publier/s’abonner qui connecte en temps réel, à un niveau mondial et sans limite d’échelle, des producteurs et des consommateurs de données partageant des sujets communs. L’offre répond aux besoins de l’Internet des objets.
Streams fonctionne au sein d’une plateforme dans laquelle convergent des données en mouvement et des données au repos, en mode natif. Celle-ci supporte la réplication des événements entre différents sites à travers différentes topologies de clusters connectés (one-to-one, one-to-many, many-to-one, many-to-many, star, ring, mesh), détaille MapR sur le site associé en expliquant que les boucles de topologie sont gérées de façon à éviter la réplication de données. Parallèlement, les flux de métadonnées sont répliquées pour permettre aux producteurs et consommateurs de données de basculer entre les sites pour bénéficier de la haute disponibilité. Les données sont réparties sur des sites géographiquement distribués à travers une réplication entre clusters pour garantir la continuité de services en cas de problèmes sur un site.
Des applications dans la publicité, les télécoms, le retail
La plateforme Streams sera disponible début 2016. Dans le retail, elle pourra être utilisée pour optimiser la gestion la gestion des stocks, cite en exemple MapR dans un communiqué. Les opérateurs de télécommunications pourront s’en servir pour ajuster leurs zones de couverture mobile, indique aussi l’éditeur. De façon générale, la plateforme s’adresse aux entreprises qui doivent faire preuve de réactivité en analysant de façon continue leurs big data, à l’instar des annonceurs publicitaires qui proposent des offres en temps réel.
Sur le site MapR, une vidéo montre la plateforme Streams en action.
Streams permet de réduire la duplication et le mouvement des données, ainsi que les coûts d’intégration, pointe MapR. La solution associe le framework Apache Hadoop et le moteur de traitement des flux de données Apache Spark à une base de données NoSQL et à une fonction de streaming en continu. Elle permettra de créer, à partir de milliers de sources, des flux à haut débit, évolutifs, et de fédérer les traitements analytiques pour réduire les temps de latence et la multiplication des clusters. MapR souligne que sa plateforme assure aussi la réplication entre sites pour établir des applications globales en temps réel. Il fournit une API pour le système de messages distribué Kafka afin de faciliter l'intégration des applications des producteurs et consommateurs de données, ainsi que des fonctions « out-of-box » pour l’intégration avec les frameworks de gestion de flux les plus utilisés : Spark Streaming, Storm, Flink et Apex.
L’éditeur collabore aussi avec différents partenaires technologiques comme Databricks, DataTorrent, Streamsets, Syncsort ou encore dataArtisans pour que ses clients aient le choix des composants à associer à la plateforme.