Avec Kudu, Cloudera s'attaque au marché du datawarehouse

Après Impala, Kafka et Director, Cloudera pousse un autre module baptisé Kudu conçu comme une alternative aux datawarehouse traditionnels.

Sur un marché du datawarehouse, aujourd’hui dominé par Teratec, IBM, Oracle, SAP, Microsoft et HP, Cloudera lance un logiciel open source pour conserver et servir différents types de données non-structurées selon notre confrère VentureBeat. Cette plate-forme repose sur un moteur baptisé Kudu conçu comme une alternative au système HDFS largement avec les projets Hadoop et aux bases de données NoSQL orientées Hadoop comme HBase. Une petite équipe chez Cloudera travaille sur ce produit depuis près de deux ans et l’éditeur a commencé à tester sa solution chez certains clients.

Alternative aux entrepôts de données de Teradata, IBM (PureData anciennement Netezza), et autres fournisseurs, Kudu peut également être utilisé comme une base de données en mémoire hautement évolutive capable de supporter des charges de travail dans un mode massivement parallèle. Kudu, qui est capable de fonctionner en étant réparti sur plusieurs datacenters, utilise des algorithmes spécifiques pour charger - comme HANA - les données en RAM et sur des SSD pour accélérer les traitements. Un autre usage est également envisagé par Cloudera : la sauvegarde et la reprise après sinistre.

Intégration précoce avec Impala

Kudu est « presque aussi rapide que HDFS pour les scans » et, dans le même temps, « presque aussi rapide que HBase pour les accès aléatoires », selon Cloudera. Mais Kudu ne vise pas à être un simple substitut à HDFS ou HBase. « Il y a encore des endroits où ces systèmes seront optimaux, et Cloudera va continuer à les soutenir et à investir en eux», selon l’éditeur. Kudu pourrait être utilisé pour traiter les enregistrements chronologiques, les rapports produits en temps réel ou encore la construction de modèles plus précis. Il est important de noter que Kudu n’est pas un moteur de requête SQL pour extraire des données spécifiques. Cloudera pousse Impala pour cela, tandis que d’autres passent par Hive. Kudu affiche une « intégration précoce» avec Impala, et le support de Spark est attendu.

L’API de Kudu travaille de concert avec Java – le langage de base de Hadoop - ainsi que C ++. L'architecture de Kudu permet un fonctionnement à travers les sites, comme Spanner, la base de données NewSQL de Google et celle du même type proposée par Cockroach. Cela pourrait faire de Kudu un excellent choix pour les grandes entreprises qui cherchent à stocker leurs données un pue partout dans le monde.

Encore léger face à IBM et Oracle

Valorisé 5 milliards de dollars et fort du soutien financier d’Intel, Cloudera entend se distinguer des autres fournisseurs de distributions Hadoop pour devenir un fournisseur de premiers plans dans les entreprises. Un positionnement frontal face à IBM et Oracle sera toutefois un peu plus difficile que face à ses petits camarades Hortonworks et MapR.