Certaines entreprises ont de telles quantités de données à gérer que même les plus grands entrepôts de données sont devenus trop étriqués. Un partenariat entre Teradata et MapR, fournisseur d'une distribution Hadoop, va permettre aux utilisateurs de l'architecture Teradata Unified Data d'utiliser de façon transparente le framework Open Source pour le traitement distribué de gros volumes de données. Cet accord intervient alors que Teradata entretient déjà un partenariat privilégié avec Hortonworks, qui fournit une autre distribution Hadoop, proche du framework Apache Open Source. Le fournisseur travaille aussi avec CLoudera et collabore avec MongoDB, éditeur d'une base NoSQL.
Dans un billet commentant l'annonce faite avec MapR, Teradata met en avant l'association de ses outils de contrôle et de son support avec une distribution commerciale évoluée de Hadoop qui propose aux entreprises un moyen d'intégrer plus facilement l'analyse de données big data dans leurs opérations, sans les casse-têtes d'administration liés à la mise en oeuvre du framework à partir de zéro. L'offre devrait également intéresser les dizaines d'entreprises qui utilisent déjà Teradata et MapR, pointe ce dernier.
Synchronisation des feuilles de route
Les logiciels d'orchestration des tâches de travail QueryGrid et Loom de Teradata fonctionneront avec le logiciel de MapR. Pour ce qui est de l'intégration, le fournisseur livrera un connecteur MapR qui permettra aux entreprises possédant QueryGrid d'utiliser la distribution Hadoop pour traiter les données provenant de ses bases, mais pas seulement. Les deux éditeurs ont également synchronisé leurs feuilles de route pour que l'intégration de leurs produits respectifs se fasse sans discontinuité. « Le jumelage de nos technologies aura plusieurs avantages », a déclaré Jack Norris, directeur marketing de MapR. Les quantités massives de données stockées dans une distribution Hadoop pourront être analysées à la volée, soit par un processus de fichier, soit par une requête de base de données NoSQL. Si une entreprise a besoin d'un sous-ensemble de données ou si elle veut agréger certaines données, elle peut copier systématiquement ce matériel dans un entrepôt de données pour les analyser plus rapidement et pour disposer d'un ensemble plus structuré.
« En général, les systèmes Teradata recèlent une forte densité de données de grande valeur », souligne le directeur marketing de MapR. Il rappelle que Hadoop intervient sur les données d'une autre nature, en collectant par exemple tous les logs web ou bien six années de données. « On peut alors faire des choix sélectifs et ne télécharger que les données utiles dans le datawarehouse ». A l'inverse, explique-t-il, il va être possible de transférer des données peu consultées dans la solution Teradata vers des serveurs de stockage peu coûteux gérés avec le système de fichiers HDFS.
Spécialisé dans les datawarehouses haute performance permettant d'effectuer des analyses complexes, Teradata a étendu le champ d'application de sa technologie en y ajoutant des sources localisées à l'extérieur des entrepôts de données. La plateforme Hadoop peut gérer de vastes quantités de données et les entreprises recourent de plus en plus souvent au framework Open Source pour étendre les capacités des datawarehouses. Cette semaine, HP a de son côté annoncé l'intégration de sa base de données en colonnes Vertica aux bases Hadoop que sa solution peut interroger avec le très populaire langage SQL.