Les utilisateurs de la plate-forme de traitement de données Hadoop disposent désormais de deux autres moteurs de recherche pour trier leurs montagnes d'informations. MapR a intégré LucidWorks Search à sa distribution du framework Open Source. Et Cloudera a livré une version complète de son moteur de recherche Open Source Impala SQL pour Hadoop. Utiliser une technologie de recherche comme interface utilisateur pour le big data est très intéressant, a confirmé Jack Norris, directeur du marketing de MapR, à nos confrères d'IDG News Service. « Search est bien adapté pour tirer parti de sources d'informations très différentes, notamment des informations non structurées. On peut déboucher sur des applications très intéressantes avec les moteurs de recherche, même si l'utilisateur classique ne s'en rend pas forcément compte ».
LucidWorks Search est la version commerciale du moteur de recherche Open Source en texte intégral Apache Lucene/Solr. Intégré à MapR, l'outil peut effectuer des recherches aussi bien dans les systèmes de fichiers Hadoop File Systems (HDFS), que dans d'autres systèmes de fichiers. Il permet de créer des instantanés et des miroirs pour assurer une haute disponibilité des données, et évite une grande partie du travail requis pour installer Lucene/Solr à partir de zéro. Il offre également un support natif pour plusieurs sources de données, une interface utilisateur graphique et un framework de sécurité.
LucidWorks Search fonctionne avec MapR M7
LucidWorks Search pourrait être utilisé dans une application Web dynamique pour récupérer rapidement des photos, de la publicité, des recommandations sur des produits, et d'autres informations qui peuvent être utilisées pour alimenter des sites Web à la volée. « Ce n'est pas un substitut, à moindre coût, à l'entreposage de données. La fonction permet de tirer parti de nouvelles sources de données et de faire des choses qui ont un impact réel sur l'activité de l'entreprise », a déclaré Jack Norris.
Depuis 2011, MapR et LucidWorks travaillent ensemble pour réunir leurs technologies et ont conclu un accord de commercialisation conjointe. Au premier trimestre, les deux entreprises ont livré un connecteur qui facilite l'usage de Lucene/Solr avec la distribution MapR Hadoop. LucidWorks Search fonctionne avec la dernière distribution M7 de MapR, encore en version bêta. Cette édition a également été ré-architecturée pour éliminer les tassements et les contrôles de cohérence en arrière-plan, ce qui améliore les performances.
Impala, conçu pour être plus rapide que Hive
Cette semaine également, Cloudera a livré la version 1.0 de Cloudera Impala, un moteur de requête SQL Open Source pour Hadoop. SQL est le langage utilisé dans les SGBDR, bien connu des administrateurs de base de données. Contrairement à Hive de Hadoop, Impala n'utilise pas le framework MapReduce qui exige que les résultats de recherche soient écrits sur le disque, ce qui lui permet d'exécuter les requêtes plus rapidement. Les utilisateurs peuvent effectuer leurs recherches dans les données stockées directement dans HDFS et HBase. Ils peuvent consulter les données de manière interactive ou par des procédés discontinus.
En octobre dernier, Cloudera avait livré une version bêta du moteur. Depuis, le logiciel a été testé par des entreprises comme 37signals et Expedia. Impala est la composante de base du pack additionnel Cloudera Enterprise RTQ (Real-Time Query) pour la plateforme Hadoop Cloudera. Impala est téléchargeable gratuitement.
MapR et Cloudera renforcent les capacités de recherche d'Hadoop
Deux moteurs de recherche viennent compléter la plateforme Hadoop. La distribution de MapR intègre LucidWorks Search et Cloudera sort la première version complète de son moteur Impala compatible SQL.