Alors que de plus en plus d'entreprises utilisent Hadoop pour analyser de grosses quantités d'information, elles réalisent qu'elles ont peut-être aussi besoin de transférer des données entre Hadoop et leurs bases de données existantes, leurs systèmes d'entreposage et d'autres banques de données. Des développeurs bénévoles à l'origine d'un nouveau connecteur pour accélérer ces échanges de données viennent de gagner l'adhésion complète de l'Apache Software Foundation (ASF). En effet, la fondation, qui soutient le développement de logiciels Open Source, a promu cet outil, dénommé Sqoop, qui permet d'accélérer le transfert de données, au rang de projet prioritaire.
En tant que « Top Level Project » (TLP), Sqoop bénéficiera de tout ce que peut offrir l'infrastructure Apache, à savoir les listes de diffusion, un espace de travail collaboratif, l'aide juridique et un référentiel de code. Le statut TLP signifie également que le groupe de travail de Sqoop respecte les procédures et les principes de la Fondation en matière de développement et de soutien logiciel.
Transférer rapidement des données traitées par Hadoop
Sqoop fournit un moyen rapide de transférer de grandes quantités de données entre la plate-forme de traitement de données Hadoop et les SGBD relationnelles, les systèmes d'entreposage et d'autres banques de données non-relationnelles. Il fonctionne avec la plupart des bases de données relationnelles actuelles, comme MySQL, PostgreSQL, Oracle, Microsoft SQL Server et IBM DB2, ainsi que les applications d'entreposage de données.
« Sqoop a été conçu pour transférer rapidement des milliards de lignes dans Hadoop grâce à une technologie basée sur des fonctions parallèles, » a expliqué dans un communiqué Arvind Prabhakar, chef du projet Sqoop auprès de l'Apache Software Foundation. Sqoop place les données, soit directement dans un espace de stockage régi par le système Hadoop Distributed File (HDFS), ou peut les orienter vers d'autres applications Hadoop comme le système de gestion de base de données non relationnelle distribuée HBase et son stockage structuré pour les grandes tables, ou le logiciel d'analyse de données Hive de Hadoop.
Déjà adopté par des entreprises
Actuellement en version 1.4, Sqoop a déjà été adopté en production par un certain nombre de boutiques en ligne utilisant Hadoop. Par exemple, le vendeur en ligne Coupons.com utilise le logiciel pour échanger des données entre Hadoop et l'appliance d'entrepôt de données IBM Netezza. L'entreprise peut envoyer des requêtes vers ses bases de données structurées et transmettre les résultats vers Hadoop par l'intermédiaire de Sqoop. L'entreprise privée d'éducation Apollo Group utilise également le logiciel non seulement pour extraire des données de ses bases de données, mais aussi pour injecter des résultats depuis Hadoop vers ses SGBD relationnelles.
En 2011, Sqoop était entré dans le groupe des incubateurs de projets de la Fondation Apache. Fondée en 1999, l'organisation sans but lucratif prend en charge plus de 150 projets Open Source, dont certains logiciels largement répandus comme le serveur Web Apache, le serveur d'application Tomcat, la base de données Cassandra, le moteur de recherche Lucene, le langage de programmation Perl et la plate-forme d'analyse de données Hadoop. Facebook, Google, IBM, Hewlett-Packard, Microsoft, VMware, et Yahoo comptent au nombre des entreprises qui soutiennent financièrement l'ASF.