Pour dompter ses big data, ComScore a combiné Syncsort à Hadoop

Dès 2009, le cabinet d'études de marché ComScore a migré vers Hadoop pour analyser les téraoctets de données qu'il récupère chaque jour dans son cluster de serveurs. Une intégration qu'il mène avec le logiciel d'intégration DMExpress de Syncsort.

Mike Brown, le directeur technique de ComScore, s'y connaît plutôt bien en gestion des big data. Chaque jour, 12 To de données affluent dans son cluster de 80 serveurs qui exploite le logiciel Open Source Hadoop. Ce dernier trie et analyse les données pour des clients à la recherche d'informations de toutes natures, par exemple, quelle boutique en ligne vend le plus d'e-cards, ou encore, à quel rythme Facebook se développe-t-il au Brésil.

L'afflux de données est tel que Mike Brown prévoit d'exploiter 200 serveurs d'ici à la fin de l'année et il pense que ce nombre pourrait doubler s'il ne disposait pas du bon logiciel d'intégration de données, relatent nos confrères américains de CIO. Le directeur technique de ComScore baigne depuis longtemps dans un océan d'information, bien avant d'avoir été le premier ingénieur logiciel de la société en 1999, peu de temps après son lancement. Aujourd'hui, ce cabinet d'études de marché spécialisé sur Internet réalise un chiffre d'affaires de 232 millions de dollars par an et sa croissance, très linéaire, devrait se poursuivre sur le même rythme, selon Mike Brown.

Un démarrage effectué en quelques semaines

ComScore a commencé avec une plateforme de traitement en grille développé en interne, auquel a été ajouté en 2000 le logiciel d'intégration de données de Syncsort dont l'actuelle version est DMExpress. « Nous avons pu démarrer en quelques semaines », se rappelle le CTO. « Cela nous a littéralement permis de faire tourner notre logiciel 5 à 10 fois plus vite. Vous ne vous contentez pas d'étendre le stockage, vous ajoutez aussi des capacités de traitement ».

En 2009, ComScore a commencé à migrer vers Hadoop, devenant ainsi l'un des premiers utilisateurs de cette technologie qui a depuis lors commencé à gagner les faveurs du marché des entreprises. « Nous avons décidé qu'il valait mieux tirer parti de ce qu'apportait la communauté plutôt que construire notre propre solution », relate Mike Brown. « En général, Hadoop est plus difficile à insérer dans une entreprise lorsque vous utilisez plusieurs systèmes d'exploitation. DMExpress, avec ses connecteurs, nous a aidés à résoudre ce problème. »

Une migration vraiment facilitée par DMExpress

Dans un récent rapport de Forrester Research, l'analyste James Kobielus estime qu'il s'agit là d'une expérience typique. « Il manque à Hadoop plusieurs fonctionnalités importantes de datawarehouse d'entreprise, telles que l'intégration en temps réel et la haute disponibilité », rappelle-t-il. « Le marché Hadoop comporte des fournisseurs qui se sont concentré dessus, ainsi que sur d'autres déficiences de la pile Hadoop. Des éditeurs ont, par nécessité, construit leurs propres extensions pour satisfaire à ces exigences, ou bien ils se sont appuyé sur différents outils NoSQL et du code Open Source pour apporter les fonctionnalités recherchées ».

Dans le cas de ComScore, Mike Brown considère que le logiciel de Syncsort a vraiment facilité la migration vers Hadoop. « Vous n'avez pas besoin de modifier le code, excepté le push code », explique-t-il. « Nous avons utilisé DMExpress dans plus de 30 applications différentes. C'est notre outil pour n'importe quelle situation nécessitant un ajustement des données. « Nous pourrions stocker le double de données sur le cluster », poursuit-il. « Et nous l'utilisons aussi pour améliorer les performances. L'un des gros problèmes que cela a résolu, c'est la possibilité de morceler d'importants fichiers et de les diviser en fichiers qui s'adaptent parfaitement sur Hadoop. Cela nous permet d'obtenir un meilleur taux de parallélisme sur les fichiers compressés tout en réduisant nos coûts liés aux disques sur le cluster ». Cela se traduit par une économie de 75 To de données sur le cluster », pointe le CTO.