Big data, l'heure est à la valorisation des données

Sur le salon Big Data 2013, l'ambiance générale était particulièrement studieuse au coeur du petit écosystème français. Un rendez-vous stimulant pour mieux comprendre comment valoriser ses informations.

Pour sa seconde édition, le salon Big Data, qui a migré de la Cité universitaire de Paris au CNIT, a accueilli un peu plus de 2 500 participants contre 700 l'an dernier. Blandine Laffargue, l'organisatrice de l'évènement, nous a indiqué sa satisfaction quant à la hausse des exposants (50 contre 25 en 2012), et des conférences (100 au lieu de 70). « Nous avons amplifié l'évènement dans tous les domaines », précise B. Laffargue, « avec notamment les ateliers produits où fournisseurs et partenaires pouvaient exposer leurs solutions et confronter leurs idées avec les clients potentiels » pendant 30 minutes. « En un an le marché du big data a vraiment décollé. L'année dernière, il était très difficile de trouver des projets innovants dans ce domaine, alors que cette année nous avons remonté 43 projets. » Mais c'est une fois de plus le Crédit Mutuel Arkea qui a remporté le premier prix des Trophées de l'Innovation 2013 de ce salon. L'année dernière, nous avions déjà remis à Mathias Herberts, « ingénieur disruptif » du Crédit Mutuel Arkea, le Trophée de l'Innovateur CIO/LMI 2012 pour la mise en oeuvre d'une solution big data transverse en technologies Hadoop. Le second prix a été attribué à Monster pour son programme Seemore et le troisième à SFR pour un projet géomarketing dynamique.

Dans les allées du salon, nous avons pu discuter avec un grand nombre de start-ups dédiées au big data comme Affini-TECH fondée par Vincent Heuschling, mais aussi des SSII et des éditeurs. La première bonne surprise sur le salon était toutefois la présence de MapR Technologies, une des trois distributions majeures Hadoop avec celles de Cloudera et de Hortonworks. La seconde était l'ouverture d'une filiale française de MapR avec aux manettes Xavier Guérin, auparavant chez Isilon Systems et Quantum, comme vice-président en charge de l'Europe du Sud et du Benelux, et Aurélien Goujet, auparavant chez Isilon Systems, comme directeur technique Europe du Sud et du Benelux. Jusqu'à présent les trois principaux protagonistes oeuvrant sur le framework Hadoop n'étaient représentés que par leurs partenaires, VirtualScale pour Cloudera, par exemple, avec Sofiane Ammar et Maurice Abecassis.

Ted Dunning de MapR en évangéliste Hadoop

Sur le salon, MapR était très bien représenté grâce à la présence de Ted Dunning, chief application architect, qui a assuré une des conférences du salon. Ce dernier nous a souligné le travail de l'éditeur sur le framework Hadoop avec notamment l'utilisation du système de fichiers NFS (Network File System), associé à un connecteur HDFS pour garder la compatibilité avec le framework d'origine. MapR propose en fait deux versions de sa distribution, une de base dite M3, qui prend en charge le Network File System (NFS) pour assurer un déploiement plus facile avec les systèmes de stockage et de meilleures performances en débit (jusqu'à 20 Gbit/s), et une version dite M5, configurée pour la haute disponibilité (HA). Elle supporte également le multitenancy, ce qui lui confère un certain nombre d'avantages. Le logiciel de gestion peut maintenant supporter les clusters multiples, si bien que les administrateurs peuvent partitionner logiquement un cluster physique et lui attribuer des tâches différentes. Enfin des fonctions de snapshot et de mirrorring sont également de la partie. Ted Dunning s'est félicité de la croissance du big data aux États-Unis , avec une adoption qui explose depuis en un an et des projets qui fleurissent un peu partout dans la finance, la distribution, l'industrie... Le marché initial qui concernait essentiellement les opérateurs web est aujourd'hui totalement transformé.

Après un retard à l'allumage, le marché français du big data commence à se développer. Arnaud Laroche, associé chez Bluestone, nous a indiqué quelques usages très intéressants chez Air France pour la fixation dynamique du prix des billets d'avion et à la Caisse des dépôts pour la valorisation des brevets. Bluestone, qui emploie aujourd'hui 120 personnes, ne craint pas la pénurie de compétences. « En France, le profil des data scientists est différent de celui des États-Unis. Nous avions moins d'ingénieurs en informatique, mais plus de scientifiques et de mathématiciens attirés par ces nouveaux métiers. » Et la révolution n'est pas que dans les profils, elle est aussi dans les usages. « Aujourd'hui la data devient opérationnelle pour le développement de produits ou de services, notamment des alertes pour la maintenance avec, par exemple, la détection de signaux faibles ».

HP pousse bien sûr Autonomy IDOL

Mais le big data ne se limite pas à Hadoop, des éditeurs poussent leurs propres solutions pour traiter et analyser de grandes quantités de données. Progress Software, par exemple, mettait en avant son travail réalisé chez Turkcell, le 3e opérateur turc avec 20 millions de clients, pour réduire le taux d'attrition avec son moteur CEP. Ce dernier rassemble et traite en temps réel des couches de données issus de plusieurs sources (mobiles, flux sociaux...) pour filtrer et corréler les informations. Un outil de realtime marketing devenu indispensable pour dépasser la simple segmentation marketing.

Enfin, HP était également sur le salon pour mettre en avant ses plates-formes Autonomy IDOL (Intelligent Data Operating Layer) et Vertica. Jean Paul Alibert, directeur général chez HP France en charge de l'innovation, du big data et de la sécurité. « Des trois offres en croissance sur le marché (cloud, sécurité et big data), le big data offre aujourd'hui les plus larges opportunités. Avec Autonomy, nous possédons un outil capable de traiter et marquer des données structurés et non structurées, mais aussi des rich médias avec notamment la reconnaissance de visages et de logos. L'audio peut en outre être retranscrit en texte pour être analysé en temps réel ». Autonomy assure également des fonctions d'analyse de sentiments grâce à la détection de mots clefs dans une conversation et à l'analyse du spectre vocal pour détecter des tensions entre un client et un opérateur dans un centre d'appels. En cas de problème, le client peut être automatiquement basculé sur un manager pour régler le souci. Les principaux POC big data emmenés par HP aujourd'hui concernent la banque et assurance pour mieux cibler les clients via leur relevé bancaire. Et ce pour proposer, par exemple, des offres de crédits très ciblées et diminuer encore une fois les taux d'attrition. Pour les assurances, il s'agit d'analyser de grands volumes de données pour analyser le comportement des automobilistes grâce aux boites noires qui se multiplient dans les voitures. HP travaille également avec une distribution Hadoop, celle de Cloudera, associée à sa base de données Vertica et à Autonomy IDOL pour fournir des outils d'analyse prédéfinis. Grâce au paquet Hadoop d'Autonomy, les utilisateurs peuvent incorporer un moteur IDOL 10 dans chaque noeud de leur cluster Hadoop. Ce qui leur permet ensuite d'accéder à 500 fonctions d'analyse et de synthèse des données IDOL dans Hadoop.

Terminons notre panorama du salon avec Bull qui s'est associé avec Microsoft pour pousser ses solutions big data. Jean François Vannier, responsable commercial infrastructures décisionnelles chez Bull, nous a détaillé l'offre Better Data . Elle repose sur la plate-forme datawarehouse de Microsoft, SQL Server FastTrack - une appliance - capable de traiter en temps jusqu'à une centaine de téraoctets. Avec AT Internet par exemple pour du web analytique. Et pour monter en puissance, Bull va bientôt avancer l'offre Parallel Data Warehouse 2.0, une plate-forme capable de supporter jusqu'à 5 Po de données. Elle utilise un moteur, baptisé PolyBase, qui prend en charge des requêtes sur des données relationnelles et non relationnelles avec Apache Hadoop. Les requêtes Hadoop seront acheminées via le logiciel de datawarehouse Apache Hive.