Les projets big data prennent corps. Cette année, les visiteurs du salon Big Data Paris 2015, au Cnit les 10 et 11 mars, sont venus avec des objectifs et des budgets, selon les exposants. De leur côté, ils sont passés en un an de 80 à 120, tandis que les pré-inscriptions de visiteurs ont approché les 7000 (contre 5000 l'an dernier). Le thème de la conférence d'ouverture ce mardi donnait le ton sur les enjeux : « Maître de la donnée, maître du monde ». Dans les allées, les grands acteurs d'Hadoop et des bases NoSQL se tenaient en rangs serrés à quelques mètres de l'entrée du salon avec, parmi les stands les plus visibles, ceux de Cloudera, qui accueillait Doug Cutting (à l'origine du framework Hadoop), MapR et Hortonworks.
Pas très loin, DataStax (Cassandra), CouchBase et MongoDB côtoyaient deux autres éditeurs importants du NoSQL qui viennent de s'implanter en France. Le 1er, Basho Technologies, fournit la base Riak et l'offre de stockage objet Riak CS. Le second, MarkLogic, revendique de n'être pas Open Source et s'est offert le luxe d'ouvrir la 2ème journée, en tant que principal sponsor. L'un comme l'autre pointent l'utilisation de leur base pour des applications exigeantes ou sensibles. Riak est notamment utilisée par les services de santé britannique, National Health Services, et MarkLogic (qui respecte les propriétés ACID) par JPMorgan et Dow Jones. Le salon comptait aussi des start-ups françaises spécialisées sur le big data comme Dataiku, avec son logiciel Data Science Studio, Data-K et Data Publica.
Analyse prédictive avec des requêtes R distribuées
Pour accélérer la mise en œuvre des projets, plusieurs solutions ont été packagées dans les offres de SSII comme Ysance, Micropole ou Viseo et chez de grands fournisseurs IT, presque tous présents sur le salon tels HP, IBM, Microsoft, Dell, Oracle, SAP, Intel, SAS ou encore Atos. Chez HP, Colin Mahony, directeur général de l'activité big data, constate que les cas d'usage ont nettement progressé en un an. « Les clients savent quel type de projets ils veulent faire et cette évolution est assez bien répartie au travers des différents secteurs d'activités », nous a-t-il confirmé lors d'un entretien. Son offre Haven, qui englobe Hadoop et sa plateforme Vertica, est notamment exploitée par les Français Criteo, spécialiste du reciblage publicitaire, et BlaBlaCar. La start-up de mise en relation de conducteurs pour covoiturage l'utilise pour optimiser ses campagnes marketing et fidéliser ses clients.
Colin Mahony rappelle qu'une des difficultés des chantiers big data est de réunir des compétences à la fois sur l'infrastructure matérielle, sur le logiciel et sur les métiers et que le cloud peut aider à faire avancer les projets. Sur les profils recherchés, il pointe le besoin de spécialistes des infrastructures à grande échelle et d'expertises métiers. En France, HP vient de créer une chaire big data dans le cadre de son partenariat avec l'école d'ingénieurs ESME Sudria. Le mois dernier, le fournisseur a par ailleurs annoncé l'offre Haven Predictive Analytics pour accélérer la mise en œuvre de machine learning à grande échelle. Basée sur sa version Distributed R, la solution permet d'appliquer le langage statistique Open Source, originellement « single threaded », à des jeux de données plus importants dans une architecture distribuée. Elle permet d'effectuer des requêtes en R depuis la base Vertica. Dans le monde médical, cette solution d'analyse prédictive permet au groupe américain Cerner d'affiner la mise au point des soins en évitant des erreurs de diagnostic.
Des mises en œuvre plus rapides
Parmi les offres packagées lancées en France, Big data 24 de Micropole s'adresse aux métiers. Elle permet d'ouvrir en quelques jours sur Cloudwatt une infrastructure Hadoop avec des outils de collecte et d'analyse pour démarrer une expérimentation. Sa filiale Wide a conçu des algorithmes appliqués à différents secteurs, dont la distribution (retail). Chez Ysance, la plateforme de gestion de données Digital-Data Factory est également axée sur la connaissance des clients. « Nous captons les données, les enrichissons avec des données tiers et construisons des data lakes centrés sur les clients, sur les clouds de Google et Amazon », nous a expliqué Romain Chaumais, directeur des opérations et co-fondateur d'Ysance.
Les projets sont plus rapides qu'auparavant. « Il faut 2 à 3 semaines pour commencer à collecter les données et 100 à 300 jours pour interconnecter la plateforme marketing big data, selon la complexité et la taille du projet », a indiqué le dirigeant. Une dizaine de projets sont en cours, dont 4 en production, sur cette offre qui a des visées internationales d'ici 18 mois (Romain Chaumais rêve d'une aventure à la Criteo), avec la constitution d'un réseau de partenaires. La plateforme peut être testée gratuitement pendant un mois. Le co-fondateur d'Ysance pointe par ailleurs le développement du volet industriel des big data, pour superviser les installations, la qualité, la production. Dans le domaine des smart cities, le projet ServO de Veolia, pour optimiser la distribution de l'eau, continue à se développer, indique-t-il. Il mentionne aussi le 3ème volet du big data, portant sur la migration des plateformes BI vers les technologies Hadoop pour en réduire les coûts.
Transformation numérique chez l'assureur Covéa
L'écosystème s'étoffe aussi chez Cloudera, l'une des 3 grandes distributions Hadoop, qui a ouvert cet automne sa filiale française. Son concurrent MapR s'est installé quelques mois plus tôt dans l'Hexagone. « Nous comptons un nouveau partenaire chaque semaine », indique Romain Picard, responsable des activités de Cloudera pour l'Europe du Sud. Au total, l'éditeur en réunit 1 500 dans le monde. Intel a très fortement investi dans la société. « Nous avons récupéré une partie de leur R&D et nous travaillons avec eux sur la sécurité ». Au niveau mondial, l'éditeur a maintenant passé la barre des 100 M$ de chiffre d'affaires. En Europe il a gagné 20 nouveaux clients depuis septembre, dont Unicredit en Italie qui met d'abord en place le Data Hub avant de partir sur des cas d'usage, le premier étant la gestion de la fraude.
Sur le salon cette semaine, Sentelis, partenaire de Cloudera, témoignait avec le groupe d'assurance Covéa (MMA, Maaf, GMF), engagé dans une transformation numérique à travers son projet Ambition 2020 dont le volet big data est axé sur une meilleure connaissance des clients. Generali France, Solocal, SFR sont aussi des utilisateurs de Cloudera et Carrefour démarre un projet. Generali analyse les données des conducteurs et Solocal (ex Pages Jaunes) fait remonter son chiffre d'affaires en temps réel. SFR travaille sur la connaissance client et prévoit aussi d'analyser les données réseaux pour améliorer la qualité de service.
Modéliser en 3D les flux de personnes
Parmi les SSII présentes sur le salon, Orange Application for Business mettait l'accent sur sa solution Flux vision qui transforme les données de son réseau mobile en indicateurs de mobilité, fruit de plusieurs années de recherche. « Nous avons réussi à créer des algorithmes respectueux des données personnelles qui sont anonymisées de manière irréversible », nous a indiqué Rémi Hugonin, chef produit Big data OAB chez Orange Business Services. Avec malgré tout au final une richesse d'information qui fournit des indications pertinentes sur les déplacements des personnes. « Nous créons de l'apprentissage progressif du profil des groupes de personnes ». Cela permet par exemple de distinguer les visiteurs occasionnels d'une ville et les habitués.
« Le logiciel comprend et caractérise les flux ce qui le rend intéressant dans le domaine du tourisme, du transport et du géomarketing », décrit le chef produit. Flux Vision compte déjà 70 clients. Il est notamment utilisé pour évaluer les déplacements des touristes, la fréquentation d'un lieu donné lors d'un événement (la Route du Rhum récemment) ou la saturation d'une station ferroviaire. La solution a été co-créée avec Bouches-du-Rhône Tourisme. La collaboration se poursuit. « Nous essayons de modéliser en 3D les flux de déplacements des personnes », explique Rémi Hugonin. Dans le domaine du géomarketing, Flux Vision peut aussi fournir une segmentation par tranche d'âge et genre pour comprendre quel est le meilleur emplacement pour un nouveau point de vente ou, de façon opérationnelle, gérer des horaires d'ouverture flexible ou bien optimiser les compétences des équipes en place.
Faire émerger de nouveaux modèles à monétiser
Pour les entreprises qui n'auraient pas encore déterminé de cas d'usage pour explorer leur big data, la SSII Viseo a conçu la suite DeltaMetric qui pourrait les mettre sur la voie. Issue de travaux de recherche européens valorisés par la société, cette offre d'analyse exploratoire a été développée par d'anciens chercheurs. « Elle permet de mettre en évidence des faits saillants sans a priori » et peut être utilisée comme aide à la détection de cas d'usage, explique Frédéric Vautrain, directeur de l'offre Data Science chez Viseo. Cela peut aussi générer de nouveaux modèles et donner des pistes pour la monétisation des données afin d'accompagner la transformation numérique. « Nous l'utilisions en interne. Nous l'industrialisons maintenant via Viseo. » ERDF et Eau de Paris y recourent pour leurs compteurs intelligents, et la Commission européenne pour analyser les échanges commerciaux entre les pays de l'UE et le reste du monde. Parmi les clients figurent aussi Fnac et Société Générale.