Congrès Big Data : Un panorama de l'état de l'art

Réunissant éditeurs, constructeurs et spécialistes des gros volumes de données, la première édition du congrès Big Data a balayé les différents sujets et problématiques sur ce thème, les outils à disposition, les usages, le problème de compétences ou les questions juridiques.

Surfant sur le phénomène du déluge des données, le congrès Big Data a tenu sa première édition à la Cité Universitaire à Paris les 20 et 21 mars. Plusieurs conférences et ateliers se sont tenus pour identifier, comprendre et trouver des solutions à cet afflux massif de données en entreprise. La première journée a été l'occasion de définir ce que l'on entend exactement par Big Data ( données exponentielles, formats, sources des informations) et les solutions présentes sur le marché (décisionnel, stockage, visualisation des données). La plupart des acteurs IT disposait d'ailleurs d'un stand sur le salon pour mettre en avant leur solution : SAP, EMC, SAS, HP, Informatica, AWS, Teradata Aster, SGI, Talend. On note l'absence d'IBM qui plus tôt dans la semaine a dévoilé des offres packagées d'analyses prédictives.

Pour la plupart des exposants, il s'agissait moins de prospecter des clients que d'évangéliser. Michel Bruley, directeur Marketing pour l'Europe de l'ouest de Teradata l'avoue : « la plupart des clients sont en phase de réflexion sur le phénomène du Big Data en France et en Europe, mais il n'existe pas de projets à grande échelle ». Les interrogations des responsables IT sont plutôt d'ordre qualitatif et stratégique : « à quoi cela me sert de traiter ces grands volumes de données et comment je le gère » souligne Michel Bruley. Pour ce faire, Teradata met en avant son acquisition Aster qui détient un brevet assurant l'interopérabilité de bases SQL vers MapReduce (NoSQL), pour « faciliter la vie des personnes en charge du décisionnel », souligne le responsable. Le spécialiste du datawarehouse peaufine son offre avec des modules complémentaires, texte mining, graph analysis, etc pour répondre à cette exigence de spécialisation des outils analytiques.

Des compétences polyvalentes

Comme un fil rouge dans les différentes interventions, le manque de compétences sur le Big Data a été soulevé lors d'une table ronde réunissant Antoine Fréchot, directeur général du Groupe des Ecoles Nationales d'Economie et Statistiques (GENES) et Johan-André Jeanville, un data analyste de la société Kobojo, éditeur de jeux sur les réseaux sociaux. Pour le responsable universitaire, il est difficile de dresser un portrait-robot d'un data analyste, « il faut qu'il ait 3 pieds, informaticien, statisticien et économiste » et d'ajouter « le fait de connaître en plus les enjeux réglementaires et juridiques est un plus ». Il précise que beaucoup de secteurs sont demandeurs de ces compétences, le secteur public avec la montée en puissance de l'Open Data, les activités retail pour élaborer des scénarios de comportement ou éviter les fraudes, le domaine de la santé (génomique, Assurance, etc.).

[[page]]

Johan-André Jeanville parle de son expérience en évoquant « une formation un peu sur le tas et la nécessité de faire de la pédagogie auprès des entreprises pour expliquer son métier : la qualification de la donnée et son utilisation ensuite pour le business ». Il rappelle aussi que « le métier est jeune et va s'affiner avec le temps ». Antoine Fréchot tempère cette analyse en estimant que « la France depuis la seconde guerre mondiale et la création de l'INSEE a formé beaucoup de « data analystes» sur les données publiques ». Il précise que selon le cabinet McKinsey, il manquerait entre 140 et 180 000 spécialistes de la donnée aux Etats-Unis.

Un cadre réglementaire en évolution

L'aspect réglementaire du Big Data a été analysé par Sophie Vulliet-Tavernier, directrice des études à la CNIL. Elle a rappelé les règles en vigueur sur la protection des données personnelles et les problématiques liées au traitement du grand volume de données. Si les analyses des comportements à travers les données personnelles existent, elles doivent se conformer aux droits dont disposent les utilisateurs : droit d'informations, d'accès, d'opposition ou de rectification. Ces rappels ne sont innocents, car certains pays n'accordent pas la même protection des citoyens sur les données. La responsable a fait référence à la modification des règles de confidentialité de Google, qui peut agréger plusieurs données issues des différents services de l'éditeur en soulignant que le droit américain était plus flexible sur l'utilisation des données.

Le Big Data va devoir aussi se conformer aux futures exigences de la directive européenne sur la protection des données. Ainsi, les sociétés devront réfléchir sur le droit à l'oubli (effacement total des données) et à la portabilité des informations (transférer des données d'un site web à un autre, par exemple).

Au final, la première édition du congrès Big Data a dressé un premier panorama sur ce sujet. Le public a répondu présent notamment sur les conférences et les ateliers. Nul doute que cet évènement va gagner en maturité lors de sa prochaine tenue en 2013 au CNIT.