Sécurité, gouvernance, qualité, stockage, bases de données... les questions d'infrastructures et d'organisation en amont de toute exploitation du patrimoine data au bénéfice du business sont nombreuses. Ces questions étaient au coeur de la conférence « Data Fondations : les infrastructures indispensables à l'analyse business », organisée par CIO le 1er octobre 2019 au centre d'affaires Paris Trocadéro en partenariat avec Comet, Denodo, OneTrust Privacy, Snowflake, Syncsort et Tibco.
En ouverture de la matinée, les premiers résultats de l'étude Quelles infrastructures pour le patrimoine data ?, réalisée en ligne par CIO, ont été révélés. Côté stockage, les priorités des entreprises portent d'abord sur la gestion de l'espace et l'optimisation des coûts, deux enjeux directement liés à la croissance des volumes de données, devant la performance en matière d'accès. Il continue d'exister une réticence assez nette à stocker des données dans le Cloud. Côté bases de données, les SGBD relationnels conservent pour l'heure leur hégémonie. Parmi les autres approches, le Data Lake est celle qui intéresse le plus de répondants à l'enquête.
« Démocratiser la qualité de la donnée grâce aux DataOps » a été détaillé par Christophe Duong, Lead Data de Comet
« Il est important que toute l'équipe puisse consommer la donnée » a d'ailleurs renchéri Christophe Duong, Lead Data de Comet. La démocratisation de l'accès à la donnée a été un choix délibéré stratégique de cette entreprise dédiée au rapprochement entre des freelances et des entreprises souhaitant proposer des missions. Pour proposer les bonnes missions aux bons indépendants, il est indispensable de disposer d'une donnée de qualité autant sur les compétences des freelances que sur les entreprises et leurs missions. Ces données de qualité alimentent un algorithme de rapprochement relativement automatisé.
En développant la culture data au sein de l'entreprise, la question de la qualité a été décentralisée auprès de chacun. La donnée fait l'objet d'une hiérarchie de tests qui s'enchaînent pour la vérifier. Si besoin, des traitements en parallèle sont effectués. En cas d'intervention d'un tiers, les données sont anonymisées avant de lui remettre. Comet est ainsi devenue une organisation Data Driven grâce, pour commencer, à une culture de la donnée mais aussi via des technologies et des méthodes. Parmi ces dernières, OKR (Objective Key Result) repose sur une vision à dix ans déclinée sur des objectifs à courts termes avec un résultat clé attendu (le Key Result).
François Volpoet, Directeur Régional France de Snowflake a présenté « Du traitement de la donnée à sa monétisation »
De fait, la Data est aujourd'hui la vraie valeur des entreprises tant celle-ci est nécessaire à la vision 360° des clients, aux mécanismes de scoring et de recommandation, à la détection des fraudes, etc. comme l'a rappelé François Volpoet, Directeur Régional France de Snowflake. Pourtant, cela n'a pas toujours été le cas. Ainsi, le vrai accès généralisé à la messagerie professionnelle, service IT que l'on considère basique aujourd'hui, ne date que de l'an 2000. Aujourd'hui, 27 milliards de terminaux sont connectés et 78 milliards de Go sont générés par an. Le problème est que la data est dispersée et qu'il y a de ce fait un coût de gestion de la donnée, donc un problème de profitabilité des usages de la data.
« 70 % des projets data ne passent pas en production » a souligné François Volpoet. Selon lui, la raison est en simple : le non-traitement des « Quatre piliers fondamentaux » : ressources en calcul et en stockage, volume de données concerné, qualité de cette donnée et agilité. Déployer un datalake reste coûteux et basculer une base traditionnelle dans le cloud ne résout pas le problème d'administration. C'est la raison pour laquelle Snowflake a développé une solution adaptée au cloud afin de délivrer toute la data voulue avec une infrastructure virtuellement infinie.
Le retour d'expérience de Cristina Pisica, Présidente de la Commission Business Analytics de l'USF, portait sur « Entreposer la donnée pour en garantir l'exploitabilité »
Le premier témoin de la matinée s'est d'ailleurs exprimée sur le thème « Entreposer la donnée pour en garantir l'exploitabilité ». Cristina Pisica, Présidente de la Commission Business Analytics de l'USF, le club des Utilisateurs SAP Francophones. Cette association créée en 1989 réunit 450 organisations pour 3500 individus membres. 65 bénévoles animent des commissions et groupes de travail. La commission Business Analytics traite du stockage à la restitution dans un décisionnel en passant par des considérations comme la gouvernance, le tout bien sûr dans l'univers SAP.
SAP met en avant une architecture nouvelle depuis le début des années 2010, baptisée Hana, qui remplace les bases de données traditionnelles comme celle d'Oracle. « Auparavant, SAP considérait que la base de données était juste un espace de stockage et que l'importance résidait dans l'applicatif » a observé Cristina Pisica. Hana est avant tout une base de données en mémoire et, en 2025, le PGI SAP ne fonctionnera plus que sur Hana. L'applicatif est donc réécrit sous la forme du S/4 Hana. Radical changement depuis le « any database ». Et, bien entendu, radical changement également pour tous les outils décisionnels.
« Prévenir les risques de violations : comment gérer les risques fournisseurs dans le cadre du RGPD » a expliqué Hugo Woog, Privacy Engineer de OneTrust.
Mais l'exploitabilité des données peut aussi être un problème. Ainsi, Hugo Woog, Privacy Engineer de OneTrust a donné en exemple une application qui a pu tracer le jogging d'un militaire américain dans une base en Afghanistan. Ce tracé a permis à un ennemi d'apprendre suffisamment d'informations pour mener une attaque. Car le partage de données personnelles en ligne devient une brèche dans la protection des données. « Le niveau général de sécurité est celui du niveau le plus faible » a rappelé Hugo Woog. Avec une question connexe : « maîtrisez-vous la sécurité de vos fournisseurs ? »
Au delà du seul RGPD, le contexte réglementaire est complexe dans le monde sur le sujet de la sécurité des données. Mais, d'une manière ou d'une autre, il est fréquent que l'entreprise sera responsable autant de ce qui est fait en interne que ce qui est commis par ses fournisseurs. Il s'agit donc d'évaluer, non seulement ponctuellement mais aussi en continu, les fournisseurs en appliquant une méthode rigoureuse et en utilisant des outils, tels que ceux de OneTrust, pour gérer les risques liés aux fournisseurs sur la confidentialité des données.
Yahya Jarraya, Senior Account Manager de Denodo, a détaillé « De la collecte à l'exploitation, le chemin le plus court pour la consommation gouvernée de la donnée »
La dispersion des données est également un risque et une gêne. Yahya Jarraya, Senior Account Manager de Denodo, a ainsi dénoncé cette dispersion gênante : « les data-scientists veulent un accès simple aux données ». La dispersion des données est donc une gêne pour cet accès. Mais c'est aussi une gêne pour en restreindre l'accès, autrement dit gérer les droits d'accès. Car qui dit complexité des sources de données dit aussi complexité de la gestion des droits d'accès.
La datavirtualisation telle que le propose Denodo vise précisément à mettre en place un point d'entrée unifié sur le patrimoine des données. Du coup, les data-scientists peuvent disposer des données en self-service. Et, bien entendu, la gouvernance et la sécurité peuvent aussi être unifiées.
« L'importance de la qualité de données dans un projet analytique » a été explicitée par Stéphane Heckel, Senior Account Executive de Syncsort.
Un autre sujet essentiel pour une mise à disposition de données, c'est bien sûr la gouvernance du patrimoine data, avec la question de la qualité des données. « Un exemple simple est une adresse pour livrer un colis » a mentionné Stéphane Heckel, Senior Account Executive de Syncsort. Il s'est souvenu : « automatiser la correction d'adresses était le premier service fourni par Syncsort il y a trente ans. » Or les difficultés sont nombreuses : les adresses en deux langues en Belgique, les alphabets non-latins, les transcodages entre différents systèmes (Mainframe et ASCII par exemple)... Encore trop souvent, ces vérifications ne sont pas faites, nuisant à la qualité des prestations. Selon une étude Forrester, 70 % des dirigeants consacrent 40 % de leur temps à valider ou rejeter des données.
Aujourd'hui, la qualité des données commence par le profiling (analyser la nature des données dans les champs) avant de comprendre des phases de standardisation (respect des normes), de nettoyage, d'enrichissement (ajout d'informations complémentaires), de chasse aux doublons et de consolidation. Et parfois il y a de très gros enjeux juridiques autour de ces sujets, par exemple dans la lutte contre la fraude qui repose sur le tracking de tous les actes d'une personne qu'il ne s'agit ni de confondre avec une autre ni d'oublier de rapprocher d'un de ses avatars.
Joel Robin, Directeur des Infrastructures et de la Production de Gecina, a été le Grand Témoin de la matinée.
Le Grand Témoin de la matinée était Joel Robin, Directeur des Infrastructures et de la Production de Gecina. S'il nous a accompagné tout le long de la matinée, il est revenu plus spécifiquement sur ses projets au sein de Gecina. Société foncière spécialisée dans l'immobilier de bureau (avec des résidences étudiantes et quelques logements), Gecina gère des actifs d'une valeur de près de vingt milliards d'euros. Mais les infrastructures étaient vieillissantes, onéreuses et sans garantir des temps de reprise sur incident suffisants face aux nouvelles exigences métier. « Traditionnellement, les foncières avaient une informatique assez pauvres, centrée sur la facturation des locataires, mais notre nouvelle directrice a voulu mettre le digital au centre de la société, notamment sur la relation avec nos clients et nos partenaires » a expliqué Joel Robin.
Beaucoup de projets ont été, de ce fait, lancés ces deux dernières années : CRM, dématérialisation, signature électronique, smart-building et IoT... Evidemment, ces projets ont généré de grandes quantités de données supplémentaires. Il en a résulté le besoin de refondre l'infrastructure pour la rendre plus efficiente et plus résiliente à base d'hyper-convergence et de cloud.
« Comment s'assurer que vos analyses reposent sur des données fiables et exhaustives ? » a interrogé Sadaq Boutrif, Directeur Conseil et Solutions chez Tibco Software France & Belux
Les données, sources de la digitalisation : c'est un fait. Mais, comme l'a montré Sadaq Boutrif, Directeur Conseil et Solutions chez Tibco Software France & Belux, la qualité des données est un impératif. En effet, comment tirer des conclusions, par exemple, en comparant des jeux de données aux périmètres différents ? Pour lui, « avec la BI traditionnelle, les informations étaient centralisées et les rapports distribués. Certes, il y avait peu de risques d'incohérences mais le prix à payer était la rigidité. » Avec l'accroissement du nombre de sources, du nombre d'usages, du nombre d'utilisateurs et de l'autonomie de ces derniers, la gouvernance s'est abîmée.
Si « personne n'a envie de se retrouver dans un data swamp » comme il a remarqué, il faut en tirer les conséquences. Cela passe par la cartographie et le catalogage des données, l'identification de la criticité et des acteurs agissant sur les données et enfin l'amélioration de la fraîcheur des données en évitant les réplications pour privilégier la datavirtualisation.
La table ronde « Préserver la donnée » a réuni Laurent Caillard (à gauche), Responsable Urbanisation & Données de Citeo, et Simon Redondie (à droite), Président de la Commission Support et vice-président de la commission technologie de l'USF ainsi que Chef de Projet Technique SAP à la Gendarmerie Nationale.
La matinée s'est achevée avec une table ronde réunissant Laurent Caillard, Responsable Urbanisation & Données de Citeo, et Simon Redondie, président de la Commission Support et vice-président de la commission technologie de l'USF ainsi que Chef de Projet Technique SAP à la Gendarmerie Nationale. Elle a visé à expliciter les bonnes pratiques dans la préservation, l'exploitation et la mise à disposition des données. La Gendarmerie utilise SAP pour sa gestion et cherche bien sûr à optimiser les moyens à sa disposition. Simon Redondie a également éclairé les participants sur le rôle des commissions support (optimiser l'utilisation de l'onéreux contrat de maintenance de SAP) et technologies de l'USF. SAP pousse de fait vers l'évolution vers Hana, ce que la gendarmerie a accepté en constatant d'importants gains de performance. Pour Citeo, les enjeux étaient différents : organisme en charge des flux financiers autour du recyclage, il avait justement à urbaniser les importants flux de données. Citeo utilise pour cela les solutions cloud public dans Azure. Ce choix est lié à un historique .Net mais Citeo gère aussi ses flux avec SAP et Salesforce au travers d'Azure Service Bus, via une logique d'abonnement à des flux standardisés.