L'association ExQI (Excellence Qualité des Informations) est née il y a un peu plus d'un an pour promouvoir les bonnes pratiques en matière de qualité des données, notamment en favorisant les échanges entre professionnels concernés. Elle regroupe aujourd'hui environ 70 membres, le plus souvent des personnes physiques, et a organisé son premier événement annuel, Data Excellence Paris 2010, du 8 au 10 décembre 2010 à la Maison des Polytechniciens. Cette association est présidée par Sylvaine Nugier, ingénieur chercheur en système d'information et de surveillance chez EdF. Les interventions mêlaient des communications de type universitaire à des témoignages d'entreprises. 27 orateurs (universitaires, chercheurs, consultants et responsables en entreprises ou administrations) se sont succédés sur les trois jours pour une soixantaine de personnes présentes en séance plénière.

Absence de définition

Assez curieusement, Jacky Akoka, professeur au CNAM où il préside le département informatique, a admis qu'il n'existait aucun consensus sur la définition même du sujet, à savoir la qualité des données. La liste des caractéristiques d'une donnée de qualité ou d'un processus générant des données de qualité n'est donc pas totalement fixée alors même que les premiers travaux de recherche datent des années 80. De la même façon, les méthodologies sont nombreuses et variées. Il existe cependant une liste d'items fréquents caractérisant des données de qualité : exactitude, cohérence, sécurité, fraicheur de l'information, complétude, concision, fiabilité, pertinence, etc. Un certain nombre de ces items sont plus particulièrement intéressants car on peut leur associer une métrique et donc s'en servir pour mesurer la qualité. Ainsi, la fraicheur peut être estimée en fonction de la date de production de l'information.

Une norme ISO de la qualité des données

Malgré ce caractère peu défini du travail exact sur la qualité des données, il existe une norme ISO en cours de mise au point sur le sujet. Peter Benson, directeur exécutif de l'Eccma (Electronic Commerce Code Management Association) et responsable du projet de norme ISO 8000 est venu la présenter lors du Data Excellence Paris 2010. ISO 8000 est basé sur la logique de l'ISO 9000.

« Le coût de développement d'une norme est de l'ordre de cinq millions de dollars et ISO 8000 a été sponsorisée par l'armée américaine qui perdait beaucoup trop d'argent à vérifier la qualité de ses données » a remarqué Peter Benson. Il a ajouté : « un de ses principes fondamentaux, qui va à l'encontre de la volonté de tous les éditeurs de logiciels, est de nettement séparer les données des programmes. » Un autre principe est de clairement séparer une information d'une donnée exploitable.

[[page]]

Plusieurs entreprises ont témoigné lors du Data Excellence Paris 2010. Les détails des projets ne sont pas publics tant, il est vrai, on touche là à des dimensions extrêmement sensibles.

La division Production Nucléaire d'EdF a ainsi mené le projet QUAIAC (Qualité des Informations, Applications, Compétences) sous la responsabilité d'Evelyne Rossin, chef de projets. La qualité des données ne se marchande pas dans un contexte où la sécurité est un impératif absolu. Or les différents sites utilisent des procédures qui ont dévié les unes des autres au fil des années ou des organisations locales. A cela s'ajoute une refonte en cours du coeur du SI, ce qui implique une impossibilité de définir la démarche de qualité des données par rapport à une architecture donnée, le modèle global des données ne devant pas bouger. La démarche a donc consisté avant tout à promouvoir un bon usage du SI en portant les efforts sur les données les plus sensibles sans se disperser inutilement sur des milliers d'autres aux impacts moindres. Suite à une question de la salle, Evelyne Rossin a bien volontiers admis que « les fichiers Excel parasites prennent parfois la place, localement, des applications normales, ce qui implique des trous dans les données étudiées et contrôlées. La démarche initiale a donc aussi consisté à éradiquer ces fichiers parasites et à promouvoir les applications peu connues ou peu aimées. »

La convergence pour la qualité globale

Chez Air Liquide, la problématique était liée à la taille et à la diversité du groupe dans le monde. Avant 2003, chaque entité du groupe possédait ses propres solutions IT, ses propres référentiels et ses propres processus. Valérie Dupré-Montaldo, conceptrice du référentiel et du catalogue européen, a admis : « nous subissions des problèmes dans les échanges informatiques entre entités, avec des coûts de non-convergence ». En 2010, 12 pays ont déployé le SI convergent baptisé Opera, avec des référentiels de données communs au niveau européen.

Ces référentiels se doivent cependant de vivre. Air Liquide a donc développé un outil spécifique de workflow pour assurer via Intranet la création, la modification ou la suppression d'éléments de ce réferentiel. De plus, pour s'assurer du bon usage des outils, des audits réguliers déterminent des indicateurs de qualité des données, la qualité des processus et la convergence des référentiels effectivement exploités. « Un référentiel ne doit surtout pas être vu comme un problème informatique mais bien comme un levier de performance métier » a insisté Valérie Dupré-Montaldo.


[[page]]

Chez Alcatel-Lucent, Laurence Orazi est en charge de la gouvernance des données d'entreprise. Depuis 2007 et la fusion effective entre Alcatel et Lucent, la problématique de la gestion des données, de leur convergence et de leur harmonisation, a en effet été récurrente. Dans un premier temps, l'optimisation de la qualité des données a été effectuée via un MDM domaine par domaine. « Mais malgré de lourds investissements, les problèmes persistaient » a déploré Laurence Orazi. Là encore, des problèmes sont survenus à cause de fichiers Excel parasites impliquant que les référenciels d'entreprise n'étaient pas complets. La solution finalement choisie a donc été de mettre en place une gouvernance des données pilotée par les règles métier. Alcatel-Lucent a mis en oeuvre un modèle d'intégration pour aller chercher les informations dans de multiples sources afin de piloter la mise à disposition de la bonne donnée au bon moment.

Pour Laurence Orazi, plusieurs bonnes pratiques sont nécessaires pour aboutir à un succès. Tout d'abord, il convient de commencer sur un périmètre restreint avant d'étendre progressivement. S'il faut faire équipe avec la DSI pour les aspects technologiques, ce sont bien les acteurs métier qui doivent être impliqués et comprendre les avantages de la démarches. Enfin, le recours à des experts externes permet de démarrer rapidement.

Une odeur de qualité des données

Chez Firmenich, une entreprise suisse spécialisée dans les fragrances et arômes présente dans 50 pays, la gouvernance des données a surtout concerné celles de la chaine logistique, de la prise de commande à la délivrance de la commande au client. Pour Thierry Délez, directeur MDM, « si, quand on met en place un MDM, il faut régulièrement nettoyer les données, c'est que le processus est en échec. » En effet, les processus métier doivent aboutir à la création et au stockage des seules données justes et pertinentes, notamment sans doublon.

Le pire qui puisse arriver pour une saine gouvernance des données, c'est que des « héros » sauvent régulièrement l'entreprise de la catastrophe. « En tel cas, les processus ne sont jamais révisés et ceux qui devraient utiliser les données passent leur temps à en restaurer la qualité, ce qui aboutit d'un côté à les démotiver, et de l'autre à les rendre responsables de problèmes contre lesquels ils se battent » condamne Thierry Délez. En particulier, la mauvaise intégration des données ne doit pas être traitée par la DSI, qui fournit un outil, mais par les managers métiers. Pour cette raison, la direction dont dépend Thierry Délez n'est pas rattachée à la DSI : sa fonction n'est pas technique et son travail ne doit pas être considéré comme un « bidule technique ».