Nous avons besoin d’intelligence artificielle pour utiliser au mieux les data catalogs. L’IA embarquée dans ces solutions est pensée pour accompagner les data stewards dans leur travail de construction des catalogues. À ce niveau, la complexité repose dans la récupération des jeux de données qui permettent de produire les meta données nécessaires pour que les catalogues acquièrent leur fonction informative. Lors de cette phase de construction, les algorithmes sont là pour aider les opérateurs à vérifier l’intégrité des données traitées. Ils couvrent des territoires immenses de data, détectent des anomalies potentielles et les remontent à l’utilisateur qui valide ou non l’information.
Le défi de l’entrainement des algorithmes de machine learning
Le recourt à des algorithmes soulève un problème bien connu : celui de leur entrainement. Une IA est efficace si elle est entraînée au préalable sur une base de données suffisamment importante. En quelque sorte, l’expérience de l’intelligence artificielle prime et celle-ci s’acquiert via la construction d’un catalogue suffisamment important pour permettre aux algorithmes d’apprendre et de monter en maturité. Le rôle des data stewards est alors essentiel pour construire et enrichir ces corpus. Effectuer cette opération avec des solutions intégralement automatisées produit des catalogues fragiles. L’intervention humaine est alors primordiale pour définir des règles de lecture des contextes dans lesquels les informations sont amenées à être traitées.
La contextualisation, un enjeu central pour les data catalogs
Le contexte d’une information joue un rôle déterminant dans son traitement. Ainsi, des données d’imagerie médicale sont faciles à traiter en ce qu’elles renvoient à un contexte unique : le corps humain. Des données plus simples en apparence peuvent s’avérer bien plus complexes. L’exemple des dates de naissance est parlant. Pour un registre d’état civil, leur utilisation est aisée : ces données sont univoques. Pour une assurance, leur exploitation est plus compliquée. Ces data ont plusieurs lectures possibles qui renvoient à des ensembles hétérogènes : des polices d’assurances, des catégories de population, des types de contrats, des malus, des bonus … . Pour être traitées de manière adéquate, ces données doivent être contextualisées via des modèles créés par et pour l’utilisateur.
Les utilisateurs doivent être la préoccupation première des éditeurs
L’intelligence artificielle est un trompe l’œil qui occulte l’enjeu central des data catalogs : l’accompagnement de l’utilisateur et l’adoption des solutions mises à leur disposition. Deux populations distinctes utilisent des applicatifs data : ceux qui produisent les catalogues et ceux qui les consomment. Le focus sur l’intelligence artificielle met en lumière l’attention portée par les éditeurs à la première catégorie de population. Or le défi des data catalogs n’est par forcément là. Dans les faits, les entreprises sont confrontées à de fortes problématiques d’adoption et d’usage que l’on ne peut ignorer. Pour régler ces problèmes il est essentiel de prendre en compte les attentes des consommateurs de données. Ceux-ci ont besoin de solutions ergonomes, users friendly, qui intègrent leurs besoins et qui s’adaptent à leurs modes de consommation de la data. Un enjeu qui n’est pas du ressort du machine learning mais bien plutôt de l’UX des solutions déployées.