Qui sont les clients VIP d'un groupe de média ? C'est en partant de cette interrogation, en apparence simple, que Violette Chomier, la Chief Data Officer (CDO) du groupe Les Echos / Le Parisien et son équipe se sont attaquées à la normalisation de la donnée au sein d'un groupe comprenant 35 marques d'événementiel, de services B2B et de média, des entités travaillant sur des modèles économiques souvent très différents. « Répondre à cette question, soulevée en décembre 2022 par la direction générale, nous a donné beaucoup de grains à moudre », lance la CDO, qui s'exprimait récemment lors du salon Big Data & AI Paris. Même s'il envoie près de 2 milliards d'emails par an et héberge une base de données avoisinant les 20 To, le groupe Les Echos / Le Parisien reste une ETI de moins de 1 600 personnes. « La data, quelques pipelines et la vingtaine de collaborateurs travaillant sur ces sujets assurent le lien entre la taille assez modeste de nos équipes chargées de délivrer nos messages et nos audiences très larges », résume Violette Chomier.
Pour s'engager dans ce chantier, visant à créer un profil client harmonisé débouchant sur une segmentation de la base, le groupe peut s'appuyer sur sa migration vers le cloud, opérée en 2020 : l'essentiel des données de 21 marques est alors regroupé sur GCP (Google Cloud Platform) et celles de 12 acquisitions récentes (comme Historia ou Boursier.com) opérées par le groupe viendront s'y greffer. Dans cette architecture unifiée, les données ingérées, en batch ou en streaming, passent par un orchestrateur et sont déversées dans un datalake, puis dans un datawarehouse pour y être stockées dans différentes tables (profil, segmentation, consentement...). Une CDP permet d'exploiter ces données sur différents outils d'activation (e-mails, SMS, display en particulier). « Nous ingérons de plus en plus de données en flux, pour nous rapprocher du temps réel, dit Violette Chomier. Et nous cherchons à transformer la donnée le plus tard possible dans notre chaîne, pour être en mesure d'ajouter des cas d'usage auxquels nous n'aurions pas pensé d'emblée. »
De 6 000 métiers à 15 catégories grâce à ChatGPT
Reste la question de la normalisation et de la déduplication de la donnée pour créer un profil unique par client à l'échelle de l'ensemble des marques. En s'adossant à un prestataire (DQE), Les Echos / Le Parisien s'est d'abord attaché à améliorer la qualité de sa base d'adresses postales, dont la qualité restait aléatoire (avec 20 à 70% de pertinence seulement, selon les sources). « En redressant 12% des adresses, nous avons abaissé notre taux d'attrition de 15% », observe la CDO. Autre enjeu clef dans cette consolidation de données : la déduplication, « le point le plus périlleux », juge même Violette Chomier. Jusqu'alors, le groupe de média se reposait uniquement sur l'email pour éviter ces doublons. Insuffisant pour réellement garantir la création d'un ID unique à l'échelle des 35 marques de l'organisation. « Nous avons donc appliqué une déduplication supplémentaire avec le couple nom et prénom. Mais ce choix a soulevé un certain nombre de complexités, car nous avons, par exemple, beaucoup de clients particuliers abonnés par leur entreprise. Au cas par cas, nous avons donc dû tordre les règles métiers, pour savoir quelle règle prioriser par rapport à quelle autre. »
Violette Chomier, CDO du groupe Les Echos / Le Parisien : « via son API, ChatGPT est intégré à notre pipeline de données, entre l'ingestion et le stockage en base de données »
Pour créer sa base de données unique de clients, la CDO peut aussi s'appuyer sur un consensus sur les données clefs négocié avec les différents métiers du groupe : une quinzaine d'informations essentielles au total pour chaque profil. « Principalement des données personnelles, de contactabilité et d'opt-in », précise Violette Chomier. Sur ce terrain, la responsabilité du pôle data consiste, en particulier, à harmoniser le stock, en partant d'un historique très hétérogène (avec des collectes parfois anciennes et jamais mises à jour). « Un travail énorme, tranche la CDO. C'est sur ce terrain que nous avons utilisé l'IA générative. Nous avions par exemple, pour les métiers, des entités qui avaient collecté cette information en champ libre. D'où la présence de 6 000 données différentes. Nous avons exploité ChatGPT pour les classer dans 15 catégories prédéfinies, ce qui a rendu ces données monétisables » illustre la CDO, qui loue la simplicité d'usage de l'outil d'OpenAI sur ce terrain et l'absence de phase d'apprentissage pour ce cas d'usage. Tout en soulignant quelques pratiques qui favorisent l'efficacité de l'outil, comme l'utilisation de mots-clefs spécifiques, la fourniture d'exemples ou la spécification des données de sortie.
Tolérance aux fautes d'orthographe et de typo
Après de premiers tests de l'outil, l'équipe data du groupe de média a ajusté ses prompts et évalué les résultats, pas à pas. « Via son API, ChatGPT est désormais intégré à notre pipeline de données, entre l'ingestion et le stockage en base de données. Et ce, sur différents champs. Une large part des données classées dans la catégorie "autres" ont ainsi pu être retraitées et sont devenues monétisables », note Violette Chomier. Selon cette dernière, ces opérations de normalisation de données par l'IA se révèlent tolérantes aux fautes d'orthographe et de typographie, pour une précision globale de 81% et un taux de rappel de 74%. « Nous avons jugé ces scores suffisants pour implémenter l'outil dans notre chaîne de traitement », indique la CDO.
L'ensemble de la démarche de rapprochement des données issues des différentes marques, de déduplication et de normalisation a permis à l'équipe data de passer de 21 millions de lignes lors de l'ingestion à, progressivement, 13 millions de profils enrichis. « Nous appliquons également du Machine Learning pour associer des profils à une appétence pour telle ou telle thématique, en analysant leurs données de navigation », précise Violette Chomier. Démarré il y a 9 mois, le projet a permis d'agrandir les segments d'audience associés à des données CRM (des segments associés à un CPM plus élevé) et de définir de premiers clusters de personnes ayant des profils similaires, via leurs consommations sur de multiples marques du groupe. Pour l'équipe data, ce travail de fond débouche également sur une fiabilisation des analyses produites. « Quand on travaille sur la réduction de l'attrition ou la propension à l'abonnement, les données issues du CRM sont clefs », assure Violette Chomier, qui ajoute que la consolidation et le nettoyage de la base de données servent également à limiter les achats de données externes au strict nécessaire.
Commentaire