Cnil : savoir allier éthique et partage à l'aune de l'open data

En rassemblant des expertises terrain et scientifiques, l'événement air2021 de la Cnil propose d'appréhender l'open data à travers le prisme de l'éthique.

La crise sanitaire a révélé certaines failles en France sur le partage des données mais aussi vis-à-vis de leur protection vue comme faible à plusieurs reprises. A cet effet, la Commission nationale de l'informatique et des libertés a présenté son événement de réflexion éthique, portant sur l’ouverture et le partage des données. L’occasion d’échanger autour des travaux et des projets menés en parallèle de la pandémie, avec Julien Marchal, co-directeur de l’innovation de l’Agence régionale de santé (ARS) d’Île-de-France, Martin Daniel, co-fondateur de Covidliste et Nathalie Mesny, présidente de l’association de patients Renaloo (pour les personnes atteintes de maladie rénale).

Le partage des données de santé a été mis à l’épreuve par la pandémie de covid-19. Tout d’abord, l’aspect épidémiologique, difficile à quantifier, selon Julien Marchal. Dans les premiers mois, les dépistages n’étaient pas automatisés, et un flou total régnait sur la situation dans les Ehpad et la formation de clusters. « Nous nous sommes battus pour avoir des informations là-dessus » ajoute-t-il. Le déconfinement a donné un vrai coup d’accélérateur, notamment avec SIDEP (Système d'information national de dépistage populationnel), Contact tracing (dont l'ARS a la charge) et plusieurs enquêtes menées dans les Ehpad. « Cette épidémie est la seule qui ai permis quelque chose d’aussi précis » précise le co-directeur de l’innovation de l'ARS d’Île-de-France. Des agents ont eu accès à des listes exhaustives des personnes contaminées, des cas contacts, etc avec des informations très poussées sur le lieu de contamination, le nombre de personnes infectées, les coordonnées de chacune d’entre elles.

Julien Marchal est revenu sur la question du partage des données durant la pandémie. (Crédit : DR)

De son côté, Covidliste précise n’avoir collecté aucune donnée de santé, mais des données personnelles, « le but de cette plateforme étant d’informer quiconque cherche un rendez-vous pour se faire vacciner ». Par cette interface, chaque personne s’enregistrant peut être contactée dès qu’un rdv de vaccination est disponible près de chez elle. Aujourd’hui, au vu de l’évolution de l’épidémie, la plateforme a été mise en pause.

L’accès aux données, critique pour certains patients

Actuellement, l’objectif est de sophistiquer toutes ces données et développer des outils prédictifs notamment avec Doctolib pour prévenir en amont d’un éventuel surcroit de contamination, ou d’occupation des lits. Julien Marchal mise quant à lui sur « la mise en place d’un SI global, de grande ampleur » pour traiter les données, en référence aux outils nouvellement créés. Elle permet aussi à des patients atteints de certaines maladies de pouvoir être suivis et soignés en conséquence. L’accès aux données est en effet critique pour les patients atteints de maladies rénales, explique Nathalie Mesny, présidente de l’association de patients Renaloo. Cette maladie, au traitement lourd, s’est révélée incompatible avec un traitement anti-covid. De fait, « nous avions besoin de le savoir pour orienter et traiter correctement les patients, connaître les hôpitaux qui pouvaient les accepter notamment » ajoute Nathalie Mesny. Pour elle, l’open data a encore beaucoup à faire pour cela ; deux projets de recherche sont en cours, et l’association mène des enquêtes auprès des patients pour recueillir davantage de données sur le sujet.

Bien sûr, la crise sanitaire a engendré une certaine méfiance vis-à-vis de la collecte de données et de leur partage. L’ARS régionale et Covidliste ont été confrontés à l’inquiétude de la population sur le lieu d’hébergement des données de santé. Martin Daniel, co-fondateur de Covidliste, explique que le code ayant servir à développer la plateforme est open source et disponible sur GitHub. « La transparence c’est le meilleur moyen de soulever n’importe quel doute » conclut-il. Les données personnelles collectées sont par ailleurs supprimées suivant la réglementation.

Une exploitation qui a ses limites

Cet échange est également une occasion de pointer du doigt les risques et les limites liés à l’exploitation de la donnée. Pour ce faire, la Cnil a invité Anne Bouverot, co-fondatrice et présidente de la Fondation Abeona, Yves-Alexandre de Montjoye, professeur associé au London Imperial College ainsi que Pierre Romera, CTO de l’International Consortium of Investigative Journalists (ICIJ). Yves-Alexandre de Montjoye, travaille sur la pseudonymisation des données et la désidentification des personnes reliées à ces données. « Il s’agit de prendre les données et casser le lien entre la personne et ses données ». Ce professeur explique que ce travail de pseudonymisation est de plus en plus difficile face à la collecte de données toujours croissante. « L’utilisation des données est toujours une balance à trouver », ajoute-t-il. Depuis un certain temps, il estime qu’il est relativement simple, d’identifier une personne de manière unique grâce à quatre points de localisation, au sein d’une base de données de 1,5 million de personnes.

Mais alors, comment préserver une intelligence de la donnée et s’armer contre les biais existants ou à venir ? Anne Bouverot détaille ici le rapport entre la donnée et les biais des algorithmes. « Quand on parle d’IA ou d’algorithmes, une partie des problèmes provient de la source, c’est-à-dire les données ». Si les données de départ sont biaisées ou incomplètes, ces biais se reproduisent ou s’amplifient ensuite par les algorithmes. « Il faut, avant toute mise en service d’un système, le tester sur des données réelles et sur des données anonymisées pour voir s’il n’y a pas de biais, et si le traitement est équitable » précise Anne Bouverot.

Diplômée de l'ENS, Anne Bouverot travaille aujourd'hui au sein de la fondation Abeona et participe aux recherches sur l'IA et le big data. (Crédit : DR)

Ainsi, la fondation Abeona travaille « avec des chercheurs, des spécialistes des données, des think tanks, des start-ups et des entreprises, en France et dans le monde, pour comprendre et atténuer les risques liés aux développements de l'IA ». Après avoir participé à la rédaction de rapport sur les biais liés aux algorithmes au sein de la fondation, Anne Bouverot s’attèle désormais aux recommandations. « L’opposé de la confiance c’est la peur, surtout l’IA et le big data. Il faut créer des conditions pour la confiance, il s’agit de l’explication ». Un point sur lequel la Cnil insiste, cherchant à informer au mieux les particuliers comme les entreprises sur l’utilisation de la donnée et ses risques.