La principale solution pour partager des données tout en préservant la vie privée des individus consiste à supprimer de l’ensemble de données l’enregistrement d’identificateurs directs comme le nom et l'adresse électronique, et de ne partager qu'une portion de ces données. Prenons par exemple le cas de plusieurs femmes ayant la trentaine et vivant à Brisbane, Australie. En recherchant ces données démographiques dans un échantillon de données anonymisées on devrait donc, théoriquement, retrouver un nombre quelconque de personnes. « Mais, le problème, c’est que cela ne fonctionne pas », ont déclaré les chercheurs. Avec seulement quelques attributs de plus, un enregistrement devient rapidement plus exceptionnel.
Le modèle statistique des chercheurs quantifie la probabilité qu'une tentative de réidentification aboutisse, même avec un ensemble de données « très incomplet ». Par exemple, d'après un outil en ligne qui sert de support à leur démonstration, avec seulement le genre, le statut marital, la date de naissance et le code postal, il y a 86 % de chances d’identifier correctement un individu dans n’importe quel ensemble de données anonymisées. « Ce sont des informations assez couramment demandées par les entreprises », a déclaré le Dr Yves-Alexandre de Montjoye, auteur principal de l’article « Estimating the success of re-identifications in incomplete datasets using generative models » publié dans Nature Communications. Toujours selon cette publication, 99,98 % des Américains ont été correctement réidentifiés dans n'importe quel ensemble de données anonymisées disponible en utilisant seulement 15 caractéristiques, dont l'âge, le genre et le statut marital.
Des faits quelconques, regroupés ensemble
Validée sur 210 ensembles de données provenant de données démographiques et d'enquêtes, les chercheurs affirment que leur technique - qui utilise des copules de Gauss pour modéliser l'unicité - montre que « même de très petites portions d'échantillon ne sont pas suffisantes pour empêcher la réidentification et protéger les données ». En fait, « contrairement à la croyance populaire, l'échantillonnage d'un ensemble de données n'offre pas de déni plausible et ne protège pas efficacement la vie privée des individus », a ajouté Yves-Alexandre de Montjoye.
Les ensembles de données échangées et partagées contiennent souvent de nombreux attributs. Par exemple, le courtier en données Experian a vendu à Alteryx l'accès à un ensemble de données anonymisées contenant 248 attributs par ménage pour 120 millions d'Américains. « Même s’il y a beaucoup de gens dans la trentaine, de sexe masculin, vivant à New York, il y en a moins qui sont nés le 5 janvier, conduisent une voiture de sport rouge et vivent avec deux enfants, deux filles, et un chien. Il n'y a probablement qu'un seul et unique individu répondant à ces critères », a déclaré le Dr Luc Rocher, co-auteur de l’article. Il existe peu de protections contre ce genre de tentatives de réidentification - même si le gouvernement fédéral australien a déjà envisagé de criminaliser la réidentification des ensembles de données du Commonwealth divulgués dans le cadre de son programme ouvert de données.
Un risque de réidentification minimisé par les gouvernements
La vente d’un échantillon de données anonymisées signifie qu'elles ne sont plus soumises aux réglementations en matière de protection des données - comme le Règlement général sur la protection des données (RGPD) de l'UE et le Consumer Privacy Act (CCPA) de l’État de Californie - et donc qu'elles peuvent être librement utilisées et vendues à des tiers comme des agences de publicité et des courtiers en données. Dans son Guide de « désidentification » publié l’an dernier, le Commissariat à la protection de la vie privée australien stipule que l'échantillonnage crée « l'incertitude qu'une personne en particulier soit incluse dans l'ensemble de données ». Mais, selon M. de Montjoye, « les entreprises et les gouvernements minimisent le risque de réidentification en faisant valoir que les ensembles de données qu'ils vendent sont toujours incomplets. Nos constatations montrent que cela pourrait ne pas servir à grand chose ».
Il y a de nombreux exemples d'ensembles de données supposément anonymes qui ont été divulgués et réidentifiés par la suite. En 2016, des journalistes ont ré-identifié des personnalités publiques dans un ensemble de données anonymisées correspondant à l'historique de navigation de 3 millions de citoyens allemands qu'ils ont acquis gratuitement auprès d'un courtier en données. Ils ont pu retrouver les préférences d'un juge en matière de pornographie et les médicaments utilisés par un député. La même année, les chercheurs de l'Université de Melbourne ont pu décrypter les numéros d'identification utilisés par des fournisseurs de services dans un échantillon de 10 % de dossiers de facturation médicale publiés par le ministère australien de la Santé. Cet échantillon pouvait permettre à des fournisseurs de services de l'Assurance-maladie de ré-identifier des données dans l'ensemble de données.
Des règles plus strictes de partage anonyme de données demandées
Un an plus tard, les mêmes chercheurs ont montré comment les patients pouvaient également être réidentifiés en reliant des portions non chiffrées de leur dossier à des informations connues sur la personne. « Quelques faits banals pris ensemble suffisent souvent à isoler un individu », font remarquer Culnane et coll. L'Imperial College et les chercheurs de l'UCLouvain ont réclamé des règles plus strictes sur le partage anonyme des données. « Le but de l'anonymisation est de faciliter l’usage des données au profit de la société. C'est extrêmement important, mais cela ne devrait pas et ne doit pas se faire au détriment de la vie privée des individus », a déclaré le professeur Julien Hendrickx, autre co-auteur de l’article. « Il est essentiel d’appliquer des normes d'anonymisation robustes et de tenir compte des nouvelles menaces comme celles démontrées dans ce document », a-t-il ajouté.