Les internautes se voient fréquemment sommés de confirmer qu’ils ont bien lu et acceptent la politique d'utilisation de leurs données personnelles (privacy policy) des sites web qu’ils visitent. Tout un chacun le confirme en un clic pour poursuivre sa navigation sans délai, mais rares sont ceux qui lisent plus loin que les premiers paragraphes de ces pensums indigestes et interminables. Pour aider les internautes à explorer un peu plus facilement ces politiques d'utilisation des données personnelles, une équipe de chercheurs suisses et américains - de l’EPFL et des universités de Wisconsin-Madison et du Michigan - a planché sur une solution simplifiant cette lecture. Il y a deux ans, l’idée leur est d’abord venue d'en prendre connaissance en conversant avec un chatbot baptisé PriBot. Un an et demi plus tard, ce projet a donné naissance à un produit dérivé, Polisis, qui s’appuie sur l’apprentissage machine pour analyser automatiquement les « privacy policies » des sites.
Sans avoir à lire une seule ligne de ces textes sans fin, Polisis fournit un aperçu des informations qu’ils contiennent, explique dans un billet Hamza Harkous, chercheur postdoctoral à l’EPFL qui a conduit ces travaux en collaboration avec Kassem Fawaz, Rémi Lebret, Florian Schaub, Kang G. Shin et Karl Aberer. C’est une première approche qui permet de sensibiliser les internautes à la collecte des données personnelles mais elle se limite aux textes rédigés en anglais.
Quels types de données sont collectés par les sites web et à quelles fins ? Ci-dessus, l'exemple de Linkedin.com (agrandir l'image)
Visualisation du type de données collectées
Polisis passe ces politiques au tamis du deep learning. Cet outil est centré sur l’analyse des engagements contractuels portant sur l’utilisation des données à caractère personnel sur lesquels il effectue des requêtes multi-dimensionnelles. Il fournit ses résultats sous forme de visualisations graphiques indiquant le type de données collectées et l’utilisation qui en est faite (marketing, personnalisation des interactions, obligations légales…), les données partagées avec des tiers, les engagements de sécurité fournis par le site, ainsi que, lorsque ces informations sont disponibles, le temps de rétention des données et les raisons données pour le faire, les données que l’on peut contrôler et modifier, la façon dont l’internaute est prévenu en cas de changement de politique de confidentialité.
Les deux outils développés, Pribot et Polisis, sont accessibles sur le site Pribot.org. On peut interroger le chatbot à propos d’un site. On peut aussi télécharger Polisis sous la forme d’une extension pour le navigateur Chrome ou d’un add-on pour Firefox pour analyser le site de son choix, pour peu qu’il propose une politique de confidentialité un peu dense et rédigée en anglais. L’équipe de Polisis a détaillé ses travaux dans un rapport technique daté d’octobre 2017. Les chercheurs du projet Polisis indiquent s’adresser à trois catégories d’utilisateurs : les internautes en général, les régulateurs qui pourraient utiliser cette technologie pour procéder à des analyses à plus grande échelle, et les chercheurs qui étudient les apps et les sites web. Pour aller plus loin dans le développement de son outil, l'équipe de Polisis aimerait collaborer avec d'autres chercheurs, des régulateurs et des acteurs industriels.