5 fameux désastres en IA et analytique

Les informations apportées par les données et les algorithmes de machine learning ont une valeur inestimable pour les grandes entreprises d'aujourd'hui. Or il arrive que leur utilisation génère de graves erreurs qui se payent cher, surtout en termes de réputation. Ces échecs médiatisés de l'intelligence artificielle ou des technologies analytiques pointent ce qui peut déraper.

En 2017, le journal The Economist déclarait que les données étaient devenues le bien le plus précieux dans le monde, devançant le pétrole. Une information devenue depuis un refrain que l’on entend partout. Les organisations de tous secteurs continuent d’investir en masse dans les données et technologies analytiques. Cependant, tout comme le pétrole, données et outils analytiques ont leur côté obscur. Selon l’enquête d’IDG State of the CIO 2020, pour 37% des leaders IT interrogés, l’analyse de données va prédominer dans leurs investissements IT cette année. Les éclairages apportés par les analyses et les actions pilotées par des algorithmes de machine learning peuvent fournir un avantage compétitif aux organisations, mais les erreurs peuvent coûter cher, qu’il s’agisse de réputation, de chiffre d’affaires ou parfois même de vies humaines.

Comprendre les données et ce qu’elles disent est important, mais il faut aussi appréhender ses outils et les données qu’on utilise, tout en gardant bien en tête les valeurs de son organisation. Voici quelques exemples d’échecs notoires de ces dix dernières années, qui illustrent ce qui peut mal tourner avec l’intelligence artificielle (IA) ou les technologies analytiques.

Le Royaume-Uni perd des milliers de cas de Covid en dépassant la limite des feuilles Excel

En octobre 2020, Public Health England (PHE), l’agence de santé publique du Royaume-Uni, chargée de pointer les nouvelles infections au coronavirus, a révélé que près de 16 000 cas de Covid-19 étaient passés à la trappe entre le 25 septembre et le 2 octobre. Le coupable ? Les limitations de données de Microsoft Excel. PHE utilise un processus automatisé pour transférer les résultats de tests Covid-19 positifs, sous forme de fichier CSV, dans des modèles Excel utilisés pour les tableaux de bord et le traçage des cas contacts. Malheureusement, les fichiers Excel peuvent contenir un maximum de 1 048 576 lignes et 16 384 colonnes par feuille. Qui plus est, PHE listait les cas en colonnes plutôt que par lignes. Quand le nombre de cas a dépassé le seuil de 16 384, Excel a supprimé les 15 841 cas en fin de liste.

Ce souci n’a pas empêché les personnes testées de recevoir leurs résultats, mais il a entravé les efforts de traçage des cas contacts, rendant plus difficile la mission du UK National Health Service (NHS), chargé d’identifier et de prévenir les individus ayant été en contact rapproché avec des patients infectés. Dans une déclaration du 4 octobre, Michael Brodie, directeur exécutif par intérim du NHE, a indiqué que le service Test and Trace du NHS et la PHE avaient rapidement résolu le problème et transmis immédiatement tous les cas en attente au système de traçage des contacts NHS Test and Trace. PHE a mis en place « un correctif rapide » qui subdivise les gros fichiers et a effectué un passage en revue complet de tous les systèmes pour prévenir des incidents similaires dans le futur.

Un algorithme à visée médicale incapable de remonter des patients noirs

En 2019, une étude parue dans le magazine Science a révélé qu’un algorithme prédictif médical, utilisé par des hôpitaux et des sociétés d’assurance dans l’ensemble des États-Unis pour identifier des patients à haut risque, requérant des programmes de soins adaptés, avait bien moins de chance de remonter des patients noirs. Les programmes de soins pour les personnes à haut risque mettent à la disposition de patients souffrant de maladies chroniques des personnels médicaux formés et un suivi médical de base, dans le but de prévenir les complications sérieuses. Cependant, la probabilité que l’algorithme recommande ce programme pour des patients blancs était bien plus élevée que pour des patients noirs.

L’étude a découvert que l’algorithme utilisait les dépenses médicales comme critère pour déterminer les besoins médicaux d’un individu. Mais selon le magazine Scientific American, les dépenses médicales des patients noirs les plus malades équivalent aux dépenses des patients blancs en bonne santé, ce qui signifie qu’ils recevaient des scores de risques plus faibles même quand leur besoin était plus grand. Les auteurs de l’étude ont suggéré quelques facteurs qui pouvaient expliquer ce constat. Tout d’abord, les personnes issues de la diversité sont plus susceptibles d’avoir des revenus plus faibles, ce qui réduit leur chance d’accès aux soins, même quand elles disposent d’une assurance santé. Si l’étude n’a pas nommément désigné l’algorithme ni son développeur, les auteurs ont indiqué à Scientific American qu’ils travaillaient avec ce dernier pour remédier à cette situation.

Le chatbot de Microsoft entraîné par machine learning à recracher des tweets racistes

En mars 2016, Microsoft a appris qu’utiliser les interactions sur Twitter pour entraîner des algorithmes de machine learning pouvait déboucher sur des résultats consternants. Microsoft a déployé Tay, un chatbot basé sur l’IA, sur la plateforme du média social. L’éditeur a décrit ce projet comme une expérience sur la « compréhension des conversations ». L’idée était que le chatbot endosse la personnalité d’une adolescente et interagisse avec des individus sur Twitter en employant une combinaison de machine learning et de traitement du langage naturel. Microsoft l’a initialisé en utilisant des données publiques anonymisées et certains contenus pré-écrits par des comédiens, puis lui a lâché la bride afin de le laisser apprendre et évoluer à partir de ses interactions sur le réseau social. En seize heures, le chatbot a posté plus de 95 000 tweets, et ceux-ci sont vite devenus ouvertement racistes, misogynes et antisémites. Microsoft a rapidement suspendu le service pour ajustements, puis l’a finalement débranché. « Nous sommes profondément désolés pour les tweets involontairement offensants et blessants de Tay, qui ne représentent ni ce que nous sommes, ni ce pour quoi nous nous battons, ni la manière dont nous avons conçu Tay », a écrit Peter Lee, vice-président corporate de Microsoft Research & Incubations (puis vice-président corporate de Microsoft Healthcare), dans un post sur le blog officiel de Microsoft faisant suite à l’incident.

Peter Lee a indiqué qu’un prédécesseur de Tay, Xiaoice, déployé par Microsoft en Chine en 2014, avait réussi à converser avec plus de 40 millions de personnes dans les deux ans qui avaient précédé la sortie de Tay. Ce que Microsoft n’avait pas envisagé était qu’un groupe d’utilisateurs de Twitter commencerait immédiatement à tweeter des commentaires racistes et misogynes à Tay. Le bot a rapidement appris à partir de cette matière et l’a incorporée dans ses propres tweets. « Même si nous nous étions préparés à plusieurs façons d’abuser le système, nous avons fait une omission de taille sur cette attaque spécifique. Le résultat a été que Tay a tweeté des mots et des images très inappropriés et répréhensibles », a écrit Peter Lee.

L’outil de recrutement basé sur l’IA d’Amazon qui recommandait seulement des hommes

Comme beaucoup de grands groupes, Amazon est en quête d’outils pour aider ses équipes RH à examiner les candidatures et identifier les meilleurs postulants. En 2014, Amazon a commencé à travailler sur un logiciel de recrutement basé sur l’IA dans ce but. Il y avait seulement un problème : le système avait une nette préférence pour les candidats masculins. En 2018, l’agence Reuters a diffusé l’information qu’Amazon avait abandonné ce projet.

Le système d’Amazon attribuait des notes aux candidats allant de 1 à 5. Mais les modèles de machine learning au cœur du système étaient entraînés à partir de 10 ans de CV envoyés à Amazon – la majorité d'entre eux envoyés par des hommes. À cause des données utilisées pour l’apprentissage, le système a commencé à pénaliser les phrases dans les CV qui contenaient le mot « femmes » et a même rabaissé la notation des candidats venant d’universités réservées aux femmes. À l’époque, Amazon a indiqué que l’outil n’avait jamais été utilisé par ses recruteurs pour évaluer les candidats. L’entreprise a tenté de le modifier pour le rendre neutre, mais a finalement estimé qu’elle était dans l’impossibilité de garantir que le logiciel n’apprendrait pas d’autres façons discriminatoires de trier les candidats et a mis fin au projet.

Les applications analytiques de Target qui violaient la vie privée

En 2012, un projet analytique du géant de la distribution Target a illustré jusqu’où les entreprises pouvaient aller dans la connaissance de leurs clients à partir de leurs données. Selon le New York Times, en 2002 le département marketing de Target a commencé à se demander s’il était possible de déterminer les clientes qui sont enceintes. Cette demande a débouché sur un projet d’analyse prédictive, devenu célèbre pour avoir conduit l’enseigne à révéler par inadvertance à la famille d’une adolescente que celle-ci était enceinte. Ce cas a ensuite nourri une profusion d’articles et de blogs marketing, mentionnant l’incident pour illustrer des conseils afin d’éviter les dérives. Le département marketing de Target voulait identifier les femmes enceintes, car durant certaines périodes de la vie, notamment la grossesse, les individus ont de fortes chances de modifier radicalement leurs habitudes de consommation. Si Target pouvait cibler les clients dans une telle période, il pourrait par exemple cultiver de nouveaux comportements chez ces derniers, en les incitant par exemple à venir dans ses magasins pour leurs achats alimentaires, de vêtements ou d’autres biens.

Comme d’autres gros distributeurs, Target collectait des données sur ses clients par le biais de codes d’achats, des cartes de crédit, d’enquêtes et autres. L’enseigne a croisé ces données avec des données démographiques et des données achetées auprès de tierces parties. En combinant toutes ces données, l’équipe analytique de Target a pu déterminer qu’environ 25 produits vendus par le groupe pouvaient être rapprochés pour générer un score « prédictif de grossesse ». Le département marketing pouvait ensuite s’adresser aux clientes avec un score élevé en leur envoyant des coupons de réduction et des messages ciblés. Une étude supplémentaire aurait révélé qu’étudier le statut reproductif des clients pouvait être mal perçu par certains d’entre eux. Selon le Times, l’entreprise n’a pas renoncé à son marketing ciblé, mais elle a commencé à y inclure des publicités pour des produits dont elle sait qu’ils ne sont pas achetés par les femmes enceintes – affichant par exemple des publicités pour des tondeuses à gazon à côté de publicités pour des couches – afin que la sélection de produits présentée paraisse aléatoire au client.

Sur le même thème

Partenaires

5 fameux désastres en IA et analytique

Un algorithme à visée médicale incapable de remonter des patients noirs

Le chatbot de Microsoft entraîné par machine learning à recracher des tweets racistes

L’outil de recrutement basé sur l’IA d’Amazon qui recommandait seulement des hommes

Les applications analytiques de Target qui violaient la vie privée

Commentaire

Suivre toute l'actualité

Newsletter

Un algorithme à visée médicale incapable de remonter des patients noirs

Le chatbot de Microsoft entraîné par machine learning à recracher des tweets racistes

L’outil de recrutement basé sur l’IA d’Amazon qui recommandait seulement des hommes

Les applications analytiques de Target qui violaient la vie privée

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter