Les données des entreprises à la merci du shadow GenAI

Selon une étude Cyberhaven Labs, les employés se servent de plus en plus des documents juridiques, des données RH ou de code source de leurs entreprises pour exploiter des IA génératives du marché, et ce sans autorisation de l'IT. Un Shadow IA qui se développe rapidement et expose les dangereusement les données sensibles, voire confidentielles, des organisations.

De plus en plus d'employés utilisent massivement l'IA générative dans leurs entreprises, sans autorisation, dans le dos de leurs DSI et de leurs RSSI. Ils partagent des documents légaux, du code source et des données RH avec des versions d'IA sans licences, y compris ChatGPT et Google Gemini. De quoi potentiellement donner de terribles maux de têtes aux équipes IT, et surtout faire prendre des risques majeurs à l'entreprise.

Selon le rapport AI Adoption and Risk Report Q2 2024 de l'éditeur de solution de sécurisation des données Cyberhaven Labs près de 74 % des utilisations de ChatGPT, qui donnent potentiellement la possibilité aux algorithmes de s'entraîner sur les données de l'entreprise, se font au travers de comptes non professionnels. L'étude s'appuie sur les habitudes réelles d'utilisation de l'IA de 3 millions d'employés. Pour Google Gemini et Bard, le taux atteint même 94%.

Mais où vont les données ?

Près de 83 % de tous les documents juridiques partagés avec ces IA passent par des comptes non professionnels, ajoute le rapport, tandis que près de la moitié du code source, des documents de R&D, des dossiers des employés est ainsi envoyée dans des IA non validées par l'entreprise. La quantité de données injectées de cette façon dans des outils d'IA a quasiment été multipliée par cinq. « Les utilisateurs finals adoptent ces solutions si vite que l'informatique ne peut pas suivre, augmentant ainsi le volume de shadow AI », ajoute le rapport.

D'autant que de nombreux utilisateurs ne savent pas ce qu'il advient des données de leur entreprise une fois qu'ils les partagent avec une IA sans licence. Les conditions d'utilisation de ChatGPT, par exemple, indiquent que la propriété du contenu saisi reste la propriété des utilisateurs. Cependant, les algorithmes d'OpenAI peuvent tout à fait utiliser ce contenu pour fournir, maintenir, développer et améliorer ses services, ce qui signifie qu'il peut s'entraîner à partir de dossiers d'employés par exemple. Et pourtant, il est bel et bien possible de demander un opt out pour que ChatGPT ne s'entraîne pas avec ces données.

Jusqu'ici, tout va bien

Jusqu'à présent, aucune fuite majeure de secrets d'entreprise par une de ces IA publiques connues n'a été médiatisée, mais les experts en sécurité s'inquiètent. Et le 28 mai, OpenAI a annoncé la création d'un nouveau comité de sûreté et de sécurité. « Le risque associé au partage d'informations confidentielles ou sensibles avec des IA accessibles publiques est difficile à évaluer, explique Brian Vecci, CTO de l'éditeur de sécurité cloud Varonis. Il semble peu probable que des structures comme Google ou OpenAI permettent à leurs IA de divulguer des données business sensibles étant donné les le scandale que cela causerait. » Pourtant, il n'existe que peu de règles régissant ce que les fournisseurs d'IA peuvent faire avec ces informations fournies par les utilisateurs.

Mais surtout, beaucoup d'autres modèles d'IA vont arriver sur le marché dans les années à venir, comme l'ajoute Brian Vecci. « Petit à petit, on va voir apparaître de nombreuses Gen AI qui n'appartiendront ni à Google, ni à Open AI, explique-t-il, et elles auront probablement moins de scrupules à ne pas prendre de responsabilité sur ces sujets, car elles seront moins exposées ». Les prochaines vagues d'IA pourraient devenir des façades pour des groupes de pirates ou pour toute autre organisation intéressée par la vente d'éléments confidentiels sur certaines entreprises, ou pourraient tout simplement ne pas disposer de protections de cybersécurité suffisantes. Le CTO de Varonis affirme qu'il existe déjà un LLM similaire à ChatGPT, gratuit et rapide à utiliser, mais dont on ne sait pas qui le contrôle. « Si vos employés l'utilisent, prévient-il, et qu'ils partagent du code source ou des états financiers, cela pourrait représenter un risque encore plus élevé ».

Comportement à risque

Le partage des données de l'entreprise ou des clients avec une IA non autorisée génère un risque, que le modèle d'IA s'entraîne sur ces données ou les partage avec d'autres, tout simplement parce qu'elles sont désormais sorties de l'enceinte de l'entreprise », ajoute de son côté Pranava Adduri, PDG de Bedrock Security. Il recommande aux organisations de signer des accords de licence avec des fournisseurs d'IA, contenant des restrictions d'utilisation des données, afin que les employés puissent expérimenter avec l'IA de façon sécurisée. « Le problème se résume à l'incapacité de contrôler, poursuit-il. Si les données sont expédiées vers un système sur lequel vous n'avez pas de contrôle direct, généralement le risque rentre dans le cadre de contrats et d'accords juridiques ».

Avepoint, une société de gestion de données dans le cloud, a signé un contrat d'IA pour empêcher l'utilisation du shadow AI, comme l'explique Dana Simberkoff, sa directrice des risques, de la confidentialité et de la sécurité de l'information. AvePoint a examiné en profondeur les conditions de licence, y compris la restriction d'utilisation des données, avant de signer.

Pour Dana Simberkoff, un des problèmes majeurs du shadow AI réside dans le fait que les utilisateurs ne lisent jamais la politique de confidentialité ou les conditions d'utilisation avant d'envoyer directement les données de l'entreprise dans l'outil. « On sait rarement en toute transparence où vont ces données, comment elles sont stockées et à quoi elles pourraient servir dans l'avenir, résume-t-elle. Et la plupart des utilisateurs ne comprennent pas nécessairement que ces technologies d'IA ouvertes, celles issues d'une multitude d'acteurs, que vous pouvez utiliser dans votre navigateur, se nourrissent en fait des données qu'elles ingèrent. »

L'IA, pire ou meilleure amie du RSSI

Avepoint a tenté de dissuader ses employés d'utiliser des IA non autorisées par plusieurs moyens : un programme de formation, des contrôles d'accès stricts aux données sensibles et d'autres protections de cybersécurité empêchant le partage des données. L'entreprise a également travaillé sur une politique d'utilisation acceptable de l'IA. La formation des employés se concentre sur les pratiques courantes, comme l'octroi d'un large accès à un document sensible. Même si un employé ne permet qu'à trois de ses collègues d'examiner ce dernier, autoriser un accès général peut permettre à une IA d'ingérer les données. « Ces algorithmes sont comme cette bête vorace et affamée qui absorbe tout ce qu'elle peut », insiste Dana Simberkoff. L'utilisation de l'IA, même sous licence officielle, doit conduire les organisations à mettre en place de bonnes pratiques de gestion des données, ajoute-t-elle. Les contrôles d'accès doivent empêcher les employés de voir des informations sensibles qui ne leur sont pas nécessaires pour accomplir leur travail. « Les meilleures pratiques connues de longue date en matière de sécurité et de confidentialité s'appliquent toujours à l'ère de l'IA ».

« Le déploiement d'une IA qui absorbe des quantités de données en permanence est un bon test de résistance des plans de sécurité et de confidentialité d'une entreprise, ajoute-t-elle. C'est devenu mon mantra : l'IA est soit la meilleure amie, soit le pire ennemi d'un responsable de la sécurité ou de la protection de la vie privée. » Dana Simberkoff a travaillé avec plusieurs clients d'AvePoint qui se sont retirés des projets d'IA parce qu'ils ne disposaient pas de contrôles de base, pas même d'une politique d'utilisation acceptable. « Ils ne comprenaient pas les conséquences de ce qu'ils faisaient jusqu'à ce que quelque chose de grave se produise, raconte-t-elle. Si je devais ne donner qu'un conseil important, ce serait qu'il est normal de faire une pause. Il y a beaucoup de pression sur les entreprises pour déployer trop rapidement l'IA. »