Les bonnes pratiques pour déployer l'IA générative en entreprise

Comment déployer un large modèle de langage (LLM) au sein de votre entreprise ? Il existe plusieurs façons de déployer des LLM personnalisés à vos besoins, via des approches rapides, faciles d'accès et peu coûteuses.

C'est la nouvelle technologie en ébullition du moment. L'IA générative transforme la façon dont nous créons des images et des vidéos, du son, du texte et du code. Selon une enquête réalisée en septembre par Dell auprès de décideurs informatiques, 76 % de ces derniers affirment qu'elle aura un impact "significatif, voire transformateur" sur leur organisation, et la plupart s'attendent à constater des résultats significatifs dès les 12 prochains mois.

Un grand modèle de langage (LLM) est un type d'IA générique qui se concentre sur le texte et le code, bien que certains modèles se focalisent sur d'autres types de contenus comme les images ou le son. Les LLM les plus populaires dans les entreprises aujourd'hui sont ChatGPT et d'autres modèles OpenAI, Claude d'Anthropic, Llama 2 de Meta et Falcon, un modèle Open source de l'Institut d'innovation technologique d'Abu Dhabi connu pour sa prise en charge de langues autres que l'anglais.

Les entreprises peuvent déployer les LLM de différentes manières : en donnant à leurs employés l'accès à des applications publiques, en utilisant l'ingénierie d'invite (prompt engineering) et les API pour intégrer les LLM dans des applications existantes, en utilisant des bases de données vectorielles pour améliorer la précision et la pertinence, en affinant les modèles existants ou, pour les plus ambitieux, en constr0uisant leurs propres modèles.

1) Recours aux LLM publics

Dig Security est une société israélienne spécialisée dans la sécurité des données dans le cloud, et ses ingénieurs utilisent ChatGPT pour écrire du code. « Tous les ingénieurs utilisent des outils qui les aident à écrire du code plus rapidement », explique Dan Benjamin, PDG de l'entreprise. ChatGPT est l'un des premiers assistants de codage et l'un des plus faciles à utiliser. Mais il subsiste un problème : vous ne pouvez jamais être sûr que les informations que vous y téléchargez ne seront pas utilisées pour entraîner la prochaine génération du modèle. Dig Security répond de deux manières. Tout d'abord, l'entreprise utilise une passerelle sécurisée pour vérifier quelles informations sont téléchargées sur la plateforme. « Nos employés savent qu'ils ne peuvent pas y télécharger d'informations sensibles. Tout est bloqué », dit le PDG.

Deuxièmement, l'entreprise dirige ses ingénieurs vers une version de ChatGPT fonctionnant sur un cloud privé Azure. Cela signifie que Dig Security dispose de sa propre instance de ChatGPT. Même avec ces garanties, la solution n'est pas parfaite, reconnaît Dan Benjamin. « Car la solution parfaite n'existe pas. Toute organisation qui pense en avoir une se trompe elle-même ». Par exemple, un employé peut utiliser un VPN ou un ordinateur personnel et accéder à la version publique de ChatGPT. C'est là qu'intervient un autre niveau d'atténuation des risques. « Il s'agit avant tout de former les employés, de s'assurer qu'ils comprennent ce qu'ils doivent faire et qu'ils sont bien formés à la sécurité des données », dit le PDG.

Dig Security n'est pas seul face à ce risque. La société californienne Skyhigh Security affirme que près d'un million d'utilisateurs finaux ont accédé à ChatGPT via des infrastructures d'entreprise au cours du premier semestre 2023, le volume d'utilisateurs ayant augmenté de 1 500 % entre janvier et juin. Selon un rapport de Netskope Threat Labs datant de juillet dernier, le code source est posté sur ChatGPT plus que tout autre type de données sensibles, avec un taux mensuel de 158 incidents pour 10 000 utilisateurs.

Plus récemment, les entreprises ont eu accès à des options plus sûres et plus adaptées à leurs besoins, comme Microsoft Copilot qui combine la facilité d'utilisation avec des contrôles et des protections supplémentaires. Lors du DevDay d'OpenAI début novembre, le PDG de l'éditeur, Sam Altman, a déclaré que 100 millions d'utilisateurs actifs utilisent désormais le chatbot ChatGPT de l'entreprise, que deux millions de développeurs utilisent son API et que plus de 92 % des entreprises du classement Fortune 500 construisent des applications sur la plateforme OpenAI.

2) Vectorisation et approche RAG

Pour la plupart des entreprises qui cherchent à personnaliser leurs LLM, la Retrieval Augmented Generation (RAG) est la voie à suivre. Si quelqu'un parle d'embeddings ou de bases de données vectorielles, c'est normalement ce qu'il veut dire. Le principe est le suivant : un utilisateur pose une question sur, par exemple, une politique ou un produit de l'entreprise. Cette question n'est pas immédiatement transmise au LLM. Elle est d'abord traitée. L'utilisateur a-t-il le droit d'accéder à ces informations ? Si les droits d'accès existent, toutes les informations potentiellement pertinentes à ce sujet sont récupérées, généralement à partir d'une base de données vectorielles. Ensuite, la question et les informations pertinentes sont envoyées au LLM et intégrées dans un prompt optimisé qui peut également spécifier le format préféré de la réponse et le ton de la voix que le LLM doit utiliser.

Une base de données vectorielles est un moyen d'organiser les informations dans une série de listes, chacune étant triée en fonction d'un attribut différent. Par exemple, vous pouvez avoir une liste alphabétique, et plus vos réponses sont proches dans l'ordre alphabétique, plus elles sont pertinentes. Une liste alphabétique est une base de données vectorielles unidimensionnelle, mais les bases de données vectorielles peuvent avoir un nombre illimité de dimensions, ce qui vous permet de rechercher des réponses connexes en fonction de leur proximité par rapport à un certain nombre de facteurs. C'est pourquoi elles sont si pertinentes en complément des LLM.

« En ce moment, nous convertissons tout en base de données vectorielles, résume Ellie Fields, responsable des produits et de l'ingénierie chez Salesloft, un fournisseur de logiciel spécialisé sur la gestion des ventes. Et oui, cela fonctionne. » Et c'est plus efficace que d'utiliser de simples documents pour fournir un contexte aux requêtes LLM, ajoute-t-elle. L'entreprise utilise principalement ChromaDB, une base de données vectorielles open source, dont l'utilisation principale est de servir de complément aux LLM. Salesloft exploite également une autre base même nature, Pgvector, une extension de recherche de similarités vectorielles pour la base de données PostgreSQL.

« Mais nous avons également effectué des recherches en utilisant FAISS et Pinecone », précise la responsable des produits et de l'ingénierie. FAISS, ou Facebook AI Similarity Search, est une bibliothèque Open Source fournie par Meta qui prend en charge les recherches de similarités dans les documents multimédias. Quant à Pinecone, il s'agit d'une base de données vectorielles propriétaire, basée sur le cloud. Devenue populaire auprès des développeurs, elle propose une version gratuite prenant en charge jusqu'à 100 000 vecteurs. Une fois les informations pertinentes extraites de la base de données vectorielles et intégrées dans un prompt, la requête est envoyée à OpenAI, qui fonctionne dans une instance privée sur Microsoft Azure. Mais Salesloft travaille également avec Google et IBM, sur une fonctionnalité d'IA générative exploitant également ces plateformes.

« Nous travaillerons certainement avec différents fournisseurs et différents modèles, résume Ellie Fields. Les choses évoluent de semaine en semaine. Si vous n'envisagez pas d'autres modèles, vous ratez le coche ». L'approche RAG permet donc aux entreprises de séparer leurs données propriétaires du modèle lui-même, ce qui facilite grandement le changement de modèles au fur et à mesure que des innovations apparaissant sur le marché. En outre, la base de données vectorielles peut être mise à jour, même en temps réel, sans qu'il soit nécessaire de procéder à des ajustements fins ou à un réentraînement du modèle.

« Nous avons ainsi changé de modèle, passant d'OpenAI à OpenAI on Azure, explique Ellie Fields. Et nous avons changé de modèle OpenAI. Nous pourrions même prendre en charge différents modèles pour différentes parties de notre base client. » Parfois, les différents modèles ont des API différentes, ajoute-t-elle. « Ce n'est certes pas trivial », reconnaît-elle. Mais le remplacement d'un modèle est toujours plus facile que son réentraînement. « Nous n'avons pas encore trouvé de cas d'utilisation qui soit mieux servi par un réglage fin que par une vectorisation, ajoute Ellie Fields. Je pense que ces cas existent, mais jusqu'à présent, nous n'en avons pas trouvé un qui soit plus performant. »

L'une des premières applications des LLM que Salesloft a déployée a été l'ajout d'une fonction permettant aux clients de générer un e-mail de vente à un prospect. « Les clients prenaient beaucoup de temps pour rédiger ces e-mails, explique la responsable. Il était difficile de commencer, et la rédaction générait des angoisses. Désormais, les clients peuvent spécifier la personne cible, leur proposition de valeur et le 'call to action' - et ils reçoivent trois projets d'e-mails différents qu'ils peuvent personnaliser. » Salesloft utilise GPT 3.5 d'OpenAI pour cette application.

3) Faire tourner des modèles Open Source

La société Ikigai Labs, basée à Boston, propose une plateforme qui permet aux entreprises de construire de grands modèles graphiques personnalisés, ou des modèles d'IA conçus pour travailler avec des données structurées. Mais pour faciliter l'utilisation de l'interface de son produit, Ikigai alimente son front-end avec des LLM. Par exemple, l'entreprise utilise la version à sept milliards de paramètres du LLM Open Source Falcon. Elle l'exécute dans son propre environnement pour certains de ses clients.

Pour alimenter le LLM en informations, Ikigai utilise une base de données vectorielles, tournant également localement. Elle s'appuie sur l'algorithme Boundary Forest, explique Devavrat Shah, cofondateur et co-directeur général de l'entreprise. « Au MIT, il y a quatre ans, certains de mes étudiants et moi-même avons expérimenté une multitude de bases de données vectorielles, explique celui qui est également professeur d'intelligence artificielle au célèbre Institut de technologie du Massachusetts. Je savais que ce serait utile, mais pas à ce point. »

Le fait que le modèle et la base de données vectorielles restent en local signifie qu'aucune donnée ne peut être divulguée à des tiers. « Pour les clients qui acceptent d'envoyer des requêtes à d'autres, nous utilisons OpenAI. Nous sommes agnostiques en matière de LLM » indique Devavrat Shah

PricewaterhouseCoopers, qui a créé son propre outil ChatPWC, se veut également agnostique en matière de LLM. « ChatPWC rend nos collaborateurs plus compétents », dit Bret Greenstein, associé du cabinet et responsable de la stratégie de mise sur le marché de l'IA générique. Par exemple, il propose des invites prédéfinies pour générer des descriptions de postes. « Avec nos experts en ressources humaines, en données et en prompts engineering, et nous avons conçu une application qui génère de très bonnes offres d'emploi. Maintenant, plus personne n'a besoin de savoir comment écrire le prompt qui génère des descriptions d'emploi ».

ChatPWC est construit sur Microsoft Azure, mais l'entreprise l'a également conçu pour Google Cloud Platform et AWS. « Nous devons servir nos clients, et ils sont présents sur tous les clouds », explique Bret Greenstein. De même, l'outil est optimisé pour utiliser différents modèles en arrière-plan, car c'est ce que veulent les clients de PwC. « Tous les modèles sont opérationnels. Llama 2, Falcon... - nous avons tout ce qu'il faut. »

Le marché évolue rapidement, bien sûr, et Bret Greenstein suggère aux entreprises d'adopter une politique "sans regret" pour leurs déploiements d'IA. « Il y a beaucoup de choses que l'on peut faire, dit-il, comme construire des données indépendantes des modèles et mettre en place une gouvernance. Ainsi, lorsque le marché évolue et qu'un nouveau modèle apparaît, les données et la structure de gouvernance restent pertinentes. »

4) Fine-tuning (ou optimisation)

La société de conseil en gestion AArete a pris le modèle Open Source GPT 2 et l'a affiné sur ses propres données. « Il était léger », explique Priya Iragavarapu, vice-président en charge du numérique au sein de l'entreprise. « Nous voulions un modèle Open Source pour pouvoir l'utiliser et le publier en interne dans notre environnement. » Si AArete utilise un modèle hébergé et s'y connecte via une API, des problèmes de confiance se posent. « Nous sommes inquiets de savoir où les données des prompts peuvent se retrouver, dit-elle. Nous ne voulons pas prendre ces risques. » Lorsqu'elle choisit un modèle Open Source, la responsable regarde le nombre de fois où il a été téléchargé, le niveau de support de la communauté et les exigences matérielles.

« Le modèle de fondation doit également avoir une certaine pertinence pour les tâches à accomplir, indique-t-elle. Il existe des modèles pour des tâches spécifiques. Par exemple, j'ai récemment étudié un modèle Hugging Face qui analyse le contenu des PDF dans un format structuré. »

De nombreuses entreprises du monde financier et du secteur de la santé affinent les LLM sur la base de leurs propres jeux de données. « Les LLM de base sont formés sur l'ensemble des données d'Internet », observe Priya Iragavarapu. En fine-tunant son modèle, une entreprise peut créer un modèle spécifiquement adapté à son cas d'utilisation.

Une façon courante de procéder consiste à créer une liste de questions et de réponses et à affiner un modèle sur celles-ci. En fait, OpenAI a commencé à autoriser le réglage fin de son modèle GPT 3.5 en août, en utilisant une approche par questions et réponses, et a dévoilé une série de nouvelles options de réglage fin, de personnalisation et de RAG pour GPT 4 lors de son DevDay de novembre. Ceci est particulièrement utile pour les applications de service à la clientèle et d'assistance, où une entreprise peut déjà disposer d'une banque de données de FAQ. Toujours selon l'enquête de Dell, 21 % des entreprises préfèrent recycler les modèles existants, en utilisant leurs propres données dans leur propre environnement.

« L'option la plus populaire semble être Llama 2 », déclare Andy Thurai, vice-président et analyste principal chez Constellation Research. Llama 2 existe en trois tailles différentes et est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs mensuels. Les entreprises peuvent l'affiner sur leurs propres jeux de données et disposer d'un nouveau modèle personnalisé assez rapidement, ajoute-t-il. En fait, le classement de Hugging Face LLM est actuellement dominé par différents ajustements et personnalisations de Llama 2. Avant Llama 2, Falcon était le LLM Open Source le plus populaire, observe Andy Thurai. « C'est une véritable course aux armements. Le fine-tuning permet de créer un modèle plus précis pour des cas d'utilisation spécifiques. Si vous utilisez un modèle Llama généraliste, la précision peut être faible. »

L'approche par fine-tuning présente en outre certains avantages par rapport à l'incorporation de RAG. Avec l'intégration, une entreprise doit effectuer une recherche dans une base de données vectorielles pour chaque requête. « Vous devez implémenter la base de données, explique Andy Thurai. Ce qui n'est pas facile. » Il n'existe pas non plus de limites à la fenêtre contextuelle utilisée en fine-tuning. Alors qu'avec l'intégration, seule une quantité limitée d'informations peut être ajoutée à une invite. Si une entreprise procède par fine-tunng, elle ne le fera pas souvent, mais seulement lorsqu'une version nettement améliorée du modèle d'IA de base est mise sur le marché. Enfin, si une entreprise dispose d'un ensemble de données qui évolue rapidement, le fine-tuning peut être utilisé en combinaison avec l'intégration. « Vous pouvez d'abord procéder à un réglage fin, puis passer au RAG pour les mises à jour incrémentales », reprend Andy Thuarai.

Rowan Curran, analyste chez Forrester Research, s'attend à ce qu'un grand nombre de modèles fine-tunés et spécifiques à un domaine voient le jour au cours de l'année prochaine, et les entreprises peuvent également optimiser les modèles pour les rendre plus efficaces sur des tâches particulières. Mais seule une petite minorité d'entreprises - 10 % ou moins - le fera, selon lui.

Selon Bret Greenstein de PricewaterhouseCoopers, les éditeurs de logiciels par exemple dans le SaaS pourraient avoir recours au fine-tuning. « Si vous avez un schéma hautement reproductible, cette approche peut faire baisser vos coûts », dit-il, mais pour les déploiements d'entreprise, le RAG est plus efficace dans 90 à 95 % des cas, selon lui.

« Nous cherchons actuellement à affiner des modèles pour des secteurs spécifiques », ajoute Sébastien Paquet, vice-président de ML chez Coveo, une société canadienne spécialisée dans la recherche et les recommandations pour les entreprises. « Nous opérons sur des marchés verticaux spécialisés avec un vocabulaire spécialisé, comme le marché médical. Les entreprises qui vendent des pièces de camion ont aussi leur propre façon de nommer les pièces. » Pour l'instant, l'entreprise utilise GPT 3.5 et GPT 4 d'OpenAI sur un cloud privé Azure, les appels API aux LLM étant isolés afin que Coveo puisse passer à d'autres modèles si nécessaire. La société canadienne utilise également certains LLM open source de Hugging Face pour des cas d'utilisation spécifiques.

5) Construire son LLM à partir de zéro

Peu d'entreprises vont créer leur propre LLM à partir de rien. Car ces modèles sont, par définition, assez volumineux. Le GPT 3 d'OpenAI compte 175 milliards de paramètres et a été entraîné sur un ensemble de données de 45 téraoctets, ce qui a coûté 4,6 millions de dollars. Selon Sam Altman, PDG d'OpenAI, GPT 4 a coûté plus de 100 millions de dollars. C'est cette taille qui confère aux LLM leur capacité à traiter le langage humain, avec un certain degré de bon sens, ainsi que leur aptitude à suivre des instructions. « Vous ne pouvez pas vous contenter de l'entraîner sur vos propres données, explique Carm Taglienti, ingénieur distingué chez Insight. L'entraînement sur des dizaines de millions de paramètres apporte une réelle valeur ajoutée. »

Aujourd'hui, la quasi-totalité des LLM provient des grands hyperscalers ou de startups axées sur l'IA comme OpenAI et Anthropic. Même les entreprises ayant une grande expérience de la construction de leurs propres modèles d'IA évitent de se frotter aux LLM. Salesloft, par exemple, construit ses propres modèles d'IA et de Machine Learning depuis des années, y compris des modèles d'IA générative utilisant des technologies antérieures aux LLM actuels, mais hésite à construire un tout nouveau modèle de fondation à la pointe de la technologie à partir de zéro. « On parle ici d'une étape de calcul massive que, du moins à ce stade, je ne nous vois pas entreprendre », indique Ellie Fields, sa responsable de l'ingénierie.

Sur le même thème

Partenaires

Les bonnes pratiques pour déployer l'IA générative en entreprise

Livres blancs

Commentaire

Suivre toute l'actualité

Newsletter