Les données représentent aujourd'hui l'une des denrées les plus précieuses pour les entreprises. Selon l'enquête IDG State of the CIO de 2020, 37% des décideurs IT déclarent que l'essentiel de leurs investissements vont s'orienter vers les applications analytiques cette année. Si la donnée existe sous bien des formes, le plus gros gisement de données inexploitées à ce jour reste sans doute le texte. Brevets, spécifications produits, publications académiques, études de marché, articles d'actualité, sans même mentionner les réseaux sociaux : tous sont avant tout composés de texte, et le volume de texte ne cesse de croître. Ce constat a conduit le cabinet d'études Lux Research à affirmer que les technologies de traitement du langage naturel (Natural Language Processing / NLP en anglais), en particulier la modélisation des thématiques, deviennent un outil clef pour extraire la valeur des données.
Le NLP est une branche de l'intelligence artificielle qui s'attache à entraîner une machine à comprendre, traiter et produire du langage. Les moteurs de recherche, les services de traduction automatique et les assistants vocaux reposent tous sur du NLP. Les modèles thématiques, ou topic modeling, sont par exemple une technique de NLP qui décompose une idée en sous-catégories de concepts couramment rencontrés, définis grâce au regroupement de mots. Selon Lux Research, le topic modeling permet aux organisations d'associer des documents à des sujets précis, puis d'en extraire des données, pour déterminer par exemple qu'une thématique gagne en popularité au fil du temps. Cette modélisation thématique peut aussi être utilisée pour établir une « empreinte digitale » pour un document donné, puis pour découvrir ensuite d'autres documents avec une empreinte similaire.
Alors que l'intérêt pour l'IA va croissant dans le monde professionnel, les organisations commencent à adopter le NLP pour déverrouiller la valeur des données non structurées dans les documents textuels et assimilés. Le cabinet de conseil Mordor Intelligence prévoit que le marché du NLP va plus que tripler ses 6,94 milliards de revenus de 2019 d'ici 2025. Voici cinq cas d'usages autour du NLP, recueillis par CIO États-Unis auprès d'organisations utilisant déjà ces technologies.
Accenture analyse les contrats à l'aide du NLP
Chez Accenture, le traitement du langage naturel sert à l'analyse de documents à valeur légale. Le projet dénommé Accenture Legal Intelligent Contract Exploration (ALICE) permet au département juridique de cet acteur mondial des services, constitué de 2800 professionnels, d'effectuer des recherches textuelles à travers plus d'un million de contrats, y compris des recherches de clauses contractuelles. ALICE s'appuie sur la technique du « plongement lexical », une méthode de NLP qui facilite les comparaisons entre des mots en se basant sur la similarité sémantique. L'algorithme parcourt les contrats paragraphe par paragraphe, en cherchant des mots clefs pour déterminer si un paragraphe est en lien avec un type particulier de clause contractuelle. Par exemple, des mots comme « inondation », « séisme » ou « désastre » sont fréquemment associés à la clause de « force majeure ».
« Les cas d'usage se sont multipliés alors que nous continuions d'utiliser ces capacités, de les étendre et de les améliorer, en identifiant des opportunités supplémentaires pour créer de la valeur », témoigne Mike Maresca, directeur en charge de la transformation digitale de l'entreprise, des opérations et des applications analytiques chez Accenture. « Nous trouvons de nouvelles façons de faire fructifier les données dont nous disposons. » Accenture indique que le projet a significativement réduit le temps passé par ses avocats à parcourir à la main les documents, en quête d'informations spécifiques. « N'ayez pas peur de vous plonger dans le NLP », conseille Mike Maresca. « Si l'innovation fait partie de votre culture, vous n'avez pas à craindre l'échec. Expérimentez et procédez par itérations. »