L'IA générative pour faciliter l'accès à la connaissance ? C'est la voie qu'emprunte la Cité de la musique - Philharmonie de Paris, l'établissement regroupant les deux lieux dédiés à la musique, pour mettre en valeur sa bibliothèque numérique, qui comprend les concerts, mais également des enregistrements de colloques, forums ou entretiens. « Ce patrimoine a été constitué depuis les débuts de la Cité de la musique, en 1995. Jusqu'à présent, les documents sont décrits par les documentalistes avant leur mise en ligne, avec des métadonnées évoluées », explique Rodolphe Bailly, adjoint à la direction du pôle ressources de l'établissement culturel. Sauf que la taille du catalogue - 2500 concerts, environ 1000 vidéos et un millier d'heures de conférences en audio - et son enrichissement permanent se traduisent par un travail d'indexation très lourd. « Faute de temps, les documentalistes n'ont pas le temps d'indexer en profondeur les enregistrements vocaux, comme les conférences », observe Rodolphe Bailly.
D'où l'idée d'accélérer le processus en utilisant les outils d'IA générative. D'abord pour transcrire les conférences au format texte (via l'API dédiée d'OpenAI) puis, à partir de cette transcription, pour isoler les sujets traités et les entités nommées (comme les oeuvres, les musiciens ou les lieux). « La technologie doit nous aider à construire un thésaurus pour améliorer la recherche dans ce fonds documentaire, en offrant aux internautes un accès direct aux passages pertinents, même si le mot recherché n'est pas directement prononcé », reprend le responsable. Ce dernier prévoit également de tester la création de résumés de conférences. Sans oublier d'intégrer 250 documents qui n'ont pu être indexés pour le moment, faute de temps.
ChatGPT pour corriger les erreurs sur les noms propres
Soutenue par un financement du ministère de la Culture à hauteur de 65 000 €, l'initiative se concentre pour l'heure sur la transcription des archives parlées. « Les premiers résultats sont assez bluffants, se réjouit l'adjoint à la direction du pôle ressources. Certaines erreurs sont présentes sur les noms propres mais elles sont assez simples à corriger : il suffit de renvoyer le texte à ChatGPT en précisant le contexte musical dans le prompt. » L'outil se révèle également très performant : les 1 000 heures d'audio du fonds devraient être avalées en 50 heures de calcul. « Cette phase du projet doit également servir à construire la chaîne de traitement pour les nouveaux colloques que nous ajouterons au fonds, afin0 d'industrialiser l'enrichissement du catalogue », ajoute Rodolphe Bailly. Lancé en septembre dernier, pour une durée d'un an, le projet doit ensuite s'attaquer à la cartographie des sujets traités, à la classification thématique des enregistrements et à la création d'index portant sur les personnes, les lieux et les oeuvres.
Rodolphe Bailly, adjoint à la direction du pôle ressources de la Cité de la musique - Philharmonie de Paris. (Photo : R.F.)
« Cette technologie n'a provoqué aucune réaction négative de la part des documentalistes, habitués à travailler dans un environnement technique innovant. Au contraire, ils se montrent hyper-curieux et enthousiastes à l'idée d'améliorer le service au public », assure l'adjoint à la direction du pôle ressources, service comprenant plus d'une vingtaine de personnes et intégrant notamment les bibliothèques physique et numérique de l'établissement. Ces professionnels resteront, de toute façon, dans la boucle, notamment dans la phase de correction des noms propres et de validation des résumés.
Une navigation par thématique à l'échelle du fonds
Reste également la question de l'interface qui sera offerte au public, « un domaine où la norme reste à écrire », souligne Rodolphe Bailly, pour qui la valorisation des archives de la Cité de la musique - Philharmonie de Paris appelle « une refonte complète de leur accès en ligne, notamment des outils de recherche et de lecture de ces archives, en utilisant les derniers progrès de l'IA ». Le sujet est encore en réflexion, et dépend largement de la qualité des résultats qui sortiront du projet. Mais, Rodolphe Bailly garde en tête l'ambition d'offrir une navigation par thématique à l'échelle du fonds, permettant à l'internaute de passer d'une conférence à l'autre.