Pour mettre en place un moteur de recherche donnant aux internautes accès à 84 000 jeux de données en sa possession, la Nasa a choisi de faire confiance... à une technologie française, celle de Sinequa. L'objectif de la Direction des missions scientifiques (Science Mission Directorate) de l'Agence spatiale américaine ? Offrir un accès simplifié, via une interface unique, à ses vastes entrepôts d'informations scientifiques, soit plus de 715 000 documents (dont des codes source, des tutoriels, de la documentation sur les algorithmes, des informations sur les missions), répartis dans 128 sources d'information différentes (sites Internet, bases documentaires ou référentiels de données). Disponible en version bêta, le moteur SDE (Science siscovery engine), basée sur les capacités de recherche neuronale et de traitement du langage naturel (NLP) de Sinequa, est actuellement capable de reconnaître 8900 termes scientifiques dans les domaines de l'astrophysique, des sciences biologiques et physiques, des sciences de la terre, de l'héliophysique (étude du système solaire) et des sciences planétaires.
Kaylin Bugbee, une scientifique de la Nasa membre de l'équipe en charge de l'initiative en faveur de la science ouverte : « le Science Discovery Engine a pour objectif de faciliter la découverte et l'accès aux données scientifiques. » (Photo : Nasa)
Auparavant, les recherches dans les sources de l'Agence s'effectuaient principalement via des systèmes adaptés à chaque sujet scientifique. « Les données scientifiques de la Nasa sont archivées dans plus de 30 datawarehouses, ce qui obligeait l'utilisateur à identifier d'abord la source de contenus pertinents pour trouver les données spécifiques souhaitées. De même, les documents et le code source sont disponibles sur un certain nombre de sites web et d'applications dispersées », relève Kaylin Bugbee, une scientifique de l'agence qui dirige les opérations de l'équipe SDE, un projet mené en six mois, entre les premiers développements et la mise en production de la version bêta actuellement en ligne.
« La partie la plus visible et la plus simple »
Pour faciliter la découverte et l'accès aux données scientifiques, la Nasa s'est mise en quête d'un outil capable de fournir des contenus pertinents, enrichis d'éléments de contexte, à partir de divers types de contenus et de données. Car, comme l'indique Kaylin Bugbee, « chaque discipline utilise ses propres normes et vocabulaires de métadonnées, ce qui représente un défi pour la création de métadonnées complètes et précises dans le SDE. En outre, une grande partie du contenu pertinent pour la compréhension et l'utilisation des données était dispersée sur un certain nombre de sites web et de référentiels de codes, ce qui faisait de l'identification et de la conservation de ces sources d'information une tâche fastidieuse. » Selon la chercheuse, c'est un des raisons qui expliquent le choix de Sinequa : « l'une des caractéristiques qui a fait la différence réside dans la richesse des connecteurs prêts à l'emploi permettant d'explorer et d'indexer des contenus provenant de sources multiples et d'une multitude d'applications professionnelles. Ces connecteurs ont permis à l'équipe SDE d'intégrer rapidement du contenu provenant de la Direction des missions scientifiques et de le rendre consultable. »
Pour Luc Manigot, le vice-président de Sinequa en charge du centre d'excellence de l'éditeur, la sortie de SDE n'est qu'un nouveau chapitre dans l'histoire que la Nasa écrit avec Sinequa. « D'un point de vue technique, c'est à la fois la partie la plus visible de notre collaboration, et aussi probablement la plus simple », explique-t-il. La PME française, née de recherches menées dans les années 80 sur la compréhension du langage humain, travaille en effet depuis quelques années avec le centre Marshall, un site historique de la Nasa regroupant quelque 7 000 personnes. « Nous y avons été retenus pour développer un moteur de recherche puisant dans des décennies de patrimoine informationnel. Les équipes avaient besoin d'un outil d'accès à ce patrimoine, comprenant des données d'ingénierie intégrées à des outils de PLM, ou encore des documents scannés. Nous avons mené sur ce patrimoine un travail de dénormalisation des contenus, tout en intégrant le modèle de sécurité associé à ces informations », décrit Luc Manigot.
L'ajout de fonctions d'IA générative
Mené entre 2019 et 2021, ce projet, pour lequel Sinequa a été retenu pour sa capacité à balayer des sources très difficiles à atteindre, a permis à l'éditeur d'être reconnu au sein de la Nasa et de l'écosystème qui l'entoure. « Nous avons été identifié comme le composant de recherche pour ce type de besoins », dit Luc Manigot. C'est notamment le cas dans le cadre du programme Artemis, visant à retourner sur la surface lunaire et y maintenir à terme une présence humaine plus ou moins continue. Sinequa a également été retenu par un partenaire clef de l'Agence, Northrop Grumman, un industriel américain de la défense et de l'espace présent notamment dans la co-entreprise Deep Space Transport, aux côtés de Boeing. Cette co-entreprise est précisément chargée de la production des lanceurs utilisés lors des missions Artemis.
Un essai du réservoir d'hydrogène liquide du Space Launch System des missions Artemis, sur un banc d'essai du centre spatial Marshall. (Photo : Nasa)
Le moteur SDE doit prochainement s'enrichir d'autres données et contenus. Des améliorations de l'interface utilisateur et le développement de l'API du moteur sont également prévus. « L'équipe prévoit également d'ajouter un certain nombre de fonctionnalités axées sur la science, notamment des panneaux de connaissances et des vues à 360° intégrées au contenu. Enfin, nous sommes en train de prototyper des techniques de recherche émergentes rendues possibles par les grands modèles de langage et l'IA générative », souligne Kaylin Bugbee. Luc Manigot précise que la Nasa et Sinequa mènent un projet pilote sur une approche RAG (Retrieval Augmented Generation). « Cette approche permettrait, par exemple, de proposer aux internautes un petit assistant résumant les premiers documents remontés par le moteur. »