Si la course aux LLM est lancée entre les start-ups comme OpenAI et les grands groupes IT tels que Google (avec PaLM2) ou Meta (LLaMA), d’autres explorent ces modèles de langage sur des terrains plus secrets. Un groupe de chercheurs sud-coréens vient de mettre au point, DarkBERT, un LLM spécifique au Dark Web. Ce système est basé sur l’architecture RoBERTa de Meta, reposant sur BERT (Bidirectional Encoder Representations from Transformers) développé par Google en 2018.
Pour DarkBERT, les chercheurs ont pré-entraîné le modèle sur un corpus de paramètres issus du Dark Web en analysant le réseau Tor. Ils ont filtré les données brutes (en appliquant des techniques telles que la déduplication, l'équilibrage des catégories et le prétraitement des données) pour générer une base de données du Dark Web. Ce modèle devrait servir aux experts en cybersécurité pour faciliter les recherches sur ce territoire comme la publication des données volées par des groupes de ransomwares.
Des résultats encourageants
Le même groupe de chercheurs a travaillé sur « Shedding New Light on the Language of the Dark Web », où ils ont introduit CoDA, un corpus de textes sur le dark web collecté auprès de divers services onion divisés en catégories thématiques. Une autre étude notable porte sur – « le langage des activités légales et illégales sur le Darknet », réalisée par des chercheurs israéliens, où ils ont identifié plusieurs facteurs distinctifs entre les textes légaux et illégaux, en adoptant une variété d'approches. Cela inclut la prédiction (classification de texte) et l'application (entité nommée Wikification), ainsi qu'une approche basée sur des statistiques brutes. Tous ces travaux de recherche et bien d'autres ont inspiré les chercheurs à développer DarkBERT.
Les premiers résultats des performances du LLM sont encourageants et les chercheurs assument le fait d’avoir travailler en langue anglaise. 90% des textes du Dark Web sont en anglais selon une étude datant de 2022. Dans les mois à venir, les chercheurs ont déclaré qu'ils prévoyaient d'améliorer les performances des modèles de langage pré-formés spécifiques au domaine du Dark Web en utilisant davantage d'architectures les plus récentes et d'explorer des données supplémentaires pour permettre la construction de modèles de langage multilingues.