Mesurant plus de 27 kilomètres de circonférence, le grand collisionneur de hadrons (LHC) est le plus vaste accélérateur de particules dans le monde à l'heure actuelle. Il compte plus de 9000 aimants supraconducteurs, fait tourner les particules 11245 fois par seconde et peut atteindre une température plus de 100 000 fois supérieure à celle régnant au centre du soleil. Le LHC possède actuellement sept types de détecteurs installés dans quatre sites, les principaux étant ATLAS, CMS, Alice et LHCb. Pour surveiller et contrôler l'ensemble de ce dispositif, de nombreux équipements de contrôle ont été déployés, notamment des capteurs IoT (Internet des Objets). Ceux-ci mesurent de multiples paramètres, comme la cryogénie, le vide, les radiations ou encore la consommation en énergie. Chaque jour, près de 2,5 To de données de contrôle sont ainsi remontés par ces infrastructures.
Pour traiter ces données, le CERN a initialement mis en place un système de logging dénommé CALS (CERN Accelerator Logging Service). Celui-ci se base sur deux clusters de bases Oracle relationnelles sur site. Un premier cluster, MDB, sert de buffer : il se charge de collecter et de filtrer les données brutes avant de les envoyer vers le second cluster, LDB. Celui-ci regroupe plus de 20 ans de données filtrées. La base LDB est aussi alimentée en direct par certains équipements, dont les données n'ont pas besoin de filtrage et sont traitées en temps réel. Si la taille du buffer est assez fluctuante, elle s'élève en moyenne à 80 To, tandis que LDB stocke plus d'un Po de données. « Ce système a plusieurs avantages », témoigne Sébastien Masson, administrateur de bases de données au CERN. « Il est à la fois simple et robuste, efficace pour l'analyse en temps réel et adapté au contrôle d'équipements opérationnels critiques. » En revanche, ce service de logging atteint ses limites pour les activités d'exploration d'ensembles volumineux de données.