Le Très Grand Equipement Adonis du CNRS vise à préserver, diffuser et partager les savoirs en sciences humaines et sociales dans une logique d'ouverture des données publiques. Il consiste à agréger et diffuser les contenus de 850 sources représentant plus d'un million de publications, puis de nettoyer et normaliser toutes les données, de les enrichir (classification automatique, annotation à la volée), et de les aligner sur des référentiels partagés par la communauté scientifique grâce à une trentaine de traitements distincts avant de les mettre à disposition grâce à un moteur de recherche sémantique. La grande hétérogénéité des sources est une caractéristique forte du projet : entrepôts structurés de données non-structurées (thèses, fonds multimédias, livres...), sites web et blogs, flux RSS... L'unification et l'uniformisation des métadonnées et des accès constituaient le grand défi à relever.
L'ensemble des données d'indexation sont au format RDF afin de permettre une recherche sémantique via le langage SparQL dans un portail dédié. Le projet repose sur les technologies de l'éditeur Antidot, Antidot Information Factory permet de collecter les sources, de les nettoyer et de les enrichir et Antidot Finder Suite rend disponible les données via un portail de recherche sémantique.
Le coût du projet n'a pas été communiqué.
Le CNRS centralise ses données sur son portail Isidore
1
Réaction
Le nouveau portail Isidore compile plus de 850 sources de données grâce à des solutions de l'éditeur Antidot.
Newsletter LMI
Recevez notre newsletter comme plus de 50000 abonnés
Commentaire
Suivre toute l'actualité
Newsletter
Recevez notre newsletter comme plus de 50 000 professionnels de l'IT!
Je m'abonne
La vague du Linked Data et du "web des données", concerne les États, avec leurs administrations et services publics, ainsi que les collectivités locales et aussi toutes les organisations, y compris les entreprises privées, petites et grandes. Toutes ces structures ont intérêt à interconnecter leurs informations textuelles et leurs données structurées provenant de différents silos, voire à partager ouvertement certaines informations (pas toutes évidemment) avec leurs clients, fournisseurs, partenaires, bref avec leur écosystème.
Signaler un abusEt les technologies du web des données, ou web 3.0, en donnant directement accès à des données interconnectées plutôt qu'en ouvrant des API spécifiques à chaque source d'information ou silo de données, apportent un gain considérable en matière d'interopérabilité.
A cet égard, le projet ISIDORE, du CNRS - TGE Adonis, constitue le plus grand projet "web des données" / Linked Data / Open Data mené à bien en France à ce jour.
Le portail web, qui était ouvert en beta test depuis décembre 2010, donne accès à plus d'un million de documents et publications de la recherche française en sciences humaines et sociales, issues de plus de 800 sources différentes qui sont collectées, analysés, traitées et enrichies automatiquement.
Les métadonnées de tous ces documents ont été normalisées et alignées sur des référentiels et thésaurus scientifiques, automatiquement classifiées, articulées entre elles et enrichies et, pour finir, publiées dans un triple store RDF de plusieurs millions de triplets, où elles sont librement interrogeables en SparQL. Une démo de ce qu'il est possible de développer à partir de ce point d'entrée SparQL est disponible ici : http://www.lespetitescases.net/semweblabs/isidore/
Plus d'info sur ce projet et sur les outils logiciels pour le réaliser :
- http://bit.ly/CasClientISIDORE (PDF de 4 pages présentant le projet ISIDORE)
- http://bit.ly/AIF-v1 (PDF de 4 pages présentant la nouvelle solution Antidot Information Factory)