Livré la semaine dernière dans une version bêta publique, le catalogue de métadonnées de Tamr permet aux entreprises de faire l’inventaire de leurs sources de données avec l’objectif de pouvoir enfin exploiter les dark data. Sous ce terme sont désignées tout ce qui, dans les systèmes transactionnels et les applications métiers, échappent aux outils d’analyse. Avec Tamr Catalog, « les CIO/CDO, analystes métiers et data scientists peuvent organiser, découvrir et communiquer sur les données, dont beaucoup sont stockées mais peu souvent utilisées », indique l’éditeur basé à Cambridge (Massachussetts) en jugeant les méthodes MDM traditionnelles fragmentées et difficiles à mettre en oeuvre. Il présente son offre cette semaine sur la conférence Strata + Hadoop World 2015, à New York (du 29 septembre au 1er octobre). L’application téléchargeable par les postes sous Windows, Mac OS X et Linux, est présentée comme légère : elle requiert 4 Go de RAM, Oracle JRE 1.8 ou plus.

« Les directeurs financiers peuvent vous dire précisément où se trouvent les actifs financiers de l’entreprise, mais le directeur informatique ou le CDO (chief data officer) ne peuvent pas le faire pour l’ensemble des informations gérées », pointe Nidhi Aggarwal, responsable de la stratégie de Tamr. Avec Catalog, celles-ci sont mises en lumière. Le logiciel permet de dresser l’inventaire des différents types de sources de données et de leurs propriétaires, mais aussi des catégories ou mots-clés qui leur sont associés, ainsi que des indicateurs caractérisant les tables et les attributs des sources. Il servira à partager des référentiels centralisés de métadonnées en les complétant de renseignements institutionnels.

Une représentation visuelle pour préparer les analyses

A gauche, visualisation des données, par sources, personnes associées, tags, etc. (agrandir l'image)
A droite, l'enregistrement d'une nouvelle source. Catalog propose pour l'instant cinq connecteurs pour les fichiers CSV, XML, Postgres, Oracle et pour les données du catalogue open data de Thomson Reuters (Open PermID).

Avec Catalog, les utilisateurs peuvent enregistrer, rechercher, filtrer et marquer leurs sources en les associant aux requêtes analytiques qu’ils veulent effectuer et aux applications dont ils ont besoin pour le faire. Le logiciel fournit une représentation visuelle des sources, ce qui aide à déterminer quelles sont les données à organiser, à unifier et à préparer pour les analyses. De cette façon, les analystes métiers peuvent enrichir leurs explorations avec des fichiers complémentaires susceptibles de comporter des informations pertinentes, qu’ils pourront retrouver facilement. De leur côté, les architectes spécialisés sur les données pourront mieux voir et comprendre l’organisation de l’ensemble des sources. Cette version bêta de Catalog, disponible ici sous la forme d’une application « stand alone », est aussi l’une des composantes de la plateforme Data Unification de Tamr. Dans un billet, Sam Roberts, l'un des ingénieurs de l'éditeur, donne son point de vue du développeur sur le logiciel.

L’un des points intéressants à signaler est l’association entre Tamr et Thomson Reuters, qui fournit l’une des principales sources d’informations sur les entreprises. Ce dernier va distribuer avec Catalog sa propre base open data sur les sociétés (www.permid.org). Celle-ci utilise pour chaque entité des identifiants permanents – PermID - qui pourront être mis en relation avec les métadonnées de Tamr Catalog afin d'aider les utilisateurs à vérifier que leurs contacts professionnels correspondent bien à la réalité.