Parmi les nouveautés fonctionnelles annoncées par Tableau sur sa conférence européenne, du 17 au 19 juin à Berlin, Explain Data arrivera d’ici la fin de l’année avec la version 2019.3 du logiciel de datavisualisation. La récente annonce du rachat par Salesforce, qui laisse Tableau opérer de façon indépendante, n'a pas modifié la présentation de la feuille de route produits. De la même façon que Ask Data - livré en début d’année - qui permet d’interroger les données en langage naturel, Explain Data est construit directement au sein du logiciel. Pour aider l’utilisateur à comprendre les tendances qui se dégagent de l’analyse des données, ce nouvel outil recherche les éléments qui pourraient expliquer les valeurs surprenantes apparaissant dans les visualisations. « Nous utilisons des algorithmes, de l’apprentissage machine, de l’intelligence artificielle et des outils statistiques, non pas pour dire exactement ce qui s’est passé mais pour fournir des éléments à regarder de plus près pour comprendre ce qui s’est passé », nous a expliqué François Ajenstat, chief product officer de Tableau, lors d’un entretien pendant la conférence. « Cela permettra de meilleures analyses, d’aller plus loin et de supprimer les biais pour comprendre les données de façon plus complète ». Chaque explication proposée par Explain Data est présentée sous la forme d’une visualisation qui peut à son tour être explorée pour découvrir des éléments ignorés jusque-là.
Sur Tableau Conférence Europe (TCE) 2019, Bethany Lyons, responsable des produits analytiques, montre comment Explain Data peut aider à comprendre certaines anomalies dans les tendances révélées par l'analyse des données. Ici par exemple, sur le temps de résidence moyen des propriétaires par arrondissements (boroughs) à Londres. (Crédit : LMI/MG)
Le moteur a été dévoilé à Berlin lors d’une démonstration réalisée en session plénière par Bethany Lyons, responsable des produits analytiques. L’outil est directement accessible à l’utilisateur lorsqu’il crée une représentation graphique de ses données ou un tableau de bord. L’un des exemples de la démonstration a porté sur la visualisation de ventes immobilières mensuelles montrant un pic inattendu sur une période donnée. Le recours à Explain Data a fait apparaître la commercialisation de nouveaux immeubles, ainsi qu’une transaction d’un montant particulièrement élevé. En supprimant cette transaction de l’analyse, la visualisation a alors fait apparaître d’autres particularités dans les ventes immobilières de la période. Explain Data sera intégré à la version 2019.3 de Tableau, fournie gratuitement à tous les clients.
Catalog apporte à l'utilisateur une vue sur les métadonnées
Sur les questions de gouvernance des données, Catalog a été l’une des annonces phares de la conférence européenne. Le produit sera livré sous la forme d’un add-on. « Il va permettre aux clients de faire l’inventaire de toutes les données existant dans leur entreprise », nous a exposé François Ajenstat. « Ils pourront voir quelles sont les données qui sont utilisées, qui les utilisent, comment elles ont été modifiées. C’est important dès qu’il s’agit d’un projet d’entreprise et de pouvoir aider à vérifier que l’on dispose des bonnes données ». Catalog est intégré dans la plateforme, il n’est donc pas nécessaire d’installer quoi que ce soit, il fonctionne immédiatement dès qu’il est activé, précise le chief product officer. « L’autre point sur lequel je suis enthousiaste car personne ne l’a fait, c’est que la plupart des catalogues sont conçus pour les équipes informatiques puisqu'ils les aident à comprendre les données. Et ce que nous essayons de faire est d’apporter la valeur de Catalog aux utilisateurs », nous a exposé M. Ajenstat.
Avec Catalog, l'analyste métier de Tableau va pouvoir accéder aux métadonnées depuis son interface de datavisualisation pour vérifier, par exemple ci-dessus à droite de l'écran, quelles sont les sources et les champs de données qui sont utilisés. (Crédit photo : LMI/MG)
Démonstration à l’appui, le directeur produit de Tableau montre une interface de visualisation affichant, à droite de l’écran, les métadonnées provenant du catalogue renseignant sur les données affichées dans le tableau de bord. « Cela renforce la confiance des utilisateurs dans les données en leur permettant de vérifier qu’ils accèdent aux bonnes données. Cela simplifie aussi la découverte des données parce qu’ils n’ont pas besoin d’aller les chercher dans les databases, il suffit de demander où se trouvent les données que l’on veut analyser. Les clients sont très intéressés parce que ça leur donne une vision qu’ils n’ont jamais eue et que cela permet à davantage de personnes d’accéder à l’analytique en se sentant plus à l’aise maintenant que cette visibilité et cette confiance est fournie aux utilisateurs ».
Une API pour les échanges avec d'autres catalogues
Autre point important, des échanges peuvent se faire entre Catalog et d’autres solutions, comme celle d’Alation par exemple qui permet aux data stewards de collaborer autour des données. « Leur produit est très complémentaire au nôtre, nous avons un fort partenariat avec eux », souligne François Ajenstat. Les métadonnées pourront ainsi être créées avec Alation pour alimenter Catalog. « Prenons un exemple classique : si je crée un calcul dans Tableau, comment est-ce que je l’ajoute au catalogue ? C’est maintenant possible. Ou bien, si j’écris un glossaire dans Alation, je peux le pousser dans Tableau », explique le directeur produit. L’utilisateur dispose de ces informations dans son interface de visualisation. Quant aux profils IT, ils disposent de leur propre interface pour voir les informations du glossaire, en suivre la traçabilité et l’analyse d’impact. « Il y a différentes tâches et ce que nous essayons de faire, c’est d’apporter la valeur partout ». Catalog est actuellement en version alpha. La bêta démarre ce mois-ci.
« Pour nos clients IT, c’est génial parce qu’il y avait un manque, nous n’avions pas toutes les fonctionnalités qu’ils voulaient. Ils apprécient la puissance que l’on donne aux métiers, mais ils perdent le contrôle, ils perdent la vue de ce que font les métiers. Maintenant, ils voient tout et ce n’est pas cher du tout : 5,5 $ par usager et par mois. Si vous avez 100 utilisateurs, cela vous coûtera 6 000 $ par an, les solutions alternatives sur le marché coûtent des centaines de milliers de dollars ». De nombreux partenaires de Tableau proposent des catalogues d’entreprise ou des catalogues spécialisés. « Avec les API, nous pouvons faire la transaction des données des deux côtés, c’est très important. Nous voyons aussi des clients qui ont leur propre catalogue, qui ont créé quelque chose d’unique pour leur entreprise. Ils disposent avec l’API d'une méthode pour transférer les métadonnées à Catalog ».
Faire l'analyse au plus près des données, sur site ou dans le cloud
Dans la version 2019.3, l’un des autres ajouts porte sur la sécurité. Tableau va permettre le chiffrement des données au repos et à l’extraction lorsqu’elles seront transférées dans son moteur de base de données Hyper qui accélère les traitements. Un système de gestion des clés de chiffrement sera fourni aux clients pour les versions sur site. « Cela fait longtemps qu’ils le demandent », reconnait François Ajenstat. La stratégie de Tableau est de permettre une connexion directe aux sources de données où les données peuvent être déjà chiffrées par les databases. Désormais, lorsque les données seront transférées dans Hyper, elles seront également chiffrées. Un rappel au passage sur les outils de préparation des données. Après Prep, livré il y a un an sur les logiciels clients de Tableau, la partie serveur est arrivée au 1er trimestre 2019 sous le nom de Conductor. « Elle permet d’automatiser la préparation des données. Avec la version 2019.3, la version SaaS de Prep Conductor sera disponible », précise le directeur produit. « Le client pourra publier ses flows et nous nous occuperons automatiquement pour lui de la mise à l’échelle de l’infrastructure ».
La version SaaS de Tableau est hébergée pour l’Europe en Irlande ou en Allemagne. Les clients qui veulent gérer leurs données en France peuvent opter pour un déploiement dans le cloud public ou sur site. « Ce qui a complètement changé depuis deux ans, ce sont les notions de « data gravity ». Les données sont placées au plus près de l’endroit où les analyses se font », explique le directeur produit. « Donc, si les données sont dans Snowflake, Redshift ou Big Query, c’est mieux de mettre Tableau dans le cloud, si c’est SAP Hana ou Oracle, ça peut être sur site. Si la majorité des données sont dans le cloud, on met l’analyse dans le cloud, si elles sont surtout sur site, on fait l’analyse sur site pour réduire les temps de connexion aux données », souligne François Ajenstat.