En direct de Mountain View - Fondée en 2013 par Alex Gorelik, Waterline Data se positionne sur le marché de la gestion du cycle de vie des données de l’entreprise pour lutter contre le phénomène du dark data, les données invisibles et inexploitées. Il s'agit d'informations parfois essentielles pour les entreprises qui peinent à les exploiter en analytique puisqu’elles ignorent les posséder.
Pour accompagner les entreprises dans la gouvernance de leurs données, Waterline Data vient donc renforcer les traditionnels outils d’ETL et de MDM avec un catalogage automatique des données. Smart Data Catalog 4.0, la dernière mouture de la solution de Waterline Data, assure la découverte et la recherche dans les données pour permettre l’exploitation analytique des data lakes. « Nous découvrons, organisons et sélectionnons les données professionnelles pour améliorer la recherche, la notation et le travail collaboratif tout en nous assurant que le catalogue est toujours à jour en analysant de manière incrémentielle les données elles-mêmes et pas seulement les logs SQL », nous a expliqué Kaycee Lai, COO de Waterline Data.
Curation et machine learning combinés
« La première étape consiste à préparer les données pour créer un catalogue avec des métadonnées pour savoir d’où viennent les informations et définir le chemin pour les retrouver rapidement ». Cette méthode mixe curation humaine et machine learning pour corriger et affiner les tags afin de réduire les faux positifs. « C’est une smart combinaison entre l’homme et la machine », assure le dirigeant. Angus Gow, directeur informatique et responsable des contenus pour l’organisme CreditSafe à Cardiff en Ecosse, qui opère dans une quinzaine de pays, a témoigné par téléphone au sujet de l’utilisation de la solution de Waterline Data dans son entreprise. La plate-forme a été déployée en novembre 2016 pour test avant d’être étendue dans les prochaines années. « Le profilage des 450 millions d'entreprises aux Etats-Unis aurait pris 20 jours avec Oracle, mais en utilisant le logiciel de catalogage Waterline Data, cela a pris huit heures. Et si nous avions essayé de construire quelque chose de semblable en interne, il aurait fallu de 18 mois à deux ans pour le faire ».
« Nous voyons de plus en plus de compagnies avec des CDO qui regardent notamment si elles n’ont pas de risques d’exposition et tentent de réaliser des économies dans le stockage des données », explique Kaycee Lai. Le cas typique est un client qui dit : « Nous avons un data lake, mais personne ne l'utilisait parce qu'on ne savait pas ce qu'il y avait dedans ». Et, en France, il y a beaucoup d’entreprises confrontées au même problème : la valorisation commerciale ou la suppression des données perdues dans les méandres des bases de données.
Commentaire