En direct de San Francisco - Depuis notre rencontre avec Trifacta l’an dernier, le marché des start-ups spécialisées dans le wrangling – la préparation des données brutes avant leur exploitation – s’est considérablement transformé. A la surprise de tous, Platfora a par exemple été rachetée par Workday, alors que ce dernier avait initialement investi dans un concurrent Datameer. Les fonctions plus avancées de visualisation des données de Platfora auraient au final emporté la décision. Stefan Groschupf, le CEO historique de Datameer, a d’ailleurs quitté son poste - sous la pression des investisseurs - pour se reconcentrer sur le développement produit. Et des acteurs comme Alteryx ou Paxata multiplient leurs efforts pour contester le leadership de Trifacta. « Nous ne voyons pas beaucoup Datameer au final sur les projets sur lesquels nous travaillons. Et comme nous travaillons en local alors que Paxada envoie toutes les données vers ses serveurs, ce qui posait des difficultés de transfert avec 1 To de données Hadoop, nous faisons valoir notre différence », nous a indiqué Bertrand Cariou, directeur marketing produit chez Trifacta. « La copie des données entre de plus en conflit avec la gouvernance de certaines entreprises ».
La plate-forme Trifacta, que nous vous avions détaillée en mars 2016, est utilisée par plusieurs entreprises ou organisations comme la Nasa, NationBuilder, Pepsico ou Sanofi. En France, le laboratoire pharmaceutique exploite la solution de Trifacta pour préparer les résultats des tests cliniques et réconcilier les données échangées avec d’autres laboratoires. Comme nous l’a indiqué Bertrand Cariou, l’Europe est un marché stratégique pour Trifacta. « L’idée est de continuer à investir en Europe pour développer le business sur un marché mature avec des partenaires comme Business & Décisions et Openvalue en France ».
Un outil de wrangling pour la politique
Avec NationBuilder, un CMS mâtiné d'analytique déjà utilisé en France par plusieurs partis politiques pour affiner leurs messages et leurs actions pour les prochaines élections, Trifacta contribue à la préparation des données issues de weblogs, des webchats mais aussi de Twitter. « Le CEO de NationBuilder a téléchargé la version gratuite de notre outil et trouvé qu’elle était plus simple à utiliser que d’autres solutions utilisées en interne. Il l’a signalé à ses équipes de développement », nous a expliqué Bertrand Cariou. Chez Pepsico, l’analyse des données issues des points de ventes permet d’optimiser les campagnes de promotions des boissons gazeuses en tenant comptes des informations météorologiques. Et avec la Nasa par exemple, les données récoltées sur les capteurs des combinaisons spatiales quand les astronautes sont de sortie dans l’espace sont remontés et restructurées avant l’analyse.
« Nous effectuons un travail de machine learning pour structurer les données comme les weblogs qui doivent être réorganisées avant leur exploitation même si cela ne se voit pas de prime abord », nous a indiqué le responsable marketing. Les données issues de sources diverses (Json, weblogs, Excel…) sont enrichies avec des métadata dans la grille d’analyse et une fois validées, elles passent à l’exploitation et à la publication. L’outil de machine learning analyse les données brutes et suggère la meilleure manière de les simplifier pour l’exploitation sans altérer les informations. Il est bien sûr possible de revenir en arrière en remontant les différentes étapes pour affiner si besoin le processus. « Comme de nouvelles données arrivent en permanence, il est possible de programmer le traitement de wrangling […] Vous avez des millions d’enregistrements mais vous voulez vous concentrer sur le Luxembourg. Le filtrage des données permet d’analyser que certaines zones géographiques ».
Un outil de wrangling multiplateformes
Trifacta travaille de concert avec les moteurs Photon, Spark et Hadoop MapReduce suivant les besoins. « Certains client sont même passer sur Hadoop avec Trifacta pour gérer leurs données ». Pour les tarifs, la société annonce 3 à 8000 dollars par serveur.