Le monde de la donnée est en plein changement, avec l'évolution des technologies et la puissance de traitement qu’apportent les grands clouds publics, et les métiers ont maintenant pris conscience de ce qu’ils pouvaient faire avec les données. Pour un spécialiste de l’intégration tel que Talend, l’enjeu est donc de fournir des solutions permettant d'ingérer et de traiter rapidement les données en prenant en compte les exigences de qualité, comme le requièrent notamment les industries les plus régulées. « Désormais, les métiers veulent être plus impliqués sur les solutions technologiques et ils s’attendent à de l’innovation en continu », a souligné hier Laurent Bride, COO et CTO de l’éditeur français, sur la conférence Talend Connect 2019, qui s’est tenue au Parc des Princes, à Paris, le 17 octobre.
Les profils d’utilisateurs ont évolué. Aux côtés des data engineers, les data stewards interviennent maintenant sur la curation des données et chacun cherche « des solutions de plus en plus faciles à utiliser et du libre-service », rappelle Laurent Bride. « Les utilisateurs s’attendent à partager l’ensemble de ces données et à pouvoir consommer d’autres services ». Dans les écosystèmes interconnectés, l’un des rôles de Talend en tant que fournisseur d'outils middleware, c’est donc aussi d’exposer l’ensemble de ces services, a indiqué hier le CTO, en donnant l’exemple des connexions réalisées par Talend avec le datawarehouse cloud de Snowflake ou avec la plateforme analytique de Databricks (fondé par les créateurs d’Apache Spark) qui permet aux équipes de data science de collaborer de façon unifiée avec les experts de la donnée et les métiers.
Des données fiables sur l'ensemble du pipeline
Les entreprises qui exploitent leurs données avec succès conjuguent deux facteurs : rapidité et fiabilité, a indiqué hier Laurent Bride en citant parmi les clients de Talend le laboratoire pharmaceutique AstraZeneca, l’industriel de la cosmétique L'Oréal, la place boursière Euronext, le loueur de matériel Kiloutou ou le groupe hôtelier Accor. La rapidité de mise en oeuvre dans le processus d’intégration des données passe aussi par la capacité à faire adopter rapidement les outils aux utilisateurs et à les faire collaborer. « Les bénéfices, on les retrouve sur des cas d’usage tels que la détection de la fraude en temps réel ou la réduction des délais sur les essais cliniques, par exemple », a évoqué le CTO. Mais la rapidité n’est pas tout. « Vous avez besoin que les données soient fiables dans les pipelines d’intégration de A à Z et d'être capable de retracer tout ce qui s’est passé avec les fonctionnalités de lignage, la qualité doit être partout, on doit y penser tout au long de la chaîne de traitement », a insisté Laurent Bride en reconnaissant que ces deux dimensions, rapidité et fiabilité, étaient parfois en conflit.
Pour les concilier au mieux, la plateforme développée par Talend présente un environnement unifié qui permet à l’IT et aux métiers de travailler autour des mêmes datasets dans le pipeline de données, a indiqué le CTO, tant pour la préparation que pour la consommation des données. Parmi les autres points importants, il faut pouvoir intégrer rapidement les technologies complémentaires sous la forme de services natifs et « l’écosystème prend là toute sa valeur », a souligné Laurent Bride en insistant aussi sur l’aspect libre-service : « il y a vraiment une consumérisation de l’IT qui ne doit pas être vue comme un bottleneck ».
Répliquer des données vers Snowflake avec Stitch
Benoît Dageville, co-fondateur de Snowflake, est intervenu lors de cette session plénière, au côté de Laurent Bride, pour présenter sa technologie de datawarehouse cloud natif qui permet de provisionner les ressources suivant les besoins tout en ne payant qu’à la consommation, « ce qui permet d’aller dix fois plus vite pour le même prix ». Snowflake se présente ainsi comme un service cloud managé, facturé en fonction du compute, dans lequel les ressources de stockage (qui s’appuient sur du blob) sont séparées des ressources de traitement. Benoît Dageville a également décrit l’une des particularités de ce datawarehouse cloud, le datasharing. Ces fonctionnalités permettent à une entreprise d’exposer, au sein d’une base de données sécurisée, un sous-ensemble de données auquel pourront directement accéder d’autres utilisateurs, soit en interne à l’entreprise, par exemple d’autres business units, soit en externe, typiquement des partenaires, dans les secteurs du retail, de la pharmacie ou de la finance.
Pour illustrer l'accès natif au service, Laurent Bride s’est risqué à une démonstration d’ingestion de données récupérées dans Shopify et injectées dans Snowflake au moyen de Stitch, une technologie d’intégration en self-service compatible JSON rachetée il y a un an par Talend. « L’installation de Stitch se fait en un clic et n’importe qui peut créer une intégration très facilement, ici en prenant des données brutes de Shopify et en les répliquant vers Snowflake en 2 minutes », a-t-il commenté en générant un rapport à l’aide d’un template disponible dans Stitch pour l’outil de BI Looker. Une 2ème présentation a permis de découvrir l’objet transactionnel Streams de Snowflake « qui permet d’enregistrer tous les changements réalisés sur une table source – insertions, mises à jour, suppressions – jusqu’à ce qu’ils soient consommés », a expliqué Benoît Dageville. « Le schéma de la stream est le même que celui de la table, cela permet de faire des transformations à l’intérieur » et de savoir ce qui a changé dans un enregistrement (row) entre deux transactions dans une table.
Pipeline Designer, tarifé à l'usage
Les rendez-vous annuels Talend Connect permettent aussi au spécialiste français de l’intégration de données de faire un point sur sa feuille de route. Christophe Toum, directeur de la gestion produit chez Talend, s’y est employé ce matin en rappelant l’importance accrue que vont prendre les données avec les innovations qui se préparent autour de l’IoT, des agents intelligents, de l’analyse prédictive et des interfaces en langage naturel. Un petit retour sur les dernières évolutions en date de la plateforme Talend Data Fabric. En dehors de Stitch Data Loader, déjà évoqué, l’éditeur a livré Pipeline Designer, un studio lightweight pour traiter des données structurées et non structurées, qui fonctionne en batch comme en streaming, a rappelé Christophe Toum. Le produit s’appelait à l’origine Data Stream mais le nom a été modifié car l’outil convient tout autant au mode batch. Sur Pipeline Designer, la tarification se fait à l’usage. « Si vous ne l’utilisez pas, vous ne payez pas », a confirmé le directeur de la gestion produit en expliquant ce que ce passage à la « culture cloud » du paiement à l’usage devait à l’arrivée des équipes de Stitch au sein de Talend.
Christophe Toum, directeur de la gestion produit chez Talend. (Crédit : Talend).
Talend Cloud sur Azure
Il y a quelques jours, l’éditeur français a par ailleurs annoncé que Talend Cloud était disponible sur Azure en plus d’AWS. Cet iPaaS optimisé cette fois pour le cloud public de Microsoft offre des connexions avec différents services Azure comme SQL Data Warehouse, Databricks, Data Lake Store et HDInsights. Il s’intègre aussi avec Azure DevOps, supporte les fonctions CI/CD et serverless du cloud public et propose en libre-service Pipeline Designer, Data Preparation et Data Stewardship. La tarification reste ici basée sur le nombre d’utilisateurs avec des options de paiement à l’usage. D’ici la fin de l’année, Talend s’apprête à livrer la version Winter qui renforce les fonctions de gouvernance et de gestion de la qualité des données. Encore une fois, Christophe Toum insiste sur la nécessité de prendre en compte la qualité « dans l’ensemble du pipeline, de l’automatiser dans les process, de ne surtout pas le faire après coup ».
Une rapide démonstration permet de voir que, dans le pipeline de Talend, le dataset se présente avec des données immédiatement profilées. « Nous faisons du reverse engineering du contenu pour comprendre la sémantique des données afin de vous donner tout de suite une évaluation de la qualité », a expliqué M. Toum. « Ainsi, dans l’exemple présenté, il a été détecté que 40% des numéros de téléphone ne sont pas bons ». Par ailleurs, une note composite agrégée sur 5 points, le Trust Score, indique d’emblée si le dataset est fiable (dans l’exemple 3/5). Toutes les fonctions de Data Preparation, une centaine, seront disponibles dans Pipeline Designer.
D'ici 2020, de plus en plus d'autoapprentissage
Déroulant enfin la feuille de route pour 2020, le directeur de la gestion produit a affirmé l’ambition de faire de la Data Fabric de Talend la plateforme la plus autonome. Au menu, une orchestration ouverte et extensible. « Nous voulons intégrer Apache Airflow pour avoir une orchestration managée dans le cloud », a-t-il d’abord indiqué. Les développements à venir portent aussi sur la performance des pipelines avec SQL push-down. Sur la qualité des données se prépare la possibilité de définir et d’appliquer des règles pour toute la plateforme. Sur tout ce qui touche au RGPD, cela permettra, par exemple, d’automatiser des règles pour masquer les données. Enfin, un API Creator permettra de passer du dataset à une API en quelques clics, assure Talend sur sa feuille de route.
De l’autoapprentissage dans la plateforme permettra aussi à l’outil de devenir de plus en plus actif : sur l’expérience utilisateur, sur l’opérationnel et sur les données. Sur l’UX, l’auto-apprentissage permettra d’accélérer le design et de reconnaître les mauvaises pratiques. Sur l’opérationnel, il sera possible de détecter automatiquement des changements de comportement à l’exécution (repérer un pic par exemple) et d’envoyer des alarmes en cas d’anomalies. Sur les données, on pourra détecter automatiquement un changement de pattern ou des dérives. « En 2020, nous allons rendre la plateforme de plus en plus intelligente », a conclu Christophe Toum.