Pour ingérer d’importants volumes de données en temps réel, Talend vient de livrer sur la marketplace d’AWS l’application Data Streams. L’outil, proposé ici dans une version gratuite, viendra ensuite enrichir la suite cloud Data Fabric du spécialiste français de l’intégration de données. Il a été annoncé il y a quelques jours sur la conférence Talend Connect US, à New York. Data Streams se présente comme une application en libre-service dotée d’une interface graphique que l’éditeur qualifie d’intuitive. Elle s’appuie sur Apache Beam, modèle unifié open source conçu pour définir des pipelines de traitement de données, qu’il s’agisse de flux traités en continu ou de batch.

Talend a conçu son outil d'intégration en streaming pour qu'il puisse s’adresser à un nombre élargi de profils d’utilisateurs, analystes de données, ingénieurs, scientifiques. Pour l’éditeur, qui rappelle que l’un des défis les plus courants en data science porte sur la qualité des données (qui peuvent être incomplètes, insuffisantes, difficiles d’accès, etc.), chaque utilisateur doit pouvoir être impliqué dans les opérations de collecte, de mise en forme et d’amélioration de la qualité et de la confiance autour des données.

S'utilise avec Kafka, Kinesis d'AWS et Pub/Sub de Google

Data Streams met en place les files d’attente de messages pour Apache Kafka, Kinesis d’Amazon et Pub/Sub de Google. La présentation des données se fait à la lecture (schema-on-read), ce qui supprime la nécessité de définir les schémas avant la construction des pipelines et permet d’intégrer facilement de nouveaux types de flux, ainsi que le décrit Talend sur la marketplace d’AWS. Data Streams supporte les formats AVRO, JSON, Parquet et CSV. Il fonctionne bien sûr avec le service de stockage S3 d’Amazon, mais aussi avec Cloud Storage de Google et peut être par ailleurs utilisé avec Salesforce et différentes bases de données cloud.

Enfin, les pipelines de données créés peuvent intégrer des composants codés en Python et présenter une prévisualisation des changements sur les données à chaque étape du traitement ce qui permet de réduire les phases de test et débuggage. Avec Data Beams, Talend veut permettre l’ingestion de « volumes considérables de données disparates, en streaming, dans le cloud ».