A l’occasion de son évènement re:Invent 2022 qui se déroule à Las Vegas cette semaine, AWS a présenté les dernières évolutions de son service Glue pour l’intégration des données en mode serverless. Il offre des fonctionnalités de découverte, de préparation, de transformation et d'intégration des données, avec une mise à l'échelle automatique en fonction de la taille de la charge de travail. Les changements intervenus concernent principalement l’actualisation des moteurs d’intégration. Ils supportent maintenant Python 3.10 et Apache Spark 3.30 avec au programme, une amélioration des performances et la correction des bugs. A noter que Spark offre des capacités supplémentaires comme le filtrage du runtime à bas-niveau et l’optimisation des messages d’erreur.
Par ailleurs, les derniers plug-ins de Glue 4.0 prennent en charge Ray, un framework open source de calcul distribué pour les workloads de machine learning. Avec Glue for Ray, les data scientists pourront traiter de grands ensembles de données avec Python et des bibliothèques Python populaires. Le traitement distribué du code Python se fait sur des clusters multi-nœuds.
Des supports étendus à d’autres services
En dehors de Ray, Glue 4.0 supporte d’autres outils comme Cloud Shuffle pour Spark (le shuffle est une opération qui consiste à déplacer des données d’une machine vers une autre) et Adaptive Query Exécution (optimisation dynamique des requêtes). La prise en charge de la solution d’analyse et de manipulations de données Pandas est effective.
Enfin, Glue 4.0 se met à jour sur les évolutions des formats de données en couvrant Hudi, Apache Iceberg et Delta Lake. Le service d’AWS comprend également le lecteur vectoriel Parquet, avec la prise en charge d'encodages et de types de données supplémentaires. Glue 4.0 est disponible dès maintenant.