A l'occasion de son show Cloud Next (8-10 mars) de San Francisco, Google a dégainé son tout dernier service pour répondre aux besoins des datascientists. Et plus précisément pour faciliter la tâche de ceux qui ont à préparer les données avant de les injecter en particulier dans des workloads d'apprentissage machine. Baptisé Cloud Dataprep, ce service cloud va automatiquement détecter les schémas de données, les doublons ou valeurs manquantes et ce sans besoin de recourir à du code. Grâce à lui, les utilisateurs vont aussi être en mesure de construire un set de règles, au format Apache Streams, pour traiter les informations et pouvant être importées dans des produits comme Cloud Dataflow ou dans le service BigQuery, tous deux de Google.
Alors que Cloud Dataprep est conçu pour préparer les données d'apprentissage machine, le système l'utilise également pour déterminer quelles règles seront les plus utiles pour les clients. Disponible en beta, ce service est basé sur la technologie de wrangling de la start-up Trifacta que nous avons eu l'occasion de rencontrer en début de semaine à San Francisco. A noter que Google a choisi cette technologie parmi un total de 8 fournisseurs benchmarkés pour l'occasion.
Injecter les flux d'AccuWeather et Dow Jones directement dans BigQuery
Le service de traitement de données en masse dans le cloud, BigQuery, a fait par ailleurs l'objet de plusieurs améliorations. Dont un nouveau programme de sets de données commerciaux, disponible en bêta, qui va laisser la possibilité aux utilisateurs de tirer de l'information depuis AccuWeather, Dow Jones, Xignite, HouseCanary et Remine, afin d'injecter directement ces flux dans BigQuery pour des traitements poussés. Il est dorénavant possible de requêter les données stockées dans la base de données NoSQL managée et à faible latence, Cloud Bigtable.
Les clients dans le domaine de la publicité pourront envoyer des données en provenance de Google Adwords, DoubleClick Campaein Manager ou for Publishers ainsi que YouTube vers BigQuery pour des utilisations analytiques ou d'autres applications big data. A noter par ailleurs que la base de données cloud SQL de Google propose maintenant le support (bêta) pour PostgreSQL en plus de MySQL.