Google parie que le traitement temps réel est le futur de l'analyse big data et a mis à jour deux de ses services cloud. « Nous pensons vraiment que le streaming est là où va le monde. Au lieu de regarder les données 2 mois ou 2 ans auparavant, les données dont on a vraiment besoin sont celles de l'instant », a indiqué Tom Kershaw, directeur de la gestion produit de Google Cloud Platform. Pour adresser ce besoin, la firme de Mountain View vient de lancer la beta de son moteur de traitement de données, Cloud Dataflow, lancé en version alpha l'année dernière. La société a également ajouté deux nouvelles fonctions à son outil analytique BigQuery, introduit en 2010. Ces deux services cloud peuvent être utilisées ensemble pour faciliter le traitement temps réel de gros volumes de données.
Désormais disponible en beta, Cloud Dataflow permet d'analyser les données provenant de flux temps réel. Google a par ailleurs veillé à ce que les utilisateurs n'aient pas à se soucier de l'infrastructure sous-jacente qu'ils utilisent en prêtant une attention particulière aux logiciels de configuration et matériels de provisionning. Le service peut également analyser les données déjà stockées sur un disque, en mode batch, en permettant aux organisations de mixer leurs analyses passées et historiques dans un même workflow.
Le service fournit une façon « pour tout programmeur Java ou Python d'écrire des applications utilisant le big data », a indiqué Kershaw. « Cela rend plus facile le fait de tourner des jobs end-to-end au travers de sets de données très complexes », a expliqué Tom Kershaw.
BigQuery disponible pour les clients européens
En plus d'avoir rendu DataFlow disponible dans un programme de beta ouverte, Google a également mis à jour son service BigQuery. Après avoir été déjà amélioré en 2013, ce dernier fournit une interface SQL pour les larges datasets non structurées. SQL est communément utilisé pour les bases de données relationnelles traditionnelles, ce qui le rend universellement compréhensible pour les administrateurs de base de données. Avec cette mise à jour, Google a amélioré le service de manière à ce qu'il soit en mesurer d'ingérer, par table, jusqu'à 100 000 colonnes par seconde.
De plus, la société a étendu la disponibilité de BigQuery auprès des clients européens, sachant que les données sont stockées dans des datacenters localisés en Europe de façon à rassurer quelque peu les entreprises et répondre aux exigences en termes de souveraineté européenne des données. De nouvelles permissions ont également été ajoutées qui peuvent limiter l'accès à des informations basées sur des identifiants utilisateurs. Ceci pour autoriser les organisations à protéger des portions de données, comme des noms, adresses ou encore accéder à d'autres tel que l'historique anonyme d'achats pour être utilisé pour de la recherche ou autre chose.
BigQuery et Dataflow peuvent être utilisés l'un avec l'autre. « Les deux sont vraiment bien alignés. Il est possible d'utiliser Cloud Dataflow pour du traitement et BigQuery pour analyser », a également indiqué Tom Kershaw.
Commentaire