« Croiser des tables de plusieurs téraoctets a toujours été une tâche difficile pour les analystes de données. Cela nécessite des compétences spécifiques sur MapReduce, du matériel puissant ou beaucoup de temps et parfois les 3 en même temps », écrit Ju-kay Kwek, responsable produit BigQuery chez Google dans un blog annonçant la mise à jour. Il ajoute « aujourd'hui, avec BigQuery, vous pouvez accéder directement à des analyses en utilisant des requêtes SQL plus rapidement et plus facilement que précédemment. »
Google fait également valoir que l'usage de BigQuery coûte moins cher qu'un déploiement Hadoop, car les utilisateurs ne paient que pour les requêtes qui sont traitées et ne supportent pas le coût des différents composants de Hadoop. BigQuery a été lancé en 2010 par Google comme un service d'analyse de grandes quantités de données. Avec cette solution, un utilisateur peut soumettre un ensemble de données à Google et peut ensuite interroger les données via l'API BigQuery. Dans la mise à jour, la firme de Mountain View a amélioré une fonctionnalité nommée JOIN qui combine les résultats de requêtes sur plusieurs sources de données. Auparavant, la clause JOIN ne pouvait travailler qu'avec un ensemble de données de moins de 8 Mo. Aujourd'hui, il n'y a plus de limite de taille sur les données.
Gagner du temps et de l'argent
En conséquence, le service peut maintenant être plus efficace et se substituer à MapReduce de Hadoop. Le travail de ce dernier a souvent pour objectif de réunir de grandes quantités de données provenant de deux sources ou plus. Pour ce faire, les développeurs doivent écrire de zéro un processus MapReduce, ce qui peut prendre beaucoup de temps. La fonctionnalité JOIN EACH permet de produire un jeu de données unique à partir de deux tables big data qui partagent une clé commune. « Grâce à ces fonctionnalités, vous allez maintenant être en mesure de combiner et d'effectuer une analyse globale sur des jeux de données de plusieurs téraoctets via des requêtes SQL ou des outils tiers, au lieu de vous lancer dans des projets de codage complexe », précise Michael Manoochehri, ingénieur sur la plateforme cloud de Google dans un blog technique.
La mise à jour de BigQuery comprend d'autres fonctionnalités. Il prend mieux en charge les Timestamps (horodatages) avec l'importation de différents systèmes d'horodatages et la possibilité de faire des requêtes sur des données horodatées. Par ailleurs, les utilisateurs peuvent ajouter des colonnes dans les tables existantes. Ils peuvent aussi intégrer des favoris sur des jeux spécifiques de données et recevoir des emails quand ils ont donné un accès à des tables de données.
Big Data : Google améliore BigQuery pour séduire les utilisateurs de Hadoop
Espérant attirer un peu plus les utilisateurs de Hadoop vers son propre service d'analyse de données, Google a mis à jour BigQuery en donnant la possibilité d'interroger notamment plusieurs tables de données.