Obtenir des indicateurs pertinents du big data s'avère bien souvent aussi peu simple que rapide mais Google espère bien changer la donne avec son nouveau service managé pour Hadoop et Spark. Baptisé Cloud Dataproc, disponible depuis mercredi en bêta, ce service constitue une pièce importante du portefeuille big data de la firme de Mountain View pour aider les entreprises à créer rapidement des clusters, les gérer facilement et les fermer dès que besoin.
Trouver le moyen d’implémenter et d’opérer des clusters Hadoop (v2.7.1) et Spark (v1.5) pourrait apporter une valeur significative aux entreprises, a indiqué Holger Mueller, vice-président et analyste principal chez Constellation Research. A ce titre, Google Dataproc pourrait bien apporter un certain nombre d’avantages à la fois par rapport aux solutions internalisées qu’aux services cloud concurrents (Amazon Elastic MapReduce, Microsoft Azure HDInsight, IBM …).
Une tarification à 1 centime de l’heure
La firme de Mountain View annonce un temps de 90 secondes contre 5 à 30 minutes par rapport à la concurrence - pour démarrer, mettre à l’échelle ou éteindre un cluster Spark et Hadoop. Le tarif s’élève à 1 centime de l’heure pour l’utilisation d’un CPU virtuel par cluster sachant qu’une facturation à la minute est proposée (après un temps de consommation incompressible de 10 minutes). Cloud Dataproc apporte aussi une intégration native avec les services Google Cloud Platform tel que BigQuery, Cloud Storage, Bigtable Logging et Monitoring. Les entreprises peuvent par exemple l’utiliser pour extraire, transformer et charger des teraoctets de données de log en colonnes directement dans BigQuery pour du reporting métier.
Le service étant managé, il est possible d’utiliser les clusters Spark et Hadoop sans avoir besoin de recourir à l’assistance d’un administrateur ou d’un logiciel spécifique a précisé Google, tout comme celle d’interagir avec les clusters et jobs Spark/Hadoop au travers de la Developers Console, le SDK Google Cloud ainsi que l’API REST de Cloud Dataproc.