Le service EMR (Elastic MapReduce) d’Amazon Web Services a été revu pour aider les entreprises à exploiter Apache Spark en ligne, le moteur de traitement big data le plus populaire du moment. Comme MapReduce, Spark est un moteur open source dédié au traitement distribué de très grandes quantités de données. Mais à la différence du premier limité au traitement par lots, Spark est capable de travailler très rapidement quasiment en temps réel et, ce, in-memory.
EMR supporte la version Spark 1.3.1 et utilise Hadoop FILS comme gestionnaire de cluster. Auparavant, Spark fonctionnait bien au-dessus d’EMR, mais le support proposé était très limité. Les utilisateurs peuvent créer un cluster à partir de la console de gestion AWS et utiliser sur EMR des applications développées à l'aide de Spark Scala, Python, Java et SQL.
IBM soutient aussi Spark sur son PaaS
Cette semaine, IBM a également annoncé l’arrivée de Spark sur sa plate-forme PaaS Bluemix. Big blue a en effet indiqué que près de 3 500 chercheurs et développeurs travailleront et promouvront le moteur Spark.
Le prix d'Amazon est basé sur le coût de base d’instances EC2 auquel s’ajoute un tarif supplémentaire pour le service Spark. Pour une instance c3.xlarge de base, il faut compter 0,263$ par heure ou 1,95$ par heure pour une c3.8xlarge. Des surcoûts sont bien sûr possibles en ajoutant plus de mémoire vive ou de capacité de stockage. Ces prix doivent ensuite être multipliés par le nombre de nœuds utilisés.
Commentaire