Mais qu’est-ce que Hadoop ? La fondation open source Apache Software Foundation décrit Hadoop comme « une plate-forme de traitement distribuée » ou « un framework qui permet le traitement distribué de grands ensembles de données à travers des clusters d'ordinateurs en utilisant des modèles de programmation simples ». Selon la fondation : « Au lieu de dépendre du hardware pour assurer une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les défaillances au niveau de la couche applicative, offrant ainsi un service hautement disponible sur un cluster de serveurs, chacun pouvant sujet à des défaillances ».
Les avantages - rapidité, fiabilité, moindres coûts - sont attractifs pour l'entreprise, et celles-ci commencent à déployer la technologie à différentes échelles. Expédia prévoyait de doubler son investissement dans Hadoop en 2015 et elle a été l'une des premières à adopter le projet Apache Falcon de Hortonworks pour exploiter de grandes quantités de chiffres. Auparavant, Expedia utilisait une base de données DB2 associée à diverses instances Microsoft SQL Server. Mais la solution devenait de plus en plus chère à mettre à l'échelle à mesure que le volume de données augmentait autant du fait de la croissance organique de l'entreprise, que de l'acquisition de plusieurs entreprises de tourismes dont Trivago et Hotels.com.
Un cluster de 2 Po
Depuis son adoption de Hadoop, l'entreprise a vu ses coûts diminuer et surtout elle peut stocker et traiter les données dans le cluster. Adrian Woodhead, responsable technique de la plate-forme de données de Hotels.com, a révélé que « des centaines » d'employés de différents départements et bureaux, dont l'un basé à Londres, avaient utilisé le cluster de deux pétaoctets pour le trafic Web, les réservations et consulter des avis sur les destinations de voyages.