Cette semaine, lors de la conférence Hadoop World (du 8 au 9novembre à NY), analystes et responsables informatiques ont appelé les dirigeants des entreprises de technologie à se montrer vigilants avant d'utiliser Hadoop pour agréger des données provenant de multiples sources disparates, les mettant en garde contre des problèmes potentiels de sécurité. Le framework Java Open Source Hadoop permet aux entreprises de collecter, d'agréger, de partager et d'analyser d'énormes volumes de données structurées et non structurées, des données stockées par l'entreprise, ou provenant de blogs, de transactions en ligne ou encore résultant des échanges au sein de médias sociaux.

De plus en plus d'entreprises utilisent Hadoop et des technologies connexes comme Hive, Pig et Hbase pour traiter leurs données. En partie parce qu'elles ne peuvent pas le faire facilement et à coût raisonnable avec les bases de données relationnelles traditionnelles. JPMorgan Chase, par exemple, utilise Hadoop pour améliorer la détection des fraudes, pour gérer certains risques informatiques et les applications en self-service. Le groupe financier l'utilise également pour avoir un point de vue beaucoup plus global sur sa clientèle, comparé à ses outils précédents, comme l'ont déclaré ses dirigeants. Ebay a aussi utilisé la technologie Hadoop et la base de données Open Source Hbase pour élaborer un nouveau moteur de recherche pour son site de vente aux enchères.

Attention aux problèmes de sécurité

Les analystes estiment que les services informatiques qui utilisent le framework Hadoop pour ce type d'applications doivent être conscients des problèmes de sécurité potentiels qu'elle pose. « L'utilisation de la technologie Hadoop pour agréger et stocker des données provenant de sources multiples peut générer une série de problèmes liés au contrôle d'accès et à la gestion, mais aussi au droit et à la propriété des données, » a déclaré Larry Feinsmith, directeur général des opérations IT chez JPMorgan Chase. « Dans les environnements Hadoop, on peut trouver des données de niveau et de sensibilité différentes, en matière de classification et de sécurité, » a renchéri Richard Clayton, ingénieur informatique chez Berico Technologies, un fournisseur de services informatiques pour les agences fédérales.

« Le défi pour les entreprises est de s'assurer qu'elles ont mis en place des contrôles de sécurité adaptés, qui maintiennent le niveau d'accès aux données, » a-t-il ajouté. « L'agrégation des données dans un environnement unique augmente également le risque de vol ou d'une divulgation accidentelle, » a déclaré Richard Clayton. Surtout, l'analyse des données agrégées dans un environnement Hadoop par des applications peut se traduire par la création de nouveaux documents qui ont peut-être aussi besoin d'être protégés. « De nombreuses organisations gouvernementales stockent leurs données Hadoop dans des «enclaves» distinctes, afin d'avoir l'assurance qu'elles ne seront accessibles qu'à ceux qui en ont l'autorisation, » a ajouté l'ingénieur de Berico Technologies. « La plupart des agences ne mettent pas leurs données sensibles dans des bases de données Hadoop, en raison de problèmes d'accès aux données, » a encore ajouté l'ingénieur. « Plusieurs agences ont tout simplement mis en place des pare-feu pour protéger leurs environnements Hadoop, » a-t-il expliqué.

[[page]]

« Pour de nombreux utilisateurs de Hadoop, l'approche la plus efficace en matière de  sécurité consiste à crypter les données au premier niveau, quand celles-ci transitent ou sont stockées dans un environnement Hadoop, » a encore déclaré l'ingénieur. D'une manière générale, celui-ci conseille aux entreprises d'être prudentes quand elles utilisent ces technologies. Il fait remarquer que, utilisées seules, certaines fonctionnalités de sécurité du système de fichiers distribués intégré de Hadoop - Hadoop Distributed File System (HDFS) - comme les listes de contrôle d'accès (Access Control Lists) et les Kerberos ne sont pas adaptées à un usage en entreprise.

Selon David Menninger, analyste chez Ventana Research, « les problèmes de la sécurité et de contrôle d'accès justifient le fait qu'Hadoop n'est pas prêt à remplacer les bases de données relationnelles dans l'entreprise. » Pour Sid Probstein, directeur des technologies chez Attivio, qui vend des technologies de gestion d'accès unifié dans les environnements Big Data, « Hadoop est une technologie formidable, mais il lui manque certains éléments pour être utilisé en entreprise. »