Le traitement de données de type Big Data suppose l'emploi de technologies et d'approches spécifiques. La Data Science suppose ainsi d'outils dédiés pour l'interrogation des données. Le langage R fait partie de ces outils. Les éditions Eyrolles viennent de publier la traduction d'un ouvrage de Hadley Wickham et Garrett Grolemund consacré à ce langage sous le titre « R pour les data sciences - Importer, classer, transformer, visualiser et modéliser les données ».
L'ouvrage se concentre sur l'apprentissage et le bon usage du langage R, pas des autres langages pouvant être également utilisés (Python, Julia...) même si ceux-ci sont souvent complémentaires. De même, les auteurs s'en sont tenus à l'exploration de données (génération d'hypothèse) sur des données discrètes, pas de vérification statistique. De même, ils ont fait le choix de ne pas s'étendre sur les extensions permettant de traiter des volumes très importants dont l'usage réel est rare.
L'approche développée est très pragmatique et pédagogique. Il s'agit bien de savoir utiliser R et ses modules complémentaires. Les différents chapitres comprennent donc de nombreux exemples de code en R ainsi que des exercices.
Commentaire