Il y a quelques jours, le site de recrutement Glassdoor a publié son classement des 25 métiers les plus intéressants à suivre en 2016 aux Etats-Unis en combinant trois facteurs : le nombre d’ouvertures de postes, le salaire et une note liée à l’opportunité de carrière. Un tiers d’entre eux concerne des profils liés aux technologies informatiques et ce sont les data scientists qui arrivent en tête avec 1 736 postes ouverts. En 2015, ils étaient en 9ème position avec pourtant le double de postes ouverts (près de 3 500). Derrière, entre la 5ème et la 12ème place, on trouve aussi en bonne position les développeurs d’applications mobiles, les ingénieurs logiciels, les responsables de projets analytiques et les responsables de développement logiciel. Du côté du salaire, Glassdoor indique une rémunération médiane de base de 116 840 dollars outre-Atlantique pour les data scientists (voir le graphique établi par Bloomberg sur le classement des meilleures rémunérations).
Pour le marché européen, le site de recrutement fournit aussi la liste des 25 métiers les plus en vue au Royaume-Uni en ce début 2016. Curieusement, les data scientists n’y apparaissent pas. Quoi qu’il en soit, avec le développement des projets de big data, il est intéressant de voir quelles sont les compétences que cette fonction recouvre. En premier lieu, une connaissance approfondie des méthodes statistiques est requise, ainsi que la capacité de travailler avec les outils d’analyse prédictive, souligne Adam Flugel, recruteur spécialisé sur ces profils au sein du cabinet Burtch Works, interrogé par nos confrères d’IDG News Service.
Une expérience de l'apprentissage machine
La maîtrise du langage R et celle de Python sont couramment demandées et d’une façon plus générale, des aptitudes en développement. Alors que, traditionnellement, un spécialiste de l’analyse prédictive devra savoir utiliser les bases de Python, Adam Flugel attendra d’un data scientist qu’il puisse construire ses propres outils en Python sans être limité à une ou deux bibliothèques, par exemple, ou qu’il puisse s’attaquer à des données non structurées comme les vidéos, les images et les données textuelles. Le recruteur se laisse toutefois une marge de manœuvre sur l’expérience liée aux outils spécifiques. Ainsi, des compétences en Java ou C++, par exemple, pourront quelquefois se substituer à une expérience en Python. « Ce qui est véritablement important, c’est la capacité à coder et à travailler avec les outils statistiques et d’analyse prédictive », explique-t-il en ajoutant que, pour un employeur, il sera bien plus facile de former à la syntaxe de Python sur une tâche donnée que de former à l’écriture de code.
Il est également important d’avoir une expérience à la fois des bases de données relationnelles et des bases non relationnelles utilisées pour traiter les big data. SQL est généralement un pré-requis et des compétences en Hadoop ou Spark un gros avantage, indique Adam Flugel. Une expérience de l’apprentissage machine est également appréciable pour les entreprises qui recrutent des data scientists. Dans le domaine du développement logiciel, on voit en effet de plus en plus d’éditeurs injecter de bonnes doses de machine learning dans leurs applications, à l’instar de Microsoft dans ses solutions Dynamics, par exemple, de Google (qui propose même un cours sur le deep learning) ou encore de Salesforce.com qui a racheté MinHash en décembre. Sur ce terrain, des chercheurs universitaires explorent une voie pour traiter des données très volumineuses.
Pour le fournisseur CrowdFlower, qui propose aux data scientists une plateforme d’enrichissement des données, les data scientists doivent d’abord réunir des compétences dans 6 domaines principaux : SQL, Hadoop, Python, Java, R et Hive. C’est ce qu’il a identifié et livré dans un récent rapport.
Kaggle, un site de défis à relever pour les data scientists
Du côté de la formation, les profils recrutés sur ces postes se répartissent à parts égales entre ceux qui possèdent un doctorat et ceux qui ont obtenu un diplôme universitaire de 3ème cycle, une poignée d’autres ayant fait des cycles plus courts. Les spécialisations les plus courantes sont les mathématiques, les statistiques et les sciences informatiques. D’autres disciplines sont représentées comme les neurosciences, la biologie ou la psychologie informatique (qui applique les principes de traitement informatique à la compréhension du comportement humain). A ceux qui sont intéressés par les postes de data scientists, Adam Flugel a quelques conseils à dispenser. En premier lieu, ceux qui ont une expérience en informatique ou en développement ne devraient pas sous-estimer l’importance des compétences statistiques requises. Cela demande une formation significative, souligne-t-il en ajoutant qu’il y a quantités de bons programmes proposant une formation intensive, focalisés sur l’acquisition de ces compétences spécifiques. Par ailleurs, il rappelle l’intérêt d’un site communautaire comme Kaggle qui propose à des data scientists de s’affronter sur des problèmes complexes à résoudre, avec à la clé la possibilité de travailler sur des projets réels.
En tout état de cause, la science des données n’est pas une carrière à embrasser si l’on n’est pas passionné. Pour le recruteur, c’est une aventure de longue haleine. « Il faut constamment se tenir informé et continuer à se former par soi-même. Les meilleurs data scientists avec lesquels je travaille ont un poste durant la journée mais ils poursuivent chez eux des projets personnels qui leur permettent d’expérimenter de nouvelles techniques et outils ». Mais ce n’est pas nécessairement la voie qui mène aux salaires les plus élevés. En d’autres termes : « Cela requiert un énorme engagement et un réel intérêt », prévient Adam Flugel.