Le métier de data scientist, présenté par des spécialistes du recrutement dont Glassdoor comme l’un des plus intéressants à suivre en 2016, comporte aussi sa face B. Une autre étude publiée par le site CrowdFlower montre que ces profils passent en fait la moitié de leur temps à préparer les données pour l’analyse. Quatre-vingts data scientists, présentant divers niveaux d’expérience, ont été interrogés. S’il faut effectivement un diplôme de troisième cycle pour occuper ces postes, 60% des répondants ont indiqué qu’une grande partie de leur temps était consacrée au nettoyage et à l’organisation des données, ce qui leur laissait en fait peu de temps pour les tâches d’analyse proprement dites nécessitant par exemple de bâtir des trainings sets et d’affiner des algorithmes. « Finalement, l’un des collaborateurs que vous avez eu le plus de mal à recruter se retrouve à passer le plus clair de son temps à nettoyer les données », explique Lukas Biewald, co-fondateur et CEO de CrowdFlower, « c’est un énorme gâchis pour les entreprises ». Des start-ups comme Trifacta ou Datameer se sont pourtant spécialisées dans cette tâche.
Il se trouve aussi que le nettoyage et l’organisation des données représentent généralement la partie de leur travail que les data scientists aiment le moins, selon plus de la moitié de ceux qui ont été interrogés par le site qui propose à leur attention une plate-forme d'enrichissement de données. En dépit de cet inconvénient, plus de 80% des répondants au sondage se disent heureux au travail. CrowdFlower confirme également la difficulté à trouver data scientists dans le monde de l’entreprise. Dans l'enquête qu'il avait mené il y a un an, 79% des sondés constataient cette situation. Cette année, ils sont 83% à le dire. Les compétences les plus recherchées portent sur SQL, Hadoop, Python, Java, R, Hive, MapReduce, NoSQL, Pig et SAS. Viennent ensuite les connaissances en apprentissage machine, ce que plus de la moitié des répondants à l’enquête ont souligné. « Sur les deux dernières années, les CEO se sont demandés quelle est était leur stratégie big data, ils doivent maintenant se pose la question sur le machine learning », estime Lukas Biewald.