Si l’on en croit la Harvard Business Review, le métier de scientifique des données est l'un des plus intéressants de ce siècle, mais il demande aussi beaucoup de travail manuel très fastidieux. Dans l'enquête 2021 sur l'état de la science des données d'Anaconda « 2021 State of Data Science », les personnes interrogées ont déclaré qu'elles passaient « 39 % de leur temps à préparer et à nettoyer les données, ce qui est plus que le temps consacré à l'entraînement des modèles, à la sélection des modèles et au déploiement des modèles réunis ». Alors, plutôt scientifique des données que concierge des données ? Non pas qu'il y ait quelque chose de mal à cela. En fait, ce métier comporte beaucoup d‘aspect positifs. Pendant des années, le côté glamour de la science des données (construire des modèles qui guérissent le cancer !) a été exagéré alors qu’en fait, la majeure partie du travail consiste à nettoyer et à préparer les données. Et cet aspect est fondamental pour une science des données de qualité. Comme le fait remarquer le consultant Aaron Zhu, « la qualité de toute analyse statistique et de tout modèle d'apprentissage machine dépend de la qualité des données qu’on leur fournit ».
Élément positif ou négatif, le temps consacré au data wrangling (préparation et nettoyage des données) semble diminuer. Si aujourd'hui les spécialistes des données déclarent qu’ils consacrent 39 % de leur temps au traitement des données, l’an dernier, dans la même enquête d'Anaconda, ils indiquaient y consacrer 45 % de leur temps. Il y a quelques années seulement, ce chiffre aurait été plus proche de 80 %, selon certaines estimations. Mais Leigh Dodds de l'Open Data Institute accorde un crédit limité à ces estimations élevées. Pire encore, il pense qu’en dévalorisant l'acte de manipulation des données, nous méconnaissons sa valeur. « Passer du temps à travailler avec les données pour les transformer, les explorer et mieux les comprendre, fait entièrement partie du rôle du scientifique des données. C'est le support de base de son travail. C’est en comprenant mieux le matériau qu’il pourra fournir de meilleurs aperçus ». En d'autres termes, on ne peut obtenir de bons résultats si l’on néglige les entrées. Les déchets laissés à l'entrée réapparaîtront à la sortie.
L’implication humaine essentielle en science des données
Depuis que l’on parle de science des données et de son ancêtre, le « big data », on se plaint que les machines rendent inutile le travail humain. C’est vrai pour la science des données en tant que catégorie, mais aussi pour le traitement des données en tant qu'élément de cette catégorie. On pourrait facilement croire qu’il est possible d’automatiser toute cette préparation des données - combien de temps consacrer au nettoyage des données, après tout ? Mais la réalité est que, même s’il est possible d’automatiser certains travaux, cette tâche reste une tâche humaine. En effet, comme le suggère Tim Stobierski, collaborateur de la Harvard Business School Online, le traitement des données est une « part essentielle du processus analytique ». Quelqu’un doit « comprendre à quoi ressemblent des données propres et comment transformer des données brutes dans un format utilisable ». Ainsi, pendant la phase de découverte du traitement des données, la présence d’une personne capable de voir les lacunes dans les données et dans les modèles est essentielle.
Ou, comme le note le rapport d'Anaconda 2021, « si la préparation et le nettoyage des données prennent du temps et sont potentiellement fastidieux, l'automatisation n'est pas la solution. Au contraire, la présence d'un humain dans le processus garantit la qualité des données, des résultats plus précis et fournit un contexte pour les données ». Cela a toujours été le cas. Aux premiers jours du big data, tout le monde a imaginé qu’il suffisait de jeter des données dans Apache Hadoop pour en tirer des « informations exploitables ». Cependant, la vie - et la science des données - ne fonctionnent pas de cette façon. Comme je l'ai écrit en 2014, la science des données est en fin de compte une question humaine. « Les bons scientifiques des données sont ceux qui ont des compétences statistiques, mathématiques et de programmation et connaissent le domaine ». C’est cette connaissance qui permet une créativité humaine avec les données. Plus une personne est familière de l’activité, plus elle est capable non seulement de préparer ces données pour la modélisation, mais aussi plus elle sera susceptible d'avoir des idées à partir de modèles et d'anomalies.
Vers des modèles d'apprentissage machine plus clairs
La connaissance du domaine devrait également avoir un impact positif sur le résultat final des modèles de science des données. Selon le rapport d'Anaconda, seuls « 36 % des personnes interrogées ont déclaré que les décideurs de leur entreprise maîtrisaient parfaitement les données et comprenaient ce que racontaient les visualisations et les modèles. Comparativement, 52% des personnes interrogées estiment que les décideurs de leur entreprise ont une bonne connaissance des données, mais qu’ils ont besoin d'un accompagnement pour comprendre les histoires racontées par les visualisations et les modèles ». Le problème concerne peut-être en partie les destinataires des modèles/visualisations, mais on peut penser aussi qu’il a à voir avec les data scientists qui les préparent. Une meilleure connaissance de leur domaine devrait leur permettre d'expliquer plus clairement comment leurs modèles d'apprentissage machine décrivent ce que l'entreprise peut apprendre de ses données. Une fois encore, cette connaissance du domaine ne devient pas utile au moment où le scientifique des données se prépare à entrer en salle de réunion pour présenter ses modèles. Son utilité se manifeste très en amont, dans la tâche non négligeable du traitement des données, qui constitue la base de toute bonne science des données. Et cette tâche mérite d’être valorisée et non d’être dépréciée.