Le principal objectif d'un datascientist est d'organiser et d'analyser de grandes quantités de données, souvent à l’aide de logiciels spécialement conçus pour cela. De plus, le datascientist doit fournir des résultats suffisamment simples à comprendre par toutes les parties intéressées, en particulier par des personnes dont la sphère d’activité se situe en dehors de l’IT. L'approche choisie par le datascientist pour analyser les données dépend non seulement du secteur industriel, mais aussi des besoins spécifiques de l'entreprise ou du département pour lequel il travaille. Avant qu'un datascientist puisse extraire du sens des masses de données structurées ou non structurées, les chefs d'entreprise, les services et les administrateurs doivent lui préciser ce qu'ils recherchent. En tant que tel, le datascientist doit avoir suffisamment d'expertise dans le domaine de l’entreprise pour traduire leurs objectifs ou ceux de leurs départements en données, que ce soit sous forme de moteurs de prédiction, de système de détection des tendances, d’algorithmes d'optimisation et autres.
Le rôle du datascientist...
Essentiellement, le datascientist fait de l'analyse de données. Ce processus, qui commence par la collecte de données, doit permettre in fine aux décideurs de prendre des décisions commerciales sur la base des résultats analytiques fournis par le datascientist. Les données analysées par le data cientist, souvent qualifiées de big data, proviennent d'un certain nombre de sources. Les données big data peuvent être de deux ordres : des données structurées et des données non structurées. Les données structurées sont des données organisées, généralement par catégories, de sorte qu’il est possible de les traiter automatiquement par ordinateur, de les trier, les lire et les réorganiser. Les données recueillies par des services, des produits et des appareils électroniques font partie de cette catégorie. Les données de trafic d’un site Web, les chiffres de ventes, les comptes bancaires ou les coordonnées GPS collectées par un smartphone sont des données structurées. Comme on peut le voir, il s’agit rarement de données collectées directement dans le cadre d’une interaction avec un intervenant humain, ce qui est le cas des données non structurées.
Aujourd’hui, ces données non structurées, issues le plus souvent d’une interaction avec une personne humaine, représentent une part de plus en plus importante du big data. Dans cette catégorie on trouve par exemple les commentaires des clients, les courriels, les vidéos, les messages postés sur les réseaux sociaux, etc. Ces données sont généralement plus difficiles à trier et moins faciles à traiter avec la technologie. Parce que ces données non structurées ne sont pas rationalisées, il faut beaucoup d’efforts pour en tirer du sens. Les entreprises s'appuient généralement sur des mots clés pour donner du sens aux données non structurées et en extraire des informations pertinentes.
Les entreprises recrutent souvent un data scientist pour gérer ces données non structurées, et réservent la gestion et la maintenance des données structurées à d'autres responsables IT. Très probablement, les scientifiques des données continueront à traiter beaucoup de données structurées dans leur carrière, mais de plus en plus, les entreprises veulent tirer parti de leurs données non structurées, avec un objectif de rentabilité. Et le data scientist a un rôle essentiel à jouer pour donner une valeur ajoutée à ces données non structurées.
... Et ses compétences clés
Selon William Chen, data scientist chez Quora, les compétences requises pour un datascientist sont à la fois fonctionnelles et organisationnelles. Il en retient 5 principales :
Programmation : pour William Chen, « les connaissances en programmation sont fondamentales pour un scientifique des données ». Elles ajoutent beaucoup de valeur à leur profil. Selon lui, ces capacités améliorent leurs compétences en statistiques. « Les connaissances en programmation permettent de mieux analyser les grands ensembles de données ». Elles permettent aussi au datascientist de créer ses propres outils d’analyse.
Analyse quantitative : pour William Chen, cette compétence est importante pour l'analyse des grands ensembles de données. Selon lui, l'analyse quantitative permet au datascientist d’améliorer la qualité de ses analyses expérimentales, d’adapter sa stratégie sur les données et l’aide à mettre en œuvre l'apprentissage machine.
Une bonne intuition du produit : « une bonne compréhension du produit facilite l’analyse quantitative », explique encore William Chen. Elle permet également de mieux prévoir le comportement du système, mais aussi d’établir des systèmes d’évaluation et d’améliorer ses compétences en débogage.
Communication : peut-être une des qualités les plus importantes en terme d’organisation. Une forte capacité de communication permettra au datascientist de mieux « exploiter toutes les compétences énumérées ci-dessus », estime William Chen.
Travail d'équipe : comme la communication, la capacité à travailler en équipe est essentielle pour réussir une carrière de datascientist. Selon William Chen, « Il faut être généreux, tenir compte des commentaires et partager ses connaissances avec son équipe ».
Commentaire