La DARPA propose de financer des projets qui permettront de simplifier la tâche extrêmement complexe de construction de modèles pour les applications de machine learning. Les modèles sont un élément fondamental de l’apprentissage machine. Comparables à des algorithmes, ils permettent aux ordinateurs d’apprendre à identifier un chat dans une photo, à faire des prévisions météorologiques à partir de données historiques ou à repérer les spams dans une masse de courriels.
Mais l'écriture de modèles prend du temps et nécessite beaucoup de compétences. En général, pour élaborer ces modèles, il est nécessaire de faire travailler ensemble des data scientists, des experts et des ingénieurs en informatique. Par exemple, quand les chercheurs de l'Université de New York ont voulu modéliser le trafic urbain de la ville bloc par bloc, les data scientists ont eu besoin de 60 mois-personnes de travail pour rendre les données utilisables et 30 autres mois-personnes pour développer un modèle. La Defense Advanced Research Projects Agency veut arriver à une procédure plus efficace.
Un projet déroulé en deux phases de 24 mois
L’agence a proposé de consacrer plus de ressources pour mettre au point « des systèmes automatisés de création de modèles » qui permettrait à un expert de créer ses modèles sans l’aide d’un data scientist. Le Département américain de la Défense croit énormément dans le potentiel de l'apprentissage machine, d'autant plus que, le volume de données open source disponible, continue d’augmenter d’année en année.
La DARPA envisage de créer des modèles qui permettent aux décideurs de prédire certains événements, par exemple anticiper le mouvement des troupes ennemies pendant un conflit, mais aussi de développer des scénarios pour prédire les conditions météorologiques et le trafic automobile. Ces modèles pourraient même servir à définir à quel poste une personne du Département de la Défense pourrait être le plus utile.
Mais les motivations d’un tel projet ne se limitent pas à gagner du temps et de l'argent. En effet, la DARPA a estimé que, cette année déjà, il manquera 180 000 data scientists qualifiés dans le monde, et ce déficit va probablement se creuser dans les années qui viennent. Le projet Data Driven Discovery of Models (D3M) se déroulera en deux phases de 24 mois chacune. Des détails sur le déroulement du projet sont disponibles sur le site Web de la Fed Biz Opps.