Pour la Banque Mondiale, le premier financeur des projets de développement économique dans le monde (avec 70 Md$ engagés chaque année), l'appétit pour la donnée s'étend à la maille d'un pays. En effet, pour définir les priorités de financement sur ses projets d'infrastructures et de reconstruction, la mission n°1 de l'organisme qui compte 189 Etats membres, l'établissement a besoin « de données consistantes à l'échelle », résume Aija Stokenberga, économiste sénior au sein de la Banque Mondiale, qui s'exprimait sur le salon Big Data & AI Paris, fin septembre.

C'est en particulier pour le financement des travaux de restauration du réseau routier au Pérou que l'établissement a lancé un projet de collecte et d'exploitation de données en octobre 2022. Objectif : cartographier le réseau et identifier les tronçons nécessitant en priorité des restaurations. Pour ce faire, la Banque Mondiale aurait pu exploiter les images haute résolution issues des satellites. « Mais le coût atteint 5 dollars par kilomètre carré », relève l'économiste. Soit une facture de plus de 6 millions à l'échelle d'un pays comme le Pérou. D'où le choix d'exploiter toutes sortes de données librement accessibles, afin d'aider le gouvernement péruvien à prioriser ses travaux. « Le défi numéro un consistait à mixer de multiples sources de données, principalement de trois types : les bases de données Open Source, comme celles renfermant des données vectorielles à l'image d'OpenStreetMap, les données optiques, notamment issues des données de vidéosurveillance, et les données émanant de radars à synthèse d'ouverture (SAR), permettant de comprendre l'état de surface du réseau routier », détaille Aija Stokenberga. Des données qui, agrégées, servent à construire une modélisation du réseau, à l'enrichir - y compris en exploitant des données venant d'autres pays pour nourrir l'algorithme de Machine Learning -, avant de passer par une étape de validation.

L'état des routes, associé à un indice de confiance

Le rapprochement de ces multiples sources de données a évidemment soulevé un certain nombre de difficultés. Dans la compréhension des attributs des différents jeux de données, de leur origine et de leurs formats, d'abord. « Nous avons dû filtrer les données inutiles afin de ne conserver que l'empreinte nécessaire », dit Aija Stokenberga. Une approche qui vaut notamment pour les données des radars SAR, regroupées sur des tuiles de 100 km de côté, mais des tuiles qui se recouvrent largement entre elles. Pour éviter les téléchargements inutiles, la Banque Mondiale a ainsi pu se contenter de 60% de la surface des tuiles initiales. Enfin, il a fallu intégrer ces différents types de données aux formats multiples, via notamment un algorithme d'extraction des caractéristiques des jeux de données.

« Sur cette base, nous avons pu construire un modèle très complet du réseau routier péruvien, assure l'économiste. Ce modèle indique, par exemple, si tel tronçon est bitumé ou non, et quel est l'état de la chaussée, des informations associées à un indice de confiance. » Les plus de 500 000 km de routes péruviennes ont été cartographiés à un coût six fois moindre que celui qu'aurait engendré une inspection visuelle par des agents. Surtout la création du modèle n'a pris que quelques mois, là où une inspection classique aurait demandé des années.

Au Pérou, l'approche de la Banque Mondiale a permis de prioriser la restauration d'environ 1000 km de chaussée. « Mais le modèle peut servir de multiples objectifs, reprend Aija Stokenberga. Toujours au Pérou, nous étudions son usage pour identifier les parties du réseau exposées aux inondations. » Utilisé en parallèle au Mexique, le modèle à servi à identifier « quelles parties du réseau routier pourraient devenir payantes afin de financer d'autres projets », et devrait demain être exploité, après enrichissement avec de nouveaux jeux de données, pour évaluer le niveau de sécurité que présente telle ou telle route.