En France comme à l’étranger (PredPol aux États-Unis), les services de police et de gendarmerie disposent d’une énorme masse de données statistiques sur les crimes, complétée par des sources issues de l’open data et du big data. Et comme dans les entreprises, l’exploitation des données (analyse, exploration et visualisation) passe par des solutions décisionnelles avec un zeste de prédictif, les fameux outils dits de prédiction spatio-temporelle. Mais comme l’a clairement indiqué en préambule le colonel de gendarmerie Pierre Perrot, chef de la division analyse et investigation criminelle du Service Central de Renseignement Criminel (une équipe de 6 personnes sur un total de 260 au SCRC), lors d’une journée porte ouverte du Pôle Judiciaire de la Gendarmerie Nationale à Cergy Pontoise juste avant le FIC de Lille (les 25 et 26 janvier), « la Gendarmerie Nationale travaille plutôt sur du décisionnel que du prédictif avec la mise à disposition d’outils d’aide à la décision ».
Une mise en garde nécessaire après une série d’articles en mai dernier expliquant par exemple que « les gendarmes peuvent désormais prédire l'avenir » comme dans le film et les séries Minority Report ou Person of interest.
Les carte de la SCRC soulignent l'évolution de la criminalité qui suit l'urbanisation progressive en Bretagne. (crédit D.R.)
« Nous ne faisons pas de préemption à priori, nous n’allons pas arrêter un Albanais, connu pour faire des cambriolages, s’il rentre dans un quartier [..] Nous n’avons pas de boites noires mais des algorithmes mathématiques sans traitement subjectif. Nous sommes sur des données objectives grâce à une connaissance issue des éléments du passé en distinguant bien la corrélation et la causalité en utilisant les informations sur les bassins de délinquance. » L’évolution temporelle des cambriolages par exemple n’est pas la même dans les régions de France. « Il n’y a pas une méthode de police prédictive unique, ce qui fonctionne dans le Nord, ne marchera pas dans le Var. Sur 687 facteurs sociaux-économiques, une quinzaine ont été retenus pour alimenter les modèles mathématiques à appliquer à l’analyse et au croisement des données. 15 méthodes analytiques ont été utilisées par la Gendarmerie comme les réseaux neuronaux, le lissage temporel ou la solution Arima. »
Eviter les affrontements de supporters
Pour la préparation de l’Euro 2016, les données engrangées lors des autres manifestations sportives peuvent être réexploitées pour affiner la gestion des effectifs de sécurité. Si aujourd’hui, l’analyse n’est pas vraiment en temps réel, on est plutôt sur le mois même si des expériences sur la semaine sont menées dans certaines régions comme l’Aquitaine à titre expérimental. Mieux, il sera possible de limiter le débordement des supporters lors de l’EuroFoot en recensant le nombre de cartes SIM étrangères dans un lieu donné afin de mieux canaliser les groupes et éviter les affrontements. « La prédiction de la criminalité, ce n’est pas comme la prévision météo, on peut agir dessus », avec des cartes suivant l'évolution des délits dans un territoire et des préconisations au préfet et aux forces de l’ordre. « La criminalité n’est pas un phénomène aléatoire avec un déterminisme, on peut agir en replanifiant par exemple les horaires des patrouilles et en introduisant de nouvelles façon de raisonner ».
Les cambriolages augmentent et baissent suivant la météo. Avec un mois de décembre doux, ils ont par exemple explosé. (crédit D.R.)
La data visualisation est également mis en avant avec des tableaux de bord pour suivre l’évolution de la délinquance en France. « Quand cela ne fonctionne pas, c’est qu’il n’y pas assez de données ou qu’il y a eu un changement dans la population ». Tous ces outils sont censés fournir une orientation aux enquêteur qui ne sont pas capable d’engranger toutes ces données. « L’idée finale reste bien sûr de décider et d’agir, l’action est essentiel au renseignement criminel sinon autant rester cantonné aux études universitaires », ajouté le colonel Perrot. « Nous avons néanmoins de très bonnes relations avec les universitaires même si nous ne seront jamais aussi bons que SAS ou IBM pour l’analyse des données non structurées ».
Pas encore de datalake à la Gendarmerie
Les données exploitées reposent sur l’open data mais pas seulement car elles ne sont pas toujours mises à jour. « Celle de l’Insee date par exemple des années 2011/2012 donc nous sommes obligés de prévoir avec des données anciennes ». Si la donnée publique nominative n’est pas utilisable - afin de rester dans un cadre légal, le fichage des citoyens faisant apparaître, directement ou indirectement, l’appartenance religieuse ou l’origine ethnique est encore interdit en France - il est possible d’enrichir les informations avec le scraping (capture de sites web) pour récolter de manière structurée des données.
Les bassins de criminalité en France. (crédit D.R.)
S’il n’est pas encore question de créer un datalake pour le renseignement criminel en France, la réflexion est néanmoins engagée avec la Dinsic. « Les contraintes juridiques sont fortes et tout le monde ne peut pas accéder à la masse d’informations rassemblées dans un datalake. Il est encore nécessaire de voir comment les services de l’État peuvent partager ces données ». On est donc encore très loin du superordinateur omniscient de la série Person of interest qui arrive à prédire les meurtres en sortant au début de chaque épisode le numéro de sécurité sociale de la victime. En France, des entreprises comme Safran, avec le concours de Mines-Télécoms travaille sur une plate-forme d’apprentissage automatique appliquée à la lutte contre la criminalité. Si le machine learning de Person of interest est encore une fiction, d’autres développement attendus dans les prochaines années pourraient bouleverser le travail des forces de police, avec pourquoi pas un fichage ADN de tous les citoyens à la naissance…