Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Billel Benbouzid
Billel Benbouzid

13 SEPTEMBRE 2016 | PAR JÉRÔME HOURDEAUX

PredPol, la société californienne leader du marché, s'est inspirée d'un algorithme de prédiction des répliques de tremblements de terre créé par le sismologue David Marsan. Mais selon les calculs du sociologue Bilel Benbouzid, il s’agit plus d'un outil de management des effectifs que d'un réel algorithme de prédiction des crimes.

  • Deux chercheurs publient, mardi 13 septembre, les résultats de travaux démontrant l’inefficacité de l’algorithme de la société américaine PredPol, leader du marché de la police prédictive.

Dans un texte, publié sur le site La Vie des idées, le sociologue Bilel Benbouzid livre en effet les conclusions de ses recherches dans le cadre desquelles il est entré en contact avec le sismologue David Marsan, inspirateur de l’algorithme utilisé par PredPol. Les deux scientifiques ont tout simplement repris l’algorithme originel afin de vérifier l’efficacité du logiciel de la société. Les calculs de David Marsan, consultables dans une note transmise à Mediapart (voir l’onglet Prolonger), sont accablants pour PredPol et« jettent de forts doutes sur la capacité » du logiciel de réellement prévoir des crimes.

PredPol est sans aucun doute l’une des grandes success stories de ces dernières années, une de celles dont raffole la Silicon Valley. Un conte de fées sécuritaire qui débute en 2011 lorsqu’un mathématicien, George Mohler, et un criminologue, Jeffrey Brantingham, mettent au point un algorithme de prédiction des crimes et le testent en partenariat avec le département de police de Santa Cruz en Californie.

À peine une année suffit aux forces de l’ordre pour constater une chute drastique de la criminalité. En 2012, le projet universitaire se transforme en start-up et entame son ascension. Quatre années plus tard, PredPol est devenue une marque générique, synonyme de predictive policing, « police prédictive » en français. Son logiciel a été implanté dans une soixantaine de départements de police aux États-Unis, mais également au Canada et en Grande-Bretagne, pour un coût variant entre 10 000 et 150 000 dollars par an.

Au fil des années, de grandes villes telles qu’Atlanta ou Los Angeles sont devenues ses nouvelles vitrines. Et chaque année, de nouveaux contrats sont annoncés en grande pompe. Au mois de janvier dernier, c’est la police de New York qui lançait son programme de PredPol. « Avant, la police prédictive était le futur. Et maintenant, c’est le présent », s’est enthousiasmé le commissaire William Branton lors de la conférence de presse organisée à cette occasion.

Grâce à une communication bien huilée relayée par les départements de police, PredPol s’est imposée comme le visage de la police prédictive. Entre fascination pour son efficacité présumée et spectre de Minority Report, le roman de Philip K. Dick, la start-up californienne a eu droit à des reportages dans les plus grands journaux de la planète. Mais tout le monde ne partage pas cet enthousiasme. Au-delà des nombreuses critiques portant sur le principe même d’une police prédictive et de la surveillance algorithmique, plusieurs observateurs et chercheurs remettent plus particulièrement en cause l’efficacité de l’algorithme de PredPol.

Dans le cadre de ses recherches sur la police prédictive menées aux États-Unis, Bilel Benbouzid est entré en contact avec David Marsan, sismologue à l’Institut des sciences de la Terre (IST) de Chambéry et, malgré lui, l’un des inspirateurs de l’algorithme vendu par PredPol. En effet, le mathématicien de la start-up, George Mohler, a basé ses travaux sur la prédiction des crimes sur le même modèle que celle des répliques de tremblements de terre. Son algorithme repose sur la théorie dite de la « répétition de la victimisation ». En clair, lorsqu’un délit est commis en un lieu donné, la probabilité pour qu’un délit du même type soit à nouveau commis est la plus forte à proximité. Et, comme pour les répliques d’un tremblement de terre, plus on s’éloigne de ce lieu, plus la probabilité baisse. Par exemple, selon ce modèle, si votre voisin est cambriolé, il y a de fortes chances pour que vous le soyez prochainement.

Les résultats de son algorithme, tel qu’il est utilisé par ses clients, se présentent ainsi sous la forme d’une carte de la ville où apparaissent des carrés rouges, appelés hotspots, correspondant à des zones de 500 pieds par 500 pieds où la probabilité qu’un certain type d’infraction y soit commis est la plus forte. Il suffit ensuite à la police de déployer ses unités en conséquence.

Pour concocter l’algorithme de PredPol, George Mohler s’est donc appuyé sur des travaux déjà existants en sismologie, et notamment sur ceux de David Marsan, justement créateur d’un algorithme permettant de prédire les répliques d’un tremblement de terre. Le chercheur français n’a jamais directement travaillé avec la start-up californienne. Avec Bilel Benbouzid, ils ont donc eu l’idée de vérifier la fiabilité du modèle de PredPol en faisant tourner l’algorithme du sismologue sur les données, ouvertes au public, de la police de Chicago, seule ville à avoir fait l’objet d’une étude théorique exploitable sur PredPol.

Les calculs de David Marsan remettent notamment en cause l’une des hypothèses de travail de PredPol : le fait que « les dynamiques du processus restent les mêmes à travers le temps », autrement dit que les délits commis à un endroit se reproduiront au même endroit plus tard. PredPol utilisant les données des années précédentes pour prédire les délits futurs, « une possible non-stationnarité est ainsi clairement un problème, car elle empêcherait l’utilisation d’informations passées pour prédire le futur, écrit David Marsan. Ceci est par exemple expérimenté dans cette analyse, car les cambriolages en 2015 ne sont clairement pas distribués (dans le temps et dans l’espace) comme ils l’étaient en 2014. Cette non-stationnarité est probablement due à des évolutions non contrôlées dans la manière dont ces actes sont effectués. Mais, dans les situations où de nouveaux algorithmes de prédiction sont mis en place et exploités par la police, cela pourrait également être une réponse des cambrioleurs à un tel changement. »

Selon David Marsan, la théorie de la « répétition de la victimisation » est démentie par les faits, notamment parce qu’elle oublie que les êtres humains ne sont pas des plaques tectoniques et qu’ils rétroréagissent et adaptent leur comportement face à une situation nouvelle. « À la différence de processus naturels comme les tremblements de terre, les analyses telles que celle présentée ici pourraient donc avoir la capacité de modifier le processus observé, rendant encore plus difficile la prédiction d’événements futurs », explique le sismologue.

« L’absence de stationnarité est un énorme problème pour l’efficacité de l’algorithme de PredPol, car cela annule l’idée qu’il existerait une physique sociale, confirme à Mediapart Bilel Benbouzid. Les calculs de David Marsan montrent qu’il n’y a pas de structure sous-jacente qui serait figée et qui permettait ainsi de prédire des événements. Les séismes, eux, sont stationnaires. Sauf si demain, l’univers lui-même change, il n’y a pas de force exogène qui puisse venir perturber les calculs. Par contre, dans le domaine de la prédiction du crime, ces forces exogènes peuvent être nombreuses, comme la destruction d’un quartier. L’intervention de la police elle-même aura une influence. »

« Un service non pas de prédiction mais de management »

Cette contre-analyse est particulièrement gênante pour PredPol, qui a fondé toute sa communication sur sa rigueur scientifique et sur son efficacité supposée dans les commissariats où son logiciel est installé. « Des résultats sur le terrain prouvés scientifiquement », proclame même la société sur une page de son site listant toute une série de statistiques et de témoignages laudateurs de policiers. Pourtant, cela fait plusieurs années que de nombreux observateurs doutaient fortement de ces résultats trop beaux pour être vraiment honnêtes.

Dès 2013, plusieurs enquêtes parues dans la presse américaine avaient largement égratigné cette image d’une solution « scientifiquement prouvée ». Le site TechDirt notamment avait repris deux des « succès » vantés par PredPol, la division Foothill de Los Angeles et la police Santa Cruz, et comparé les statistiques avancées par la société avec les données publiques de ces deux commissariats. Si aucun des chiffres de PredPol n’était réellement faux, leur présentation en revanche était totalement subjective, la société mettant en avant les délits ou comparant des périodes qui l’arrangeaient. « Même s’il y a quelques améliorations, beaucoup de ce que l’on constate ici (augmentations et diminutions) peut être lié à des fluctuations statistiques normales. Ce n’est pas suffisant pour exclure complètement PredPol en tant que prédicteur de crime utile, mais ce n’est certainement pas suffisant pour affirmer “résultats prouvés” sur son site internet », concluait TechDirt.

Au mois de décembre 2014, Ismaël Benslimane, de l’université Joseph-Fourier de Grenoble et membre de Cortecs (Collectif de recherche transdisciplinaire esprit critique et sciences), avait également reproché à PredPol de prédire « des banalités ». N’ayant pas eu accès à l’algorithme de la société, son étude s’était basée sur plusieurs algorithmes prédictifs qu’il avait appliqués, lui aussi, aux données publiques de la police de Chicago. Il avait ensuite comparé ses résultats à ceux de PredPol. Outre les limites et biais inhérents à la méthode employée, l’analyse d’Ismaël Benslimane pointait du doigt des résultats très peu probants. En effet, les « prédictions » du logiciel correspondent en fait à la répartition classique des délits qui sont naturellement concentrés dans une zone géographique restreinte. « Cette découverte relativise grandement l’autosatisfaction de Predpol qui se félicite de prédire 50 % des délits en pointant 10,3 % de la surface de la ville. Le graphique nous montre que 50 % des délits ont lieu dans 7,5 % de la ville », précisait le chercheur. « Pour résumer simplement », écrivait alors le blog Internet Actu qui avait relayé le travail d’Ismaël Benslimane, « ce que nous dit cette étude, c’est que PredPol réinvente l’eau chaude ».

Comment expliquer alors la fascination des médias et de nombreux services de police ? La réponse se trouve dans la politique de communication aussi agressive qu’efficace de PredPol. Dans une enquête particulièrement fouillée publiée en octobre 2013, le journaliste du SF Weekly Darwin Bond-Graham avait listé les nombreux liens de la société avec les forces de police et le parti démocrate. La société est également particulièrement agressive avec ses clients, exigeant d’eux qu’ils s’engagent, dans leur contrat, à assurer la promotion du logiciel. Des commissariats de police se sont ainsi vu proposer des ristournes allant jusqu’à 60 % en échange de l’engagement de vanter PredPol dans leur communication. Que ce soit sur le site de la société, ou lors de ses conférences de presse, des officiers de police sont ainsi toujours présents pour témoigner de l’efficacité du logiciel.

« En réalité, leur grande innovation est plus marketing que technologique, explique Bilel Benbouzid. Ils se sont construits comme une marque, en mettant un maximum de moyens dans le marketing. C’est également une société qui dispose d’excellents lobbyistes, avec des réseaux au sein du parti démocrate mais également des forces de police, poursuit le chercheur. Par exemple, ils n’ont pas démarché les “crime analysts” comme cela se fait habituellement, mais directement les commissariats. Et ils ont réussi à gagner la confiance de certains. Or les commissariats ont tendance à se faire confiance entre eux, à se suivre dans leurs décisions. Au fil des années, PredPol a ainsi réussi à enrôler des chefs de police qui font désormais partie de sa stratégie de communication. »

Mais, pour le sociologue, la question de l’efficacité de PredPol n’est pas la vraie problématique. « Le fait que ça marche ou que ça ne marche pas, ce n’est pas le plus important. L’algorithme ne donne pas vraiment des résultats faux. Il arrivera même toujours à montrer une concentration et à donner une tendance. Mais il n’apporte pas réellement grand-chose par rapport à ce qui existe déjà, analyse Bilel Benbouzid. Ce qui est réellement important, c’est que PredPol offre une infrastructure aux commissariats, un service non pas de prédiction mais de management. Ce qu’ils ont obtenu, c’est en fait un système permettant de gérer très simplement les effectifs. Les policiers effectuaient déjà des patrouilles. Désormais, leur hiérarchie dispose d’un logiciel leur permettant d’optimiser leur travail en leur disant exactement où aller et en les contrôlant. Les véhicules de police sont même équipés d’un GPS permettant de vérifier le temps passé dans un hotspot. »

L'outil de « dosage » des patrouilles de police. Les véhicules sont représentés par des cercles. Ceux en jaune ont passé au moins 30 min dans un des hotsptots

Dans son texte, le sociologue alerte également sur les conséquences de ce nouveau mode de gestion des forces de police pour les justiciables eux-mêmes. « Pour son algorithme, PredPol utilise les statistiques issues des dépôts de plainte, explique-t-il à Mediapart. Or on sait très bien que certaines populations, notamment dans certains quartiers, ont tendance à moins porter plainte. La police va donc être plus présente dans les zones où on porte le plus plainte, au détriment de celles où les habitants ont plus de réticences à aller voir la police. Ce que l’on est en train de créer, c’est une offre de sécurité minimale, avec une police protégeant ceux qui portent le plus plainte. »

LIRE AUSSI

Bilel Benbouzid n’est pourtant pas totalement fermé aux algorithmes prédictifs, et plus précisément au « machine learning », la technologie à la base de ses logiciels. « Le machine learning a déjà apporté des choses extraordinaires dans le domaine de la science ou de la santé. Mais dans le domaines des politiques publiques, une régulation est nécessaire, estime le sociologue. Soit on s’appuie sur une institution internationale, telle que l’ISO [Organisation internationale de normalisation – ndlr]. Soit l’État français crée une gouvernance sur le modèle de celle existant pour les statistiques publiques, un organisme de régulation des technologies analytiques. »

Tout ne serait donc pas à jeter dans la police prédictive, estime Bilel Benbouzid qui cite notamment le cas de l’un des principaux concurrents de PredPol, Hunchlab. Cette start-up américaine « joue la carte de la transparence » en adhérent au label « B Corporation », une certification attribuée à des entreprises « citoyennes » s’engageant à respecter certaines objectifs sociaux et environnementaux. « L’exigence de label, qui permet de réguler le marché des innovations commerciales pour le service public, a un effet sur la nature du logiciel lui-même », explique le sociologue. « Par exemple, sur le choix de privilégier les algorithmes de machine learning les moins opaques possible et la création d'un espace administrateur système qui permet d'intégrer une véritable politique de l'algorithme dans le logiciel. »

La note de David Marsan et l’article de Bilel Benbouzid portent un nouveau coup à l'image de PredPol qui, depuis quelque temps, semble se fissurer peu à peu. Déjà, au mois de juillet dernier, la start-up a subi un cinglant revers. Après seulement un an d’utilisation, la ville de Milpitas, en Californie, a annoncé qu’elle mettait fin à sa collaboration avec PredPol. Le contrat initial prévoyait une durée de trois ans. Mais,« après approximativement un an d’usage, notre expérience a été que les bénéfices minimaux ne justifiaient pas de maintenir les coûts », a expliqué le chef de la police de Milpitas.

Le débat est en tout cas en train d’émerger dans l’opinion. Il y a quelques jours, un collectif rassemblant dix-sept des principales associations de protection des droits civiques américaines (ACLU, EFF, Open Technology Institute, Demand Progress…) a décidé de « tirer la sonnette d’alarme » dans un communiqué commun en appelant aux pouvoirs publics. Ce texte est accompagné d’un rapport dénonçant, une nouvelle fois,« les défauts systémiques, les biais inhérents et le manque de transparence endémique des produits de police prédictive et de leurs vendeurs ».

Partager cet article

Repost 0